Искусство реферирования, или составления аннотаций, или кратких изложений материала, иными словами, извлечения наиболее важных

Макарова Елена

ГИП-102

Научный руководитель: Волчков Андрей

Тема: «История развития реферативных систем».

Введение :

Искусство реферирования, или составления аннотаций, или кратких изложений материала, иными словами, извлечения наиболее важных или характерных фрагментов из одного или многих источников информации, стало неотъемлемой частью повседневной жизни. Новости, которые предлагает нам телевидение, – это суть реферат мировых событий дня. Бегущая строка биржевых котировок – «сухой остаток» информации о купле-продаже, которую ежеминутно порождает рынок. Программа телевидения предлагает короткие анонсы фильмов и телезрители, думая, что листают программку, на самом деле читают реферативный журнал по киноискусству.

Появление многочисленных РС :

Стремительный рост потока научно-технической информации в 20 веке обусловил появление многочисленных реферативных журналов. С середины 20 века на основе реферативных журналов стали возникать электронные базы данных (БД), представляющие собой реферативный журнал в машиночитаемой форме. Повсеместное распространение персональных компьютеров в наше время способствует тому, что число пользователей электронными БД растет. В свою очередь электронные БД можно подразделить на БД внутренние, записанные на переносных носителях (дискетах, оптических компакт-дисках и т.д.), и на БД, находящие в режиме online (теледоступа). В рамках STN (Scientific and Technical Information Network) представлено около 70 БД по химии в режиме online. Московский информационный центр РАН-STN (МИЦ) работает с 1991 года в Институте Органической химии им. Н.Д. Зелинского и имеет значительный опыт поиска информации в электронных БД.

Отличительной особенностью химической информации является её быстрый рост и одновременно медленное старение. Трудно себе представить биолога, черпающего информацию из журналов конца 19 века, но для химиков обращение к первоисточникам 100 летней давности имеет вполне практический смысл. Пользователя, при выборе источника информации, интересует во-первых, насколько широко в нем представлена информация из максимально возможного массива первоисточников, и, во-вторых, насколько полно в нем представлена ретро информация, то есть с которого года начинается охват первоисточников по теме. Однако пользователя-химика интересует еще и насколько полно представлена в рассматриваемом источнике информация о веществах - ведь те или иные вещества упоминаются примерно в 30% всей научной литературы. Одним из крупнейших поставщиков в области химической информации является служба Chemical Abstracts Service (CAS). На сегодняшний день у реферативного журнала Chemical Abstracts практически нет конкурентов как по временному охвату (с 1907 года по настоящее время), так и по количеству реферируемых источников (около 8000 журналов, два международных патентных ведомства, около 30 национальных патентных ведомств). CAS предоставляет возможность получать информацию во всех формах: печатный реферативный журнал, CD-ROM и БД в режиме online (с несколькими вариантами интерфейса). Поскольку содержание всех этих форм одинаковое (а содержание - основное в выборе источника информации), корректно сравнить их во-первых, с точки зрения предоставляемых пользователю удобств и, во-вторых, по цене.

Сам процесс получения информации, необходимой для научного сотрудника, использующего реферативные журналы или соответствующие БД, можно условно разделить на три этапа:

	ПЕЧАТНЫЙ РЕФЕРАТИВНЫЙ ЖУРНАЛ CHEMICAL ABSTRACTS (1907 - TODAY)	БД НА CD-ROM (1977 - TODAY)	БД ONLINE 1) CAOld (1907-1957) 2) CAOld/Registry (1957-1967) 3) CA/Registry (1967 -TODAY) 4) CAPlus/Registry (1967 -TODAY)
1	Работа с различными указателями, чтобы выбрать рефераты по интересующей тематике	Поиск по словам (фрагментам слов) или регистрационным номерам CAS	Поиск по словам (фрагментам слов) или/и структурный поиск
2	Просмотр выбранных рефератов, что позволяет более точно подобрать нужную литературу	Оценка релевантности найденной информации по заголовкам, ключевым авторским словам, индексным терминам и рефератам
3	Работа с первоисточниками

короткое время. Пополнение БД ONLINE (CAPlus и Registry) происходит ежедневно - и сразу же информация доступна пользователю. Печатный реферативный журнал и БД на CD-ROM пополняются новой информацией каждую неделю или месяц, соответственно, но эта информация еще должна быть издана и доставлена. На третьем этапе в БД ONLINE возможно получение первоисточника Использование электронных БД позволяет провести первый и второй этапы за существенно более. Следует подчеркнуть основное качественное преимущество машинного поиска в режиме ONLINE - поиск по фрагменту, неважно слова, формулы или химического названия. Однако очень важно, что только в режиме ONLINE можно проводить поиск фрагмента структурной формулы в структурно-химической БД Registry.

Некоторые производители уже сейчас предлагают инструменты для реферирования, объем информации в Сети растет и оперативно получать ее корректные сводки становится все сложнее. Такие инструменты, как функция AutoSummarize в Microsoft Office 97, системы IBM Intelligent Text Miner, Oracle Context и Inxight Summarizer (компонент поискового механизма AltaVista), безусловно, полезны, но их возможности ограничены выделением и выбором оригинальных фрагментов из исходного документа и соединением их в короткий текст. Подготовка же краткого изложения предполагает передачу основной мысли текста, и не обязательно теми же словами.

Сложности, связанные с РС :

Текст, полученный путем соединения отрывочных фрагментов, лишен гладкости, его трудно читать. Кроме того, источники информации вовсе не всегда являются текстами, ведь необходимо подготавливать аннотации и на видеозаписи, к примеру, спортивных соревнований, или формировать сводные данные по биржевым таблицам. Перечисленные инструменты реферирования рассчитаны на обработку только текстовой информации. И, наконец, они не могут работать сразу с несколькими источниками. Так, скажем, многочисленные ленты новостей в Web сообщают об одних и тех же событиях, и на этот случай мог бы оказаться полезен инструмент, способный выделить общие места и новую информацию.

Исследователи предлагают несколько подходов, призванных преодолеть эти ограничения. Они распадаются на две категории. В основе подходов, не предполагающих опору на знания, лежит отказ от добавления новых правил для каждой новой прикладной области знания или языка. Подход, опирающийся на знания, исходит из предположения, что если удается понять значение текста, сократить его становится проще, следовательно, полученная в итоге аннотация будет более качественной. Этот подход предусматривает использование базы знаний значительного объема, состоящей из правил, которые извлекаются, поддерживаются и затем адаптируются к новым приложениям и языкам. Впрочем, две эти категории не исключают друг друга. Известны несколько гибридных подходов.

Главным ограничением обоих методов является требование сжатия. Объем аннотации, или реферата должен составлять от 5 до 30% исходного текста. Подготовка аннотаций нескольких источников информации или формирование сводок для карманных устройств предполагает еще большую степень сжатия. Добиться выполнения таких жестких требований очень сложно, поскольку для этого необходим немалый запас знаний.

Еще одну сложность представляет оценка средств реферирования. Необходима гарантия того, что аннотация действительно является адекватной заменой текста, иными словами, пользователь должен быть уверен, что в кратком изложении выражены все основные мысли оригинала. Поэтому методы создания и оценки рефератов должны развиваться параллельно.

Различия средств реферирования:

Главное различие между средствами реферирования состоит в том, что они, по существу, формируют – краткое изложение или набор выдержек. Так, выдержки из Геттисбергского обращения Авраама Линкольна могут выглядеть следующим образом: «Восемьдесят семь лет назад наши отцы ступили на эту землю, чтобы создать новую нацию». Краткое изложение того же текста будет звучать так: «В этой речи Авраам Линкольн призывает вспомнить солдат, которые отдали свои жизни в битве при Геттисберге». Оба типа изложения преследуют две основных цели: определить основную (или наиболее важную) мысль оригинала и принять решение о методе сокращения (или сжатия, или «урезания») информации. Однако рефераты различаются по функции [1] и целевым группам пользователей. Так, например, реферат может быть повествовательным, информативным или критическим.

Повествовательные рефераты формируются по классическому принципу извлечения информации: они предоставляют достаточный объем информации, чтобы создать у пользователя представление о соответствующих источниках, с тем чтобы их можно было отобрать для более внимательного прочтения.

Информативные рефераты заменяют собой текст, в основном они содержат основную или новую фактическую информацию в сокращенной форме.

Критические рефераты (или обзоры) сообщают не только суть информации, но и предлагают определенное мнение о ней. Критические рефераты обладают дополнительной ценностью по сравнению с оригиналом, поскольку предлагают выводы, которых нет в самом тексте. Критический реферат Геттисбергского обращения мог бы выглядеть так: «Несмотря на свою краткость, обращение, без сомнения, можно отнести к величайшим речам и истории Америки. Наиболее сильное впечатление оставляют его заключительные слова о власти народа».

Реферат может быть общим или ориентированным на специфического пользователя. Рефераты первого типа ориентируются на широкий круг читателей; к ним не предъявляются какие-либо специальные требования, поскольку реферат не предназначен для какой-то одной группы читателей. Рефераты второго типа, напротив, адресованы конкретному пользователю или группе пользователей с их специфическими потребностями (например, детям). Ориентированный на пользователя реферат обращения может быть, например, таким: «Сейчас мы ведем великую гражданскую войну... Мы должны принять главное сражение этой войны!»

До недавнего времени общие рефераты пользовались большей популярностью, однако, распространение полнотекстовых поисковых механизмов и средств фильтрации информации, адаптирующихся к требованиям конкретных пользователей, приводят к тому, что настраиваемые рефераты приобретают все большее значение.

Методы и архитектуры:

Процесс реферирования распадается на три этапа: анализ исходного текста, определение его характерных фрагментов и формирование соответствующего вывода. Большинство современных работ концентрируются вокруг разработанной технологии реферирования одного документа.

Составление выдержек:

Метод составления выдержек, предполагает акцент на выделение характерных фрагментов (как правило, предложений). Для этого методом сопоставления фразовых шаблонов, выделяются блоки наибольшей лексической и статистической релевантности. Создание итогового документа в данном случае —просто соединение выбранных фрагментов.

В большинстве методов применяется модель линейных весовых коэффициентов. Основу аналитического этапа в этой модели составляет процедура назначения весовых коэффициентов для каждого блока текста в соответствии с такими характеристиками, как расположение этого блока в оригинале, частота появления в тексте, частота использования в ключевых предложениях, а также показатели статистической значимости. Сумма индивидуальных весов, как правило, определенная после дополнительной модификации в соответствии со специальными параметрами настройки, связанными с каждым весом, дает общий вес всего блока текста U:

Weight(U) := Location(U) + CuePhrase(U) + StatTerm(U) + AddTerm(U)

Весовой коэффициент расположения (Location) в данной модели зависит от того, где во всем тексте или в отдельно взятом параграфе появляется данный фрагмент — в начале, в середине или в конце, а также используется ли он в ключевых разделах, например, вводной части или в заключении.

Ключевые фразы представляют собой лексические или фразовые резюмирующие конструкции, такие как «в заключение», «в данной статье», «согласно результатам анализа» и так далее. Весовой коэффициент ключевой фразы может зависеть также и от принятого в данной предметной области оценочного термина, типа «отличный» (наивысший коэффициент) или «малозначащий» (значительно меньший коэффициент).

Кроме того, при назначении весовых коэффициентов в этой модели учитывается показатель статистической важности (StatTerm). Статистическая важность вычисляется на основании данных, полученных в результате анализа автоматической индексации, при котором исследователи выявляют и оценивают целый ряд метрик, определяющих весовые коэффициенты термина. Эти метрики позволяют выделить документ из числа других в определенном наборе документов.

Одна группа метрик, например, метрика tf.idf, характеризует баланс между частотой появления термина в документе и частотой его появления в наборе документов (как правило, используется с другими метриками частоты и средствами нормализации длины).

И, наконец, эта модель предполагает просмотр терминов в блоке текста и определение его весового коэффициента в соответствии с дополнительным наличием терминов (AddTerm) – появляются ли они также в заголовке, в колонтитуле, первом параграфе и в пользовательском профиле запроса. Выделение приоритетных терминов, наиболее точно отражающих интересы пользователя, – это один из путей настроить реферат или аннотацию на конкретного человека или группу.

Этот метод был создан еще в 60 – 70-х годах, но большинство систем, подготавливающих такого рода конспект на основе выдержек, до их пор используют подход, проиллюстрированный на. Анализ сравнительных характеристик различных моделей, произведенный с целью определить производительность каждой, показал, что локализацию блоков текста можно считать одной из самых полезных функций, особенно в сочетании с функцией выявления ключевых фраз.

В большинстве систем пользователь задает параметры настройку вручную, и выбор параметров зависит скорее от текущих потребностей, поскольку относительная значимость различных характеристик может сильно различаться для текстов разного стиля. Пытаясь автоматизировать этот процесс и, возможно, повысить производительность, исследователи из Xerox PARC, такие как Джулиан Купьеч и его коллеги, разработали классификатор, способный обучаться правилам выделения фрагментов. Этот основанный на собрании документов метод, который используют системы реферирования Inxight, подходит для текстов различных стилей, но для этого пользователи должны располагать полными текстами и соответствующими рефератами для каждого стиля.

Конечно, главное преимущество линейной модели заключается в простоте ее реализации. Однако выделение предложений (или параграфов), не учитывающее взаимоотношений между ними, приводит к формированию бессвязных рефератов. Некоторые предложения могут оказаться пропущены, либо в них могут встречаться «висящие» слова или словосочетания (слово или фраза, которые невозможно понять без другого слова или фразы). Например, если в тексте содержится обоснование некоего положения, состоящее из нескольких фраз, а в реферат попадает только одна из них, смысл может быть потерян или искажен. Можно привести следующий текстовый фрагмент, который иллюстрирует эту проблему. «Билл Диксон поступил на работу в Procter & Gamble в 1994 году. В 1996 году он стал ее вице-президентом». В этом фрагменте можно указать два потенциально «висящих» слова «он» и «ее», которые не имеют смысла без предыдущей фразы, из которой становится ясно, что «он» – это Диксон, а «ее» – это компания Procter & Gamble. Если в реферате первая фраза будет потеряна, текст потеряет свою информативность.

Есть множество работ, в которых делаются попытки решить эту проблему, в основном за счет разного рода «заплаток». В ряде подходов создается специальное окно для предыдущего предложения реферата, с помощью которого можно определить наличие смыслового разрыва или «висящего» слова. В других случаях предложения, содержащие «висящие» слова, исключаются из реферата, либо делаются попытки разрешения ссылок, которые предполагают такие слова, или их сверки путем краткого лингвистического анализа. При таком подходе степень сжатия уменьшается, т. к. в реферат привносится посторонняя информация. Кроме того, когда основной реферат уже сформирован, трудно восстановить исходный процент сжатия.

Методы оценки:

Целью методов оценки рефератов является определения адекватности (и достоверности) или пользы реферата по отношению к оригинальному тексту. Сейчас известны две методики оценки. Первый – оценка «изнутри» (или нормативная оценка). Пользователи судят о качестве реферата, анализируя сам реферат. Пользователи оценивают гладкость текста, делают вывод о том, насколько хорошо реферат отражает основные идеи оригинала, либо сравнивают его с идеальным рефератом, написанным автором исходного текста или другим специалистом. Ни одна из этих оценок не может считаться полностью удовлетворительной. В частности, идеальный реферат составить исключительно сложно и такие продукты очень редки. Подобно тому, как существует множество способов описать некое событие, пользователи могут признать приемлемыми несколько рефератов, будь то настроенные на пользователя или общие краткие изложения или наборы выдержек. Как показывает практика, люди вообще редко приходят к согласию относительно того, какие положения или выражения следует включать в реферат .

Второй метод – оценка «извне». Пользователи оценивают качество реферата по тому, как он влияет на завершение той или иной работы, например, помогает ли он найти источники информации по данному вопросу или насколько хорошо он позволят ответить на определенные вопросы, относящиеся ко всему содержанию текста.

Недавно в США была проведена крупномасштабная оценка систем реферирования. Она проходила в рамках программы Tipster, целью которой было способствовать совершенствованию технологий обработки текстов . Программа предполагала две оценки. На первом этапе пользователь получал возможность ознакомиться либо с источником, либо с рефератом, ориентированным на пользователя, и должен был решить, соответствует ли увиденный им текст заявленной теме. На втором этапе пользователь мог ознакомиться либо с источником, либо с общим рефератом и должен был либо выбрать тему (из нескольких предложенных вариантов), к которой, по его представлению должен был относиться документ, или решить, соответствует ли он хотя бы какой-либо теме. Как видно из таблицы 1, автоматические средства реферирования проявили себя в этом испытании очень хорошо. На основании реферата, составляющего всего от 27 до 10% текста, пользователи могут составить заключение о тексте так же точно, как из него самого, затратив на это вполовину меньше времени (5-процентная погрешность не является статистически значимой).

В ходе этого тестирования не учитывались конкретные методы реферирования; все 16 систем реферирования основывались на подходе, не предполагающем опору на знания. Они различались своей способностью вырабатывать рефераты, ориентированные не пользователя; системы, наиболее точно отражающие потребности пользователей, демонстрировали сходное поведение при выделении предложений.

Новые сферы применения:

Сейчас оформляются четыре области, где велика потребность в реферировании. Во всех четырех – средствам реферирования придется иметь дело с такими форматами документов, как HTML и XML. Кроме того, они должны будут пользоваться информацией, заключенной в тегах, связанных с каждым документом. Работа над средствами реферирования гибридных источников и источников на разных языках только начинается, первые прототипы были предложены для реферирования большого числа документов и подготовки аннотаций для мультимедийных источников.

Гибридные источники:

В этих приложениях средства реферирования должны извлекать информацию из отформатированных данных и из неотформатированного текста. Таковы, например, сообщения об игроке футбольной команды, в которых статистическая информация о нем объединена с информацией из базы данных, содержащей сведения о его последних успехах. Такие приложения еще очень новы и не имеют под собой серьезного теоретического фундамента.

Вывод:

В целом, отрасль средств реферирования находится в самом начале своего развития. Существует единое мнение о необходимости лучших методов оценки, однако, большинство задач еще не решено, в том числе, сохраняется необходимость в масштабируемых методологиях создания аннотаций. Тем не менее, многие из описанных здесь технологий уже работают, и можно ожидать, что инструменты реферирования будут играть решающую роль в завоевании широких информационных пространств в будущем.

Таблица 1. Оценка релевантности с использованием рефератов по отношению к полному тексту
Тип реферата	Сжатие по длине	Сжатие по времени	Потери точности
Ориентированные на пользователя	77%	50%	5%
Общие	90%	60%	0%