Автоматическое реферирование текстов. Обзор работ

Я думаю, многим знакома ситуация, когда в сжатые сроки необходимо ознакомиться с большим объёмом текстов – статей, обзоров, сюжетов, отзывов и так далее. Читать их все от начала и до конца слишком напряжно, не правда ли? И здесь на помощь приходят рефераты – краткие выжимки текстов, содержащие только самое главное и важное. Написанием рефератов занимаются зачастую эксперты, однако такая работа требует немало времени и усилий. Кроме того, труд экспертов должен, само собой, оплачиваться. Решение – применять методы автоматического реферирования текстов (Automatic Summarization), то есть порождать рефераты с помощью специальных компьютерных программ. В этой статье мы познакомимся с некоторыми наиболее распространёнными подходами к решению данной задачи.

Работа первая

Начнём с качественной работы – [Mishra et al. 2014] (Text summarization in the biomedical domain: A systematic review of recent research — ScienceDirect), в которой коллектив авторов представляет подробный обзор методов автоматического реферирования статей в области медицины. Данную статью удобно рассматривать в самом начале, так как она содержит подробную классификацию методов автоматического реферирования по нескольким основаниям, что позволяет охватить взглядом всю область. Стоит отметить, однако, что не все основания классификации релевантны всегда, некоторые обусловлены именно спецификой работы – автоматическое реферирование медицинских текстов и записей. Итак, все программы по созданию рефератов классифицируются авторами по нескольким параметрам.

Что программа получает на вход?

Что программа получает на вход – что служит входными данными, инпутом, для программы-суммаризатора (summarizer)?

Один документ (текст, который необходимо сжать) vs. несколько документов (получение реферата на основе сразу нескольких текстов, объединённых одной темой или посвящённых одному событию, например, ряд новостных сообщений об одном и том же событии);

Одноязычное реферирование (и входной документ/документы, и порождаемый программой реферат написаны на одном естественном языке, например, порождение реферата на английском на основе статьи из английской газеты) vs. многоязычное реферирование (здесь может быть две ситуации: 1) тексты инпута написаны на разных языках; 2) модель на вход получает текст на одном языке, а реферат должна выдать на другом и 3) комбинация первых двух вариантов);

Написанная автором аннотация (abstract), выступающая как исходный текст, подлежащий дальнейшему сокращению, или полный текст;

Литература, касающаяся биомедицинских исследований vs. EHR (electronic health record) – электронные записи медиков; критерий специфичный именно для сферы обработки медицинских текстов.

Для чего создается программа?

Цель создания программы по автоматическому реферированию (summarizer) – для чего создаётся программа, кто будет ею пользоваться?

Рефераты общего назначения (generic summaries) – пользователем может выступать кто угодно vs. рефераты, нацеленные на конкретных пользователей/конкретного пользователя (user-oriented summaries) – рефераты генерируются с учётом информационных запросов, потребностей и знаний пользователя или круга пользователей;

Широкого спектра vs. программное обеспечение для помощи клиническим медикам в принятии решений, касающихся ухода за больными и их лечения – критерий, актуальный для медицинской области.

Рефераты общего назначения просто создают реферат на основании поданного на вход документа или набора документов, в то время как рефераты, нацеленные на конкретного пользователя, должны удовлетворять информационные потребности данного пользователя или группы пользователей. Как правило, порождение такого реферата начинается с пользовательского запроса (query-oriented summarization), ответ на который должен быть отражён в создаваемом реферате.

Что программа выдаёт на выходе?

Что программа выдаёт на выходе – что получаем в итоге, результат работы алгоритма?

Extract vs. abstract: «квазиреферат» (extract) содержит предложения из исходного текста/текстов, отобранные по определённым критериям и расположенные по порядку, возможно с минимальными изменениями, а реферат (abstract) представляет собой новый текст, порождённый программой;

Indicative vs. informative: индикативный реферат доносит до пользователя только ключевые идеи исходного документа/документов (пользователь вынужден ознакомиться с содержанием источника, чтобы понять, о чём конкретно идёт в них речь). Информативный реферат, в свою очередь, содержит всю необходимую информацию из источника в сжатом виде, поэтому пользователь может ограничиться прочтением реферата и не читать текст в оригинале.

Каковы методы создания программы?

Метод создания программы – какие методы используются при создании программы-суммаризатора?

Статистические методы, в которых предложения ранжируются согласно формуле, присваивающей каждому предложению значение (score) на основании различных факторов, например, ключевых словосочетаний, ключевых слов, положения предложения в документе. Например, наличие определённых слов или фраз в предложении может говорить в пользу его включения в реферат, и тогда это повышает вес, другие же, напротив, могут уменьшать вес. В отличие от машинного обучения, подразумевается ручная работа с математическими формулами;

Автоматическая обработка языка (NLP): компьютерные методы понимания естественного языка – от подсчёта слов до глубокого парсинга (разрешение омонимии, частеречная разметка);

Машинное обучение: порождение рефератов моделью, обученной на большом корпусе размеченных данных (см., например, [Neto, Freitas, Kaestner 2002] – Automatic_Text_Summarization_Using_a_Mac20160702-24466-94pwwh-with-cover-page-v2.pdf (d1wqtxts1xzle7.cloudfront.net), [Fattah, Ren 2008] – Microsoft Word — Safaa S. Mahmoud.doc (psu.edu));

Гибридные подходы сочетают два или более метода, описанных выше.

Как оценить качество работы системы?

Оценка качества работы системы – по каким критериям оценивается качество модели?

Intrinsic (внутренняя оценка качества): оценка выдачи системы на основании таких критериев, как «читабельность» (readability), полнота, точность и релевантность. Автоматические рефераты при таком методе оценки, как правило, оцениваются пользователями либо сравниваются с «золотым стандартом», размеченной вручную коллекцией. В центре внимания реферат сам по себе, как отдельный продукт;

Extrinsic (внешняя оценка качества): оценка влияния системы на качество выполнения задания по поиску определённой информации, здесь используются такие метрики, как «степень успеха» (success rate), время, необходимое для выполнения задания, и точность принятия решения. При таком подходе во главу угла ставится та польза от программ-суммаризаторов, которую они могут принести для решения той или ной проблемы.

Авторы статьи выделяют некоторые тенденции в развитии систем автоматического реферирования статей в биомедицинской области. Во-первых, они отмечают переход от создания систем реферирования одного документа к системам, справляющимся как с задачей однодокументного реферирования, так и с задачей генерации реферата на основании нескольких документов. Особенно важно уметь сопоставлять и сливать воедино сходную информацию из разных источников и находить несовпадающие отрезки текста. Во-вторых, несмотря на то, что создание «квазирефератов» по-прежнему остаётся доминирующим подходом, внимание к техникам создания программ, порождающих новый текст на основе входного текста/текстов, увеличивается. В-третьих, повышается интерес к методам, основанным на знаниях. В-четвёртых, комбинация статистических методов, машинного обучения и автоматической обработки текста становится всё более популярной. Также развиваются графовые методы, в которых текст представляется в виде графа, вершинами которого выступают слова или предложения, а рёбрами – различные синтаксические или семантические отношения между ними. Далее применяются различные методы кластеризации для определения значимых вершин графа и для выделения предложений, которые войдут в реферат. В-пятых, большинство исследований, вошедших в обзор [Mishra et al. 2014], используют «внутренние» (intrinsic) меры оценки качества, такие как точность и полнота. Зачастую используется созданный вручную «золотой стандарт», то есть коллекция рефератов, написанных людьми. Однако, для этого требуется много разметчиков, времени, средств. Кроме того, трудно достичь согласия между разметчиками (inter-annotator agreement), поэтому появляются попытки автоматического порождения «золотого стандарта». Также некоторые исследователи берут за образец аннотацию автора в начале статьи. Кроме того, существует специальный программный пакет для оценки качества работы системы под названием ROUGE (Recall-Oriented Understudy for Gisting Evaluation), разработанный в Южно-Калифорнийском университете.

Авторы указывают на следующие проблемы и пробелы в исследованиях по созданию систем автоматического реферирования статей. Необходимо большее количество корпусов и развитие «золотого стандарта», без которых невозможно тестировать, обучать и разрабатывать модели. Кроме того, большинство работ из выборки авторов имело дело с текстами на английском языке. Также отмечается недостаточное внимание к внешним методам оценки качества, необходимым для практического применения таких систем.

Работа вторая

В работе [Nenkova, McKeown 2012] (nenkova-mckeown.pdf (bgu.ac.il)) разъясняются некоторые ключевые для области автоматического реферирования понятия, описывается ряд методов, а также предлагается один из вариантов классификации подходов. Авторы подчёркивают, однако, что предложенное ими разделение подходов на два класса относится только к направлению так называемого «квазиреферирования» (extractive summarization). Алгоритм «квазиреферирования» работает следующим образом: как правило, он сначала создаёт промежуточное представление входного текста (или набора текстов), приписывает каждому предложению поданного ему на вход текста/документа некий коэффициент, пропорциональный важности данного предложения для передачи ключевых идей текста. Затем отбирается некоторое количество предложений с наибольшими значениями этого коэффициента, которые и включаются в реферат. Авторы подразделяют все подходы к определению важной информации, которая должна быть включена в «квазиреферат», на два класса: подход, основанный на тематическом представлении (topic representation approach), и подход, основанный на индикаторном представлении (indicator representation approach). Алгоритмы, относящиеся к первому классу, на первом шаге получают промежуточную репрезентацию/представление текста, которая/которое отражает те темы, которые обсуждаются во входном документе. При таком подходе текст представляется как набор тем, которые в нём обсуждаются. Используются частоты слов, веса TF-IDF, а также слова, наиболее характерные для данной темы (topic words). Слова, наиболее характерные для рассматриваемой темы, получают больший вес. Подходы, основанные на лексической цепи (lexical chain approaches), обращаются к тезаурусу, чтобы определить тематическую принадлежность ряда семантически связанных слов. Латентный семантический анализ, подходы на основе вероятностных тематических моделей тоже относятся к этой категории. Алгоритмы из второго класса представляют текст как набор различных индикаторов важности, не относящихся непосредственно к тематике исходного текста. Такими индикаторами могут служить, например, длина предложения, положение в документе, наличие определённых словосочетаний и т.д. В подходах, основанных на графах (которые тоже относятся ко второму классу), весь документ представлен как сеть связанных между собой предложений. Эти индикаторы комбинируются, часто с помощью машинного обучения, чтобы получить некий коэффициент важности и релевантности для каждого предложения. В итоге, в реферате окажутся предложения с наибольшими значениями этого коэффициента. Также в своём обзоре авторы описывают разные способы выбора предложений для включения их в реферат. Так, предложения могут выбираться либо за один шаг (best-n-approach; выбираются первые n предложений в списке, упорядоченном по убыванию коэффициента важности предложений), либо итеративно (maximal marginal relevance): на каждом шаге алгоритма веса предложений перерасчитываются как линейная комбинация между уже приписанными весами и близостью каждого из предложений с уже выбранными предложениями. Предпочтение отдаётся предложениям, менее схожим с уже выбранными. Кроме того, возможен глобальный отбор предложений (global sentence selection), при котором отбираются не предложения по-отдельности, а реферат как единое целое, такой, чтобы он удовлетворял ряду требований (укладывался в заранее заданный объём, был наиболее информативным, наименее избыточным и так далее).

В другом обзоре ([Gupta, Lehal 2010]; jetwi0203.pdf (psu.edu)), помимо описания основных подходов к автоматическому реферированию текста (TF-IDF-метод; графовый подход; метод, основанный на кластеризации; методы машинного обучения; латентный семантический анализ; реферирование на основе концептов HowNet – онлайн-базы знаний для китайского и английского языка; нечёткая логика (fuzzy logic)), приводится список признаков, которые могут оказаться полезными при решении данной задачи. Авторы предлагают следующие признаки, которые могут иметь значение для принятия решения о включении/невключении предложения в «квазиреферат»:

Ключевые слова: как правило, это существительные и отбираются они с помощью TF-IDF. Предложения, содержащие ключевые слова, имеют больше шансов быть включёнными в реферат. Ключевые слова также могут быть получены в результате кластеризации именных групп.
Слово из заголовка: предложения, включающие в свой состав слова из заголовка, в большей степени отражают тему, поэтому вероятность их включения в реферат больше.
Позиция предложения: как правило, первое и последнее предложение первого и последнего абзаца документа являются наиболее важными.
Длина предложения: очень короткие и очень длинные предложения обычно не включаются в реферат.
Имена собственные: предложения, содержащие имена людей, названия мест или концептов, с большей вероятностью попадут в реферат.
Слова, написанные заглавными буквами: предложения с такими словами получают больший вес.
Ключевые фразы: предложения, включающие в свой состав словосочетания из заранее определённого набора, вероятнее всего будут включены в реферат.
«Пристрастные» слова (biased word): если одно или несколько слов из этой категории содержатся в предложении, то оно важное.
Признак, основанный на типе и особенностях шрифта (font): предложения, содержащие слова, напечатанные заглавными буквами, имеющие полужирное начертание, курсив или нижнее подчёркивание, как правило, являются более важными.
Местоимения: личные местоимения не могут быть включены в реферат, если они не будут заменены соответствующими именными группами.
Связность предложений между собой: для каждого предложения вычисляется его близость с каждым другим предложением в документе, затем все близости суммируются.
Связность предложения с центроидом: сначала получают вектор центроида, каждая координата которого соответствует среднему арифметическому соответствующих координат всех предложений документа, затем рассчитывается близость каждого предложения с этим центроидом.
Вхождение несущественной информации: предложения, включающие в свой состав одно или несколько слов-маркеров несущественной информации (например, кроме того, потому что, а также), получают меньший вес.
Дискурсивный анализ: построение дискурсивной структуры текста, выделение ключевых и периферийных сообщений.

Работы по некоторым важным аспектам автоматического реферирования текстов

Общему обзору задач, направлений, истории и проблем автоматического реферирования посвящена также статья [Hahn, Mani 2000] (IEEE Xplore Full-Text PDF:). Сходная цель преследуется и другой статьёй – [Radev, Hovy, McKeown 2002] (/c/1997c/tops/dvips (aclanthology.org)). В базовой работе [Nenkova, McKeown 2011] (inr-015 (neu.edu)) раскрываются такие аспекты, как типы автоматически порождённых рефератов, принципы работы программ по созданию таких рефератов, проблемы оценки качества алгоритмов автоматического реферирования, практические применения систем автоматического реферирования, разные подходы к извлечению предложений из текста для создания «квазиреферата». Отдельно обсуждаются методы, основанные на семантическом и дискурсивном анализе, а также некоторые способы обработки извлечённых из входного текста предложений. Отдельная глава посвящена обзору методов, специфичных для разных жанров и областей. Существуют также статьи, описывающие методы и проблемы, возникающие при автоматическом реферировании текстов определённых жанров (например, [Zechner 2002] (/c/1997c/tops/dvips (silverchair.com)) раскрывает проблему реферирования устных диалогов). Авторы статьи [Conroy, O’Leary 2001] (sigir.dvi (acm.org)) применяют подходы, основанные на Скрытых Марковских Моделях (Hidden Markov Models, HMM) и QR-разложении матрицы (QR decomposition). В [Angheluta, Busser, Moens 2002] (Angheluta_al2002TheUseOfTopicSegmentationForAutomaticInformationExtraction_DUC2002_-with-cover-page-v2.pdf (d1wqtxts1xzle7.cloudfront.net)) освещается задача тематической сегментации (topic segmentation) текста как первый шаг на пути создания системы автоматического реферирования текстов. Проблемам оценки качества программ реферирования посвящено также немало работ, например [Lin, Hovy 2003] (Microsoft Word — NAACL2003-CameraReady-10pt.doc (aclanthology.org)). В статье [Goldstein et al. 1999] (A.dvi (acm.org)) помимо некоторых метрик оценки качества описан ряд подходов к отбору предложений в реферат.

Другие работы

Несмотря на то, что до сих пор в большинстве работ исследуются методы автоматического создания так называемых «квазирефератов», то есть рефератов, состоящих из упорядоченных и, возможно, обработанных предложений исходного текста, в последние годы стали появляться работы, ставящие своей целью развивать направление автоматического порождения новых текстов при реферировании (abstracts). В качестве примера можно привести статью [Fang et al. 2016] (A Proposition-Based Abstractive Summariser — ACL Anthology), в которой предлагается алгоритм порождения текста реферата, основанный на анализе пропозиций исходного текста.

Что касается работ на русском языке, то их тоже существует немалое количество. Так, С.Д. Тарасов ([Тарасов 2008]; Автоматическое составление обзорных рефератов новостных сюжетов) описал один из подходов к созданию автоматического реферата по набору новостных сюжетов. Также С.Д. Тарасову принадлежит очень подробный обзор методов и проблем автоматического реферирования ([Тарасов 2010]; Современные методы автоматического реферирования – тема научной статьи по компьютерным и информационным наукам читайте бесплатно текст научно-исследовательской работы в электронной библиотеке КиберЛенинка (cyberleninka.ru)), в котором представлена развёрнутая классификация методов реферирования. В [Шевчук 2019] (Автоматическое реферирование текста при помощи нейронных сетей на примере генерации новостных заголовков) описан один из подходов к автоматическому реферированию текста при помощи нейронных сетей. См. также [Стеклянников 2004] (Метод автоматического реферирования текстов на естественном языке – тема научной статьи по математике читайте бесплатно текст научно-исследовательской работы в электронной библиотеке КиберЛенинка (cyberleninka.ru)), [Браславский, Густелев 2007] (Система автоматического реферирования новостных сообщений на основе машинного обучения), [Тревгода 2009] (Методы и алгоритмы автоматического реферирования текста на основе анализа функциональных отношений), [Гридина 2011] (АналиЗ алгоритмоВ автОматическОгО реферированиЯ текстА — Neliti), [Курушин, Нестеров, Овчинникова 2014] (О возможном подходе к созданию системы автоматического реферирования – тема научной статьи по языкознанию и литературоведению читайте бесплатно текст научно-исследовательской работы в электронной библиотеке КиберЛенинка (cyberleninka.ru)).

Выводы

Задача автоматического реферирования текстов представляется мне актуальным и перспективным направлением, особенно в современном мире, в котором объёмы доступных человечеству текстов растут с каждой секундой. Всем нам хочется быть в курсе всего самого актуального и важного в тех областях, которые нам интересны и важны для жизни, а читать сотни страниц ежедневно не хватает времени и сил (а иногда и желания). И тут уже не обойтись без автоматизации. Стоит отметить, что тексты и сферы их употребления бывают очень разными, поэтому и обширная область автоматического реферирования включает в себя подзадачи, связанные с тем или иным типом текстов: автоматическое реферирование новостных заметок, автоматическое реферирование биомедицинских документов и статей, автоматическое реферирование научных статей. Об автоматическом реферировании научных статей мы вам расскажем в одной из следующих статей нашего блога.

ссылка на оригинал статьи https://habr.com/ru/company/unistar_digital/blog/684830/