Цитаты всегда использовались в новостных статьях, чтобы оживить историю и, что более важно, придать ей достоверности и сбалансированности. Специалисты по обработке данных из The Guardian нашли способ дать цитатам собственную жизнь и гарантировать их точность благодаря искусственному интеллекту.
Цитаты всегда использовались в новостных статьях, чтобы оживить историю и, что более важно, придать ей достоверности и сбалансированности. Специалисты по обработке данных из The Guardian нашли способ дать цитатам собственную жизнь и гарантировать их точность благодаря искусственному интеллекту.
В 2021 году The Guardian приняла участие в Journalism AI Collab Challenges, проекте, объединившем более 20 СМИ из разных стран, чтобы понять, как искусственный интеллект может улучшить журналистику.
Анна Виссенс, ведущий научный сотрудник, и Мишель Шаммель, старший специалист по обработке данных в Guardian News & Media, присоединились к онлайн-конференции WAN-IFRA Newsroom Summit, чтобы рассказать об уроках, извлеченных из этого проекта. Одним из них стал новый подход к работе с цитатами.
Что такое цитата
Они подчеркнули, что рассматривают текст как набор модулей, которые существуют независимо, но могут быть перепрофилированы или даже заменены другими фрагментами. Исходя из этого определения, слова, заключенные в кавычки, строго квалифицируются как модули.
Виссерс убеждена, что использование модульного подхода, позволяющего отследить меняющиеся мнения по одному и тому же вопросу с течением времени, может здорово помочь при проверке фактов и подготовке расследований.
Команда Виссенс и Шаммеля определила понятие цитаты следующим образом: «Цитата – это повторение предложения, фразы или отрывка из речи или текста, которые кто-то сказал или написал. В устной речи это репрезентация высказывания, которая вводится с помощью маркера-глагола. Например: Джон сказал: “Сегодня я видел Мэри”. В письменном тексте цитаты обозначаются кавычками».
При этом они решили не помечать текст без кавычек как цитату и разработали дизайнерское решение четкого разделения перефразирования и цитаты, сосредоточив свои усилия на идентификации текста только в кавычках.
Однако в то же время Виссенс и Шаммель хотели научить свою модель различать кавычки и случайные слова в кавычках.
,
,
Они создали четкое и краткое руководство для анализа и переработки данных, чтобы свести к минимуму ошибки и неопределенность в обучающем наборе данных. «Мы начали с изучения текстовых материалов, чтобы выяснить, как и когда ставятся кавычки, и обнаружили около 15 различных конструкций, – отметила Виссенс. – Основной проблемой при создании обучающего набора данных стало наличие различных журналистских стилей».
,
,
Переработка данных
Вместе с коллегами из информационного агентства France-Presse (AFP) команда переработала почти 1000 новостных статей, фокусируясь на трех объектах: содержании (цитата в кавычках), источнике (люди, организации и т. д.) и реплике (обычно глагольная фраза, указывающая на речь). Затем результаты были использованы для обучения модели распознавания этих объектов.
Команда применила два инструмента, созданных технологической компанией Explosion:
Spacy: библиотека с открытым исходным кодом для расширенной обработки естественного языка (NLP) с использованием глубоких нейронных сетей;
Prodigy: инструмент анализа и переработки данных, который предоставляет простой в использовании интерфейс для быстрой и эффективной маркировки обучающего набора данных.
«После ручной обработки тысячи статей у нас была готова наша первая базовая модель, – рассказала Виссенс. – Прототип модели не только ускорил нашу работу, но и дал нам представление о том, где модели чего-то не хватает или где она вообще не работает».
,
,
Она добавила, что было интересно наблюдать за улучшением модели с течением времени, и, кроме того, еще и полезно: сами члены команды смогли на практике отточить свои навыки. Первая партия полученных данных оказалась зашумленной и непоследовательной, но с каждой итерацией они становились все лучше. Как только команда собрала достаточно данных, она запустила окончательную версию модели.
Разница между объектами
Обученной модели удалось правильно идентифицировать все три объекта в подавляющем большинстве случаев:
• реплика показала самую высокую точность – 96%;
• содержание – 91%;
• источник – 82%.
Чтобы оценить модель, команда использовала самый строгий способ измерения производительности распознавания именованных объектов, где каждый предсказанный объект должен был точно соответствовать (от начала до конца) переработанным данным. Даже в тех случаях, когда модель ошибалась, команда часто обнаруживала, что ей удается частично соответствовать объектам, находящимся в базе данных. Чаще всего это происходило с источниками.
Шаммель отметил, что разница между объектами неудивительна: «Преимущество объекта-содержания в том, что он имеет четкий сигнал, исходящий от кавычек. Но при этом есть сложность: нужно отличить кавычки, в которые заключается цитата, от кавычек, в которые заключаются случайные слова. Постепенно наша модель научилась исключать фразы в кавычках, которые не являются настоящими цитатами».
«Что касается объекта-источника и объекта-реплики, то периодически мы фиксируем ложные срабатывания, – продолжил он. – Иногда модель отмечает реплики без связанного с ними содержания, и мы стремимся преодолеть эту проблему на этапе постобработки».
,
,
В активном поиске
В дальнейшем команда Виссенс и Шаммеля планирует создать надежную систему ссылок, которая представляет собой процесс идентификации источников, базирующейся на упоминании только местоимений. Они рассмотрели различные подходы к машинному обучению, основанные на существующих библиотеках. Но ни один из них не сработал так, как это было им нужно, поэтому в итоге они приступили к созданию собственной разработки.
В свою очередь, Арно Пишон и Фред Бурже из AFP создали прототип системы поиска цитат под названием QuoteMachine. Подобное приложение могло бы позволить журналистам быстро находить предыдущие цитаты, чтобы сверить их с текущими заявлениями и обогатить свои статьи.
Подытоживая рассказ, Шаммель признал, что еще одной проблемой наверняка станет выявление значимых цитат: «Однако мы уверены, что сочетание машинного обучения, существующих метаданных о статьях и дополнительной информации, извлеченной из источников и контента, поможет нам ее решить и разработать хороший способ автоматической классификации цитат».
,