Слова в кавычках: как работать с цитатами

Цитаты всегда использовались в новостных статьях, чтобы оживить историю и, что более важно, придать ей достоверности и сбалансированности. Специалисты по обработке данных из The Guardian нашли способ дать цитатам собственную жизнь и гарантировать их точность благодаря искусственному интеллекту.

Цитаты всегда использовались в новостных статьях, чтобы оживить историю и, что более важно, придать ей достоверности и сбалансированности. Специалисты по обработке данных из The Guardian нашли способ дать цитатам собственную жизнь и гарантировать их точность благодаря искусственному интеллекту.

В 2021 году The Guardian приняла участие в Journalism AI Collab Challenges, проекте, объединившем более 20 СМИ из разных стран, чтобы понять, как искусственный интеллект может улучшить журналистику.

Анна Виссенс, ведущий научный сотрудник, и Мишель Шаммель, старший специалист по обработке данных в Guardian News & Media, присоединились к онлайн-конференции WAN-IFRA Newsroom Summit, чтобы рассказать об уроках, извлеченных из этого проекта. Одним из них стал новый подход к работе с цитатами.

 

Что такое цитата

Они подчеркнули, что рассматривают текст как набор модулей, которые существуют независимо, но могут быть перепрофилированы или даже заменены другими фрагментами. Исходя из этого определения, слова, заключенные в кавычки, строго квалифицируются как модули.

Виссерс убеждена, что использование модульного подхода, позволяющего отследить меняющиеся мнения по одному и тому же вопросу с течением времени, может здорово помочь при проверке фактов и подготовке расследований.

Команда Виссенс и Шаммеля определила понятие цитаты следующим образом: «Цитата – это повторение предложения, фразы или отрывка из речи или текста, которые кто-то сказал или написал. В устной речи это репрезентация высказывания, которая вводится с помощью маркера-глагола. Например: Джон сказал: “Сегодня я видел Мэри”. В письменном тексте цитаты обозначаются кавычками».

При этом они решили не помечать текст без кавычек как цитату и разработали дизайнерское решение четкого разделения перефразирования и цитаты, сосредоточив свои усилия на идентификации текста только в кавычках.

Однако в то же время Виссенс и Шаммель хотели научить свою модель различать кавычки и случайные слова в кавычках.

,

«Наша цель с точки зрения машинного обучения состояла в том, чтобы точно определять реальные цитаты и позже иметь возможность вернуться к контексту, окружающего эти цитаты», – сказала Виссенс.

,

Они создали четкое и краткое руководство для анализа и переработки данных, чтобы свести к минимуму ошибки и неопределенность в обучающем наборе данных. «Мы начали с изучения текстовых материалов, чтобы выяснить, как и когда ставятся кавычки, и обнаружили около 15 различных конструкций, – отметила Виссенс. – Основной проблемой при создании обучающего набора данных стало наличие различных журналистских стилей».

,

Команда Виссенс начала с изучения текстовых материалов, чтобы выяснить, как и когда ставятся кавычки, и обнаружила около 15 различных конструкций
Команда Виссенс начала с изучения текстовых материалов, чтобы выяснить, как и когда ставятся кавычки, и обнаружила около 15 различных конструкций

,

 

Переработка данных

Вместе с коллегами из информационного агентства France-Presse (AFP) команда переработала почти 1000 новостных статей, фокусируясь на трех объектах: содержании (цитата в кавычках), источнике (люди, организации и т. д.) и реплике (обычно глагольная фраза, указывающая на речь). Затем результаты были использованы для обучения модели распознавания этих объектов.

Команда применила два инструмента, созданных технологической компанией Explosion:

Spacy: библиотека с открытым исходным кодом для расширенной обработки естественного языка (NLP) с использованием глубоких нейронных сетей;

Prodigy: инструмент анализа и переработки данных, который предоставляет простой в использовании интерфейс для быстрой и эффективной маркировки обучающего набора данных.

«После ручной обработки тысячи статей у нас была готова наша первая базовая модель, – рассказала Виссенс. – Прототип модели не только ускорил нашу работу, но и дал нам представление о том, где модели чего-то не хватает или где она вообще не работает».

,

Сотрудники The Guardian переработали почти 1000 новостных статей, фокусируясь на трех объектах: содержании (цитата в кавычках), источнике (люди, организации и т. д.) и реплике (обычно глагольная фраза, указывающая на речь)

,

Она добавила, что было интересно наблюдать за улучшением модели с течением времени, и, кроме того, еще и полезно: сами члены команды смогли на практике отточить свои навыки. Первая партия полученных данных оказалась зашумленной и непоследовательной, но с каждой итерацией они становились все лучше. Как только команда собрала достаточно данных, она запустила окончательную версию модели.

 

Разница между объектами

Обученной модели удалось правильно идентифицировать все три объекта в подавляющем большинстве случаев:

   реплика показала самую высокую точность – 96%;

•   содержание – 91%;

•   источник – 82%.

Чтобы оценить модель, команда использовала самый строгий способ измерения производительности распознавания именованных объектов, где каждый предсказанный объект должен был точно соответствовать (от начала до конца) переработанным данным. Даже в тех случаях, когда модель ошибалась, команда часто обнаруживала, что ей удается частично соответствовать объектам, находящимся в базе данных. Чаще всего это происходило с источниками.

Шаммель отметил, что разница между объектами неудивительна: «Преимущество объекта-содержания в том, что он имеет четкий сигнал, исходящий от кавычек. Но при этом есть сложность: нужно отличить кавычки, в которые заключается цитата, от кавычек, в которые заключаются случайные слова. Постепенно наша модель научилась исключать фразы в кавычках, которые не являются настоящими цитатами».

«Что касается объекта-источника и объекта-реплики, то периодически мы фиксируем ложные срабатывания, – продолжил он. – Иногда модель отмечает реплики без связанного с ними содержания, и мы стремимся преодолеть эту проблему на этапе постобработки».

,

Пользовательский интерфейс инструмента анализа и переработки данных Prodigy с тремя метками для источника, содержания и реплики
Пользовательский интерфейс инструмента анализа и переработки данных Prodigy с тремя метками для источника, содержания и реплики

,

 

В активном поиске

В дальнейшем команда Виссенс и Шаммеля планирует создать надежную систему ссылок, которая представляет собой процесс идентификации источников, базирующейся на упоминании только местоимений. Они рассмотрели различные подходы к машинному обучению, основанные на существующих библиотеках. Но ни один из них не сработал так, как это было им нужно, поэтому в итоге они приступили к созданию собственной разработки.

В свою очередь, Арно Пишон и Фред Бурже из AFP создали прототип системы поиска цитат под названием QuoteMachine. Подобное приложение могло бы позволить журналистам быстро находить предыдущие цитаты, чтобы сверить их с текущими заявлениями и обогатить свои статьи.

Подытоживая рассказ, Шаммель признал, что еще одной проблемой наверняка станет выявление значимых цитат: «Однако мы уверены, что сочетание машинного обучения, существующих метаданных о статьях и дополнительной информации, извлеченной из источников и контента, поможет нам ее решить и разработать хороший способ автоматической классификации цитат».

,

Иллюстрация на обложке: shutterstock.com; источник фото: Vissens WAN-IFRA