«Обработка данных — лишь половина дела». Опыт «Ведомостей», ТАСС и РБК в работе с Open Data

Главное из выступлений спикеров секции «Медиа» на московском Open Data Day-2017

Господство данных принципиально изменило нашу жизнь, и те медиа, которые этим не пользуются, скоро не будут иметь возможности выжить. Работа с Open Data имеет большое значение особенно в эпоху «пост-правды»: именно она позволяет СМИ занять достойную позицию относительно возможности манипулировать общественным мнением.

В большинстве стран мира нет закона, регулирующего публикацию и доступ к данным о деятельности госструктур. Россия в этом смысле  —  одна из самых прозрачных стран. Но реальность такова, что открытым данным в России безоговорочно доверять нельзя. И тут в дело вступает журналист.

 

НАСТОЯЩЕЕ

Источники. В процессе поиска данных важно отдавать предпочтение ресурсам, которые предоставляют данные в первоисточнике: Минфин, портал госзакупок и т.д. Публикации в блогах или на сторонних сервисах не могут служить основой для публикации. Например, на «Горбушке» можно купить базы МВД и ФСБ, но журналист не может на них ссылаться. Работа с непроверенными или неофициальными источниками чревата проблемами для СМИ.

Фактчекинг. Важно уметь компилировать и сравнивать данные из разных источников. Например, главный инструмент делового журналиста СПАРК в последнее время часто дает сбои. У РБК есть рейтинг «500 лучших компаний», и хотя строится он только по одному критерию  —  размеру выручки  —  сегодня эта работа занимает до полугода. Приходится всё чаще обращаться к традиционным источникам.

Комментарии. Важность их получения никто не отменял. Например, вы обнаружили декларацию депутата, где указан его непомерно высокий доход. Если это окажется ошибкой и цифру поменяют, вы никогда не докажете, что изначально была другая. Журналист обязан позвонить депутату и, если он подтвердит полученную информацию, то это одна история. Если нет  —  другая.

Расследование Навального о Медведеве — это не журналистика. По форме сбора информации новый фильм ФБК  —  это классическая работа журналиста с данными. Но всё дело в форме подачи контента. ФБК не делало попыток получить комментарий от всех заинтересованных сторон. В итоге, подача сводит на нет всю объективность материала.

Экспертиза. Журналист не может разбираться во всем, поэтому любые данные и полученные на их основе выводы лучше пропустить через экспертов. Кейс «Ведомостей»: редакция готовила публикацию, сравнивая расходы на содержание аппарата в региональных бюджетах. Материал был почти готов, когда эксперт обратил внимание на то, что закон не регулирует эту область расходов и делать выводы на её основании нельзя.

Инструменты. Когда речь идет об экономии времени и оперативности, даже в редакциях, где есть программисты и дизайнеры, часто пользуются общедоступными веб-сервисами визуализации данных. Студия инфографики ТАСС завела аккаунт в Tableau Public, куда выкладываются проекты, сделанные за 1–2 часа. Аналогичная работа во flash могла бы занять целую неделю.

Пользовательский контент. Огромное количество интересных данных генерируют сами пользователи. Популярный в сегодняшних медиа формат тестов  —  это тоже работа с Open Data. В этом году РБК сделали проект с Avito: редакция работала с массивом частных объявлений и оценивала стоимость разных категорий товаров в городах России более чем по 30 критериям. К расстройству журналистов, картина получилась схожей с открытыми данными Росстата.

Ничто не заменит работу «ручками». Когда перед вами огромный массив данных, вы рискуете пропустить что-то важное. «Изюминки» из дата-сетов может вытащить только человек, и очень часто именно они составляют основу итоговых публикации, а весь машинный анализ остается в стороне.

Не стоит увлекаться графиками и таблицами. Это формирует избыток информации. Главная идея, которую вы хотите донести, должна быть подана с учетом клипового мышления современных читателей.

Нельзя делать дату ради даты. Количество источников данных неимоверно возросло. Поэтому, прежде чем начинать работать с дата-сетом, нужно понимать, зачем вы это делаете и на какие вопросы собираетесь ответить. От актуальности публикации тоже никуда не деться. Самые просматриваемые дата-проекты ТАСС  —  те, которые были завязаны на информационный повод, и попали в контекст.

 

БУДУЩЕЕ

Многие редакторы и журналисты учатся самостоятельно делать простую визуализацию, привлекая дизайнера только для крупных проектов.

В ближайшие годы будет нарастать объём данных, обрабатываемых автоматически. Творческую роль человека при этом никто не заменит. Журналист будущего будет уметь давать роботам правильные задания по парсингу и анализу данных, а дальше делать из этого красивый медиапродукт.

Перспективное направление  —  Design Assistant. Робот может подсказывать дизайнеру, как сделать визуализацию ещё лучше.

В ТАСС смотрят в сторону извлечения данных из изображения, звука и других нестандартных источников.

Инфографика как дисциплина в России ещё не состоялась. Многие люди, которые могли бы этим заниматься, ушли в рекламу или аналитику. Ситуация может стать лучше через несколько лет, но никто не может гарантировать, что к этому моменту рынок уже не выдвинет новые требования.

 

Участники: Полина Русяева, заместитель главного редактора журнала РБК; Елена Мязина, экс-руководитель отдела спецпроектов Vedomosti.ru, Эдуард Маас, руководитель Цифровой лаборатории ТАСС.

Автор благодарит Серафима Романова за помощь в подготовке материала.

Фото: ТАСС

Мар 6, 2017
Редакции сразятся за лучшее освещение документов об убийстве Кеннеди
Рецепты успеха от петербургского интернет-издания
В ноябре 2015 года старейшая газета Кореи «Чосон ильбо» завела у себя отдел виртуальной реальности (VR). И вот что увидела