Журналистика данных: опыт «Важных историй»

Юлия Алыкова, автор дата-отдела издания «Важные истории»:

— Журналистика данных — это не отдельная профессия. Сейчас те, кто ею занимается в России, — это прежде всего журналисты, которые делают обычные для своей профессии вещи: находят темы, общаются с героями и экспертами, создают историю. Просто в своей работе активно используют навыки работы с данными. Они могут сами написать скрипт и скачать все судебные решения по определенной статье (например, как для свежего материала про штатных понятых в «Важных историях»), запустить модель машинного обучения (как для исследования домашнего насилия у «Новой газеты» и «Медиазоны», незаконной добычи янтаря у издания Texty.org.ua или поиска самолетов-шпионов у Buzzfeed), собрать данные по госзакупкам, найти и проанализировать статистические показатели, сделать красивые и правильные визуализации. Дата-журналистика — это в первую очередь набор навыков, а не отдельная профессия. Их при желании может освоить любой журналист.

 

Журналистика данных и «биг-дата» — не одно и то же

Термин «большие данные» вряд ли можно применить по отношению к журналистике данных. Большие данные — это огромные объемы информации, например, об абонентах сотовых операторов, о пользователях соцсетей по всему миру. Такие масштабные данные доступны в основном IT-корпорациям, но не журналистам. 

 

Провести читателя за собой

Возможность для читателя проделать весь путь вместе с дата-журналистом, проверить данные и прийти к тем же выводам — очень важная часть любого дата-исследования. Если в материале нет пути, по которому шли авторы к своим выводам, доверять таким выводам сложно. Проверяемость информации — это вообще один из базовых принципов создания дата-материалов. Поэтому у большинства изданий всегда есть рубрика «Как мы считали», «фактчек» и подобные для дата-историй. В России методологию дата-исследования всегда описывают «Новая газета», «Медиазона», «Проект», «Важные истории», РБК, BBC.

Есть проекты, где читателю предлагается самостоятельно исследовать информацию, «играть» с визуализацией и делать выводы. Так устроены, например, дашборды по коронавирусу (New York Times, WashingtonPost, «Медиазона» и другие), исследование The MarshallProject о преступлениях в США, любые интерактивные карты. Но поскольку внимание и время читателей очень ограничены, такие проекты, где аудитории нужно самостоятельно искать истории в данных, — скорее исключение. Обычно журналисты с помощью экспертов сами интерпретируют данные и показывают результаты, а затем уже описывают, как это все считали.

 

Создать увлекательную историю

Главред «Важных историй» Роман Анин часто нам напоминает, что хороша та история, в которой показаны два взгляда на проблему — «орлиный» и «муравьиный». «Орлиный» показывает масштаб, проблему в общем. Например, что в России около 200 тысяч сирот не могут получить жилье, которое им положено по закону, и каждый год их число растет. «Муравьиный взгляд» — это история снизу, в деталях. История сироты, который рискует в любой момент оказаться на улице, не может нормально построить семью из-за того, что ему негде жить. Поэтому здорово, когда помимо данных в материале есть истории людей, которые имеют непосредственное отношение к этим данным.

 

Припасть к источнику

Государственные данные публикует, в первую очередь, Росстат (сайты fedstat.ru и gks.ru). То, что закупают разные ведомства и госкорпорации, размещено на сайте госзакупок zakupki.gov.ru. В более удобном виде госзакупки можно изучать на сайте «ГосЗатраты» проекта «Инфокультура». Они же разрабатывают сайты «ГосРасходы», где можно посмотреть расходы ведомств по разным государственным программам и субсидии, а также «Открытые НКО», где есть данные о грантах и субсидиях некоммерческих организаций. Данные о преступности есть у прокуратуры, о ДТП — у ГИБДД, о количестве судебных дел и осужденных — на сайте судебного департамента. Статистика по заболеваемости есть на сайте Института организации и информатизации Минздрава. Это только несколько примеров. У многих ведомств есть раздел «Открытые данные». Правда, он часто либо вообще пустой, либо содержит старые данные, но иногда все же заполнен. Еще один способ добыть данные — написать в какое-либо ведомство или организацию и запросить их. Иногда они в ответ присылают то, что нужно. Источников данных по миру тоже много, например, Всемирный банк, Всемирная организация здравоохранения, ООН.

Есть данные, которые можно получить только с помощью программирования, — из соцсетей, например.

,

ВОЗМОЖНОСТЬ ДЛЯ ЧИТАТЕЛЯ ПРОДЕЛАТЬ ВЕСЬ ПУТЬ ВМЕСТЕ С ЖУРНАЛИСТОМ И ПРИЙТИ К ТЕМ ЖЕ ВЫВОДАМ — ВАЖНАЯ ЧАСТЬ ЛЮБОГО ДАТА¬ИССЛЕДОВАНИЯ

,

А открытые данные — это такие наборы данных, которые можно свободно использовать, не нужно просить разрешение или платить за них. У них соответствующая свободная лицензия. Данные госорганов, например, это открытые данные. А какой-то датасет компании или частного лица, даже если он выложен в интернет, может и не относиться к открытым данным, потому что у него может не быть свободной лицензии.

Журналисты находят данные разными путями. Во-первых, они могут лежать уже в машиночитаемом виде, готовыми для обработки, на сайтах разных ведомств, некоммерческих организаций, в базах данных. Это самый удобный вариант. Во-вторых, например, для сбора судебных решений, данных из соцсетей или баз научных статей нужно писать автоматизированные запросы (программировать), чтобы выгрузить необходимую информацию. В-третьих, частая ситуация, когда никакого набора данных по нужной теме нет и его приходится собирать с нуля из разных отчетов госорганов, по новостям и другим источникам. Так мы собирали данные, например, для текста про нефтяные разливы в России. Для исследования смертей медицинских работников от коронавируса авторы «Медиазоны» по разным источникам подтверждали гибель каждого человека (в мае в «Списке памяти» было около 200, а сейчас уже больше 1000 погибших от коронавируса врачей, медсестер, санитарок, лаборантов и других медработников).

 

Красота — не главное

Некоторые журналисты с нуля программируют визуализации, например, с помощью JavaScript. Но чаще используют сервисы для визуализаций — Tableau, Datawrapper, Flourish, GoogleDataStudio, RawGraphs и другие. Я делаю черновые визуализации в Excel или в Python, а уже финальные визуализации, как и все в «Важных историях» — во Flourish.

Красивый дизайн инфографики важен, но это не главное. А главное — это корректные данные, много раз проверенные, не вырванные из контекста, правильно интерпретированные. Красота уже на втором месте.

Пример манипуляции с данными: из-за того, что ось Y начинается не с нуля, кажется, будто бензин сильно подешевел, хотя на самом деле разница всего в десятых долях копеек.

 

Больше данных — больше свободы

Можно самостоятельно найти данные, проанализировать, обсудить с экспертами, найти в них историю. В мире каждую секунду генерируется огромное количество информации, открытых данных тоже становится больше, и здорово уметь использовать их в работе: не только обнаружить, скажем, интересную госзакупку элитных машин, а собрать все закупки определенного ведомства и найти в них какой-то паттерн или нарушение закона. Знание основ работы с данными помогает создавать более масштабные исследования, экономить время, распознавать манипуляции с цифрами.

Любому журналисту полезно освоить базовые навыки работы с данными, чтобы чувствовать себя свободнее и увереннее. А журналисту-исследователю они тем более пригодятся, потому что расследовательская журналистика меняется: помимо источников, которые приносят какие-то инсайды, расследования все чаще делаются с помощью технологий. В США, например, журналисты-расследователи обсуждают на конференциях, на каком языке лучше программировать: вопрос, нужно ли вообще программировать, у них уже не стоит. Например, киргизское издание Kloop разрабатывает программу для поиска «колец коррупции». Программа автоматически находит аффилированных поставщиков и заказчиков в системе государственных закупок. «Новая газета» тоже с помощью графов находила целые кланы чиновников и бизнесменов. «Важные истории» с помощью языка программирования Python изучали, как россиян сажают за кражи. Таких примеров очень много.

 

Алеся Мароховская, редактор дата-отдела «Важных историй»:

— Я бы добавила, что журналист чаще всего не работает с биг-датой, потому что под биг-датой обычно понимаются какие-то реально огромные данные, которыми оперирует условно «Яндекс». Вот у них большие данные. Я говорю это просто в качестве уточнения, потому что многие так говорят, даже журналисты так говорят, хотя с большими данными они, как правило, не работают.

Мы показываем путь создания истории. У нас на сайте «Важных историй» есть кнопка, которая называется «фактчек». Но если нажимаешь эту кнопку, сразу вываливается методология, как журналисты шаг за шагом создавали историю. Мы выбрали такую хитрую позицию: от тех, кому это не слишком интересно, мы скрываем эту методологию, а те, кому это нужно, могут нажать на кнопку «фактчек» и посмотреть. Смотрят чаще всего коллеги или въедливые читатели. Они кликают на фактчек и видят методологию. Но тех, кому это интересно, пока меньшинство.

У нас в каждом тексте стоит растяжка и баннер висит, что можно пожертвовать. Мы всегда радуемся, когда у нас есть не только просмотры, а когда люди донатят. Они понимают, что есть медиа, которые без поддержки читателей не смогут сами существовать, и эта поддержка является для них ключевой. У нас нет ни одного текста, на который бы не задонатил хотя бы один человек. Это могут быть разовые донаты, иногда админку открываешь и видишь, что у всех текстов стоит какая-то сумма от людей, которые донатили. Не сказать, что это широкая практика, но такие люди есть, и их становится все больше.

 

У данных тоже можно взять интервью

Сегодня данные — это такой же источник информации для журналиста, как, например, интервью. Данным, как и людям, можно задавать вопросы. Но все вертится вокруг историй. Когда у нас проходят планерки дата-отдела, никогда не бывает такого, чтобы кто-то сказал, что есть такая цифра, давайте об этом напишем. Всегда все отвечают на вопрос: а про что эта история? Данные — они не только ради цифры, они ради истории. Сама по себе цифра тоже может позволить написать историю, хотя там может и не быть людей. Могу привести пример текста про разлив нефти: «Нефтяные аварии случаются каждые полчаса: исследование реальных масштабов загрязнений природы». Там нет героя. Случилась катастрофа в Норильске, потом в Тихом океане, на Камчатке, это произошло. Мы решили посмотреть, как часто происходят разливы нефти в России, и поняли, что они происходят каждые полчаса.

Обычно мы все же стараемся рассказать историю. Чтобы там были какие-то люди, которым ты можешь сопереживать. Чтобы был какой-то сюжет, чтобы это было интересно читать. Главное умение журналиста — рассказать людям истории. Сами по себе данные бывают скучны для простого читателя, поэтому приходится двигаться в сторону увлекательного рассказа.

 

Истории находят не в капусте

Обычно истории рождаются из информационной повестки. Что-то случается, и у тебя возникает гипотеза, которую интересно было бы проверить. И ты идешь и смотришь, есть ли об этом данные. Если есть, то тогда получается история, если данных нет, то не получается. Иногда бывает, что идешь от данных. Вот, например, у нас вышла история про то, как долго люди, пострадавшие от советских репрессий, вынуждены были стоять в очередях на жилье. Их выселили куда-то на север. Для того чтобы вернуться обратно, им нужно было встать в очередь на жилье, как и всем. Для этой истории Соня Савина запросила данные, по-моему, у Росстата, и он предоставил подробные данные, которых не было в открытом доступе. После этого она делает еще одну историю на тему жилья.

,

СЕГОДНЯ ДАННЫЕ — ЭТО ТАКОЙ ЖЕ ИСТОЧНИК ИНФОРМАЦИИ ДЛЯ ЖУРНАЛИСТА, КАК, НАПРИМЕР, ИНТЕРВЬЮ. ДАННЫМ, КАК И ЛЮДЯМ, МОЖНО ЗАДАВАТЬ ВОПРОСЫ

,

Вот так, берешь данные и понимаешь, что у них есть несколько историй. Такое не всегда случается. Замысел истории появляется, когда ты разговариваешь с экспертом или с человеком, который тебе что-то интересное расскажет. Ты находишься в таком рабочем состоянии, что буквально везде ищешь историю, а в голове твоей сразу происходит некая проверка: можно ли об этом написать, если да, то как. У нас вышла история про понятых, которая появилась из дела Ивана Голунова. Если бы он не увидел всю систему изнутри, то, наверное, такой истории бы не было. Его задержали, привлекли «штатных» понятых, он понял, что это за люди. И вот мы сделали историю про понятых.

 

Учитесь программировать

Программирование очень важно в работе журналиста. Хотя есть коллеги, которые бы не согласились со мной. Но мне кажется, что без программирования ты сильно ограничиваешь свои возможности. Если ты умеешь программировать, то у тебя нет почти границ. На любую ли ситуацию ты смотришь со стороны цифры? Все зависит от истории. Иногда разговор с человеком помогает понять контекст и во все углубиться, а данные тебе дают только поверхностное представление о том, что происходит. В работе с данными главное — не упираться в одни только данные. Иначе можно в чем-то ошибиться. Вот недавно у нас был такой случай. Прошли задержания и митинги. Людей штрафуют, отправляют под арест. Мы решили проанализировать скорость, с которой судьи выносили эти решения. Потому что на сайте Мосгорсуда есть у каждой карточки время, когда дело рассматривалось. И мы это время посмотрели. По данным было несколько историй, где судьи в каком-то бешеном темпе выносили решения: одна минута на дело. Казалось, просто шла штамповка судебных решений. И мы решили, что в этом есть история. Ко мне подключилась Катя Фомина и предложила найти людей, которых осудили. Она позвонила этим людям, и оказалось, что график был неправильный на сайте суда. Они там просто от балды наставили цифры. Мы позвонили человеку, дело которого якобы минуту всего рассматривали, но он это нам не подтвердил. И другие люди рассказали, что их вызывали к судье вообще не в то время, что было указано на сайте Мосгорсуда. Истории не получилось.

,

Иллюстрация: shutterstock.com