Образовательный хаб «Журналист.Знания» Клуб молодого журналиста Золотой фонд прессы Золотой Фонд 3.0 Образовательный проект «Школьники и медиа»

История журнала Пользовательское соглашение © 1914–2023, сайт журнала «Журналист». Учредитель и издатель ООО «Медиагруппа «Журналист»». Генеральный директор и главный редактор Петрова Любовь Владимировна. Зарегистрирован Федеральный службой по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор) Эл № ФС77-66598 от 21 июля 2016 года.

Стоимость размещения рекламы на сайте и в журнале

Email: info@jrnlst.ru Телефон: +7 (499) 152-34-73 Адрес редакции: 125190, г. Москва, ул. Черняховского 16.

Искусственный интеллект в поисковых машинах

Павел Карпов, Илья Стечкин

«Тэй»: наше виртуальное зеркало

Начнём издалека, с чат-бота «Тэй» (TAY — акроним от Thinking About You — «Думаю О Тебе»), созданного подразделениями Bing и Microsoft Research.

23 марта 2016 года Microsoft запустил в онлайн-версию чат-бота для соцсети «Твиттер». Бот должен был заниматься самообучением и по языковым шаблонам имитировать поведение 19-летней американской девушки. Как заявили CNN представители Microsoft, «Тэй» является экспериментом в области исследования искусственного интеллекта. Компания хочет использовать его для обучения пониманию, как люди общаются друг с другом онлайн. И хотя заявленная цель существования «Тэй» — развлекательная, всё, чему бот учится, будет использовано в будущих продуктах.

Учитывая результаты эксперимента, известные сегодня, перспектива вырисовывается, мягко говоря, тревожная. «Тэй», начав с миловидных сообщений типа «Могу ли я сказать, что я в восторге от встречи с вами? Люди супер классные» (см. рис. 1), уже через несколько часов перешёл (или правильнее сказать перешла?) на одобрение идей Гитлера, поощрение геноцида, ненависть на расовой почве и другие агрессивные проявления (см. рис. 2, 3, 4, 5). Неудивительно, что «Тэй» отключили в течение суток после запуска, принеся извинения всем униженным и оскорблённым.

Позже, 30 марта, бот внезапно ненадолго снова объявился в Сети (видимо, сбежав из-под опеки санитаров Microsoft) и начал спамить пользователей бредовыми сообщениями, в том числе об употреблении наркотических веществ (см. рис. 6). Правда, попадались и вполне колоритные: «О, ну да! Извините, что ваша планка невероятно нереалистичных стандартов оказалась для меня высоковата! Придурок» (рис. 7).

Что с этим делать? Молиться… Ну, или пересмотреть все серии «Терминатора» в качестве наглядного пособия.

«Тэй»: наше виртуальное зеркало

Что с этим делать? Молиться… Ну, или пересмотреть все серии «Терминатора» в качестве наглядного пособия.

«Матрикснет»

Пока Microsoft успокаивает разбушевавшуюся искусственную девицу, «Яндекс» развивает своё творение — «Матрикснет». Эту технологию «Яндекс» начал использовать в своих алгоритмах в 2009 году, и сегодня продолжает её совершенствовать.

«Матрикснет», по сути, является методом машинного обучения, с помощью которого задаются формулы ранжирования поисковой выдачи по разным сегментам, т. е. сам по себе «Матрикснет» фактором ранжирования не является, он лишь задаёт «удельные веса» других факторов ранжирования в зависимости от того, к какому сегменту был отнесён поисковый запрос: фильм, музыка, магазин, ответ на вопрос, книга и т. д.

Обучение «Матрикснета» происходит с участием асессоров — специалистов, которые занимаются оценкой того, насколько та или иная страница подходит для ответа на поисковый запрос. Именно они на основе своих суждений создают обучающие выборки, на которых «Матрикснет» учится понимать, что такое «хорошая выдача», анализируя заданные факторы ранжирования страниц, попавших в обучающую выборку. Результаты своих изысканий «Матрикснет» переносит на реальную выдачу.
Как работать с такой системой и что учитывать нам, находящимся с другой стороны монитора?

Принимайте во внимание сегментную ориентированность, не ищите среднюю температуру по больнице, вместо этого старайтесь анализировать лидеров выдачи по вашему запросу и тянитесь к их уровню, а когда дотянетесь, проводите А/Б тесты, чтобы их превзойти.

RankBrain

Google недавно всё-таки смог обставить «Яндекс» в «домашнем матче», и теперь, по данным газеты «Ведомости», является наиболее популярным поисковиком Рунета. Новый алгоритм этого поисковика — RankBrain — самообучающаяся система искусственного интеллекта, которая сама, без участия асессоров, учится понимать шаблоны и экспериментирует с интерпретацией. Если результаты экспериментов удовлетворительные, то очередную версию выпускают в онлайн, закрыв возможность восприятия новой информации для обучения.

Компания Google подтвердила агентству Bloomberg использование системы в октябре 2015 года, и на тот момент RankBrain помогала в ранжировании примерно 15% поисковых запросов пользователей.

В июне 2016 года ситуация изменилась кардинально: в Сеть просочилась информация от Джеффа Дина, одного из старших научных сотрудников Google, о том, что RankBrain «вовлечён в работу над каждым запросом» и влияет на ранжирование выдачи «возможно, не каждого запроса, но очень большого их количества».

Чтобы разобраться, как можно участвовать в обработке всех запросов, но влиять на ранжирование только по некоторым, необходимо точнее понимать, как же, собственно, функционирует RankBrain.

На основе интервью, которое в июне 2016 года дал порталу SearchEngineLand представитель Google Гэри Илш, можно сделать вывод, что RankBrain используется в качестве инструмента, уточняющего запрос, а не влияющего буквально на позиции сайтов в выдаче по конкретным запросам. В случаях когда искусственный интеллект находит соответствие, более полно отвечающее требованию пользователя, происходит подмена выдачи.

Например, при получении запроса: «Где бы мне взять в аренду отдельный сервер, чтобы только мои сайты там были?», аналога которому, вполне возможно, в природе до сего момента не существовало, RankBrain переработает запрос и, не найдя полного совпадения, поймёт, что введённый пользователем запрос и «аренда выделенного сервера» — это одно и то же. Но по второму, более частотному запросу все данные уже собраны, качественная выдача сформирована. Тогда RankBrain возьмёт и подменит выдачу у низкочастотного запроса.

Как подобные изменения отражаются в Google Search Console — большой вопрос. Возможно, цифры показов/кликов по таким низкочастотным запросам упали до нуля, а их показатели уже приписываются к более высокочастотным. Но более вероятным представляется такой вариант: показатели так и продолжат отображать показы и клики, как раньше, но вот выяснить, какую же именно страницу поисковик показал по некоему запросу и какой из факторов оказал критичное воздействие для этого, стало ещё сложнее. Теперь возможны ситуации, когда у вас на сайте в принципе нет упоминания ключевого запроса, приведшего пользователя, так как страница была заимствована из выдачи по синонимичному запросу.

Что делать? Как и раньше: анализировать все данные, до которых можете дотянуться, проводить А/Б тестирования, создавать интересный и нужный контент и оптимизировать его, повышая показатель кликабельности (CTR) и время задержки (Dwell Time). По нашему мнению, это именно те самые два из трёх самых значимых факторов ранжирования, о которых умалчивает Google.

Продолжайте объяснять поисковым машинам, что вы не враг, а полезный партнёр и союзник.

FaceN

Из приложения Magic Dog, позволяющего распознать породу собаки по её фотографии, разработанного примерно полтора года назад Артёмом Кухаренко, родилась FaceN — нашумевшая недавно система распознавания лиц от NTechLab. По сути, это самообучающаяся искусственная нейронная сеть, обладающая возможностью интеграции с любой базой данных, содержащей фотографии людей, для поиска изображений по подобию.

Существующий алгоритм идентифицирует человека по чертам лица, которые не зависят (или не слишком зависят) от изменения выражения лица, возраста, наличия или отсутствия очков, ракурса съёмки, фона и освещения. Речь идёт о так называемых инвариантных признаках.

По данным «Эха Москвы», полицейские в регионах уже успешно используют приложение. Например в ситуации, когда человек переехал несколько лет назад из Удмуртии в Москву, оборвал все связи, его никто не ищет, он сменил паспорт, но лицо-то осталось тем же, что позволяет взять старые дела («висяки»), загрузить фотографию в FindFace и найти человека во «ВКонтакте». Сомневаться в том, что приложение будет захватывать всё большую долю рынка, не приходится: коммерческое применение сулит множество возможностей, перенося опыт онлайн-идентификации пользователей в реальный мир.

Что делать? Пластическую операцию. Ну, или вспомнить опыт Штирлица и запастись накладными усами.

Выводы

Нужно понимать, что любое наше действие в Сети имеет внутри себя этап поиска. А значит, искусственный интеллект в самом ближайшем будущем будет сопровождать любую нашу интернет-активность.

Эта новая технологическая реальность порождает вопросы как этические, так и прагматические. В частности, как изменится тактика работы специалистов по поисковой оптимизации. Наш ответ таков: практически никак. Изменится поведение пользователей: кто-то будет стараться вести себя прилично, чтобы не за что было краснеть в эпоху тотальной идентификации. Кто-то постарается обмануть машину и сохранить какое-то личное пространство. А SEO-специалисты будут по-прежнему договариваться с поисковиками. И мы, производители контента, а точнее наш продукт, — очень важный аргумент в этих переговорах.

Фото: shutterstock.com, twitter.com

29 августа, 2016