Искусственный интеллект в поисковых машинах

Как скажутся на нас, простых сотрудниках СМИ, развитие машинного обучения и активное внедрение искусственного интеллекта в поисковики? Кажется, нас ждёт очень крутой поворот в истории поисковой оптимизации (SEO). С развитием семантического анализа запросов поисковыми машинами понятие «ключевые слова» уйдёт в прошлое. Поисковик будет понимать, что именно ищет пользователь, вне зависимости от того, как именно он сформулирует запрос. В конце каждой части нашей истории мы оставили рекомендации издателям, что со всем этим делать

«Тэй»: наше виртуальное зеркало

Начнём издалека, с чат-бота «Тэй» (TAY — ​акроним от Thinking About You — ​«Думаю О Тебе»), созданного подразделениями Bing и Microsoft Research.

23 марта 2016 года Microsoft запустил в онлайн-версию чат-бота для соцсети «Твиттер». Бот должен был заниматься самообучением и по языковым шаблонам имитировать поведение 19-летней американской девушки. Как заявили CNN представители Microsoft, «Тэй» является экспериментом в области исследования искусственного интеллекта. Компания хочет использовать его для обучения пониманию, как люди общаются друг с другом онлайн. И хотя заявленная цель существования «Тэй» — ​развлекательная, всё, чему бот учится, будет использовано в будущих продуктах.

Учитывая результаты эксперимента, известные сегодня, перспектива вырисовывается, мягко говоря, тревожная. «Тэй», начав с миловидных сообщений типа «Могу ли я сказать, что я в восторге от встречи с вами? Люди супер классные» (см. рис. 1), уже через несколько часов перешёл (или правильнее сказать перешла?) на одобрение идей Гитлера, поощрение геноцида, ненависть на расовой почве и другие агрессивные проявления (см. рис. 2, 3, 4, 5). Неудивительно, что «Тэй» отключили в течение суток после запуска, принеся извинения всем униженным и оскорблённым.

Позже, 30 марта, бот внезапно ненадолго снова объявился в Сети (видимо, сбежав из-под опеки санитаров Microsoft) и начал спамить пользователей бредовыми сообщениями, в том числе об употреблении наркотических веществ (см. рис. 6). Правда, попадались и вполне колоритные: «О, ну да! Извините, что ваша планка невероятно нереалистичных стандартов оказалась для меня высоковата! Придурок» (рис. 7).

Что с этим делать? Молиться… Ну, или пересмотреть все серии «Терминатора» в качестве наглядного пособия.

«Матрикснет»

Пока Microsoft успокаивает разбушевавшуюся искусственную девицу, «Яндекс» развивает своё творение — ​«Мат­рикснет». Эту технологию «Яндекс» начал использовать в своих алгоритмах в 2009 году, и сегодня продолжает её совершенствовать.

«Матрикснет», по сути, является ­методом машинного обучения, с помощью которого задаются формулы ранжирования поисковой выдачи по разным сегментам, т. е. сам по себе «Матрикснет» фактором ранжирования не является, он лишь задаёт «удельные веса» других факторов ранжирования в зависимости от того, к какому сегменту был отнесён поисковый запрос: фильм, музыка, ­магазин, ответ на вопрос, книга и т. д.

Обучение «Матрикснета» происходит с участием асессоров — ​специалистов, которые занимаются оценкой того, насколько та или иная страница подходит для ответа на поисковый запрос. Именно они на основе своих суждений создают обу­чающие выборки, на которых «Матрикснет» учится понимать, что такое «хорошая выдача», анализируя заданные факторы ранжирования страниц, попавших в ­обучающую выборку. ­Результаты ­своих изысканий ­«Матрикснет» ­переносит на реальную выдачу.
Как работать с такой системой и что учитывать нам, находящимся с другой стороны монитора?

Принимайте во внимание сегментную ориентированность, не ищите среднюю температуру по больнице, вместо этого старайтесь анализировать лидеров выдачи по вашему запросу и тянитесь к их уровню, а когда дотянетесь, проводите А/Б тесты, чтобы их превзойти.

RankBrain

Google недавно всё-таки смог обставить «Яндекс» в «домашнем матче», и теперь, по данным газеты «Ведомости», является наиболее популярным поисковиком Рунета. Новый алгоритм этого поисковика — RankBrain — самообучающаяся система искусственного интеллекта, которая сама, без участия асессоров, учится понимать шаблоны и экспериментирует с интерпретацией. Если результаты экспериментов удовлетворительные, то очередную версию выпускают в онлайн, закрыв возможность восприятия новой информации для ­обучения.

Компания Google подтвердила агентству Bloomberg использование системы в октябре 2015 года, и на тот момент RankBrain помогала в ранжировании примерно 15% поисковых запросов пользователей.

В июне 2016 года ситуация изменилась кардинально: в Сеть просочилась информация от Джеффа Дина, одного из старших научных сотрудников Google, о том, что RankBrain «вовлечён в работу над каждым запросом» и влияет на ранжирование выдачи «возможно, не каждого запроса, но очень большого их количества».

Чтобы разобраться, как можно участвовать в обработке всех запросов, но влиять на ранжирование только по некоторым, необходимо точнее понимать, как же, ­собственно, функционирует RankBrain.

На основе интервью, которое в июне 2016 года дал порталу SearchEngineLand представитель Google Гэри Илш, можно сделать вывод, что RankBrain используется в качестве инструмента, уточняющего запрос, а не влияющего буквально на позиции сайтов в выдаче по конкретным запросам. В случаях когда искусственный интеллект находит соответствие, более полно отвечающее требованию пользователя, происходит подмена выдачи.

Например, при получении запроса: «Где бы мне взять в аренду отдельный сервер, чтобы только мои сайты там были?», аналога которому, вполне возможно, в природе до сего момента не существовало, RankBrain переработает запрос и, не найдя полного совпадения, поймёт, что введённый пользователем запрос и «аренда выделенного сервера» — ​это одно и то же. Но по второму, более час­тотному запросу все данные уже собраны, качественная выдача сформирована. Тогда RankBrain возьмёт и подменит выдачу у низкочастотного запроса.

Как подобные изменения отражаются в Google Search Console — ​большой вопрос. Возможно, цифры показов/кликов по таким низкочастотным запросам упали до нуля, а их показатели уже приписываются к более высокочастотным. Но более вероятным представляется такой вариант: показатели так и продолжат отображать показы и клики, как раньше, но вот выяснить, какую же именно страницу поисковик показал по некоему запросу и какой из факторов оказал критичное воздействие для этого, стало ещё сложнее. Теперь возможны ситуации, когда у вас на сайте в принципе нет упоминания ключевого запроса, приведшего пользователя, так как страница была заимствована из выдачи по синонимичному запросу.

Что делать? Как и раньше: анализировать все данные, до которых можете дотянуться, проводить А/Б тестирования, создавать интересный и нужный контент и оптимизировать его, повышая показатель кликабельности (CTR) и время задержки (Dwell Time). По нашему мнению, это именно те самые два из трёх самых значимых факторов ранжирования, о которых умалчивает Google.

Продолжайте объяснять поисковым машинам, что вы не враг, а полезный партнёр и союзник.

FaceN

Из приложения Magic Dog, позволяющего распознать породу собаки по её фотографии, разработанного примерно полтора года назад Артёмом Кухаренко, родилась FaceN — ​нашумевшая недавно система распознавания лиц от NTechLab. По сути, это самообучающаяся искусственная нейронная сеть, обладающая возможностью интеграции с любой базой данных, содержащей фотографии людей, для ­поиска изображений по подобию.

Существующий алгоритм идентифицирует человека по чертам лица, которые не зависят (или не слишком зависят) от изменения выражения лица, возраста, наличия или отсутствия очков, ракурса съёмки, ­фона и освещения. Речь идёт о так называемых инвариантных признаках.

По данным «Эха Москвы», полицейские в регионах уже успешно используют приложение. Например в ситуации, когда человек переехал несколько лет назад из Удмуртии в Москву, оборвал все связи, его никто не ищет, он сменил паспорт, но лицо-то осталось тем же, что позволяет взять старые дела («висяки»), загрузить фотографию в FindFace и найти человека во «ВКонтакте». Сомневаться в том, что приложение будет захватывать всё большую долю рынка, не приходится: коммерческое применение сулит множество возможностей, перенося опыт онлайн-­идентификации пользователей в реальный мир.

Что делать? Пластическую операцию. Ну, или вспомнить опыт Штирлица и ­запастись накладными усами.

Выводы

Нужно понимать, что любое наше действие в Сети имеет внутри себя этап поиска. А значит, искусственный интеллект в самом ближайшем будущем будет сопровождать любую нашу интернет-­активность.

Эта новая технологическая реальность порождает вопросы как этические, так и прагматические. В частности, как изменится тактика работы специалистов по поисковой оптимизации. Наш ответ таков: практически никак. Изменится поведение пользователей: кто-то будет стараться вести себя прилично, чтобы не за что было краснеть в эпоху тотальной идентификации. Кто-то постарается обмануть машину и сохранить какое-то личное пространство. А SEO-специалисты будут по-прежнему договариваться с поисковиками. И мы, производители контента, а точнее наш продукт, — ​очень важный аргумент в этих переговорах.

Фото: shutterstock.com, twitter.com

Авг 29, 2016
Несколько слов о штатных и внештатных фотокорах
Фрилансер, создатель Telegram-канала и сайта «IT и медиа. Палач Говорит» Павел Городницкий докладывает о своих успехах
Подборка лучших региональных статей по версии ЖУРНАЛИСТА