Патент недели: когда компьютер знает, что вам нужно
При непосредственном участии Федеральной службы по интеллектуальной собственности («Роспатента») мы решили ввести на сайте рубрику «Патент недели». Еженедельно в России патентуются десятки интересных изобретений и усовершенствований — почему бы не рассказывать о них в числе первых.
Патент: 2699574
Авторы: Дмитрий Животворев, Виктор Ламбурт, Владимир Николаев, Евгений Соколов, Дмитрий Ушанов
Патентообладатель: Яндекс
Большинство пользователей, разыскивая информацию в сети, довольствуется популярными поисковиками, вбивая в строку поиска четко сформулированный запрос с возможными последующими уточнениями. Например, «главные достопримечательности Италии» или «главные достопримечательности Италии летом». Этот алгоритм основан на содержании страниц, на их контенте. Еще один алгоритм отбора и вывода нужной пользователю информации построен на его предыдущих запросах и действиях в сети. Например, на кликах по определенным заголовкам. Так формируется отвечающая запросам и привычкам пользователя выдача ссылок, которые могут содержать нужную информацию.
На точность подобной поисковой выдачи могут влиять, например, действия пользователя с т.н. «кликбейтными» заголовками, когда пользователь кликает по ссылкам и заголовкам, провоцирующим реакцию, но ведущим на содержание, не отвечающее на запрос пользователя. Например, страницу забитую рекламными баннерами. При этом некоторые системы будут ошибочно распознавать эти страницы как релевантные, поскольку пользователь так или иначе, поддавшись на «громкий заголовок», будет переходить на них, кликая по ссылке. А значит — и в дальнейшем такая система будет рекомендовать эти откровенно бесполезные страницы или массивы веб-контента другим пользователям.
Программное решение Яндекса фильтрует подобное «мусорное» содержание. Алгоритм машинного обучения анализирует не только обращение пользователя к веб-страницам по определенному запросу (клики и переходы), но и действия пользователя на открытых страницах. Например, запуск или отключение аудио- и видеоплееров, заполнение опросных форм, увеличение фотографий, прокрутки страниц. Алгоритм оценивает элементы веб-страниц по степени их необходимости пользователю. Далее алгоритм ранжирует страницы по количеству элементов, с которыми зафиксировано действие пользователя, а затем — модифицирует выдачу по следующим подобным запросам в соответствии с результатами проведенного анализа.
Фактически, алгоритм обучения рассматривает каждый элемент страницы в отдельности, анализируя, насколько отдельный элемент был полезен пользователю. Оценка релевантности строится не на содержании страницы, а на анализе и оценке отдельных «полезных» элементов этого содержания. И чем больше на странице таких «полезных» элементов, к которым зафиксировано «позитивное» обращение пользователя — например, увеличение и просмотр фото, дочитывание материала, «разворачивание» дополнительных меню, тем чаще ссылка на эту страницу будет появляться в последующих поисковых выдачах по определенному запросу. А значит, вероятность найти нужную информацию в интернете, локальной сети или на подключенном сервере, с каждым новым запросом будет гораздо выше. И с течением времени эта вероятность будет все более определенной.
Подробности изобретения — в опубликованном патенте.