ЙщіЩШшщ
ШШШМ№ (Кожаныедивоны v j ИШЬ
Результаты поиска строга* "Отправки SHS и» ICQ Отправка SUS на ICQ /
Строка
КОЛЛЕКЦИЯ НЕБНИ
Шшпшм
....... ФОТШЕМЯ
«1ШШ№
Рис. 21.1. Пример сайта, на страницах поиска которого из-за ошибки в программи- ровании можно разместить любую ссылку
Анализ бэклинков большинства хорошо ранжируемых поисковыми системами коммерческих сайтов показывает, что доля ссылок, полученных явно «серыми» методами, составляет не менее половины от общего их количества.
21.3. Выводы
Отсутствие строгих правил определения естественности ссылок делает возможным использование ряда методов для быстрого получения большого количества ссылок на продвигаемый сайт. Эти методы, как показывает практика, часто оказываются эффективными.
Сайты, которые используют вышеописанные приемы, штрафуются поисковыми системами избирательно, поэтому такие спорные технологии продвижения носят название «серых» методов. С одной стороны, очевидна искусственность данных ссылок, с другой — есть результат, и нет стопроцентной гарантии бана или иных штрафных санкций. Это является причиной повсеместного применения подобных «серых» технологий.
Хорошим способом выявления «серых» технологий ссылочного продвижения яв- ляется анализ ссылающихся ресурсов (анализ бэклинков).
21.4. Полезные ссылки
□ В статье Андрея Иванова «Темная сторона Силы» детально описан метод полу- чения ссылок с несуществующих страниц результатов поиска. Статья находится по адресу http://www.optimization.ru/subscn'be/179.html.
□ Статья Андрея Иванова «Сага о белых каталогах» рассказывает о феномене «белых каталогов», причине их появления, способах их использования для наращивания авторитетности сайта и увеличения количества ссылок на про- двигаемый сайт с нужными текстами. Прочитать статью можно по адресу http:// www.optimization.ru/subscribe/183.htmL
□ В статье Андрея Иванова «Бан как плата за лень» рассказано о рисках разме- щения на сайте автообменных каталогов. Статья расположена по адресу http:// www.optimization.ru/subscribe/185.html.
□ Техника оценки сайта с целью определения, учитываются ли ссылки с него для расчета ссылочного ранжирования, описана в статье Андрея Иванова «В поисках Святого Грааля, размышления о непотах» по адресу http://www.optimization.ru/ subscribe/186.html.
Глава 22
О машинном обучении, качестве поиска и стратегии поисковой оптимизации
В этой главе рассказывается о проблеме оценки качества работы поисковых машин в современных условиях работы автоматических алгоритмов обучения. О том, как обучаются поисковики, и каким образом это можно использовать для планирования работ по поисковому продвижению.
22.1. Сколько факторов влияют
на ранжирование документов в поисковых машинах
В главе 14 «Коррекция сайта для продвижения в поисковых системах» мы упомя- нули, как можно оценивать свои действия по продвижению сайта и прогнозировать результат:
Надо любое действие по оптимизации сайта рассматривать как повышаю- щее или понижающее вероятность ожидаемого события, тоесть повышения позиции страницы в результатах поиска.
Например, можно совершенно точно предсказать, что если на какой-то стра- нице не употребляется ни разу слово И/и на эту страницу никто не ссылается по слову \Л/, то эта страница не попадет в результаты поиска по запросу И/. Столь же уверенно можно сказать, если на странице будет только мно- го слов И/ и никаких других — сайт будет либо забанен, либо в результате «пессимизации» поисковиком окажется очень глубоко в результатах поиска, намного ниже зоны видимости. Крайние результаты прогнозировать неслож- но, а истина находится где-то посередине, и критерием ее служит удобство читателей.
Важным в этом утверждении является вывод — необходимо ориентироваться на удобство читателей, пытаясь что-то менять на сайте с целью улучшения его позиций в результатах поиска.
Но традиционная практика поисковой оптимизации подразумевает «воздействие» вовсе не на удобство читателей, а на некие «факторы ранжирования», которые поисковые системы (по предположениям оптимизаторов) принимают в расчет. Если почитать БЕО-периодику и форумы, станет понятно, что специалисты по продвижению много говорят о «повышении тИЦ», «увеличении PageRank», «росте ссылочной массы», «весах ключевых слов», «уникальных текстах», «внутренней перелинковке», «анкор-текстах», «передаваемом ссылкой весе», «портяночном фильтре», «АГС-17», «песочнице» и других вещах, которые к удобству читателей прямого отношения не имеют.
Оптимизаторам кажется логичным пытаться воздействовать именно на факторы ранжирования. Но у этой логики есть серьезный изъян — очень сложно решить, что нужно делать, если факторы не только толком не известны, но и к тому же их слишком много. А за последние годы, по сведениям, поступающим от разработ- чиков поисковиков и внешних аналитиков, количество факторов ранжирования значительно увеличилось. В «Полезных ссылках» в конце данной главы есть адреса статей, по хронологии которых можно проследить процесс расширения множества факторов.
□ В работе Сергея Людкевича и Евгения Есипова (2002- 2003 год) рассказывается о десятке основных факторов, влияющих на релевантность документа поиско- вому запросу.
□ К 2006 году количество известных оптимизаторам факторов ранжирования, учитываемых поисковой системой Google, возросло до 118. К 2010 году — до 130-200.
И наконец, 17 ноября 2009 года «Яндекс» опубликовал версию поиска, опираю- щуюся на алгоритм машинного обучения MatrixNet (Матрикснет), о котором сказано так:
Нам удалось создать более точную и гораздо более сложную математическую модель, которая привела к существенному приросту в качестве поиска. Благо- даря переработке архитектуры ранжирования в поиске удалось реализовать учет нескольких тысяч поисковых параметров для одного документа.
На многих веб-страницах меньше букв, чем число ныне учитываемых «Яндексом» поисковых параметров. Очевидно, что в таких условиях вопрос о стратегии поиско- вой оптимизации нуждается в некотором переосмыслении. Успешно влиять сразу на тысячи факторов нереально, поэтому кажется необходимым определить, какие из этих факторов являются наиболее важными с точки зрения разработчиков поиска.
Но оказывается, сами разработчики поиска тоже не знают, какие именно факторы окажутся решающими для ранжирования результатов поиска в ответ на тот или иной запрос, скажем, завтра в 10 утра. Выявление и взвешивание этих факторов поручено компьютеру, то есть алгоритму машинного обучения, который постоянно «перевзвешивает» факторы.
22.2. Машинное обучение
О том, как это делается, лучше всего прочитать в документе «Матрикснет — новое качество поиска Яндекса». Ссылка на этот документ есть в приложении к данной главе, но здесь стоит привести его почти полностью.
КАЧЕСТВО ПОИСКА
Основная задача поисковой системы — дать ответ на вопрос пользователя. Когда пользователь задает запрос, поисковая система не обращается к каж- дому сайту в Интернете, а ищет по базе известных ей страниц — поисковому индексу. Там она находит все страницы со словами из запроса. Ссылки на эти страницы пользователь и видит на страницах результатов поиска.
Упорядочивание результатов поиска в соответствии с запросом пользовате- ля называется ранжированием. Именно ранжирование определяет качество поиска — то есть качество ответа на вопрос, заданный в поисковой строке.
МАШИННОЕ ОБУЧЕНИЕ
Невозможно написать для поисковой системы программу, в которой пре- дусмотрен каждый запрос и для каждого запроса известен лучший ответ. Запросов к Яндексу очень много — более 100 миллионов каждый день, и при- мерно половина из них — неповторяющиеся. Поэтому поисковая система должна уметь принимать решения самостоятельно. Для этого ей нужно уметь обучаться.
Задача научить машину обучаться существует не только в поисковых тех- нологиях. Без машинного обучения невозможно, например, распознавать рукописный текст или речь. Термин «машинное обучение» появился еще в 50-х годах. Этот термин обозначает попытку научить компьютер решать задачи, которые легко даются человеку, но формализовать путь их решения сложно. В результате машинного обучения компьютер может демонстриро- вать поведение, которое в него не было явно заложено.
Поисковая система должна научиться строить правило, которое опреде- ляет для каждого запроса, какая страница является хорошим ответом на него, а какая — нет. Для этого поисковая машина анализирует свойства веб-страниц и поисковых запросов. У всехстраницесть какие-то признаки. Некоторые из них — статические — связаны с самой страницей: напри- мер, количество ссылок на эту страницу в Интернете. Некоторые призна- ки — динамические — связаны одновременно с запросом и со страницей например, присутствие в тексте страницы слов запроса, их количество и расположение. У поискового запроса тоже есть свойства, например геоза- висимость, — это означает, что для хорошего ответа на этот запрос нужно учитывать регион, из которого он был задан. Свойства запроса и страницы, которые важны для ранжирования и которые можно измерить числами, на- зываются факторами ранжирования. Для точного поиска важно учитывать очень много разных факторов.
Кроме факторов ранжирования поисковой системе необходимы образ- цы — запросы и страницы, которые люди считают подходящими ответами на эти запросы. Оценкой того, насколько та или иная страница подходит для ответа на тот или иной запрос, занимаются специалисты — асессоры. Они берут поисковые запросы и документы, которые поиск находит по этим запросам, и оценивают, насколько хорошо найденный документ отвечает на заданный запрос. Из запросов и хороших ответов составляется обучающая выборка. Она должна содержать самые разные запросы, причем в тех же пропорциях, в которых их задают пользователи. На обучающей выборке поисковая система устанавливает зависимость между страницами, которые асессоры посчитали релевантными запросам, и свойствами этих страниц. После этого она может подобрать оптимальную формулу ранжирования, которая показывает релевантные запросу сайты среди первых результатов поиска.
На примере это выглядит так. Допустим, мы хотим научить машину выбирать самые вкусные яблоки. Асессоры в этом случае получают ящик яблок, пробу- ют их все и раскладывают на две кучи: вкусные -»■ в одну, невкусные — в дру- гую. Из разных яблок составляется обучающая выборка. Машина пробовать яблоки не может, но она может проанализировать их свойства. Например — какого они размера, какого цвета, сколько сахара содержат, твердые или мягкие, с листиком или без. На обучающей выборке машина учится выби- рать самые вкусные яблоки — с оптимальным сочетанием размера, цвета, кислоты и твердости. При этом могут возникать какие-то ошибки. Например, поскольку машина ничего не знает про червяков, среди выбранных яблок могут оказаться червивые. Чтобы ошибок было меньше, нужно учитывать больше признаков яблок.
МАТРИКСНЕТ
Машинное обучение применяется в поисковых технологиях с начала 2000-х го- дов. Разные поисковые системы используют разные модели. Одна из проблем, которые возникают при машинном обучении, — переобучение.
Как это выглядит: когда компьютер оперирует большим количеством факто- ров (в нашем случае это признаки страниц и запросов), а размер обучающей выборки (оценок асессоров) не очень велик, компьютер начинает искать и находить несуществующие закономерности. Например, среди всех оценен- ных страниц могут оказаться две с какой-то сложной комбинацией факторов, например с размером 2 кб, фоном фиолетового цвета и текстом, который начинается на букву «я». И обе эти страницы окажутся релевантными запросу [яблоко]. Компьютер начнет считать эту случайную комбинацию факторов важным признаком релевантности запросу [яблоко]. При этом все важные документы про яблоки, которые такой комбинацией факторов не обладают, покажутся ему менее релевантными.
В 2009 году Яндекс внедрил новый метод машинного обучения — Матрикснет, Важная особенность этого метода в том, что он устойчив к переобучению. Это позволяет учитывать очень много факторов ранжирования и при этом не увеличивать количество оценок асессоров и не опасаться, что машина найдет несуществующие закономерности.
С помощью Матрикснета можно построить очень длинную и сложную фор- мулу ранжирования, которая учитывает множество различных факторов и их комбинаций. Другие методы машинного обучения позволяют либо строить более простые формулы с меньшим количеством факторов, либо нуждаются в большей обучающей выборке. Матрикснет строит формулу с десятками тысяч коэффициентов. Это позволяет сделать существенно более точный поиск.
Еще одна важная особенность Матрикснета в том, что формулу ранжирова- ния можно настраивать отдельно для достаточно узких классов запросов. На- пример, улучшить качество поиска только по запросам про музыку. При этом ранжирование по остальным классам запросов не ухудшится. Для примера можно представить себе формулу ранжирования в виде сложного механизма с большим количеством ручек. На механизмах, построенных по другим техно- логиям, каждая ручка влияет на все запросы. Матрикснет дает возможность настроить каждую ручку отдельно для своего класса запросов.
РАНЖИРОВАНИЕ
Поскольку поисковая система работает с очень большими объемами инфор- мации, по каждому запросу ей нужно проверить признаки миллионов страниц, определить их релевантность и соответственно упорядочить так, чтобы свер- ху оказались более подходящие страницы. Чтобы проверить свойства всех страниц по очереди, нужно либо очень много серверов, которые могут быстро
обработать информацию обо всех страницах, либо очень много времени, а по- иск должен работать быстро, иначе пользователи не дождутся результатов. Матрикснет позволяет проверить очень много факторов за короткое время и без существенного увеличения вычислительных мощностей.
Поиск ведется одновременно на тысячах серверов. Каждый сервер ищет по своей части индекса и формирует список самых лучших результатов. В него гарантированно попадают все самые релевантные запросу страницы.
Дальше из этих списков составляется один общий, и страницы, попавшие туда, упорядочиваются по формуле ранжирования — той самой длинной и сложной формуле, построенной с помощью Матрикснета, с учетом всех факторов и их комбинаций. Таким образом, наверху поисковой выдачи ока- зываются все самые релевантные сайты — и пользователь почти мгновенно получает ответ на свой вопрос.
22.3. Качество поиска
Если вышеприведенный текст очистить от примеров, аналогий и математики, мы получим сухой остаток.
1. Когда пользователь видит результаты поиска, у него возникает ощущение — ему нашли и показали примерно то, что он хотел, или не то. Это ощущение и опи- сывает качество поиска с точки зрения пользователя.
2. У разных людей — разные ощущения, и их не всегда можно сформулировать четко. Для улучшения качества поиска нужно измерять и учитывать все эти ощущения в совокупности.
3. Оценкой того, насколько та или иная страница подходит для ответа на тот или иной запрос пользователя, занимаются специалисты — асессоры. Они берут поисковые запросы и документы, которые поиск находит по этим запросам, и оценивают, насколько хорошо найденный документ отвечает на заданный запрос.
И далее следует описание собственно принципа обучения.
Из запросов и хороших ответов составляется обучающая выборка. На обучаю- щей выборке поисковая система устанавливает зависимость между страницами, которые асессоры посчитали релевантными запросам, и свойствами этих стра- ниц. После этого поисковая система может подобрать оптимальную формулу ранжирования, которая показывает релевантные запросу сайты среди первых результатов поиска.
Иными словами, при машинном обучении в верхние результаты поиска попада- ют страницы, обладающие набором тех признаков страниц обучающей выборки, которые асессоры поисковой машины оценили как наиболее соответствующие запросам. Отметим, асессоры оценивают не «тысячи факторов», которые они не могут удержать в уме, как и любой человек, а свои пользовательские ощущения от соответствия (или несоответствия) веб-страницы поисковому запросу, от содер- жания и оформления этой страницы.
Результат формулируется в виде эталонной пары «поисковый запрос — адрес (URL) хорошего ответа». Дальше алгоритм пытается лишь воспроизвести эту ситуацию для новых запросов, сравнивая схожесть каждого нового запроса и ад- реса с эталоном, конечно, с учетом «тысяч факторов и их комбинаций», «мнений разных асессоров», «репрезентативности выборки», «устойчивости к переобуче- нию» и т. п.
Такой подход действительно значительно повышает качество поиска, что можно видеть, в частности, на графиках Анализаторов качества поиска, о которых мы здесь уже писали (www.analyzethis.ru). Как сказано в документе «Яндекса», этот подход помогает «решать задачи, которые легко даются человеку, но формализовать путь решения которых сложно».
Но ведь «ощущения» человека, в том числе асессора «Яндекса», зависят от его ожиданий. Если ребенку вместо воды налить водки, он не обрадуется такой замене. А через тридцать лет тот же самый человек вряд ли обрадуется, если ему в водочной рюмке на застолье подадут чистую воду.
Таким образом, качество поиска в поисковых системах с машинным обучением пол - ностью зависит от ожиданий асессоров, направленных на результаты поиска. За- висит также от их возраста, образования и опыта работы, интернет-стажа, уровня и методики подготовки, привычек, представлений о хорошем и плохом, круга их общения и т. п. Одним словом, от представлений асессоров о том, каким должен быть по-настоящему качественный поиск. Ясно, что разработчикам поисковика стоит задуматься, насколько верны эти представления, каким образом асессоры их получают, можно ли ими управлять?
Разговор о проблемах управления поиском асессорами выходит за рамки данной книги. Здесь мы остановимся лишь на том, что может пригодиться веб-мастерам для продвижения сайтов.
22.4. Стратегия поисковой оптимизации для алгоритмов с машинным обучением
Стратегию продвижения в поиске с машинным обучением можно выразить кратко: постарайтесь оценить свой сайт так, как это сделал бы асессор поиска.
А как он это делает? Вы вряд ли найдете в Интернете подробные описания того, каким образом работают асессоры «Яндекса» и Google, но общее представление об их методиках получить несложно.
Ежегодно с 2003 года проводится Российский семинар по оценке методов инфор- мационного поиска (РОМИП), на котором разработчики поиска тестируют свои системы с помощью асессоров, сверяя результаты автоматической и ручной раз- метки. «Инструкция асессора для дорожки поиска по веб-коллекции» есть в Сети (см. ссылку на нее в конце главы). Вот несколько отрывков из Инструкции.
Описание запроса — это ваше понимание того, что искал пользователь, задавший этот запрос, и какие ответы были бы ему полезны. Обратите вни- мание, что целью поиска может быть не только поиск информации или ответа на вопрос, но также и, например, поиск новостей о каком-то событии, поиск сайта или онлайн-сервиса, поиск каких-то ресурсов, не являющихся частью страницы с ответом (музыка, видео, реферат и др.), поиск коммерческих предложений, а не информации (где купить тур в Болгарию, а не того, какие вообще бывают варианты поездок), и другие...
Идеальный ответ подразумевает, что, получив такой результат, в принципе, дальше можно не искать. Для запросов, которые подразумевают сбор ин- формации по теме, а не поиск конкретных фактов, — это документ, который позволяет составить относительно полное представление о теме. В ряде случаев идеальных ответов не существует...
Попробуйте представить себя на месте человека, задавшего запрос, и от- ветить на следующие вопросы.
Что является целью поиска:
♦ информация (ответ на вопрос, сбор информации по теме, новости);
♦ нахождение конкретного сайта или документа;
♦ поиск ресурсов, на которые есть ссылки со страниц (скачать песню или книгу, найти игру, посмотреть видео или фотографии).
Сколько ответов возможно на запрос:
♦ существует один конкретный ответ (который при этом может быть повто- рен во многих документах);
♦ вероятнее всего, информацию придется собирать по кусочкам. Что такое «не полный, но полезный» ответ...
Ключевое правило — используйте ваш здравый смысл и попробуйте представить себя на месте человека, задавшего этот запрос...
Итак, круг замкнулся довольно характерным образом:
□ веб-мастеру, чтобы успешно оптимизировать сайт, необходимо представить себя асессором поиска;
□ асессору поиска, чтобы успешно оценивать сайт, предлагается представить себя пользователем, задавшим запрос;
□ о пользователях «Яндекса» сказано так: «У разных людей — разные ощущения, и их не всегда можно сформулировать четко».
Безусловно, все люди разные, но с точки зрения веб-мастера, поисковика и рекламной системы пользователи не уникальны. Конечно, каждый человек уникален, но пол- ную уникальность стоит учитывать лишь в генетическом анализе и дактилоскопии. Производители большинства товаров и услуг успешно обходятся наиболее общими характеристиками потребителей. В частности, к ним относятся следующие:
□ тендерные (люди делятся на мужчин и женщин);
□ возрастные (кто пользователь — ребенок, взрослый, старик);
□ материальные (у людей разные уровни доходов);
□ физиологические (все люди хотят есть и пить) и т. п.
И рекламу показывают пользователям согласно этим общим характеристикам.
При оценке ощущений от результатов поиска обобщающие характеристики тоже существуют. Мы насчитываем их всего шесть: осмысленность, авторизованность, авторитетность, оформление, полнота и структура.
Рассмотрим их подробнее.
Date: 2015-09-25; view: 414; Нарушение авторских прав Понравилась страница? Лайкни для друзей: |
|
|