Как вычисляется ранг страницы____
Теоретически идея автоматического использования ссылок для вычисления авторитета страницы выглядит просто: возьмем матрицу всех ссылок всех страниц Интернета друг на друга, то есть фактически «Интернет в квадрате». Получится матрица гигантских размеров — скажем, двадцать миллиардов на двадцать миллиардов.
Теперь начнем учитывать ссылки страниц друг на друга. Сначала присвоим всем страницам равный вес (ранг). Затем, начиная с какого-нибудь угла этой огромной матрицы, начнем пересчитывать вес страниц и ссылок примерно таким образом: если на страницу ссылается много страниц (т. е. у нее много «входящих» ссылок), то ее ранг повышается (по некоторой относительно простой формуле).
Будем также учитывать и ранг ссылок. Ведь ссылка с важной страницы лучше ссылки с малозначимой страницы, не так ли? Если на вас сослался президент в своей ежегодной речи, то это более ценно, чем если вас вчера упомянул во дворе дворник.
Итак, при расчете ранга страницы нужно учесть вес каждой «входящей» ссылки.
Наоборот, если со страницы с неким рангом «уходит» несколько ссылок, разделим ранг страницы между всеми ссылками. Действительно, если пре- зидент в своей речи сослался исключительно на вас одного — это серьезное событие. Если же он зачитал список из двухсот имен, среди которых было и ваше, то это тоже почетно, но в меньшей степени.
Таким образом, если на страницу ссылается очень авторитетный ресурс, то и ранг самой страницы повышается. Правда, если этот авторитетный ресурс ссылается еще на тысячи других страниц (скажем, каталог Yahoo!), то авторитет каталога «размажется» по всем тысячам ссылок и нам от него достанется немного (другими словами, ранг нашей страницы повысится незначительно).
Заметим, что, завершив первый цикл пересчета матрицы связей Интерне- та, нам придется вернуться к началу и пересчитать все ранги еще раз, так как ранги страниц, ссылающихся на самые первые страницы (с которых мы начинали), уже изменились. И таких повторений пересчета (так называемых итераций) придется сделать много.
В ходе разработки алгоритма создателям Google пришлось доказать эргоди- ческую теорему о том, что процесс пересчета матрицы сойдется, как говорят математики. Получается, что на самом деле достаточно пересчитать матрицу всего несколько раз, чтобы ранги страниц уже были более-менее стабильны и ими можно было пользоваться в поисковике для расчета релевантности.
Для расчета авторитетности сайта нужно пересчитывать гигантские таблицы ссылок с длиной, равной количеству всех страниц в Интернете. Технически задача такого пересчета гигантских матриц очень сложна. Именно поэтому даже спустя шесть-семь лет после запуска Google пересчитывает свой индекс не так уж часто, поскольку для пересчета матрицы связей требуются огромные вычислительные мощности.
Зато и выигрыш в релевантности поиска в Google был значительным. Сейчас, спустя много лет, все поисковые машины (в том числе «Яндекс» и «Рамблер») применяют расчет авторитетности страницы и ссылочный ранг в том или ином виде для вычисления релевантности результатов поиска.
Со временем идея вычисления авторитетности страницы была усовершенствована за счет учета текста на ссылках. Действительно, почти каждая ссылка в Интерне- те представляет собой какой-то текст (под него и «подложен», собственно, адрес страницы, на которую ссылаются). Естественно учитывать этот текст при расчете ранга той страницы, на которую ведет ссылка. Так возникает ссылочный ранг стра- ницы — ранг, учитывающий тему ссылок.
ССЫЛОЧНЫЙ РАНГ СТРАНИЦЫ_______________________________________
Допустим, автор сайта написал у себя на сайте фразу «хорошие стрелялки и мочилки для мобильников» и дал под ней ссылку на некоторую страницу X, рассказывающую об играх для мобильных телефонов. Ясно, что эти слова нужно как минимум добавить к индексу этой страницы X, даже если на ней самой этих слов нет и если она рассказывает о мобильных играх в более «академическом» стиле.
Аесли ссылку на страницуХ со словом «стрелялки» дали многие веб-мастера, то и вес слова «стрелялки» для страницы Xнадо существенно повысить (хотя его вообще нет на странице X).
Например, в «Яндексе» можно заметить использование ссылочного ранга, когда в результатах поиска страница помечается как «найдено по ссылке». Это значит, что страница показана в результатах поиска не потому, что на ней часто встречается ваш запрос, а потому, что он часто встречается на других страницах в ссылках на эту страницу.
Для веб-мастера понятие ранга страницы чрезвычайно важно, ибо с помощью управ- ления ссылками, ведущими на сайт и уходящими с сайта, можно влиять на свой ссылочный ранг и, значит, на свое положение в поисковых машинах.
6.6. Какая поисковая машина лучше
Споры о том, какая поисковая машина лучше, иногда напоминают религиозные войны. Придется и нам уделить этому вопросу несколько строк.
Чем поисковые машины отличаются друг от друга
Поисковые машины отличаются друг от друга набором своих возможностей, функ- циональностью, удобством. Большинство из них — Google, Yahoo!, MSN, «Яндекс», Mail.ru и «Рамблер» — уже перешагнули границу между простым поисковиком и порталом, они занялись созданием большого количества самых разнообразных сервисов, призванных удовлетворить все потребности любого пользователя и удер- жать его на портале.
Здесь заложен некий идеологический конфликт между моделью поисковика (когда нужно добиться, чтобы пользователь как можно быстрее ушел с сайта, сразу найдя нужное) и моделью портала, когда хочется удержать пользователя как можно дольше, но похоже, что выбор в пользу «портальности» в мировом масштабе уже сделан.
Даже Google, долгое время сохранявший узкофокусированную модель бизнеса лучшего поисковика в мире и щеголявший строгим минималистским дизайном (одна поисковая строка на странице), начал двигаться в сторону «портальности», выпуская множество сервисов в год.
Сейчас практически все поисковики кроме поиска показывают каталог сайтов, погоду, курсы валют, карты, ТВ-программы, киноафишу и пр. В этом смысле сравнивать поисковики между собой совершенно бессмысленно — каждый поль- зователь выбирает наиболее удобный набор сервисов, и здесь нет товарищей на вкус и цвет.
Что касается собственно поисковых машин в составе этих порталов, то они также могут значительно отличаться количеством документов в базе, возможностями поиска в дополнительных базах (поиск картинок, видео, новостей или по блогам энциклопедиям) частотой обновления данных и т. д.
Например, глобальные поисковики ищут по всей мировой сети, а отечественные поисковики в основном — только по Рунету. Зато отечественные поисковики на- ходят больше документов на русском языке, поскольку лучше знают структуру Рунета и правильнее справляются с русским языком.
Что лучше? Это в значительной степени зависит от задач пользователя. Тут тоже очень много параметров и различных возможностей. Поэтому выбор поисковика по душе очень зависит от разных социальных факторов: известности бренда, объема рекламы, удобства и т. п. Другими словами, от того, сколько сил и средств владельцы поисковика вложили в маркетинг, удобство и дизайн.
Но, казалось бы, поисковики как минимум должны отличаться друг от друга своим главным свойством — релевантностью.
У кого релевантность выше?
К сожалению, этот вопрос не имеет большого смысла, и вот почему.
Как говорилось выше, запросы бывают нескольких типов, а все поисковые машины имеют свои особенности в обработке разных типов запросов.
Например, Google по-прежнему лучше всех ищет место, то есть обрабатывает на- вигационные запросы. Если вы захотите найти сайт какой-то компании, то Google в большинстве случаев выведет его на первое место. А «Яндекс», наоборот, лучше обрабатывает информационные запросы, когда пользователю все равно, где лежит информация. «Яндекс» с большей гарантией выведет на первую страницу требуе- мый адрес или телефон, цитату и прочие кусочки информации, которые нужны пользователю, независимо от их местонахождения.
Кроме того, пользователи имеют свои индивидуальные пристрастия к определен- ным типам запросов. Как же тогда объективно оценить качество?
Если, например, пользователь склонен вводить навигационные запросы, то есть искать сайты компаний, он будет уверен, что Google — лучший. Потому что Google вполне объективно помогает ему лучше остальных поисковиков. А если пользо- ватель чаще ищет цитаты, да еще редкие, он предпочтет «Яндекс». И оба будут спорить до хрипоты, поскольку чувствуют, что их любимая поисковая маши- на — лучше.
Существуют, конечно, формальные тесты релевантности поисковых машин[7], но и они никого из обычных пользователей не убеждают. Если Google постоянно нахо- дит то, что вам нужно, а «Яндекс» — нет, и все ваши знакомые с вами согласны, то при чем тут тесты?
Казалось бы, тогда наиболее объективным внешним показателем должна быть по- сещаемость поисковика — ведь если поисковик более популярен, то он лучше? Но тут вступают в действие те самые социальные факторы: бренд, маркетинг, удобство, привычка — и окончательно запутывают картину. Почему популярен тот или иной поисковик — только благодаря качеству или также из-за хорошего маркетинга?
На самом деле для вас, как для владельца сайта, это вообще не имеет значения.
Главный критерий
Давайте вспомним, о чем эта книга. Она о том, как с помощью поисковых машин привлечь на сайт целевую аудиторию и развить свой бизнес. Поэтому для вас, как владельца сайта, главный критерий качества поисковой машины, состоит не в том, насколько «круче» технически тот или иной поисковик, а в том, насколько хорошо виден в нем ваш сайт и сколько целевых посетителей поисковик приводит на него.
Если самый «крутой» и популярный поисковик почему-то не приводит к вам целе- вых посетителей, а второй или третий по популярности — приводит, то в настоящий момент для вас лучше именно он — аутсайдер.
Таким образом, если отбросить эмоциональные рассуждения пользователей и по- дойти к вопросу качества поисковика утилитарно, то хорош будет тот поисковик, который полезен вам, как владельцу сайта.
Все следующие главы этой книги и посвящены тому, как извлечь пользу из поис- ковиков.
6.7. Выводы
Из данной главы вы узнали, как работают поисковые машины. Поисковый индекс, в сущности, довольно простая вещь, аналогичная предметному указателю в книге.
Чтобы ваш сайт попал в поисковый индекс и стал доступен для поиска, необходимо, чтобы все страницы сайта стали известны поисковому роботу и чтобы последний мог легко выкачать сайт для индексирования.
В следующей главе мы более подробно расскажем, какие конкретные свойства и
привычки поисковых роботов веб-мастер должен принимать во внимание, чтобы
его сайт стал доступен и удобен для индексирования.
6. 8. Полезные ссылки
□ Предлагаем вам ознакомиться со списком поисковых систем стран мира по адресу http://www.philb.com/countryse.htm. Этот список наглядно иллюстрирует важность поисковых механизмов в Интернете.
□ Важная статья «Как работают поисковые системы» Ильи Сегаловича, которую можно скачать по адресу http://download.yandex.ru/company/iworLd-3.pdf, имеет также и краткий глоссарий по данной теме.
□ Еще одна статья Ильи Сегаловича, написанная в соавторстве с Михаилом Мас- ловым, «Некоторые аспекты полнотекстового поиска и ранжирования в Ян- декс», описывает теорию информационного поиска и техники, применяемые в поиске «Яндекса» (http://download.yandex.ru/company/experience/romip2004/ romip2004_aspects.pdf).
□ Понять, как работает язык запросов поисковой системы «Яндекс», лучше на практике, описание операторов вы найдете на странице http://help.yandex.ru/ search/?id=1111367.
□ Полезно ознакомиться со статьей «Общие сведения о работе поисковой систе- мы Рамблер» (http://help.rambler.ru/article. html?s=151&id=521), в которой даются базовые сведения о характеристиках поисковой машины.
□ Язык запросов поисковой системы «Рамблер» имеет некоторые сходные опе- раторы с языком «Яндекса», но его можно изучить отдельно в разделе на сайте http://help.rambler.ru/artide.html?s=151&id=229.
□ Сравнить качество поиска нескольких популярных поисковых машин можно с помощью данных, собираемых анализаторами поисковиков. Найти анализаторы можно на сайте http://www.analyzethis.ru/.
□ Новость о смене поискового движка на Поиске@МаИ.ги появилась в декабре 2009 года, ее можно прочитать на сайте портала по адресу http://corp.mail.ru/ news.html?action=show&id=869. С января 2010 года Поиск ©Mail.ru работал на поиске собственной разработки и стал отдельным заметным игроком поискового рынка в России, обогнавшим «Рамблер». С осени 2010 года Поиск@Май.ги стал использовать движок Google.
□ О дате ввода подсказок в поиске «Яндекса» можно прочесть в официальных новостях компании, архив 2008 года — http://company.yandex.ru/news/press_ releases/2008/1015/.
□ 12 октября 2009 года «Яндекс» запустил новую поисковую платформу «Ар- замас» — поиск с учетом региона. Прочесть об этом можно в официальных новостях компании, архив 2009 года — http://company.yandex.ru/news/press_ releases/2009/1012/.
□ Подробно узнать о поиске с учетом региона можно на сайте «Яндекса» http:// company.yandex.ru/technology/regions/.
Глава 7
Как сделать сайт доступным для поисковых систем
В данной главе вы у знаете о том, как добиться корректной индексации сайта, что нужно сделать, чтобы поисковая система включила страницы вашего сайта в список доступных для поиска, и как можно управлять индексацией страниц.
7.1. Факторы, влияющие на индексацию сайта
Из главы 1 «Предложение и поиск информации в Интернете» вы узнали, почему важно, чтобы сайт появился в результатах поиска. Для этого поисковая система должна включить страницы сайта в свой индекс. В главе б вы прочитали об уст- ройстве поисковиков.
Теперь поговорим о том, как сделать, чтобы робот поисковика беспрепятственно проиндексировал ваш сайт, а также о том, как можно управлять поведением поис- кового робота на сайте.
Существует несколько факторов, значительно влияющих на индексацию страниц сайта и дальнейшее ранжирование ссылок на документы в результатах поиска на поисковых системах. Рассмотрим их подробно.
Адреса страниц
Как вы помните из предыдущей главы, «знакомство» поискового робота и вашего сайта начинается с того, что робот заносит адреса страниц сайта в список для по- следующей индексации.
Статические адреса
Если на сайте с текстами всего несколько страниц, то обычно их адрес имеет вид www.site.ru/servke.html. Такие страницы представляют собой обычный HTML- файл, находящийся на веб-сервере, содержимое этой страницы одинаково и для каждого посетителя, зашедшего на сайт, и для поискового робота, то есть оно — статическое. Адреса таких страниц тоже называют статическими. Это самый простой вариант адресов, и поисковые роботы успешно индексируют подобные страницы.
Динамические адреса
Когда сайт разрастается, на нем часто обновляется информация или существует ре- гистрация пользователей для входа в скрытые разделы, создать такой сайт, исполь- зуя только статические страницы, будет очень трудно. В этом случае применяют серверные скрипты — программы, написанные на языках веб-программирования (PHP, Perl, ASP, JSP или CFML), которые выполняются сервером. Получается, что в виде готовых файлов страниц сайта как бы не существует — они создаются «на лету» серверными скриптами при обращении к серверу и потом показываются пользователю или поисковому роботу. Адреса у таких страниц характеризуются как расширением файлов (.php,.pl,.cgi, jsp), так и наличием в адресе символов?, &, =, например:
www.site.ru/script php?page=service&mode=show.
В настоящее время основные поисковые системы успешно работают с динамиче- скими страницами, но с некоторыми оговорками. В некоторых поисковых системах квоты на количество индексируемых страниц отличаются для динамических и статических страниц (не в пользу первых). Поэтому на сайте желательно иметь статические адреса страниц, даже если в основном страницы создаются динами- чески с помощью скриптов.
Привести адреса страниц к псевдостатическому виду можно с помощью инструкций в файле.htaccess, который позволяет настраивать работу веб-сервера Apache в каж- дом каталоге вашего сайта. Не будем здесь углубляться в технические подробности, поскольку о настройке этого файла вы сможете прочитать на специализированных сайтах, ссылки на которые приведены в конце данной главы. Отметим также, что в результате мы не только поможем поисковому роботу индексировать наш сайт, но и получим легко запоминающиеся адреса страниц. Например, динамический адрес из предыдущего абзаца в псевдостатическом виде может выглядеть так: www. site.ru/service/.
Вид адресов страниц
Если вы хотите использовать в имени HTML-страницы несколько слов, можете соединить их тремя способами: написать слитно, разделить дефисом (-) или знаком подчеркивания (_).
Некоторые поисковики, например Google, при ранжировании страниц учитывают найденные ключевые слова в названии домена, директорий, файлов и придают немного больший вес таким страницам.
Значит, для нас важно, чтобы слова в имени страницы были учтены поисковым роботом. Для этого в качестве знака разделителя между словами нужно исполь- зовать дефис, так как знак подчеркивания не является для поискового робота разделителем слов. Если несколько слов в адресе страницы разделены знаком подчеркивания, то робот увидит одно большое неизвестное ему слово, так что лучше называть файлы realty-broker-service.html, а не realty_broker_service.html.
Если на сайте адреса страниц приводятся из динамического в псевдостатический вид, может возникнуть вопрос: какой вид адреса для индексирования поисковиком лучше — с расширением файла (www.site.ru/realty-brokerservice.html) или без (www. site.ru/realty-broker-service/). В первом случае все хорошо - робот поисковика сразу принимает HTML-файл с сайта. Во втором случае появляется одна особенность: дело в том, что завершающий слеш по-разному обрабатывается разными браузе- рами и поисковыми роботами.
Например, браузер Internet Explorer, как и робот поисковой системы Yahoo!, от- брасывает завершающий слеш в адресе, даже если он явно указан. Поэтому вам нужно настраивать обработку адресов в файле.htaccess так, чтобы они создавали еще один адрес страницы — без слеша. Получается, что сервер выполняет двойную работу. В случае с небольшим или средним по размеру сайтом это не страшно, но если на сайте несколько тысяч страниц, то желательно заранее обдумать и выбрать вид адресов страниц, для того чтобы избежать лишних нагрузок.
Работа серверных скриптов
В работе серверных скриптов и настройках веб-сервера часто скрыто довольно много факторов, оказывающих огромное влияние на индексацию сайта роботами поисковых систем.
Заголовки HTTP
Прежде всего необходимо правильно настроить работу сервера и серверных скрип- тов с заголовками http[8].
Протокол HTTP — это язык, на котором клиент (например, браузер или поисковый робот) и веб-сервер вашего сайта «разговаривают» с помощью запросов и откликов. При каждом запросе к серверу браузер или робот поисковика передает служебную информацию в HTTP заголовках.
Некоторые роботы могут обращаться к серверу вашего сайта с нестандартными служебными заголовками. Если сервер не имеет нужных настроек, то он выдаст роботу сообщение об ошибке или совсем другую страницу, тогда как в браузере посетителя по этому адресу выводится правильная страница. В результате в индекс поисковика не попадет нужная страница, а робот может долгое время не возвра- щаться по этому адресу. Следовательно, важно проверять корректную обработку веб-сервером служебных заголовков. Это - задача вашего веб-мастера.
Более подробную информацию вы сможете почерпнуть в статьях, ссылки на кото- рые приведены в конце главы.
Дата изменения страницы
Чем чаще на вашем сайте изменяется информация и добавляются новые стра- ницы, тем чаще на него будет приходить робот поисковой машины. Допустим, мы знаем, что на сайте есть страницы, которые не изменились (например, архив новостей), и есть обновленные или совсем новые страницы. Нам важно, чтобы поисковик проиндексировал свежие страницы, а старые лишний раз не скачивал. Но поисковая машина не обладает известной нам информацией об изменениях на сайте.
Чтобы понять, изменилась ли страница с момента последнего визита робота, поиско- вик должен ее заново скачать к себе и сравнить с предыдущей версией. Если страница содержит значимые изменения, то ее копия в индексе заменяется новой, если нет, то в индексе остается вариант, скачанный ранее. В итоге получается, что робот занят скачиванием неизменившихся страниц, а на новые у него не хватает времени.
Кроме того, что в индекс не попадают новые страницы, большие сайты могут столк- нуться с еще одной проблемой — неоправданной нагрузкой на сервер. Для того чтобы этого избежать, на сервере можно настроить обработку даты создания и изменения страниц. Если такая настройка включена, то при запросе поискового робота какой-то страницы сервер будет сообщать роботу дату последнего изменения этой страницы. Тогда страницы, не изменившиеся с момента прошлого прихода робота, не будут скачиваться еще раз, а робот уделит больше внимания новым или изменившимся страницам.
О том, как настроить обработку даты изменения страницы, мы расскажем ниже. Сессии и дубликаты
Если на сайте присутствует возможность регистрации пользователя (например, форум), важно как-то запомнить дату его последнего посещения, на каких стра- ницах он побывал, какие настройки сделал и т. д. Для этого существует механизм сессий — это уникальные идентификаторы каждого посетителя сайта.
У обычного пользователя идентификатор сессии хранится в Cookie[9] браузера, но у некоторых пользователей в браузере настройки установлены таким образом, что Cookie отключены. Если посетитель приходит на сайт с отключенными Cookie, то для того, чтобы проследить его действия, к каждому адресу страницы добавляется идентификатор сессии (некая комбинация символов). Такие адреса могут выгля- деть так:
www.site. ru/forum.asp?topic=135&sessionID=42487E39A2B04279A42623E59DFF.
Поисковые роботы не могут принимать Cookie, поэтому получают идентификатор сессии в адресе страницы, как те пользователи, у которых Cookie отключены. Ка- ждый раз, когда робот приходит на сайт, в котором используется механизм сессий, ему присваивается разный идентификатор, который добавляется к адресам страниц, и каждый раз одни и те же страницы для робота имеют разные адреса. То есть для него это разные страницы.
После нескольких заходов на сайт в разное время поисковый робот имеет огромные списки одних и тех же страниц с разными идентификаторами сессий. В результате расходуются ресурсы сервера, а очередь до индексирования действительно важных страниц может так и не дойти.
Еще одной проблемой для крупных сайтов могут стать дубликаты страниц. После того как на сайте была изменена адресация страниц, может возникнуть ситуация, когда для каждой страницы сайта существует еще несколько ее копий. Приведем в качестве примера несколько адресов, которые для робота будут разными страни- цами, но на самом деле ведут на одну и ту же страницу (предположим, что на сайте были введены псевдостатические адреса):
□ www.site.ru/script.php?page=service&mode=show
□ www.site.ru/service/
□ www.site.ru/service.html
□ www.site.ru/service.htm
Если на этом сайте, к примеру, было 1000 страниц, то поисковая система получит 4000 ссылок, а позже вынуждена будет выбирать из четырех копий наиболее реле- вантную страницу. Чтобы этого не случилось, нужно проверять страницы сайта и исключать ситуации, когда по нескольким разным адресам находятся совершенно одинаковые страницы.
Отдельно следует отметить механизм «Яндекса» по удалению дубликатов: когда количество одинаковых страниц сайта достигает определенного порога, запускается специальная программа, которая удаляет лишние страницы из индекса поисковой системы. Иногда после такой процедуры в индексе просто не остается документов с сайта, и процесс индексации начинается с самого начала.
Код страниц
Основная часть информации в Интернете — это тексты в формате HTML. Веб- страница представляет собой текст, размеченный HTML-кодом (процесс разметки называется версткой). Поисковик, после того как выкачает страницу, начинает ее разбирать — отделять текст от HTML-кода (об этом вы читали в главе 6). От того, насколько корректно составлен HTML-код страницы, зависит то, насколько пра- вильно робот проиндексирует страницу.
Кроме того, HTML-код страниц — один из основных внутренних факторов, важных для успешного позиционирования страниц сайта в результатах поиска. Поисковики стараются распознать логическую структуру текста — заголовки, логические акцен- ты на наиболее важных словах. Для этого в языке HTML существуют специальные средства — теги[10] <ti tl е>, заголовки <hl>-<h6>, шрифтовые выделения наподобие <strong>, <em>.
При создании дизайна и верстке страниц часто возникают ошибки.
□ Визуальное оформление заголовков и слов в тексте с помощью устарев- шего тега <font>. В этом случае не используются нужные теги заголовков, полужирного шрифта или курсива, из-за чего может уменьшиться важность страницы для поискового робота и шансов попасть на верхние строчки станет меньше.
□ Позиционирование элементов страницы с помощью большого количества
вложенных таблиц. Это усложняет работу со страницей как вам, так и роботу. В результате вашей опечатки или ошибки в работе поискового робота может произойти неправильная индексация страницы, из-за чего в индексе поисковика окажется совсем не то, что бы вам хотелось.
□ «Избыточность» кода. Случается, что в HTML-код страницы вносится много лишних тегов, комментариев и элементов оформления. Это «утяжеляет» стра- ницу и мешает поисковому роботу правильно определить важную информацию на странице.
□ Использование графики вместо текста (об этом мы говорили в главе 6). Поис- ковая машина не распознает текст, изображенный на картинке. Как бы вам ни хотелось разместить на странице красивую картинку с заголовком статьи, лучше сделать это обычным текстом, чтобы поисковик смог «прочитать» его.
□ Использование клиентских скриптов (сценариев) вместо текстовых ссылок.
Клиентские скрипты — это программы, которые выполняются в браузере пользователя. Наиболее распространенные языки программирования подоб- ных программ — JavaScript и VBScript. Такие скрипты позволяют веб-мастеру делать красивые и удобные раскрывающиеся меню для навигации по сайту. Но поисковые роботы в большинстве случаев не выполняют код сценариев на JavaScript и VBScript или выполняют в ограниченном объеме, поэтому не смогут обнаружить и проиндексировать внутренние страницы сайта, если ссылки на них сделаны с помощью таких средств. Поэтому, если вы хотите использовать на сайте раскрывающееся меню, нужно выбрать такой вариант их реализации, чтобы в меню стояли обычные текстовые ссылки и чтобы поисковый робот мог «пройти» по этим ссылкам.
□ Игнорирование при верстке CSS[11]. Использование стилей позволяет отделить определение внешнего вида текста от его содержания. Указывать стили можно непосредственно внутри HTML-страницы, а можно вынести их в специальный стилевый файл, который будет загружаться браузером пользователя автомати- чески. Стили оформления не распознаются поисковыми системами, поэтому их желательно не писать в коде веб-страниц, а размещать в отдельных файлах CSS.
Подробнее на элементах, повышающих вес страницы в «глазах» поисковика, мы остановимся в главах 13 «Внутренние факторы, от которых зависит положение сайта в результатах поиска» и 14 «Коррекция сайта для продвижения в поисковых системах».
7.2. Управление индексацией сайта
Поведением роботов поисковых систем в пределах сайта можно управлять. Мы рассмотрим лишь некоторые методы управления роботами поисковых систем.
Запрет индексации
Не все страницы на сайте имеет смысл отдавать на индексацию поисковому ро- боту. Например, если у вас есть форум, то служебные страницы поиска, карточек пользователей или списков участников скорее всего не будут нести такой полезной информации, которую кто-то будет искать через поисковик. На форуме есть более важные и интересные страницы с обсуждениями и мнениями участников, поэтому именно они в первую очередь должны быть проиндексированы.
Второй пример — версии страниц для печати. Вы наверняка видели на многих сайтах, где публикуются статьи или новости, ссылку на версию для печати — это страница с тем же самым текстом, но без навигационных ссылок, рекламы и другой лишней информации. Если человек попадет на такую страницу из результатов по- иска, он увидит только текст статьи или новости, но не сможет перейти на другие страницы сайта, так как на ней нет меню.
Поэтому такие страницы не нужно показывать поисковому роботу, чтобы не за- сорять его индекс ненужной информацией, тем самым обратив его внимание на другие, более важные страницы сайта. Для этого можно запретить индексацию определенных страниц с помощью специальных инструкций для робота. Инструк- ции о запрещении индексации размещают или в специальном файле исключений, robots. txt, или в специальном мета-теге, <МЕТА name="ROBOTS">. Расскажем об этом подробнее.
Мета-тег ROBOTS
Мета-теги — это невидимая пользователю служебная информация о документе, находящаяся в самом начале HTML-страницы. Упрощенно структура кода стра- ницы выглядит так:
<html>
<Иеас1>титул страницы, мета-теги</Иеас!> <body>TeKCT, H3o6pa)«eHHfl</body> </html>
Тег chtml > — это главное обозначение типа страницы, означающее, что эта страница представляет собой HTML-документ. В теге <head> размещаются мета-теги, заго- ловок (тег <ti tle>) страницы и другая служебная информация, не отображаемая в основном тексте страницы. В теге <body> размещается текст страницы и другая информация (например, картинки), которая отображается в браузере пользователя.
Мета-тег cmeta name=" robots" content="..."> служит специально для управле- ния индексацией конкретной страницы. С помощью различных инструкций, ука- зываемых в атрибуте content="...", можно запрещать или разрешать индексацию страницы и проход роботом по ссылкам на странице. Подробнее об использовании мета-тега ROBOTS поисковиками читайте в рекомендациях на сайтах поисковых систем, ссылки на которые вы найдете в конце этой главы.
Файл robots.txt
Файл robots.txt предназначен для хранения инструкций по индексированию сайта поисковыми роботами. Этот файл располагается в корневой директории сайта и запрашивается каждый раз при обращении робота к сайту.
Суть записей в этом файле проста — указываем, кому и что запрещено индекси- ровать на сайте. Инструкций для. разрешения индексации в файле robots.txt не предусмотрено, поэтому отсутствие этого файла на сайте означает, что будут индексироваться все встречаемые роботом страницы. Вот простейший пример содержимого файла robots. txt:
User-agent: StackRambler Disallow: /cgi-bin/
Эти две строки означают, что поисковому роботу «Рамблера» запрещено индекси- ровать любые файлы в директории cgi -bi п. Так как эти инструкции предназна- чены только для робота «Рамблера», следовательно, остальные поисковики будут индексировать все, в том числе и директорию cgi -bi п.
Как видно из этого примера, с помощью файла robots.txt можно запретить ин- дексацию целой группы страниц, а не только одной. В конце главы вы найдете дополнительные ссылки на подробные рекомендации по использованию файла robots.txt.
Дата изменения документа
Выше мы уже говорили об HTTP-заголовках. А сейчас остановимся подробнее на одном из них.
В стандарте протокола HTTP существует специальный запрос с заголовком if- modi fied-Si псе. Если поисковый робот делает такой запрос к серверу, на котором находится ваш сайт, это означает, что он обращается к серверу с «просьбой» выдать страницу только в том случае, если она изменялась после заданной даты.
Если на странице не было никаких изменений за указанный срок, то сервер посылает ответ 304 Not Modi fied (документ не изменялся) и саму страницу не выдает. Робот тогда вправе оставить в индексе старую копию документа и сможет уделить больше внимания новым документам и документам с изменениями. В случае статических адресов страниц веб-сервер может сам правильно обработать такие запросы. Когда же страницы динамически формируются серверными скриптами, сервер не может самостоятельно определить, вносились в документ изменения или нет. В этом слу- чае нужно программировать скрипты сервера так, чтобы запросы обрабатывались программно для каждой формируемой страницы.
Корректная обработка запросов с датами изменений документов актуальна для сайтов с большим количеством страниц и позволяет направлять роботы на новые и обновленные документы. Тем не менее этим методом следует пользоваться с осторожностью, поскольку алгоритмы работы разных поисковых систем могут существенно отличаться, и, перефразируя известное изречение, можно сказать: «Что для Google хорошо, то для «Яндекса» - плохо».
7.3. Выводы
Влияние внутренних факторов на ранжирование страниц сайта в поисковых систе- мах часто недооценивается специалистами по поисковому продвижению, а также веб-мастерами, занимающимися продвижением сайта. Хотя именно работу с внут- ренними факторами можно выполнять достаточно оперативно и результативно. В отличие от работы с внешними ссылками возможность влиять на внутренние факторы всегда доступна веб-мастеру. Например, веб-мастер может самостоятельно выявить страницы, которые не нужно индексировать, и настроить соответствующим образом файл robots. txt.
Технические вопросы функционирования сайта и взаимодействия с роботами поис- ковых систем можно и нужно решать еще на этапе проектирования сайта, до начала его разработки. Это позволит избежать возможных проблем и минимизировать дальнейшие доработки, часто дорогостоящие, превращающие оптимизацию сайтов в «работу над ошибками».
В последние годы поисковики начали помогать веб-мастерам делать сайты понятнее и удобнее для поисковиков, создавая для веб-мастеров специальные руководства, форумы, средства разметки сайтов. Об этом более подробно расскажем в следую- щей главе.
7.4. Полезные ссылки
П Прежде всего, каждый веб-мастер должен изучить справочные разделы на сайтах поисковых машин: «FAQno вопросам индексирования сайта в «Яндексе» (http:// help.yandex.ru/webmaster/?id=l 111305), «Как сделать, чтобы Rambler находил мои документы?» (http://help.rambler.ru/article.html?s=221&id=731), «Google: справоч- ный центр для веб-мастеров» (http://www.google.ru/support/webmasters/).
□ В статье Андрея Иванова «Подготовка сайта для индексирования в поисковых системах», размещенной на сайте http://www.ashmanov.com/pap/ivsprep.phtml, описаны все необходимые действия, которые проводятся на сайте перед добав- лением его в поисковые машины.
□ Сергей Людкевич и Евгений Есипов из компании «Промо.Текарт» собрали и описали часто совершаемые ошибки веб-мастеров в статье «Наиболее часто встречающиеся ошибки, препятствующие хорошему ранжированию сайта в поисковых машинах. Пути их решения», размещенной на сайте http://www. promo-techart.ru/analysis/errors.htm.
□ Понятия, термины и определения, применяемые в Сети, можно посмотреть на сайте «Интернетско-русский разговорник» по адресу http://terms.yandex.ru/.
□ Перевод на русский язык спецификации языка HTML можно найти по адресу http://www. citforum.ru/internet/htm 140/cover.htm L
□ Прочитать подробнее о служебных HTTP-запросах и ответах на них серверов можно в двух статьях, размещенных по адресам http://www.citforum.ru/internet/ cgi_tut/spns.shtml и http://www.citforum.ru/internet/cgi_tut/rqst.shtml.
□ О том, что такое файл.htaceess и что с его помощью можно настраивать, читайте в статье «Файл настройки доступа к серверу.htaccess», размещенной по адресу http://www.computerra.ru/gid/clr27397/241213/.
□ Рекомендации по применению инструкций в мета-теге ROBOTS и в файле robots.txt можно прочитать в справочнике поисковой системы «Рамблер» по адресам http://help.rambler.ru/article.html?id=328&s=221 и http://help.rambler.ru/ article, h t ml?s=2 21 &id =3 2 7.
□ На сайте «Яндекса» можно найти справочник по ошибкам анализа файла robots, txt (http://help.yandex.ru/webmaster/?id=999045) и справочник по кодам статуса HTTP (http://help.yandex.ru/webmaster/7id-995305).
Глава 8
Рекомендации поисковых систем для владельцев сайтов
В 2008-2009 годах произошли два знаменательных события. Две крупнейшие поиско- вые системы Рунета - «Яндекс» и Google — подготовили и опубликовали подробную инструкцию для владельцев сайтов, интересующихся вопросами продвижения своих сайтов в поисковиках. В этой главе мы кратко остановимся на причинах появления этих документов и их значении.
8.1. Являются ли поисковые системы «зеркалами» Интернета
Интернет состоит из сайтов. Если владелец сайта (веб-мастер) производит изме- нение содержания и связей своего сайта с целью его оптимизации под поискови- ки — происходит изменение малой части Интернета. Однако если все веб-мастера захотят оптимизировать свои сайты, — изменится весь Интернет.
Что думают по этому поводу разработчики поисковиков? В программных доку- ментах «Яндекса» можно прочесть вот что[12].
Мы не отвечаем за качество и содержание страниц, которые вы можете найти при помощи нашей поисковой машины. Нам тоже многое не нра- вится, однако «Яндекс» — зеркало Рунета, а не цензор-
Принципы работы «Яндекса» — зеркало Интернета.
«Яндекс» структурирует и агрегирует необходимый пользователям уже существующий онлайновый и оффлайновый контент и отражает его в ре- зультатах поиска, не влияя при этом на его качество и свойства.
Будущий Интернет — это в основном сеть профессионально подготовленных сайтов. Их владельцы обязательно учтут возможности поисковой оптимизации и, пользуясь нашим определением, будут изменять Интернет, с целью добиться лучших пози- ций в поиске. Утверждение поисковиков, что они не влияют на качество и свойства сетевого контента, такой картине мира прямо противоречит.
Как решается это противоречие?
Представьте себе, что поисковая система «Апорт» объявила о гарантированной возможности получить место в верхних строчках результатов поиска по выбран- ным самим веб-мастером запросам. Для этого нужно всего лишь на продвигаемой странице разместить текст «сделано для Апорта» и перечень запросов, по которым страница должна показываться наверху. Решите ли вы воспользоваться этим пред- ложением?
Вряд ли. Ведь пока «Апорт» является поисковиком-аутсайдером (его доля — меньше 1% поискового рынка Рунета). Количество дополнительных посетителей с «Апор- та», которых можно получить с помощью такой «оптимизации», слишком невелико, чтобы заинтересовать владельца сайта или его веб-мастера. Таким образом, вы вряд ли станете тратить силы на переделку сайта ради «Апорта».
Но если подобное предложение будет сделано лидерами рынка поиска «Яндекс» или Google — вы непременно возьметесь за переделку сайта под их требования.
Таким образом, желание тратить усилия на специальную переделку сайта, что- бы продвигаться в «Апорте» или в «Яндексе», — прямо зависит от популярности этих поисковых систем. Чем популярнее система, тем больше посетителей на сайт можно получить из результатов ее поиска. Тем выгоднее иметь хорошие позиции в результатах этого поисковика и тем сильнее мотивация веб-мастеров «изменять Интернет» ради достижения этих позиций.
Иными словами, малоизвестный поисковик — это действительно «зеркало», он может лишь «отражать существующий онлайновый и оффлайновый контент, не влияя на его качество и свойства». Популярный же поисковик не просто отражает Интернет, но меняет его, он активно влияет на процессы формирования сетевого контента.
«Зеркальный» взгляд на поиск предполагает, что веб-мастера могут попросту не знать о существовании поисковых систем. С точки зрения «Яндекса», они должны делать сайты для пользователей и не думать, как поисковик должен получать ин- формацию с сайта, по каким признакам отбирать ссылку на сайт для выдачи, как ранжировать результаты и каким образом отображать информацию о веб-страни- це в результатах поиска. Один из советов «Яндекса» веб-мастерам так и звучит: «,Думайте о пользователях, а не поисковых системах»; наличие на сайте контента, созданного не для пользователей, может стать причиной исключения сайта из индекса поисковой машины (бана).
Конечно, это фантастическая, идеальная картина, имеющая мало общего с реаль- ной жизнью, — сейчас практически все владельцы сайтов постоянно думают о поисковиках.
Но, оказывается, и поисковики должны думать о веб-мастерах — без их помощи в наши дни построить хороший поиск уже невозможно. Поиск становится лучше, если веб-мастера, заботясь о пользователях, не забывают также и о поисковых системах и помогают им, предоставляя необходимую информацию. Чуть ниже мы рассмотрим, какие данные, не слишком влияя на пользовательское впечатление о сайте, являются очень полезными для обеспечения качества поиска.
Таким образом, концепция «зеркала» устарела. Она уступает место представлению о том, что качество поиска — результат совместного труда поисковых систем и веб-мастеров. Главный принцип их будущих отношений — взаимовыгодный обмен данными. Рассмотрим примеры такого обмена.
8.2. Как веб-мастера помогают поисковым системам
Вот так могли бы выглядеть результаты поиска, если не заполнять информатив- ными данными теги Title (титул), см. рис. 8.1.
Яндекс
Нашлась Г в найденном Г в Казана
41 тыс. страниц
Область пои®®: кзык—русским
Date: 2015-09-25; view: 478; Нарушение авторских прав Понравилась страница? Лайкни для друзей: |
|
|