Полезное:

Категории:

Архитектура Астрономия Биология География Геология Информатика Искусство История Кулинария Культура Маркетинг Математика Медицина Менеджмент Охрана труда Право Производство Психология Религия Социология Спорт Техника Физика Философия Химия Экология Экономика Электроника

ПРЯМОЙ» ИНДЕКС_____

⇐ ПредыдущаяСтр 3 из 68Следующая ⇒

Чтобы показывать при найденных страницах цитаты с выделенными (под-
свеченными) словами запроса, поисковые машины хранят все тексты всех
проиндексированных страниц. Получается, что поисковики хранят у себя
на серверах копию всего Интернета, выкачанного ее индексным «пауком».
Например, Google имеет у себя текстовую копию всего мирового Интернета
(в том объеме, до какого смог добраться его «паук»), а «Яндекс» — копию
всего Рунета.

Для хранения текстовой копии страниц инверсный индекс не подходит —
слишком долго каждый раз при отображении цитаты восстанавливать поря-
док слов в тексте. Гораздо проще хранить второй индекс, на жаргоне разра-
ботчиков называемый прямым. Он представляет собой тексты веб-страниц,
очищенные от всех нетекстовых элементов, сжатые и упакованные, и явля-
ется текстовой копией всего Интернета.

Именно наличие этой текстовой копии позволяет поисковым машинам не
только показывать релевантные цитаты в результатах поиска, но и иметь
функцию «восстановить текст страницы», которой удобно пользоваться, если
сама нужная страница в данный момент недоступна или вообще уже удалена
с сайта. В результатах поиска Google такая ссылка называется «Сохраненная
копия», а у «Яндекса» — просто «Копия»). Иногда эта копия также называется
«кэш страницы».

к мтвт I' мелыхгш

Большинство поисковых машин хранят копию страниц без HTML-разметки,
графики и прочего «мусора», в чисто текстовом виде (так делает «Рамблер»).
Но, например, «Яндекс» с декабря 2006 года сохраняет полную копию страни-
цы, которую можно посмотреть в любой момент даже со всеми картинками.
То же самое и у Google — сохраненная страница показывается пользовате-
лю в том дизайне и в том оформлении, в каком она была на сайте во время
скачивания поисковым роботом (рис. 6.1).

.......................................... ист т—ы

|lgr] Семинар по 4 поисковой ►

< оптимизации; ►

Прмпмнммм* свминв» по Ч nwcinwiÄ fr
4 ттшшт У п н«тери«т»маршингу. Он пройдет 5-6июля
• Мое IM. ГПааюиа

АнляеА Ишшюш -«rwcw фи ivpi pote и йс к о Ь 4 поисковой N

4 ошиииашря fr, аналитик и главный редактор рассылки
•Прсуиквнна С 9 Art:«моты з ксл» pro«*;

АЯвщбТуцвот*' КЗ»вдущк* еНВЛИТМР* Руи*»а. «ТОО
проекта ^ЧаршА квадрат*. рччюецдил рм»«ием тешсиааегтных
проект» ПК "Русоий Epoche*, RemWef Topl 00, "Hoearate" и
шамхдрпнх;

Сергей Омы- 1МЫОЖНО. адиниалршшдоелддокм не темы
1«<твв»«М)вмлгаы м tteptewm*, директор w0hrtT»a Prior.Äu.
шмвюдмй j«плечами свтннуспвижыхрекламмыктлтлний.

ВДШВЯШ* ЯШЙННЗ'

Кшффв^ЯПО

Opfimization.ru oßfow (»зцхлиъм!-

< оптимизации ►

vi конференция - 4 Пометим» fr ■< опттжт fr «
продвижоиио сайтов в Ииторнею" проедет 14-10 ноября 2007
годе I гостиниц»-Raeieeon-SA8" Ромм).
Действует программа «кидокдпята, «то овлякммет^аетив 1
конференции ааренм.

Мероприятия

yfcrtVwxm*. что иФОвтрплощГнясттыю

ве/шв, что тел» течлтлтш ЗЕСкюимписто«,

отълатыкапоч&бквх орощыапи «emtm *w»„ fft?

НортятяОоовЬвРуРв^сМщрпх^шюжтйчрутфх
0ггф#ажш(ю<щ*дхяхбс*пс ггшиыиОу&шыи.

чит^» дэп,ьч>в > подписап^я.»»axillaretw*»
S ЕО-каталог

fCHtipmo»» Фодуму • Бпыи ► ЗДДОК ►

Статьи

оценка ведомости сайте в 4 пометам* fr системах

проблема оценки «»домости сайта а 4 ШшШШМ. fr caeT»Maatw*etim«'t«(»»0f0AH*<i^C7MeaHM*wrmu*a»nip<Kö«>
р* масла, но сегодня решение л ой проалемм можно двйста «тел*. но отжег и а не белым А ететю.

аиймяи.»

Лци|ши Ишшон

4 отимимцм fr -nx an делится

ВыгускЮС РоесЛкию ДуДЛИ (иоютентарий к рекламе Google в Рунете) йг-йляни 1&<хЗ*4) /№зиъа«1пки тефщ/ал ыш* понотипы Гута Их тоьо- празйнмъ*, жхлотвяол и «s жмш разные слуюи жути

серВИШ

шаииййшймл I > smssam яддйт Новый бмпапный сервис от frtopotewt гюискоат поиска

ко» |фере! алия г 'г оддаюы "•Рассылка., сорусы Cum«* кмигл

Рассыпа

Услуги конламм «Ашманоа и Партнеры» -» Комшксима* рамша Юмбипкти-»**«? -» Ayirtt Hvmfi'tMitilltMHHli

8 Рунета мною материале», раестимюцмо том, что надо делать, чтовы проект занял достойное месте • результатах
лонска по нужным запросам, но практимеми невозможно найти информации. ш это надо млеть Мы решили ««полнить

Рис. 6.1. Так выглядит сохраненная «Яндексом» копия страницы сайта optimization.ru,
найденная по запросу «поисковая оптимизация». Как видим, «Яндекс» сохранил в своем
«прямом» индексе не только текст, но и html-код страницы

6.4. Некоторые важные вопросы

Какие слова индексирует поисковая машина?

Как мы уже говорили, для индексации слов на страницах поисковику нужно знать,
что именно считается словом.

Что такое слово

Например, слова с дефисом (красно-синий, что-нибудь) — это одно слово или два?
А числа — это тоже слова или они выбрасываются, как «мусор»? А слова на дру-
гом языке — выбрасывать или оставлять? Что делать с комбинацией букв и цифр
(с названиями моделей электроники, например)? Индексируются ли адреса элек-
тронной почты, интернет-адреса и даты, и если да, то как?

Все эти вопросы решаются разработчиками каждой поисковой машины по-своему.
Более того, нам здесь нет смысла пытаться точно указать правила выделения слов
для «Яндекса» или Google — они могут меняться хоть раз в месяц, с каждым вводом
«в бой» очередной версии поискового механизма. Гораздо проще это проверять
самостоятельно, когда требуется.

Как проверить

Вы сами можете легко проверить, как разработчики «Яндекса», Google или «Рамб-
лера» обрабатывают, например, слова с дефисом или числа — достаточно ввести в
поисковик такой запрос и посмотреть, что именно найдет и как покажет поисковая
машина. Поскольку отысканные слова показываются и подсвечиваются в цитатах
(аннотациях) страниц, сразу будет видно, как хранятся слова в индексе данного
поисковика.

Разделители

Конечно, поисковики не индексируют всякие служебные символы, так называе-
мые разделители — пробелы, знаки препинания, а также различные теги и другие
конструкции языка HTML. Например, если ввести в «Яндекс» или Google запрос
из одной точки (.), они откажутся искать по такому запросу, а «Яндекс» еще и со-
общит о «синтаксической ошибке». Действительно, точка есть в любом тексте, так
что искать ее нет смысла, да и накладно по затратам серверной мощности.

Стоп-слова

А есть ли «ненужные слова», которые поисковики не индексируют вовсе?

Поисковый индекс представляет собой пусть хорошо упакованную, максимально
сжатую, «вывернутую наизнанку», но все же копию всех страниц Интернета, извест-
ных поисковику. А поисковики стремятся получить данные о максимально большем
количестве страниц, то есть в идеале поисковый индекс должен представлять собой
копию всего Интернета, а это огромный объем данных.

Поэтому раньше поисковые машины старались экономить место на дисках и время
работы сервера и при индексации отбрасывали некоторые неважные, служебные
слова, так называемые стоп-слова, например предлоги, союзы, числа, сокращения
и т. п., а также и цифры.

В дальнейшем оказалось, что пользователи все-таки достаточно часто запра-
шивают такие слова, поэтому их нужно хранить (особенно для поиска точных
цитат, включающих эти служебные слова). А стоимость хранения мегабайта
данных к настоящему времени существенно снизилась — жесткие диски стали
дешевы. Так что сейчас большинство популярных поисковиков индексируют все
слова в текстах, в том числе и стоп-слова — предлоги, союзы, междометия. Ин-
дексируют они также и цифры, и буквенно-цифровые комбинации (т. е. считают
их словами). Так что сейчас вы можете поискать в «Яндексе» или «Рамблере»,
например, предлог «в». Это, кстати говоря, хороший способ прикинуть, сколько
всего страниц в индексе поисковика, поскольку данный предлог есть в любом
русскоязычном тексте.

Индексация ссылок

В текстах веб-страниц присутствует множество ссылок на другие страницы Интер-
нета — гипертекстовых ссылок. Для пользователя они выглядят как подчеркнутые
или подсвеченные особым цветом слова, по которым можно щелкнуть мышью и
перейти на другую страницу. Для поискового робота выделить в тексте страницы
гипертекстовые ссылки нетрудно, потому что они всегда имеют формальный вид,
начинаясь и заканчиваясь специальными метками языка HTML.

Но ссылки — это не текст, не слова. Нужно ли их индексировать?

Да, безусловно. Индексируя ссылки, поисковики преследуют сразу несколько це-
лей.

1. Пополнение списка страниц. С помощью ссылок поисковики пополняют свой
список веб-страниц для индексации.

2. Поиск ссылок на заданный сайт. Большинство современных поисковиков по-
зволяют искать по ссылкам на заданный сайт или страницу, как по обычным
словам.

3. Вычисление ранга авторитетности страницы. С помощью ссылок поисковые
машины анализируют структуру ссылок сайтов друг на друга, чтобы определить
наиболее авторитетные в Интернете страницы и сайты. Правило тут простое:
на кого много ссылаются, тот, очевидно, более известен и авторитетен, чем тот,
на кого поставили мало ссылок. Авторитетность страницы, вычисленная по
количеству ссылок на нее с других страниц, называется ссылочным рангом стра-
ницы (по-английски PageRank). Об этом методе ранжирования будет подробно
рассказано ниже в данной главе.

4. Использование текста ссылки. С помощью текста ссылок можно получить
тематическую классификацию страниц. Ведь ссылка обычно содержит в себе
не только адрес страницы, но и текст ссылки, то есть те слова, которые подчер-
киваются на веб-странице и по которым можно щелкнуть.

Этот текст поисковики индексируют специальным образом, так как он фактически
является кратким смысловым описанием той страницы, на которую ведет ссылка.
Это описание можно использовать для поиска веб-страниц (обычно такие страницы
помечаются в результатах поиска как «найдено по ссылке»), а также для темати-
ческого ранжирования веб-страниц при выдаче результатов поиска. Об использо-
вании текста ссылок мы подробнее расскажем в главах 13 «Внутренние факторы,
от которых зависит положение сайта в результатах поиска» и 15 «Авторитетность
сайта и ссылочное ранжирование».

Графический текст

Хотя опытному человеку это покажется совершенно очевидным, стоит все-таки
сказать, что поисковые машины не индексируют текст, написанный графически,
то есть в виде картинки. Оформлять заголовки рубрик сайта, лозунги, название
фирмы красивым шрифтом в виде картинки — довольно распространенный прием,
но нужно понимать, что поисковая машина фактически «не видит» этого текста.

В последнее время поисковики научились индексировать графику в формате Flash
(но только потому, что текст все-таки скрыто присутствует в объектах Flash так-
же и в исходном текстовом виде). А вот текст, представленный в растровом виде
(нарисованный с помощью цветных точек, или пикселей), поисковикам еще долго

будет недоступен.

Что такое машинная морфология

Как уже говорилось выше, при индексировании текстов и поиске по запросам по-
исковая машина волей-неволей должна производить лингвистическую обработку
слов. Причина этого кроется в устройстве языка.

Проблема окончаний

Во многих языках слова имеют несколько различных окончаний (в так называемых
флективных языках; от лат. flexio — окончание). Поэтому у каждого слова очень
много различных форм, которые называются словоформами. Бывают, конечно, во
флективных языках и неизменяемые слова (предлоги, наречия, союзы и пр.), но

их меньшинство.

Словоформы по смыслу являются одним и тем же словом, но по форме могут очень
сильно различаться из-за окончаний, а также чередований букв в основе (например,
видеть - вижу, бобер - бобры, fight —fought). А в некоторых особых случаях (так
называемый супплетивизм) словоформы одного и того же слова могут вообще не
иметь ни единой общей буквы (например, идти — шел; go — went).

Как видно из примеров, русский и английский языки - флективные. Однако окон-
чаний и разных словоформ в английском языке сравнительно мало. Лингвистиче-
ская обработка окончаний в английском очень проста, а часто и вовсе не делается
поисковиками.

А вот русский язык, напротив, — высокофлективный, так как его слова имеют
очень много форм. Например, существительное в общем случае имеет двенадцать
словоформ (шесть падежей единственного числа и шесть падежей множественно-
го). Есть и неизменяемые существительные, такие как кофе, пальто, но их мало.
У прилагательного — почти двадцать словоформ, а уж глаголы со всеми своими
причастиями могут иметь до сотни форм.

Таким образом, если хранить в индексе все встречающиеся в Интернете слова рус-
ского языка во всех их формах, словарь получится просто огромным, включающим
десятки миллионов словоформ,что, естественно, неудобно и неэффективно.

Кроме того, есть еще вопрос правильного поиска слов. Ведь хотелось бы, чтобы по-
исковая машина знала, что стол и столы — одно и то же слово! То есть поисковику
нужно отождествлять между собой словоформы, являющиеся грамматическими
формами одного и того же слова, чтобы при поиске не пропускать вхождений ис-
комого слова.

Как это делается?

Отбрасывание окончаний и работа с основами

Естественным решением проблемы изменчивости слов является применение спо-
соба, при котором хранятся только основы слов, а окончания и чередования — от-
брасываются и хранятся отдельно. Это дает не только значительную экономию, но
и позволяет объединять при поиске разные грамматические формы одного и того
же слова, что довольно важно для качества поиска.

Для этого в ходе индексации веб-страниц слова приводятся к своим начальным
формам (условно говоря, к именительному падежу или инфинитиву), а чаще — во-
обще к основам (корням слов), и уже в таком виде добавляются в индекс поисковой
машины. Для этого поисковик обычно применяет словарь, то есть работает только
с известными ему словами. (Об обработке неизвестных слов рассказывается во
врезке ниже в данной главе.)

Если на этапе создания индекса все словоформы слова сводятся к его основе, то
потом, при задании любой словоформы слова в запросе, она также будет сведена
к основе и будут найдены все вхождения этой основы в тексте.

Зачем нужно знать о машинной морфологии

Самые старые российские поисковики — «Апорт», «Рамблер» и «Яндекс» — уже
много лет применяют машинную морфологию при индексировании и поиске.
С весны 2006 года русская машинная морфология подключена также и в Google^{^[3]}.

У каждой поисковой машины машинная морфология своя, особенная. Впрочем,
обычные слова, такие как кондиционер, все они склоняют практически одинаково.

Для владельца сайта понимание того, что поисковик считает разные формы слова
одним и тем же словом, довольно важно при составлении текстов сайта, управлении
ссылками, а также при планировании продвижения сайта и контекстных рекламных
компаний в системах контекстной рекламы «Бегун» и «Яндекс.Директ».

НЕИЗВЕСТНЫЕ СЛОВА И «НЕЧЕТКАЯ» МОРФОЛОГИЯ_________________________

Аккуратно «отрезать» окончание и найти основу можно только у известного
слова, которое есть в словаре поисковика. Но в языке и особенно в Интернете
постоянно появляются новые слова, ибо словотворчество веб-мастеров не
имеет границ. Как же поступает поисковик с неизвестными ему словами?

А вот как: с ними делают то же самое, что и с прочими несловарными эле-
ментами — цифрами, буквенно-цифровыми последовательностями, словами
неизвестных языков: поисковик хранит их в индексе «как есть», как иероглиф,
в той фиксированной форме, в который они были встречены в тексте при
индексации. То же самое происходит и с опечатками — они хранятся «как
есть». Это довольно очевидный факт, но он ведет к важному выводу — если
требуется, чтобы слова на странице распознавались поисковиками во всех
своих грамматических формах, их нужно писать без ошибок и по возможно-
сти использовать общеупотребительные слова, которые наверняка «знает»
машинная морфология поисковиков.

Иногда поисковик пытается как-то разобраться со словоизменением неиз-
вестного ему слова — построить гипотезу о его возможных окончаниях по
форме слова. Например, если у вас на сайте использовано слово «квази-
стул», то можно предположить, что оно склоняется так же, как «стул». Этот
алгоритм называется нечеткой морфологией. Такой алгоритм, в частности,
применяют «Яндекс» и Google. Но это процесс во многом вероятностный,
и рассчитывать на него при написании текстов сайта не стоит.

Какие сайты индексирует поисковая машина?
Домены

Очень важно понимать, где находятся пределы зоны индексирования поисковика,
какие сайты можно в нем найти, а какие нет, какие сайты можно добавить в поис-
ковик, а какие нет. Хотя «Яндекс» и «Рамблер» — поисковые машины по русско-
язычным сайтам, то есть по Рунету, это не значит, что они индексируют только
сайты с именами в зоне.ru. В оба поисковика можно добавить сайт с расширением
.com,.info и другими, но при этом он должен быть на русском языке. До сайтов из
этих и других доменных зон «Яндекс» и «Рамблер» добираются и сами, если на них
ведут ссылки с ресурсов, уже известных данным поисковикам. С 2007 года «Яндекс»
«перешел границу» и начал самостоятельно индексировать мировой Интернет,
в настоящее время он «знает» уже миллиарды англоязычных страниц.

Google, который позиционирует себя, как мировую поисковую машину, естественно,
индексирует вообще любые сайты во всех доменных зонах.

Какие документы индексируют поисковики?

I gç» о gqogte

60 результатов - Google

Нейти результаты

ням

ЛюбОМ языке

Язык

Регион Формвт файлов Дат»

любом

: любом

ягавом

Adobe Postscript (pci) Autodesk DWF(.dwf) Google Планета Земля KML (km I) Google Планета Земля KM2 (.kmz) независимо от типа лицензии Microsoft Excel pels) Microsoft Pcwwpoint (.ppt) Microsoft Word (.doc) Rich Text Format (rtf) Shodwave Flash (swf)_________

. 'реев ^шользованн»

Изначально целью поисковиков было проиндексировать веб-страницы, то есть
тексты в формате HTML, выложенные на сайт и отображаемые веб-сервером по
протоколу HTTP^{^[4]}. Позже обнаружилось, что много полезной информации выло-
жено в Интернете в виде статей, прейскурантов, документации, руководств и т. п.
в разных «офисных» форматах. Поэтому большинство поисковиков несколько
лет назад начали индексировать выложенные на сайтах документы в форматах
MS Word, PDF, MS Excel. Широкое распространение динамических страниц в
формате Flash заставило поисковиков индексировать и тексты, скрытые внутри
этого формата файлов (рис. 6.2).

Расширенный помок

продвижение сайте

со (всем» словами
с точной фрезой
£ ЯЮбыМ ИЗ слое
без спет
Показыватьстраниц на
Показывать странны, расположенные в регионе
Показывать только * результаты с файлами в формате
Показывать страницы за

Расположение сяов Показывать результаты, содержащие слова запроса
Сайт или домен

Показывать только» результаты с сайта или домена
Показывал» результат

Безопасный поиск ф Без фильтрации © Фильтровать результаты с помощью Поиск по странице

Похожие Ссыпки	Найти страниц, похожие на Найти страницы, ссылающиеся на	1 Поиск ] например, www.google ru/help.html [ Поиск ]
Поиск по темам
Новинка! Google Поиск кола - Поиск открытого исходного кода

Рис. 6.2. Страница расширенного поиска Google, на которой показаны различные
форматы файлов, доступные для поиска

Однако не стоит рассчитывать на индексацию вашей информации в этих экзотиче-
ских для Интернета форматах, поскольку нет гарантии, что поисковик проиндек-
сирует их хорошо. Если есть возможность, любые важные тексты всегда следует
дублировать на сайте в формате HTML.

Например, нужно всегда иметь прейскуранты в виде обычной веб-страницы, по-
тому что до прейскуранта в формате Excel поисковик может не добраться, а если
и доберется, то индексация, поиск и показ его в результатах поиска будут обяза-
тельно хромать, поскольку поисковики не умеют разбирать структуру Excel-файлов
настолько же хорошо, как HTML-страницы.

Заметим, что поисковики не индексируют тексты, которые выводятся на экран поль-
зователя динамически разными программными средствами наподобие JavaScript
Они так же невидимы для поисковика, как и тексты в графическом виде, о которых
говорилось выше^{^[5]}.

Глубина и объем индексации

Насколько глубоко поисковик «зарывается» в сайт и есть ли какие-либо ограни-
чения?

Теоретически таких ограничений нет, однако на практике поисковик не станет
выкачивать с вашего сайта миллионы страниц (если они там есть). Ведь кроме ва-
шего сайта у поисковика в очереди на индексацию стоят миллионы других сайтов,
поэтому он старается за один раз, за один проход взять с каждого сайта некоторое
разумное количество страниц. В следующем цикле индексации поисковик может
взять еще какое-то количество ваших страниц и т. д. Чтобы не брать каждый раз
слишком много, поисковик старается не погружаться по ссылкам внутрь вашего
сайта слишком глубоко.

Это означает, что даже при большом количестве страниц сайт должен быть разум-
но организован — скажем, не должно быть страниц, до которых можно добраться
только по цепочке из десяти ссылок. В главах 7 «Как сделать сайт доступным для
поисковых систем» и 14 «Коррекция сайта для продвижения в поисковых систе-
мах» мы расскажем об этом подробнее.

Индексация баз данных

Очень часто сайты с большим объемом данных хранят свои страницы в какой-либо
базе данных (например, MySQL или Microsoft SQL Server). Так гораздо удобнее для
хранения и обновления сайта, поскольку база данных позволяет легко добавлять,
модифицировать и удалять информацию.

Как поисковики обращаются с такими сайтами, могут ли они их индексировать?

Ответ простой: если страницы сайта выдаются из базы данных при переходе по
ссылкам внутри сайта, то поисковику в принципе все равно, откуда они берутся.
Находится ли страница на сайте или генерируется динамически при переходе по
ссылке — для индексации не важно. А вот если для получения страницы пользо-
ватель должен обязательно ввести какой-то запрос к базе данных, то поисковик
таких страниц просто «не видит».

Поясним вышесказанное на примере. Допустим, у вас есть онлайновая энцикло-
педия фильмов и актеров, содержащая 100 тысяч статей в алфавитном порядке.

Конечно, хранить и редактировать такое количество страниц «россыпью», в виде
НТМЬ-файлов крайне неудобно. Поэтому статьи энциклопедии будут скорее всего
храниться в базе данных, где их достаточно просто свести в одну таблицу и хранить
в нескольких файлах базы данных.

Пусть теперь вы подали свой сайт на индексацию в поисковики. Если у вас на сай-
те будет полное оглавление статей энциклопедии, в виде иерархического списка
(скажем, по буквам алфавита) или в виде простого линейного списка заголовков
статей, то поисковик пройдет по такому оглавлению как по обычным ссылкам
и проиндексирует всю вашу энциклопедию. Сделает он это скорее всего не сразу,
а за несколько проходов (так как статей много), но в конце концов все статьи эн-
циклопедии попадут в индекс.

Если же у автора сайта не хватило сил и времени создать такое оглавление для дос-
тупа к отдельным статьям энциклопедии (а это большая работа — сделать 100 тысяч
аккуратных ссылок в том или ином виде), то пользователь сможет найти статью
только с помощью поиска в базе данных по ключевым словам, входящим в заголовок
или тело статьи. Такие средства есть практически в любой базе данных, и веб-ма-
стера ими активно пользуются.

Но поисковик — не пользователь, он ведь не будет специально перебирать и под-
ставлять все слова русского языка в окошко для поиска на вашем сайте. Он зайдет
на страницу поиска, ссылок на статьи энциклопедии не обнаружит и отправится
дальше индексировать Интернет по своему расписанию. Окошко поиска (так на-
зываемая форма поиска) не является ссылкой на другие страницы и интереса у
поисковика не вызовет. Следовательно, в данном случае он проиндексирует только
одну страницу — страницу поиска по энциклопедии, а сама энциклопедия останется
для него невидимой.

Таким образом, при создании сайта нужно помнить, что поисковик индексирует
на вашем сайте лишь то, на что есть гипертекстовая ссылка. Большие базы данных
с единственным способом доступа к их содержимому в виде окна поиска — для
поисковика невидимы. Таких баз в Интернете много, именно поэтому говорят о
«глубинном Интернете», который невидим поисковикам и который больше види-
мого в десятки или даже сотни раз.

Как часто поисковая машина обходит Интернет?

Более точно этот вопрос можно сформулировать так: как быстро новые страницы
появляются в индексе поисковика и как часто поисковик их потом обновляет?

Безусловно, идеальный поисковик должен иметь всякую страницу в своем ин-
дексе сразу же, как только она появилась. И существующие поисковики к этому
стремятся. Однако огромный объем Интернета ставит здесь свои препятствия
и ограничения.

От обхода раз в месяц в начале двухтысячных годов к настоящему времени «Ян-
декс» и «Рамблер» перешли к еженедельной индексации. Однако, поскольку есть
такие типы информации (новости, цены, курсы валют), которые обновлятся гораздо
быстрее, поисковики имеют специального «быстрого робота», который может об-
ходить быстро меняющиеся сайты и по нескольку раз в день.

Сейчас наступает эра «поиска в реальном времени»: «быстрые роботы» поисковых
систем стараются добиться, чтобы новые документы появлялись в индексе мгно-
венно по меркам Интернета (т. е. за полчаса-час). В первую очередь это относится,
конечно, к «быстрым» средам — «Твиттеру», новостям, форумам и блогам.

Каким образом сайты и интернет-сервисы попадают в списки такого «быстро-
го робота» — отдельный разговор. Поисковик имеет механизмы «самообучения»
«быстрого робота». Если ваш сайт уже достаточно авторитетен (имеет высокий
ссылочный ранг) и при этом содержит много страниц, которые часто меняются,
у него довольно много шансов быть замеченным «быстрым роботом».

Что такое язык запросов?

Как правило, у любой поисковой машины есть возможность так называемого рас-
ширенного поиска. Расширенным он называется потому, что предоставляет расши-
ренные возможности задания запроса. В первую очередь это касается возможности
использовать при поиске логические операторы наподобие И, ИЛИ и НЕ, чтобы
задать, например, поиск кондиционера или очистителя воздуха в Москве, но не в
Петербурге. Также широко распространен оператор буквального поиска заданного
словосочетания — обычно для этого искомую фразу заключают в кавычки.

Правила употребления этих и других поисковых операторов и называются языком
запросов. В разных поисковых машинах языки запросов, обычно, значительно от-
личаются — по способам записи операторов, алгоритмам их применения в поиске
и т. п.

Обычно при описании поисковой машины в научной литературе или компьютер-
ной периодике считается хорошим тоном посвятить одну-две страницы ее языку
запросов и показать, какой он мощный.

Мы здесь этого делать не будем по одной очень простой причине — это не имеет
практического значения для владельца сайта, желающего продвинуть свой ресурс
в поисковых машинах.

Дело в том, что, несмотря на богатые возможности языка запросов современных
поисковых машин, пользуются им на практике 1-2% наиболее опытных и техни-
чески грамотных пользователей. Следовательно, какой бы ни был язык запросов
у «Яндекса», это практически никак не повлияет на посещаемость вашего сайта.

Более того, согласно статистике самих же поисковых машин, обычный пользователь
по мере получения опыта в Интернете движется не в сторону овладения языком
запросов, а в сторону использования естественного языка, то есть более длинных
словосочетаний и фраз в запросе. По сути язык запросов — это анахронизм, ос-
тавшийся от тех времен, когда пользователями Интернета были в основном люди
с техническим образованием, инженеры и математики, готовые программировать
и отлаживать свои запросы для достижения наилучшего результата.

А обычный, массовый пользователь вводит запросы, как ему бог на душу положит.
Поэтому чуть ниже мы разберемся подробнее, какие вообще бывают запросы.

Предварительная обработка запросов
поисковой машиной

Возможность свободно формулировать запросы приводит к тому, что потребность
в одних и тех же данных пользователи выражают самыми различными способами.
Они пишут слова с ошибками, пишут различные падежи, с предлогами и без, не
исправляют опечатки, используют синонимы, транслитерацию (написание русских
слов латинскими буквами), переставляют слова в запросе, выдумывают несущест-
вующие слова и т. п.

Попробуйте найти разницу в смысле следующих запросов (все формулировки —
реальные):

□ военнный комиссариат;

□ военный комиасариат;

□ военный комиссариар;

□ военный комиссарист;

□ военный комиссарита;

□ военный комтссариат;

□ военный комиссариат;

□ военный косиссариат;

□ военныф комиссариат;

□ военняй комиссариат;

□ военкамат;

□ военкомат;

□ воинкомат.

А вот еще пример полностью синонимичных запросов:

□ бесплатная отправка смс на билайн;

□ бесплатные эгш на билайн;

□ написать смс бесплатно на билайн;

□ отправить бесплатно смс на билайн;

□ послать бесплатно смс на билайн.

Как видим, тринадцать разных формулировок в одном случае и пять в другом на са-
мом деле являются вариациями всего лишь двух запросов. У поисковых машин есть
выбор — показывать ссылки на те немногие страницы, где безграмотными авторами
упоминается именно «воинкомат», или решить, что пользователю понадобился
адрес ближайшего военного комиссариата, и показать ссылки, соответствующие
правильному запросу. То же самое и с «(бесплатной/бесплатно) (написать/от-
править/послать) ($т$/смс) на билайн».

Очевидно, что поисковая машина выбирает вариант «исправления» запроса, ведь
ее задача давать пользователю полезную информацию, соответствующую его по-
требности, а не случайной и неудачной формулировке.

До 2007 года поисковая выдача соответствовала букве запроса. Однако начиная
с 2008-го практически все поисковые машины стали пытаться «понять смысл» и
подсказывать пользователю правильную формулировку на стадии ввода запроса
либо после ввода. А в ряде случаев автоматически исправлять опечатки и выдавать
результаты на ошибочный запрос так, словно был введен правильный (рис. 6.3,
6.4,6.5).

Поиск П£Щ13 Каоты Масжет Новости Словари Блоги Еидял
(военкомат

Г в найденном Г в Казани
В запросе «воинкомат» была исправлена опечатка [[]

Е> Военкомат в Казани — 11 адресов на Яндекс Картах

Рядом с центром находятся:

1. Военная Комендатура Казанского^ 1.ов«м
Дзержинского ул.. 17. +7 (843) 264-69-81

2. Финансовое отделение Военных П... 1.06км
Дзержинского ул.. 17, +7 (843) 264-28-71

3. Военная Комендатура Железнодор... 1.2км
Чернышевского ул., 36. +7 (843) 292-69-51

4. Воинская Часть На 74001 1 89 км
Карла Маркса ул., 76, +7 (В43) 236-18-01

Гвардейская ул.. 37, +7 (В43) 272-01 -89

Все адреса 11

1 Можете жаловаться н а военкомат по телефону "горячей..

У меня сын добровольно пошел в военкомат по повестке. Его и еще 300 человек отправили в
Приморский край, где абсолютно для них неподходящий климат. Большинство из них болеет.
www.trkkazan.ru > Новости > р1й=1В99 Казань копия

2 [Л военкомат - Вопросы И ответы

Можно ли заменить стационарное обследование от военкомата амбулаторным по поводу
недостаточности физического развития? (медицина армия призыв служба вввнкомат| ЕирЬопа07
otvety.google.ru/otve1y/label... ШШ Мб

Рис. 6.3. Автоматическое исправление опечатки в запросе. Исходный запрос —
«воинкомат». Выдача сформирована как ответ на запрос без опечатки

Подсказки и автоисправления помогают пользователям чаще получать лучшие
результаты и значительно снижают время поиска нужной информации.

Яндекс Нашлось 5 млн страниц

Для владельца сайта развитие этой функции в поисковиках означает, что теперь
нет нужды отдельно заниматься «продвижением» по опечаткам — все равно они
будут исправлены до поиска.

поиск mail

[аЯреяиснура

Кзртинш Видео Товары ШИН Карты

Искать: И в Москве

Опечатка? Возможно, Вы имели е виду: «аббревиатура»? Открыть результаты

⇐ Предыдущая 1 234 5 6 7 8 9 10 Следующая ⇒

Date: 2015-09-25; view: 503; Нарушение авторских прав

mydocx.ru - 2015-2026 year. (1.833 sec.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав - Пожаловаться на публикацию