Как работает робот и как регистрироваться в поисковой машине
Yandex
Робот, или паук, или червь, или crawler, или сетевой агент - программа обхода
Сети. Базовой информацией для работы этой программы является список адресов (URL).
Дополнительная информация берется из robots.txt (файла, в котором Web-администратор
может запретить роботу заходить на те или иные разделы сайта, подробнее см. на
http://www.topserver.donetsk.ua/Robot/
). В самом общем случае робот предназначен для скачивания страниц по указанным
адресам в место, указанное его хозяином.
Помимо robots.txt существуют и другие джентельменские соглашения для работы
роботов - например, он не должен делать более одного коннекта, чтобы не забить
канал и дать возможность другим пользователям Сети общаться с данным сервером.
Для поисковой машины Yandex.Ru в состав робота входят еще модули индексации,
распознавания кодировок (если на странице содержится русский язык) и определения
уникальности документа.
Как Yandex.Ru узнает о новых ресурсах
Как Yandex.Ru узнает о новых серверах и страницах? Есть два способа - или владельцы
ресурсов сами добавляют их (заполнив форму AddURL на http://yandex.ru/addurl.html или
послав письмо на addurl@yandex.ru), или робот находит новые ссылки в проиндексированных
страницах. Так, например, с первой страницы сервера робот берет ссылки на последующие
и так далее, без ограничения глубины, до тех пор, пока новые адреса не перестанут
появляться.
Поскольку задачей Yandex.Ru является работа с русско-язычным и/или российско-ориентированным
Интернетом, введено следующее правило: сервера в доменах России и стран СНГ ('su',
'ru', 'am', 'az', 'by', 'ge', 'kg', 'kz', 'md', 'tj', 'ua', 'uz') принимаются
по умолчанию. Сервера в других доменах - если на них найден русский язык или если
владельцы ресурсов убедят администрацию поисковой машины в том, что их сервер
подпадает под указанную категорию (это обычно делается письмом на addurl@yandex.ru).
Итак, не удивляйтесь, если URL, который Вы добавляете, уже есть в базе робота.
Наш робот мог найти Ваш URL по ссылкам из других проиндексированных документов.
Не стоит также огорчаться, если при этом Вы не можете найти этот документ в Yandex.
Наверняка наш "паук" просто еще не успел дойти до Вашего документа, и он будет
проиндексирован через несколько дней.
Правила индексации в Yandex.Ru
Yandex индексирует страницы по их истинным адресам. Это значит, что, если на
странице стоит redirect, робот воспримет его как ссылку на новый адрес и поступит
с ним по правилам, указанным выше. То же самое произойдет, если в одном из фреймов
будет стоять ссылка на другой сервер. В частности, если эта ссылка находится вне
доменов, разрешенных по умолчанию, страница НЕ будет проиндексирована.
Кроме этого, Yandex начинает бороться со спамом, и страницы со временем redirect'а
равным нулю будут исключаться из индексирования (непонятно, какие еще цели, кроме
спама, могут быть у создателей страницы, которую пользователь в принципе не может
увидеть).
Робот Yandex.Ru хранит дату последнего обхода каждого URL, дату его изменения
(присланную его Web-сервером) и дату внесения последних изменений в базу поиска
(дату индексации). Он оптимизирует обход Сети таким образом, чтобы чаще посещать
наиболее изменяемые сервера.
По этой причине, а также потому, что на Yandex.Ru работает поиск и сортировка
по датам, очень хотелось бы, чтобы сервера выдавали корректные даты изменения
файлов, чего не происходит более чем в 20 процентов случаев.
Yandex.Ru является полнотекстовой поисковой машиной. Это значит, что в индекс
попадают все слова текста на странице, видимые пользователю (то есть кроме комментариев
и слов внутри тэгов). В ближайшее время планируется начать индексировать Meta-keywords.
Как узнать, проиндексирован ли ресурс
Чтобы проверить, проиндексирована ли Ваша страница, достаточно скопировать
из нее какую-нибудь характерную строчку, желательно подлиннее (копирайт, адрес,
название и описание), и задать ее как запрос в Yandex. Если на первой странице
списка найденного Вашей страницы не оказалось, значит, она еще не проиндексирована.
Тогда стоит проверить, есть ли она уже в базе робота. Для этого надо пойти на
страницу AddURL ( http://yandex.ru/addurl.html
) и попробовать добавить адрес еще раз. Если Вы получили ответ, что страница уже
содержится в базе робота, это значит, что она будет проиндексирована в ближайшее
время. Если же Вы получили ответ, что страница добавлена, это значит, что в первый
раз при добавлении что-то было сделано неверно - возможно, Вы не обратили внимание
на диагностику, которая Вам была выдана.
Правила по добавлению URL в поисковую машину Yandex.Ru:
- Добавляйте истинный адрес Вашей страницы
- Создайте файл robots.txt, если Вы хотите закрыть какие-то разделы от индексирования.
- Смотрите на ответ, который выдает Вам программа AddURL и, при необходимости,
пишите письмо на addurl@yandex.ru (учтите, что запись
URL чуствительна к регистру шрифта).
- Конфигурируйте сервер так. чтобы он корректно выдавал даты файлов и кодировки
русского языка.
- Добавляйте верхнюю страницу Вашего сервера - остальные Yandex найдет сам по
ссылкам.
- Если Ваша страница была проиндексирована, а затем Вы изменили ее содержание
или удалили ее, не беспокойтесь - робот автоматически обойдет ее снова и обновит
индекс (в случае, если страница больше не существует, она будет исключена из поиска).
Ресурс в системе описан неправильно. Как это исправить?
Мы часто получаем письма вроде "Я не заносил в Вашу систему мой ресурс, и он
описан неправильно. Как мне исправить положение?" Вообще говоря, ресурс, если
он существует, не может быть занесен неправильно. Если он секретный, запретите
доступ к нему в robots.txt. Если он не ищется по тем словам, по которым Вам бы
хотелось, или находится не в первых рядах, обратите внимание на то, что, собственно,
написано на страницах Вашего ресурса.
Yandex.Ru - полнотекстовая поисковая машина, поэтому страницы будут находиться
по словам, написанных на них, а не по тем ключевым словам, которыми Вы этот ресурс
описали. Учтите также, что Yandex работает только с текстами и не умеет распознавать
графические изображения. Поэтому, если название нарисовано, то стоит его повторить
где-нибудь просто текстом. Предложения Yandex на тему "как сделать, чтобы Вашу
страницу нашли те, кому она нужна" описаны в "Советах Web-мастеру" (http://yandex.ru/ya_advise.html).
Информация взята с сайта New
Web-Masters Club