Поисковые машины
А.
Аликберов
Известно, что пользователи, попадающие на сайт из поисковых машин,
дают до сорока процентов трафика. Поэтому позаботиться о правильном индексировании
Вашего сайта в поисковых машинах весьма полезно. Под "правильным индексированием"
я имею в виду, что должна быть соблюдена релевантность запроса и содержания сайта,
т.е., говоря простым и доступным языком, содержание сайта должно соответствовать
запросу (некоторые "мастера" злоупотребляют наборами не отвечающих реальности
ключевых слов. Например, когда моя сестра готовила к выпуску компакт-диск с локальными
копиями первых уровней Web-страниц, слово "х#й" и иже с ним встречалось на серверах
весьма солидных компаний, ничего общего не имеющих с подобного рода лексикой:-).
Почему я перечислил именно эти поисковые машины? Потому что именно
ими, по моим наблюдениям, пользуются русскоязычные нетизены (netizen). Что такое
"мои наблюдения"? Это анализ логов доступа к моему серверу http://citforum.ru/,
точнее той части логов, гда собирается информация по HTTP_REFERER, т.е. адреса
(URLs), на которых клиенты воспользовались ссылкой на какую либо страницу моего
сервера.
Каков рейтинг перечисленных мною машин на практике, какими машинами пользуются
больше, какими - меньше?
На первом месте с колоссальным отрывом от остальных идет Altavista.
Эта поисковая машина лидировала еще до того как там появился поиск по различным
языкам (в том числе - по русскоязычным документам). Ну оно и понятно - прекрасный,
легкодоступный сервер, давно работает (с начала 1996 года), огромная база документов
(свыше 50 миллионов адресов). Следует также учесть, что русскоязычные пользователи
находятся не только в России, но и в Болгарии, Чехии и Словакии, в Польше, Израиле,
Германии, не говоря уже о бывших республиках СССР - Украина, Белоруссия ... (Особо
хочу сказать о прибалтах: это они при встрече на улицах какого-нибудь Каунаса
или Таллинна не знают русского языка, а перед монитором, особенно если очень нужно,
очень даже знают:-)) Так вот всем этим пользователям удобнее пользоваться Альтавистой,
а не нашими отечественными машинами - ближе, все таки...
Следующая по популярности поисковая машина, как ни странно, самая
молодая в России - Яndex. Как мне говорил Алекей Амилющенко (компания Comptek)
на сегодняшний день там наблюдается в среднем 72000 запросов в суткии и есть тенденция
+10% в неделю (данные от 7.04.98). Мне кажется, Яndex наиболее перспективная российская
поисковая машина. С комптековской системой разбора "великого и могучего" русского
языка Яndex вполне может выйти победителем в конкуренции со вторым китом в этой
сфере - Рамблером.
Рамблер - третья серьезная поисковая машина для русскоязычных
пользователей. Главное, что мне в ней не нравится, так это игнорирование содержимого
конструкции <meta name=keywords content=...>. (Это я не придумал, это сказал
Дмитрий Крюков из компании Stack Ltd.) Наверное, именно из-за отказа учитывать
ключевые слова, в результатах запросов выдаются такой странный набор ссылок. Второй
недостаток чисто интерфейсного характера - результаты постоянно выдаются в кодировке
КОИ, независимо от того, что выбрано пользователем перед этим. Третий недостаток:
спайдер Рамблера работает по протоколу HTTP 0.9, что приводит к ошибкам индексирования,
т.е. если на одном IP-адресе живут несколько виртуальных серверов, Рамблер видит
только первый, а все остальные считает просто синонимами. Ну да ладно, будем надеяться,
что это вскоре исправят.
Ну и на последнем месте по моему рейтингу идут Апорт-Поиск, который
очень странно индексирует сервера, РусИнфОил, который регулярно закрывается на
реконструкции и ТЕЛА-Поиск - красивый и почти бесполезный прибамбас для сервера
www.dux.ru.
Вы спросите: а в списке были еще HotBot и метапоисковая машина
Следопыт компании "Медиалингва"? Я их не забыл, просто HotBot непонятно почему
оставляет в моих логах толпу записей, что не может быть случайными залетами не
понимающих русского языка иностранцев (с других импортных машин таких залетов
гораздо меньше), а "Следопыт" я еще недостаточно серьезно изучил.
А зачем же поисковые машины для раскрутки сайта?
Все очень просто, как я уже говорил, поисковые машины могут дать
до сорока процентов трафика к сайту. А чтобы это происходило, необходимо, чтобы
Ваш сайт был правильно проиндексирован, а для этого необходимо знать, как это
делается.
А делается это следующим образом: либо робот поисковой машины
сам добирается до вашего сайта, либо Вы сами указываете сайт в соответствующем
интерфейсе (AddUrl), который наличествует в любой уважающей себя поисковой машине.
Первый вариант страдает затянутостью (пока еще робот доберется, может через день,
может через год: Internet-то большой). Второй - требует затратить некоторое время
(разнообразный софт для автоматической регистрации Вашего сайта в туче поисковых
машин нам ничего не дает - машины-то импортные).
Чтобы все произошло в лучшем виде требуется:
- на сайте должет быть хоть какой-нибудь текст. Картинки и тест на них поисковые
машины игнорируют. Правда, можно продублировать текст в атрибуте alt тага img
- В каждом документе сайта ОБЯЗАТЕЛЬНО должны присутствовать осмысленный заголовок
(title), ключевые слова (keywords) и краткое описание (description). Это только
пишут, что поисковые машины - полнотекстовые, на самом деле это не так.
- Изготовление файла robots.txt (особенно, если у вас есть собственный сервер
типа www.name.ru).
- Прописка вручную в каждой интересующей Вас поисковой машине и последующий
контроль индексирования Вашего сайта.
Итак, Вы уже зарегистрировали первую страницу своего сайта в различных поисковых
машинах.
Вы думаете уже все в подрядке? Как бы не так. Если ссылка на
Ваш сайт в ответе поисковой машины выводится на втором экране -"это так же плохо,
как если бы ссылки вообще не было" (Danny Sullivan, searchenginewatch.com)
Иначе говоря, просто указать страницу в AddURL недостаточно.
Необходимо заранее подготовить документ так, чтобы на соответствующие запросы
к поисковой машине в ее ответе на запрос ссылка на Ваш документ находилась если
не первой, то хотя бы в первой десятке ссылок (а лучше, если в этой десятке было
несколько ссылок на Вашы документы:-). Что значит "подготовить"? Это чисто технический
вопрос, ничего сверхестественного. Просто в секции HEAD каждого документа Вашего
сайта стоит указать "говорящий" Title, KeyWords, Description и Robots.
Title: заголовок документа. Хороший осмысленный заголовок
может заставить пользователя из множества других выбрать именно Вашу ссылку. Зачастую
видишь примерно следующие заголовки: "Содержание" - чего, зачем - непонятно, не
возникает желания проверять. Другой случай: на всех страницах сайта в качестве
заголовка - "Добро пожаловать в компанию ..." - тоже не слишком привлекательно
проверять все таким образом озаглавленные документы. Представьте себе, что выбран
режим поиска по заголовкам, без описания каждого документа.
KeyWords: ключевые слова. Именно содержимое этого контейнера
влияет на релевантность документа запросу поиска.
<meta name=keywords content="разделенный запятыми список ключевых слов
и устойчивых словосочетаний">
Сколько ни говорят, что поисковые машины - полнотекстовые, это
не совсем верно, а вот содержимое этого контейнера точно попадет в индекс поисковой
машины. К сожалению, создатели одной из крупнейших отечественных поисковых машин
Rambler, не хотят отрабатывать этот контейнер. А зря.
- в поле content не должно быть знаков конца строки, кавычек и других специальных
символов, регистр символов роли не играет
- не рекомендуется повторять одни и те же ключевые слова по нескольку раз, это
может быть воспринято как spam и страница рискует быть удаленной из индекса поисковой
машины.
- не стоит делать одинаковые keywords для разных страниц Вашего сайта. Это,
конечно проще, но содержимое самих документов различное. Если очень хочется автоматизировать
этот процесс, можно написать программку, которая прописывала бы в это поле все
выделенные блоки документа, например, то что стоит между тагами H, I и B.
- если строка в content слишком длинная, не возбраняется сделать еще несколько
аналогичных конструкций.
- вообще говоря, общий объем ключевых слов одного документа может достигать
до 50% объема этого документа.
Description: краткое описание документа. Довольно полезный
контейер, его содержимое используется как краткое описание релевантных документов
в ответе современных поисковых машин. Если этого контейнера нет, то выдаются некоторое
количество строк с начала документа. Соответственно, не редкая катина, когда в
самом начале документа расположен JavaScript, и вместо нормального описания выдается
абракадабра в виде куска скрипта.
<meta name=description content="краткая аннотация документа">
- в поле content не должно быть знаков конца строки, кавычек и других специальных
символов.
- желательно, чтобы здесь была осмысленная аннотация документа из пары-тройки
человеческих предложений, чтобы пользователь поисковой машины помимо заголовка
смог понять смысл документа.
- к сожалению, отечественные поисковые машины пока не умеют работать с этим
контейнером, хотя божатся, что в скором времени научатся.
Можно ли управлять действиями поисковых машин?
Можно, и даже нужно! Первое действие, которое для этого нужно
совершить, это написать файл robots.txt и положить его в корень Вашего сервера.
Этот файл популярно объясняет роботу поисковой машины что надо индексировать,
а что не стоит. Например, зачем индексировать служебные файлы, типа статистических
отчетов? Или результаты работы скриптов? Более того, многие "умные" машины просто
не станут индексировать сервера, не найдя robots.txt. Кстати, в этом файле можно
указать разные маски индексирования для разных поисковых машин.
Подробнее об этом можно прочитать в моем переводе "Standard
for Robots Exclusion". Второе действие: снабдить страницы сайта МЕТА-тагами
Robots. Это более гибкое средство управления индексацией, чем robots.txt. В частности,
в этом таге можно предписать роботу поисковой машины не уходить по ссылкам на
чужие сервера, например, в документах со списками ссылок. Формат этого безобразия
таков:
<META NAME="ROBOTS" CONTENT="robot_terms">
robot_terms - это разделенный запятыми список следующих ключевых
слов (заглавные или строчные символы роли не играют): ALL, NONE, INDEX, NOINDEX,
FOLLOW, NOFOLLOW.
- NONE
- говорит всем роботам игнорировать эту страницу при индексации (эквивалентно
одновременному использованию ключевых слов NOINDEX, NOFOLLOW).
- ALL
- разрешает индексировать эту страницу и все ссылки из нее (эквивалентно одновременному
использованию ключевых слов INDEX, FOLLOW).
- INDEX
- разрешает индексировать эту страницу
- NOINDEX
- неразрешает индексировать эту страницу
- FOLLOW
- разрешает индексировать все ссылки из этой страницы
- NOFOLLOW
- неразрешает индексировать ссылки из этой страницы
Если этот мета-таг пропущен или не указаны robot_terms, то по
умолчанию поисковый робот поступает как если бы были указаны robot_terms=INDEX,
FOLLOW (т.е. ALL). Если в CONTENT обнаружено ключевое слово ALL, то робот поступает
соответственно, игнорируя возможно указанные другие ключевые слова.. Если в CONTENT
имеются противоположные по смыслу ключевые слова, например, FOLLOW, NOFOLLOW,
то робот поступает по своему усмотрению (в этом случае FOLLOW).
Если robot_terms содержит только NOINDEX, то ссылки с этой страницы
не индексируются. Если robot_terms содержит только NOFOLLOW, то страница индексируется,
а ссылки, соответственно, игнорируются.
Контроль за текущим состоянием Ваших документов в индексе поисковых машин.
Ну хорошо, Вы прочитали все, что было выше и так и сделали. Что
же дальше? А дальше будет долгая, нудная и, главное, регулярная проверка на предмет
того, как обстоят дела. Как ни печально, а придется уделять этому внимание хотя
бы потому, что документы временами пропадают из поисковых машин. Почему? Знать
бы... Итак, в хороших поисковых машинах можно посмотреть какие документы и сколько
их в текущее время находится в индексе. Вот как это делается:
Alta Vista
В этой поисковой машине проверку статуса URL осуществить довольно просто -
достаточно набрать в строке запроса:
url: citforum.ru
url:citforum.ru/win/
url:citforum.ru/win/internet/index.shtml
В первом случае будут выданы все проиндексированные страницы сервера. Во втором
- только страницы Windows-кодировки. В третьем - есть ли в индексе AltaVista файл
index.shtml из указанной директории
Excite
Так же просто как и в AltaVista проверяется статус URL в поисковой машине
Excite. Достаточно набрать URL. Например:
http://citforum.ru/win/database/articles/art_1.shtml
HotBot
Несколько по-другому проверяется статус URL в поисковой машине HotBot. Это
делается так:
- Введите URL в поле запроса
- Измените опцию "all of the words" на "links to this URL"
Infoseek
В поисковой машине Infoseek для проверки статуса URL существует отдельный
интерфейс с целым набором настроек:
http://www.infoseek.com/Forms?&sv=IS&lk=noframes&pg=special.html
WebCrawler
WebCrawler предоставляет возможность проверить статус URL на странице:
http://www.webcrawler.com/WebCrawler/Status.html
Rambler
В этой поисковой машине статус URL можно проверить двумя способами.
- В разделе "Расширеный
поиск" путем указания имени сервера в качестве маски в одной из опций
- Можно набрать $URL:www.citforum.ru в обычном поле запроса
Aport
Для проверки статуса URL в этой поисковой машине есть специальный запрос url=www.citforum.ru/*
Основные технические характеристики поисковых машин
Чего люди хотят от этой жизни?
Дополнительные источники информации на русском языке
Информация взята с сайта Citforum.ru