Портал для веб-мастера
Вход пользователей
Поиск статей
WoWeb.ru » Статьи » Раскрутка и реклама » Поисковые системы

Как поисковые боты индексят сайты.

Итак. В ответ на запрос пользователя бот выдает результат поиска. Ищет он в собственном индексе. В индексе у него лежат сайты в том виде, в каком бот их понимает. У каждого бота это понимание свое, но общие черты прослеживаются.

Индекс образуется двумя путями.

Первый - web-маз сам просит бот проиндексить его сайтец. Так поступают чаще всего с популярными и уважаемыми ботами. Для Рунета это: Яндекс, Рамблер и Апорт. Причем именно в такой последовательности. Хотя Рамблер с Яндексом соперничают в этом плане. На остальные боты можно не тратить время. Это мое мнение.



Второй путь - боты сами в «свободное от работы время» ползают по Инету и вынюхивают изменения. С новыми сайтами они поступают по разному. Чаще всего они принюхиваются к ним какое-то время, а потом, если, по мнению бота, со страницей все в порядке (посетители иногда появляются, спама нет и др.) - они его индексят. То есть заносят информацию о нем в свой индекс (базу данных).
Самый тормозной в плане принюхивания - это Рамблер. Он принюхивается по несколько месяцев. Самый непридирчивый - Яндекс. Можно создать левый сайт и посмотреть, как скоро он самопроизвольно появится в том или ином поисковике. В Яндексе… ну, через месяц-два.

Кроме этого, боты следят за состоянием своего индекса. То есть за его соответствием реальному положению дел в Инете. Сайт может измениться, исчезнуть и т.д. Поэтому боты его обычно реиндексируют. Правда, можно запретить это мета-тегами и цивилизованные боты не будут этого делать.
Самый скоростной по реиндексированию - Яндекс. Скорость реиндекса - несколько дней, а то и чаще, если ресурс популярный. Самый тормозной - Апорт. Скорость реиндекса страниц с посещаемостью 50-100 хостов в сутки - до полугода!
У меня был сайт, который переехал. Так Апорт по запросу старый адрес еще несколько месяцев выдавал, хотя по этому адресу уже несколько месяцев ничего не было! И соответственно, посещаемость - 0. А Апорту все равно!

Дальше.
Результат поиска по запросу пользователя чаще всего выдается по релевантности. Чем выше релевантность, тем выше позиция страницы в результате работы поисковика. Страница с наиболее высокой (по мнению бота) релевантностью отображается первой. Релевантность - это степень соответствия содержимого индекса бота запросу пользователя.
Например, пользователь вводит «анекдоты». Бот выдает страницы проиндексированных сайтов, где встречается это слово. Причем не просто встречается, а встречается в тех местах, которые бот индексит.
Но об этом позже.
Яндекс, например, чаще всего выдает только одну страницу с сайта и ссылки на то, что есть еще страницы с того же сервера. Замечали, наверное. Другие боты могут по несколько страниц с одного сервака на один запрос выдавать. Это не очень образованные боты, но их тоже юзают.

Продолжим с примером про «анекдоты». Бот выдает результат поиска по релевантности. То есть, если на странице имеется 100 слов и 4 из них - «анекдоты» (в именительном падеже, множественном числе), то релевантность страницы по запросу «анекдоты» 0.04. Четыре процента. Соответственно, если слов будет 10, и 4 из них - «анекдоты», то релевантность будет 40 %. То есть в 10 раз выше.
Это грубоватый пример, так как слова в заголовке (то что между <title></title>) и в тексте страницы имеют для бота разный вес, равно как слова в падеже и числе, указанном в запросе и имеющемся на странице. Но для понимания понятия «релевантность» вполне сойдет.

Поясню про падежи и числа.
Если запрос «анекдоТЫ», а на странице встречаются только слова «анектоТ, анекдоТОВ» и т.д. то релевантность страницы по этому запросу будет ниже, чем тех страниц, на которых прямо написано слово «анекдоТЫ». Но в любом случае страница все равно найдется по запросу «анекдоТЫ» (но в с конце списка ответа поисковика).

Из сказанного следует, что страница должна содержать поменьше слов, и слова должны быть, в основном, ключевые.

Куда же девать инфу, которая в 10-20 слов никак не поместится?
Ответ - страницы с инфой и страницы для ботов - это «две большие разницы».

Страницы с инфой- это те страницы, на которые попадаешь по ссылке со стартовой страницы. А стартовая страница (другие названия - индексная, заходная, doorway и др.) - это страница которая как раз и содержит 10-20 слов (включая заголовок и мета-теги). То есть эта страница, созданная специально для бота. И больше ни для кого.

Обычно, на стартовой странице размещают лого, иногда еще несколько слов - чтобы пользователь понял, куда попал, и кнопочку «Вход». Иногда вместо кнопочки «вход» - ссылки на разные разделы сайта. То есть несколько входов.
Если без текста на индексной странице, ну, никак не обойтись, можно запихнуть его в картинки. Так Мелкософт (www.microsoft.com) поступает, например. Правда, им-то чего о релевантности заботиться?

Важно, чтобы бот по запросу нашел хоть какую-то страницу на сайте. Важно также, чтобы навигация на ВСЕХ страницах позволяла попасть в КРАТЧАЙШИЙ срок в любое место сайта.
По крайней мере, ссылка на главную страницу, по моему мнению, должна стоять на каждой странице.
Если бот начнет индексить, он надет одну страницу и дальше пойдет по ссылкам на ней. Нужно облегчить ему эту задачу. Причем, чем больше ссылок на ту или иную страницу (с разных страниц, ясен тетя), тем выше ее «ценность» с точки зрения бота.

Итак.
Стартовая страница делается для бота. На ней нет инфы, только ссылка (ссылки) и куча хитростей (см. ниже) для заманивая ботов.
Страницы с инфой должны содержать ссылки друг на друга, нормальный информативный заголовок и приемлемые мета-теги.
Все. Их цель - дать инфу и не препятствовать боту запихнуть их в свой индекс. Они не должны первыми появляться по запросу пользователя. Так как в данном случае это как раз те два зайца, за которыми никак не угнаться, да и не надо.

Дальше.
Понятное дело, что есть не одно, а несколько ключевых слов, по которым web-маз хочет, чтобы искался сайт. Чтобы этого добиться, по хорошему, нужно делать столько стартовых страниц, сколько желаемых web-мазом ключевых слов. Внешне эти страницы ничем не должны отличаться. Ну, может, title`ом. Отличаться должна служебная инфа, о которой речь пойдет ниже.

Например, у меня есть сайт для фирмешки, продающей стартеры для иномарок. Я сделала с десяток-два индексных страниц для наиболее популярных моделей иномарок. Внешне страницы отличаются только тем, что на одной в заголовке написано «Стартеры для Мерседеса», а на другой - «Стартеры для Вольво». Все. Конечно, отличаются мета-теги, alt`ы (подписи к картинкам) и т.д. Об этом ниже. Каждую индексную страницу я индексила в ботах отдельно.

Итак.
Что же индексит бот?
У каждого бота свой характер, но в целом примерно так.
Во-первых title. Это самая важная часть. Слова в title`е имеют самый большой вес. Большой вес имеют слова в alt`ах (подписях к картинкам), слова между <h1> </h1>, <h2> </h2> и т.д. в порядке убывания значимости, слова между <b> </b>.
Кроме того, слова, расположенные ближе (выше) к title`у, имеют больший вес, чем слова расположенные ниже. То есть, чем выше слово, тем выше его вес при определении релевантности.
Полнотекстовые боты (то есть практически все современные) индексят еще и сам текст. В основном, на предмет наличия в тексте слов, указанных в заголовке и метах. Но если текста нет или очень мало - соответственно.

Итого, как заставить бот выдавать твою страницу первой по запросу, например, «варез»?

Пишем:

<html>
<title>Лучший варез</title>
<title>&#160;Софт Варез Нелегальный софт</title>

То есть пишем второй title.
После второго title`a нужно поставить знак неразрывного пробела - &#160; или &nbsp;. Так как Яндекс, например, выдаст оба заголовка как один и без пробела последнее слово первого заголовка сольется с первым словом второго заголовка.
Разумеется, ключевые слова (2-6) можно выдумать и другие.

На той же странице пишем дальше:

<meta name="keywords" content="Варез, софт, нелегальный софт">
<meta http-equiv="keywords" content="Варез, софт, нелегальный софт">
<meta name="description" content="Лучшие программы">
<meta http-equiv="description" content="Лучшие программы">

В keywords`ах должно быть не более 10-ти слов, необходимо использовать варианты (не более трех) наиболее частых падежей и чисел: (например: программы, программ, программа), чередуя их с другими словами (например: программы, софт, программ, варез, программа).

В description - несколько слов (5-8 слов, не более 170 символов), емко характеризующих сайт. В Апорте и Рамблере это описание появится рядом с результатом поиска по запросу. В настоящее время при индексировании содержимое description на релевантность не влияет. По крайней мере, в рассмативаемых поисковиках.

Главное: МЕНЬШЕ СЛОВ! Преимущественно ключевые.

Name и http-equiv должны полностью совпадать. Одни боты понимают name, другие - http-equiv.

Дальше на той же странице:

<meta name="robots" content="index,follow">
# Роботам - индексировать страницу и идти дальше по ссылкам на ней.
# Аналогично сработает: <meta name="robots" content="all">

Дальше:

      <meta name="resourse-type" content="document">
#Если бот видит, что ресурс - это документ,
# он приступает (должен) к его индексации.
     <meta name="document-state" content="dynamic">
# Если тип документа - динамический - бот запомнит что сюда
# нужно периодически возвращаться.
     <meta name="revisit-after" content="10 days">
# Это пожелание боту, как часто реиндексировать документ.
# Пожелание - не более. Бот может послушаться, а может и нет.
# Если, например, он разок вернется через 10 дней и увидит,
# что страница и впрямь изменилась, может и еще разок вернется
# через 10 дней. А если написать revisit-after 1 day и не менять
# страницу вообще - бот может обидеться и посчитать это попыткой
# его спама. Он занесет такую страницу в черный индекс
# (точнее, сначала - в "серый"). Это плохо.

Дальше для Рамблера (только):

<!--<h1>Варез, софт, нелегальный софт</h1>//-->

То есть в тегах комментария в заголовке первого уровня пишем ключевые слова. Яндекс то, что в тегах комментария не индексит, а Рамблер ест как миленький.

Потом, все картинки, что ни есть, должны содержать alt`ы с ключевыми словами.

Можно даже в неприметном месте страницы однопиксельных прозрачных гифов запихать (не очень много - 3-4) и alt`ы к ним нужные прикрутить. Это считается спамом поисковика (как и два title`а, впрочем), но по опыту - они (боты) этого в упор не видят.

Вообщем, «легальные» способы кончились дальше идут «нелегальные».

Можно сделать для IE:

<div style="visibility: hidden">
<h1>Программы, варез, софт, программа</h1>
</div>

Для NN:

<layer visibility="hide"> <h1>Программы, варез, софт, программа</h1> </layer>

Это не очень удобно. Нужно ставить скриптину, определяющую тип браузера. Но боты глотают эту наживку и в «черный» список не запихивают.

Проще:

<font color="#цвет фона"><h1>Варез программа</h1></font>

Но это боты грозятся определять. Ничего не знаю по этому поводу. Может, и определяют - они сейчас умные пошли.

Еще можно вот что сделать. Где-нибудь неприметненько запихиваем прозрачные gif-чики и делаем из них ссылки. Бот и alt`ы проиндексит и по ссылкам пойдет, особенно, если сами ссылки по дизайну на страницу никак не поместить.

Примерно так:

<a href="первая ссылка"><img src="images/gif_1.gif" width="1" height="1" border="0" alt="Варез, софт, нелегальный софт"></a>
<a href="вторая ссылка"><img src="images/gif_1.gif" width="1" height="1" border="0" alt="Софт, варез"></a>
<a href="третья ссылка"><img src="images/gif_1.gif" width="1" height="1" border="0" alt="варез, софт"></a>
и т.д.

Ну, и нужен специально обученный человек, который будет следить за эволюцией ботов, изменениями позиции страницы в поисковиках и предпринимать сответствующие действия. Не каждый день, но раз в недельку-две тестирование в поисковиках своим страницам нужно устраивать.

И вот еще что! Если релевантность _слишком_ высока, Яндекс обижается и не выдает страницу по запросу. За остальными не замечала. Другие страницы того же сайта с меньшей релевантностью может выдавать («серый» список). Так что, если на странице только слова «варез варез варез» - это не выход. Релевантность должна быть не более 30 %. И одинаковые слова подряд лучше не повторять.

А Батва меня навел на мысль, что можно делать по 2 страницы на одно ключевое слово. На одной странице релевантность по ключевому слову 10 % (для подозрительного Яндекса), на другой - порядка 30 % (для остальных).

И вот когда все это извращение готово - 10-15 стартовых качественно написанных страниц - идешь на http://www.design.ru/free/addurl/ и каждую страницу индексишь одной пимпой в нескольких наиболее популярных поисковиках. При этом видишь ответы серверов, и, если не прошло - идешь индексить вручную.
Об остальных поисковиках спокойно забываешь, толку от них… Работы больше.
Описание к каждой странице - разное, ясен тетя. Емкое, краткое состоящее из ключевых слов.

Можно, и вручную добавлять сайт в каждый поисковик, но это геморройно и не сильно выгодней. Впрочем, это мое мнение.

И последнее.
В корень (только в корень) помещаешь файт robots.txt (именно так и никак иначе) со следующим содержимым:

User-agent: *   # Первая строка.
  # Комментарии, понятное дело, убрать
  # Строка говорит, что любой бот может индексить ресурс
  # Между первой и последующими -
  # не должно быть переводов строк
Disallow: /cgi-bin/  #Не индексировать то, что в каталоге cgi-bin
Disallow: /images/  #Не индексировать то, что в каталоге images
Disallow: /scripts/   #Не индексировать то, что в каталоге scripts

# И далее по смыслу. В конце каждого имени каталога - слеш.
# Нече там ботам ползать. Нагрузку на сервак повышать. :)

Вот, собственно. Хотя, можно еще много фантазировать на тему.

Автор: lynx · Добавлена: 2002-07-04
Просмотров: 9750 · Рейтинг: 4.5

Всего комментариев: 1
[1] Оскар Икрамов(tkheun) 2011-03-26, 11:16 PM
Хорошая статья. Все в куче smile Спам

Добавлять комментарии могут только зарегистрированные пользователи.
[ Регистрация | Вход ]

Категории раздела
Flash
Apache
WWW
PhotoShop
Веб-дизайн
Раскрутка и реклама
Базы данных
3D графика
Хостинг
Истории веб-мастеров
Web-технологии
Сетевая безопасность
Программирование для Web
Операционные системы

Новые статьи
Лучшие статьи
Популярные статьи
Комментируемые статьи
Разделы сайта
Скрипты
Статьи
Шрифты
Флэш исходники
HTML шаблоны
Партнерки
Клипарты
Смайлы
Фоны
Гифы
Иконки
Опрос сайта
Ведете ли вы блог?
Всего ответов: 60033
Наша кнопка
WoWeb.ru - портал для веб-мастера