форум волчат  

поисковые системы- стандарт поисковых систем robots txt, описание robots txt - исключения для роботов поисковых систем - Интернет-реклама и раскрутка сайтов (реклама сайтов запрещена) - бесплатно
 РегистрацияРегистрация   ВходВход 
Сделать стартовой Добавить в избранное Николай Попков Правила форума
Вход в чаты: чат волчат и чат знакомств (если нет регистрации в чатах, то пароль не нужен):
Ник в чате: Пароль:
Ник в чате: Пароль:

Cайт знакомств Holiday.Ru - 12360781 анкет:

Я ищу от до лет, из города

Реальные бесплатные знакомства в твоем городе:

Я ищу от до лет, в регионе

Рекламное агентство Реклама SU - контекстная реклама и продвижение сайтов с оплатой за результат
Форум Раскрутка сайта и форум Маркетинг и реклама. Чаты. Shot.Su - игровой сервер CSS и CS
Сонник. Анекдоты. Приметы. Aфоризмы. Тосты.

Баннерная сеть ClickHere
поисковые системы- стандарт поисковых систем robots txt, описание robots txt - исключения для роботов поисковых систем

 
   Список форумов волчат -> Интернет-реклама и раскрутка сайтов (реклама сайтов запрещена)
Форум Раскрутка сайтов  
Автор Сообщение
masterОффлайн
Admin
Зарегистрирован: 28.04.2003
Всего сообщений: 1535
Откуда: Волгоград
Возраст: 56
Пол: Мужской
07 Июл 2003 Пн 11:25   поисковые системы- стандарт поисковых систем robots txt, описание robots txt - исключения для роботов поисковых систем

поисковые системы- стандарт поисковых систем robots txt, описание robots txt - исключения для роботов поисковых систем

Стандарт исключений для роботов поисковых систем - Standard for robot exclusion


Этот документ составлен 30 июля 1994 года по материалам обсуждений в телеконференции robots-request @ nexor.co.uk (сейчас конференция перенесена на WebCrawler. Подробности см. Robots pages at WebCrawler info.webcrawler.com/mak/projects/robots/) между большинством производителей поисковых роботов поисковых систем и другими заинтересованными людьми. Также эта тема открыта для обсуждения в телеконференции Technical World Wide Web www-talk @ info.cern.ch . Сей документ основан на предыдущем рабочем проекте под таким же названием.

Этот документ не является официальным или чьим-либо корпоративным стандартом поисковых систем, и не гарантирует того, что все нынешние и будущие поисковые системы будут использовать его. В соответствии с ним большинство производителей поисковых систем предлагает возможность защитить Веб-серверы от нежелательного посещения их поисковыми роботами.

Введение

поисковые системы (wanderers, spiders) - это программы, которые индексируют веб-страницы в сети Internet.

В 1993 и 1994 годах выяснилось, что индексирование поисковыми системами серверов порой происходит против желания владельцев этих серверов. В частности, иногда работа поисковых систем затрудняет работу с сервером обычных пользователей, иногда одни и те же файлы индексируются поисковыми системами несколько раз. В других случаях поисковые системы индексируют не то, что надо, например, очень "глубокие" виртуальные директории, временную информацию или CGI-скрипты. Этот стандарт призван решить подобные проблемы поисковых систем.

Назначение

Для того, чтобы исключить посещение сервера или его частей поисковыми системами необходимо создать на сервере файл, содержащий информацию для управления поведением поискового робота. Этот файл должен быть доступен по протоколу HTTP по локальному URL /robots.txt. Содержание этого файла см. ниже.

Такое решение было принято для того, чтобы поисковый робот мог найти правила, описывающие требуемые от него действия, всего лишь простым запросом одного файла. Кроме того файл /robots.txt легко создать на любом из существующих Веб-серверов.

Выбор именно такого URL мотивирован несколькими критериями:

Имя файла должно было быть одинаковым для любой операционной системы
Расширение для этого файля не должно было требовать какой-либо переконфигурации сервера
Имя файла должно было быть легко запоминающимся и отражать его назначение
Вероятность совпадения с существующими файлами должна была быть минимальной
Формат

Формат и семантика файла для поисковой системы - /robots.txt следующие:

Файл должен содержать одну или несколько записей (records), разделенных одной или несколькими пустыми строками (оканчивающимися CR, CR/NL или NL). Каждая запись должна содержать строки (lines) в форме:

"<field>:<optional_space><value><optional_space>".

Поле <field> является регистронезависимым.

Комментарии могут быть включены в файл в обычной для UNIX форме: символ # означает начало комментария, конец строки - конец комментария.

Запись должна начинаться с одной или нескольких строк User-Agent, следом должна быть одна или несколько строк Disallow, формат которых приведен ниже. Нераспознанные строки игнорируются.

User-Agent

значением <value> этого поля должно являться имя поискового робота, которому в этой записи устанавливаются права доступа.
если в записи указано более одного имени робота, то права доступа распространяются для всех указанных имен.
заглавные или строчные символы роли не играют
если в качестве значения этого поля указан символ "*", то заданные в этой записи права доступа распространяются на роботов любых поисковых систем, запросивших файл /robots.txt
Disallow

значением <value> этого поля должен являться частичный URL, который не должен индексироваться. Это может быть полный путь или частичный; любой URL, начинающийся с такого пути не должен индексироваться. Например, Disallow: /help закрывает поисковой ситеме и /help.html, и /help/index.html, тогда как
Disallow: /help/- только /help/index.html.
если значение Disallow не указано, то это означает, что поисковой системой индексируется все дерево каталогов сервера
Любая запись (record) должна состоять хотя бы из одной строки (line) User-Agent и одной - Disallow

Если файл /robots.txt пуст, или не отвечает заданному формату и семантике, или его не существует, любой робот поисковых систем будет работать по своему алгоритму.

Примеры

Пример 1:

# robots.txt for http :// www. site . com



User-Agent: *



Disallow: /cyberworld/map/ # this is an infinite virtual URL space

Disallow: /tmp/ # these will soon disappear


В примере 1 закрывается от индексации поисковой системой содержимое директорий /cyberworld/map/ и /tmp/.

Пример 2:

# robots.txt for http :// www. site . com



User-Agent: *



Disallow: /cyberworld/map/ # this is an infinite virtual URL space



# Cybermapper knows where to go



User-Agent: cybermapper



Disallow:


В примере 2 закрывается от индексации содержимое директории /cyberworld/map/, однако поисковому роботу поисковой системы cybermapper все разрешено.

Пример 3:

# robots.txt for http :// www. site . com



User-Agent: *



Disallow: /


В примере 3 любому поисковому роботу поисковых систем запрещается индексировать сервер.

В настоящее время стандарт несколько изменился, например, можно записывать в строке User-Agent несколько имен роботов поисковых систем, разделенных пробелами или табуляторами.

http://www.citforum.ru/internet/search/rbtspec.shtml


Последний раз редактировалось: master (14 Июл 2003 Пн 09:44), всего редактировалось 3 раз(а)
Вернуться к началу
View user's profile Посетить сайт автора 
masterОффлайн
Admin
Зарегистрирован: 28.04.2003
Всего сообщений: 1535
Откуда: Волгоград
Возраст: 56
Пол: Мужской
07 Июл 2003 Пн 12:55   поисковые системы- стандарт robots txt - описание robots txt

Советы от Яндекса:

Как запретить индексацию определенных страниц?

Разрешения и запрещения на индексацию берутся всеми поисковыми системами из файла robots.txt, находящегося в корневом каталоге сервера. Запрет на индексацию ряда страниц может появиться, например, из соображений секретности или из желания не индексировать одинаковые документы в разных кодировках. Чем меньше ваш сервер, тем быстрее робот поисковой системы его обойдет. Поэтому запретите в файле robots.txt все документы, которые не имеет смысла индексировать (например, файлы статистики или списки файлов в директориях). Обратите особое внимание на CGI или ISAPI скрипты - наш робот индексирует их наравне с другими документами.

В простейшем виде (разрешено все, кроме директории скриптов) файл robots.txt выглядит следующим образом:

User-Agent: *
Disallow: /cgi-bin/



При написании robots.txt обратите внимание на следующие часто встречающиеся ошибки:


Строка с полем User-Agent является обязательной и должна предшествовать строкам с полем Disallow. Так, приведенный ниже файл robots.txt не запрещает ничего:
Disallow: /cgi-bin
Disallow: /forum



Пустые строки в файле robots.txt являются значимыми, они разделяют записи, относящиеся к разным роботам. Например, в следующем фрагменте файла robots.txt строка “Disallow: /forum” игнорируется, поскольку перед ней нет строки с полем User-Agent.
User-Agent: *
Disallow: /cgi-bin
Disallow: /forum




Строка с полем Disallow может запретить индексирование документов только с одним префиксом. Для запрета нескольких префиксов нужно написать несколько строк. Например, нижеприведенный файл запрещает индексирование документов, начинающихся с “/cgi-bin /forum”, которых, скорее всего, не существует (а не документов с префиксами “/cgi-bin” и “/forum”).
User-Agent: *
Disallow: /cgi-bin /forum



В строках с полем Disallow записываются не абсолютные, а относительные префиксы. То есть файл:
User-Agent: *
Disallow: www.мойhost.ru/cgi-bin


запрещает, например, индексирование документа

http://www.мойhost.ru/www.myhost.ru/cgi-bin/counter.cgi,

но НЕ запрещает индексирование документа поисковыми системами

http://www.мойhost.ru/cgi-bin/counter.cgi.


В строках с полем Disallow указываются именно префиксы, а не что-нибудь еще. Так, файл:
User-Agent: *
Disallow: *


запрещает индексирование документов, начинающихся с символа «* » (которых в природе не существует), и сильно отличается от файла:

User-Agent: *
Disallow: /


который запрещает индексирование всеми поисковыми системами всего сайта.

Если вы не можете создать/изменить файл robots.txt, то еще не все потеряно — достаточно добавить дополнительный тег <META> в HTML-код вашей страницы (внутри тега <HEAD>):


<META NAME="ROBOTS" CONTENT="NOINDEX">
Тогда данный документ также не будет проиндексирован.

Вы также можете использовать тэг


<META NAME="ROBOTS" CONTENT="NOFOLLOW">
Он означает, что робот поисковой машины не должен идти по ссылкам с данной страницы.

Для одновременного запрета поисковым системам индексирования страницы и обхода ссылок с нее используется тэг


<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">
Как запретить поисковым системам индексацию определенных частей текста?

Чтобы запретить поисковым системам индексирование определенных фрагментов текста в документе, пометьте их тегами


<NOINDEX></NOINDEX>.
Вернуться к началу
View user's profile Посетить сайт автора 
Показать сообщения:   
смешные анекдоты и политика
форум женщин - женский форум
форум компьютерные игры
музыкальный форум
Бесплатные игры и чат знакомств
Сайты знакомств: Знакомство.su,
К, ML и серьезные знакомства для брака (подбор партнера по тестам).


Партнерка Яндекса

Замуж за рубеж: любовный маг, невеста



сервис ремонт фотоаппаратов

pr агентство Реклама SU, оптимизация сайтов, баннеры - баннерная сеть. Партнерские программы
Бесплатные сервисы для вас: Виртуальная клавиатура и транслит.
IP адрес - где узнать мой IP адрес? ip address

бесплатный форум


free forum