Ремонты цифровой техники
Вернуться:
Дополнительно
Поиск по сайту
поиск

Файл robots.txt

Типичной ошибкой многих сайтов является неправильный формат файла robots.txt или отсутствие файла. Многие начинающие вебмастера или владельцы сайтов, начитавшись неверной информации о файле роботс, просто не считают нужным его создавать или размещать. Присутствует много статей которые указывают на то что это файл в котором прописаны страницы, которые нужно запретить для индексирования. Можно подумать, что же запрещать когда и так еще очень мало контента. Так зачем нужен файл robots txt? И так ли необходим файл?

Он необходим если вы думаете о каком либо поисковом продвижении сайта, если это не одностраничник, landing page, на который просто нагоняется целевой трафик с целью продажи какого либо товара или услуги. Помимо того что в файле robots txt можно запретить индексировать файлы или пути, еще имеется очень важная информация для поисковых систем. Этот файл содержит адрес файла карты сайта Sitemap xml, в котором указаны все страницы вашего сайта, о которых вы хотите сообщить поисковикам. Так же в файле robots txt вы можете прописать команды настройки индексирования для любого поискового робота. Поисковые роботы довольно сильно нагружают сайт при посещении. В файле роботс вы сможете задать задержку индексирования в секундах и даже прописать разрешенные часы для индексирования тем или иным роботом. Как видите, функционал файла robots txt не ограничен одними лишь запретами на индексирование. Рассмотрю пример файла robots.txt

User-agent: *
Crawl-delay: 5
Disallow:
Sitemap: http://mysite.ru/Sitemap.xml
Host: mysite.ru

Директива User-agent: * означает что все ниже перечисленное в файле роботс до следующей инструкции User-agent: применимо ко всем поисковым роботам. Можно вместо нее указать User-agent: Yandex , тогда инструкции будут приняты только поисковиком яндекса. Вообще Вы можете указывать сколько нужно директив User-agent если это требуется, а можете ограничиться одной как в рассматриваемом примере, главное придерживаться правил составления файла robots txt.

Crawl-delay: 5 означает что сканирование сайта будет проходить с задержкой в 5 секунд, это очень актуально для больших порталов, нагрузка поисковых систем на которые может сильно помешать их работе. Следует учитывать что на момент написания данной статьи Google не понимает ее,  и задержку сканирования следует задавать в инструментах для вебмастеров Google. При проверке вышеприведенного файла на валидность инструментами Google для вебмастеров вы так же увидите предупреждение. 

Disallow: указывает на то что никаких запретов на индексирование нет. Обратите внимание что если даже вы не хотите ничего запрещать, эта директива должна присутствовать.

Sitemap: http://mysite.ru/Sitemap.xml содержит полный адрес карты сайта в формате xml. И в последней директиве указано имя основного зеркала сайта Host: mysite.ru, эта директива влияет только на работу поискового робота Яндекса. Disallow: /wp-admin/ можно было бы указать для запрета индексирования директории wp-admin. Но не пишите никогда инструкции в таком виде:

Disallow: /wp-admin/, /archives/

Для запрета нескольких директорий нужно писать так:

Disallow: /wp-admin/
Disallow: /archives/

Директива Host: понимается только Яндексом и указывает на адрес основного зеркала. Можете задать, к примеру www.mysite.ru либо mysite.ru.

Очень важно придерживаться стандартов, иначе могут возникнуть серьезные проблемы с индексированием вашего сайта, узнать о которых и исправить получится не так быстро. Это основные моменты которые нужно знать о файле robots txt. 


Опубликовано 2016-04-27 01:00:42