Как правильно составить robots.txt
Файл robots.txt это важный инструмент для веб-мастеров, который помогает контролировать, какие страницы вашего сайта могут индексировать поисковые системы. Правильное его оформление поможет избежать индексирования нежелательных страниц и улучшит SEO-позиции. В этой статье поговорим о том что такое файл robots.txt, как его правильно составить.
Основные компоненты robots.txt:
1. User-agent: Этот директива определяет, к какому поисковому роботу относятся следующие правила. Например, `User-agent: *` означает, что правило применимо к всем поисковым системам.
2. Disallow: С помощью этой директивы указывается, какие страницы или директории не должны индексироваться. Например, `Disallow: /private/` запретит индексирование страницы в каталоге "private".
3. Allow: Если нужно разрешить индексацию определенных страниц в запрещенной папке, можно использовать `Allow`. Например, `Allow: /private/public-page.html` позволит индексировать эту страницу, несмотря на общий запрет.
4. Sitemap: Укажите местоположение вашего файла Sitemap, чтобы помочь роботам быстрее найти и проиндексировать важные страницы вашего сайта. Например, `Sitemap: http://www.example.com/sitemap.xml`
В файле robots.txt можно указать следующие инструкции:
- что нужно индексировать, а что — нет;
- какие директории и страницы необходимо исключить из индексации;
- как часто можно обращаться к сайту с целью индексации;
- какие поисковые системы разрешено индексировать сайт;
- какие типы файлов необходимо исключить из индексации.
Размещение файла robots.txt на сайте помогает избежать нежелательной индексации некоторых страниц сайта, повышает качество индексации сайта и ускоряет процесс индексации.
User-agent: *
Disallow: /private/
Disallow: /temp/
Allow: /public/
Sitemap: http://www.example.com/sitemap.xml
Пример файла robots.txt для WordPress (WP):
Disallow:
User-agent: Googlebot
Disallow:
User-agent: Bingbot
Disallow:
User-agent: Yandex
Disallow:
User-agent: Slurp
Disallow:
User-agent: Baiduspider
Disallow:
Sitemap: https://example.com/sitemap.xml
Директории и файлы, которые необходимо скрыть от поисковых роботов
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-content/cache/
Disallow: /wp-content/uploads/
Disallow: /readme.html
Disallow: /wp-login.php
Disallow: /xmlrpc.php
Скрыть дублированные страницы
Disallow: /*?
User-agent: *
Crawl-delay: 10
Пример файла robots.txt для DataLife Engine (DLE):
Disallow: /engine/go.php
Disallow: /engine/download.php
Disallow: /engine/print.php
Disallow: /engine/ajax/
Disallow: /subaction=userinfo
Disallow: /do=lastcomments
Disallow: /do=feedback
Disallow: /do=register
Disallow: /do=lostpassword
Disallow: /do=addnews
Disallow: /do=editnews
Disallow: /do=pm
Disallow: /do=search
Disallow: /*do=stats
Disallow: /do=tags
Советы по составлению robots.txt
- Проверьте синтаксис: Неправильные инструкции могут привести к неожиданным результатам. Убедитесь, что всё написано корректно и вы не заблокировали важные страницы.
- Используйте тестеры: Многие поисковые системы, такие как Google, предлагают инструменты для проверки robots.txt. Используйте их, чтобы убедиться, что файл работает так, как предполагалось.
- Обновление файла: Не забывайте обновлять файл по мере появления новых страниц или изменений на сайте. Если вы удалили страницы или изменили структуру сайта, соответствующим образом обновите robots.txt.
Правильно составленный robots.txt может значительно улучшить индексацию вашего сайта. Помните, что этот файл — важный элемент вашего SEO. Постоянно следите за его актуальностью и тестируйте его с помощью доступных инструментов.

