0-800-759-750
Ми на зв'язку с 7:00 до 24:00
office@seoftraf.ru

Що таке robots.txt і чому він необхідний для вашого просування

Поділіться
Зміст

    Якщо ви хоч трохи цікавилися питанням внутрішньої оптимізації сайтів, то, напевно, зустрічали термін robots txt. Саме йому і присвячена наша сьогоднішня тема.

    Зараз ви дізнаєтеся, що таке robots txt, як він створюється, яким чином веб-майстер задає в ньому потрібні правила, як обробляється файл robots.txt пошуковими роботами і чому відсутність цього файлу в корені веб-ресурсу - одна з найсерйозніших помилок внутрішньої оптимізації сайту. Буде цікаво!

    Що таке robots txt

    Що таке robots.txt

    Технічно robots txt - це звичайний текстовий документ, який лежить в корені сайту і інформує пошукових роботів про те, які сторінки та файли вони повинні сканувати та індексувати, а для яких накладено заборону. Але це найпримітивніший опис. Насправді з robots txt все трохи складніше.

    Файл robots txt це як «адміністратор готелю». Ви приходите в неї, адміністратор видає вам ключі від номера, а також каже, де ресторан, SPA, зона відпочинку, кабінет управителя та інше. А ось в інші номери та приміщення для персоналу вхід вам замовлено. Точно так само і з robots txt. Тільки замість адміністратора – файл, замість клієнта – пошукові роботи, а замість приміщень – окремі веб-сторінки та файли. Порівняння грубе, але доступне і зрозуміле.

    Для чого потрібний файл robots.txt

    Без цього файлу пошуковики хаотично блукають сайтом, скануватимуть та індексуватимуть буквально все поспіль: дублі, службові документи, сторінки з текстами «заглушками» (Lorem Ipsum) тощо.

    Правильний robots txt не дає такому відбуватися і буквально веде роботів сайтом, підказуючи, що дозволено індексувати, а що необхідно пропустити.

    Існують спеціальні директиви robots txt для цих завдань:

    • Allow - Допускає індексацію.
    • Disallow – забороняє індексацію.

    Для чого потрібний файл robots txt

    Крім того, можна одразу прописати, яким конкретно роботам дозволено чи заборонено індексувати задані сторінки. Наприклад, щоб заборонити індексацію директорії /private/ пошуковим роботам «Гугл», в роботі необхідно прописати User-agent:

    User-agent: Google

    Disallow: /private/

    Також ви можете вказати основне дзеркало веб-сайту, встановити шлях до Sitemap, позначити додаткові правила обходу через директиви та інше. Можливості robots txt досить великі.

    І ось ми розібралися, навіщо потрібний robots txt. Далі складніше - створення файлу, його наповнення та розміщення на сайті.

    Як створити файл robots.txt для веб-сайту?

    Отже, як створити файл robots txt?

    Створити та змінювати файл найпростіше у програмі «Блокнот» або іншому текстовому редакторі, що підтримує формат .txt. Спеціальне програмне забезпечення для роботи з robots txt не знадобиться.

    Як створити файл robots txt для сайту

    Створіть звичайний текстовий документ із розширенням .txt і помістіть його в корінь веб-ресурсу. Для розміщення підійде будь-який FTP-клієнт. Після розміщення обов'язково варто перевірити robots txt - чи знаходиться файл за потрібною адресою. Для цього у пошуковому рядку браузера потрібно прописати адресу:

    ім'я_сайту/robots.txt

    Якщо все зроблено правильно, ви побачите у вкладці дані robots txt. Але без команд і правил він, звісно, не працюватиме. Тому переходимо до більш складного наповнення.

    Символи у robots.txt

    Крім згаданих вище функцій Allow/Disallow, robots txt прописуються спецсимволи:

    • "/" - вказує, що ми закриваємо файл або сторінку від виявлення роботами "Гугл" і т. д.;
    • "*" - прописується після кожного правила і позначає послідовність символів;

    Символи в robots txt

    • "$" - обмежує дію "*";

    Приклад спеціальних символів у robots txt

    • "#" - дозволяє закоментувати будь-який текст, який веб-майстер залишає собі або іншим фахівцям (своєї нотатки, нагадування, інструкція). Пошуковики не зчитують закоментований текст.

    Синтаксис у robots.txt

    Описані у файлі robots.txt правила - це його синтаксис та різного роду директиви. Їх досить багато, ми розглянемо найбільш значущі — ті, які ви, швидше за все, використатимете.

    User-agent

    Це директива, яка вказує, для яких пошукових роботів будуть діяти такі правила. Прописується так:

    User-agent: * ім'я пошукового робота

    Приклади роботи: Googlebot та інші.

    Allow

    Це роздільна здатність директиви для robots txt. Допустимо, ви прописуєте такі правила:

    User-agent: * ім'я пошукового робота

    Allow: /site

    Disallow: /

    Так у robots txt ви забороняєте роботу аналізувати та індексувати весь веб-ресурс, але заборона не стосується папки site.

    Disallow

    Це протилежна директива, яка закриває від індексації лише прописані сторінки чи файли. Щоб заборонити індексувати певну папку, потрібно прописати:

    Disallow: /folder/

    Також можна заборонити сканувати та індексувати всі файли вибраного розширення. Наприклад:

    Disallow: /*.css$

    Sitemap

    Ця директива robots txt направляє пошукових роботів до опису структури вашого ресурсу. Це важливо для SEO. Ось приклад:

    User-agent: *

    Disallow: /site/

    Allow: /

    Sitemap: http://site.com/sitemap1.xml

    Sitemap: http://site.com/sitemap2.xml

    Crawl-delay

    Директива обмежує частоту аналізу сайту і знижує навантаження на сервер. Тут прописується час у сік. (третій рядок):

    User-agent: *

    Disallow: /site

    Crawl-delay: 4

    Clean-param

    Забороняє індексацію сторінок, сформованих із динамічними параметрами. Суть у тому, що пошукові системи сприймають їх як дублі, а це погано для SEO. Про те, як знайти дублі сторінок на сайті , ми вже розповідали. Вам потрібно прописувати директиву:

    Clean-param: p1[&p2&p3&p4&..&pn] [Шлях до динамічних сторінок]

    Приклади Clean-param у robots txt:

    Clean-param: kol_from1&price_to2&pcolor /polo.html # тільки для polo.html

    або

    Clean-param: kol_from1&price_to2&pcolor / # для всіх сторінок сайту

    До речі, радимо прочитати нашу статтю " Як просто перевірити індексацію сайту " - в ній багато корисного на цю тему. Плюс є інформативна стаття " Сканування сайту в Screaming Frog ". Рекомендуємо ознайомитись!

    Особливості налаштування robots.txt для «Гугла»

    Насправді синтаксис файла robots.txt цих систем відрізняється незначно. Але є кілька моментів, які ми радимо враховувати.

    Google не рекомендує приховувати файли із CSS-стилями та JS-скриптами від сканування. Тобто правило має виглядати так:

    User-agent: Googlebot

    Disallow: /site

    Disallow: /admin

    Disallow: /users

    Disallow: */templates

    Allow: *.css

    Allow: *.js

    Host: www.site.com

    Приклади налаштування файлу robots.txt

    Кожна CMS має свою специфіку налаштування robots txt для сканування та індексації. І найкращий спосіб зрозуміти різницю – розглянути кожен приклад robots txt для різних систем. Так і вчинимо!

    Приклади налаштування файлу robots txt

    Приклад robots txt для WordPress

    Роботс для WordPress у класичному варіанті виглядає так:

    User-agent: Googlebot

    Disallow: /cgi-bin # службова папка для зберігання серверних скриптів

    Disallow: /? # всі параметри запиту на головній

    Disallow: /wp- # файли WP: /wp-json/, /wp-includes, /wp-content/plugins

    Disallow: *?s= # результати пошуку

    Disallow: /search # результати пошуку

    Disallow: */page/ # сторінки пагінації

    Disallow: /*print= # сторінки для друку

    Allow: *.css # відкрити всі файли стилів

    Allow: *.js # відкрити все з js-скриптами

     

    User-agent: *

    Disallow: /cgi-bin # службова папка для зберігання серверних скриптів

    Disallow: /? # всі параметри запиту на головній

    Disallow: /wp- # файли WP: /wp-json/, /wp-includes, /wp-content/plugins

    Disallow: *?s= # результати пошуку

    Disallow: /search # результати пошуку

    Disallow: */page/ # сторінки пагінації

    Disallow: /*print= # сторінки для друку

     

    Sitemap:http://site.ua/sitemap.xml

    Sitemap: http://site.ua/sitemap1.xml

    Приклад robots.txt для "Бітрікс"

    Одна з головних проблем «Бітрікс» — по дефолту пошукові системи зчитують та проводять індексацію службових сторінок та дублів. Але це можна запобігти, правильно прописавши robots txt:

    User-Agent: Googlebot

    Disallow: /personal/

    Disallow: /search/

    Disallow: /auth/

    Disallow: /bitrix/

    Disallow: /login/

    Disallow: /*?action=

    Disallow: /?mySort=

    Disallow: */filter/

    Disallow: */clear/

    Allow: /bitrix/js/

    Allow: /bitrix/templates/

    Allow: /bitrix/tools/conversion/ajax_counter.php

    Allow: /bitrix/components/main/

    Allow: /bitrix/css/

    Allow: /bitrix/templates/comfer/img/logo.png

    Allow: /personal/cart/

    Sitemap: https://site.ua/sitemap.xml

    Приклад robots.txt для OpenCart

    Розглянемо приклад robots txt для платформи електронної комерції OpenCart:

    User-agent: Googlebot

    Disallow: /*route=account/

    Disallow: /*route=affiliate/

    Disallow: /*route=checkout/

    Disallow: /*route=product/search

    Disallow: /index.php

    Disallow: /admin

    Disallow: /catalog

    Disallow: /download

    Disallow: /export

    Disallow: /system

    Disallow: /*?sort=

    Disallow: /*&sort=

    Disallow: /*?order=

    Disallow: /*&order=

    Disallow: /*?limit=

    Disallow: /*&limit=

    Disallow: /*?filter_name=

    Disallow: /*&filter_name=

    Disallow: /*?filter_sub_category=

    Disallow: /*&filter_sub_category=

    Disallow: /*?filter_description=

    Disallow: /*&filter_description=

    Disallow: /*?tracking=

    Disallow: /*&tracking=

    Disallow: /*?page=

    Disallow: /*&page=

    Disallow: /wishlist

    Disallow: /login

    Allow: *.css

    Allow: *.js

     

    User-agent: *

    Disallow: /*route=account/

    Disallow: /*route=affiliate/

    Disallow: /*route=checkout/

    Disallow: /*route=product/search

    Disallow: /index.php

    Disallow: /admin

    Disallow: /catalog

    Disallow: /download

    Disallow: /export

    Disallow: /system

    Disallow: /*?sort=

    Disallow: /*&sort=

    Disallow: /*?order=

    Disallow: /*&order=

    Disallow: /*?limit=

    Disallow: /*&limit=

    Disallow: /*?filter_name=

    Disallow: /*&filter_name=

    Disallow: /*?filter_sub_category=

    Disallow: /*&filter_sub_category=

    Disallow: /*?filter_description=

    Disallow: /*&filter_description=

    Disallow: /*?tracking=

    Disallow: /*&tracking=

    Disallow: /*?page=

    Disallow: /*&page=

    Disallow: /wishlist

    Disallow: /login

     

    Sitemap: http://site.ua/sitemap.xml

    Приклад robots.txt для Joomla

    У «Джумлі» роботс виглядає так:

    User-agent: Googlebot

    Disallow: /administrator/

    Disallow: /cache/

    Disallow: /components/

    Disallow: /component/

    Disallow: /includes/

    Disallow: /installation/

    Disallow: /language/

    Disallow: /libraries/

    Disallow: /media/

    Disallow: /modules/

    Disallow: /plugins/

    Disallow: /templates/

    Disallow: /tmp/

    Disallow: /*?start=*

    Disallow: /xmlrpc/

    Allow: *.css

    Allow: *.js

     

    User-agent: *

    Disallow: /administrator/

    Disallow: /cache/

    Disallow: /components/

    Disallow: /component/

    Disallow: /includes/

    Disallow: /installation/

    Disallow: /language/

    Disallow: /libraries/

    Disallow: /media/

    Disallow: /modules/

    Disallow: /plugins/

    Disallow: /templates/

    Disallow: /tmp/

    Disallow: /*?start=*

    Disallow: /xmlrpc/

     

    Sitemap: http://www.site.ua/sitemap.xml

    Приклад robots.txt для Drupal

    Для Drupal:

    User-agent: *

    Disallow: /database/

    Disallow: /includes/

    Disallow: /misc/

    Disallow: /modules/

    Disallow: /sites/

    Disallow: /themes/

    Disallow: /scripts/

    Disallow: /updates/

    Disallow: /profiles/

    Disallow: /profile

    Disallow: /profile/*

    Disallow: /xmlrpc.php

    Disallow: /cron.php

    Disallow: /update.php

    Disallow: /install.php

    Disallow: /index.php

    Disallow: /admin/

    Disallow: /comment/reply/

    Disallow: /contact/

    Disallow: /logout/

    Disallow: /search/

    Disallow: /user/register/

    Disallow: /user/password/

    Disallow: *register*

    Disallow: *login*

    Disallow: /top-rated-

    Disallow: /messages/

    Disallow: /book/export/

    Disallow: /user2userpoints/

    Disallow: /myuserpoints/

    Disallow: /tagadelic/

    Disallow: /referral/

    Disallow: /aggregator/

    Disallow: /files/pin/

    Disallow: /your-votes

    Disallow: /comments/recent

    Disallow: /*/edit/

    Disallow: /*/delete/

    Disallow: /*/export/html/

    Disallow: /taxonomy/term/*/0$

    Disallow: /*/edit$

    Disallow: /*/outline$

    Disallow: /*/revisions$

    Disallow: /*/contact$

    Disallow: /*downloadpipe

    Disallow: /node$

    Disallow: /node/*/track$

    Disallow: /*&

    Disallow: /*%

    Disallow: /*?page=0

    Disallow: /*section

    Disallow: /*order

    Disallow: /*?sort*

    Disallow: /*&sort*

    Disallow: /*votesupdown

    Disallow: /*calendar

    Disallow: /*index.php

    Allow: /*?page=

    Disallow: /*?

     

    Sitemap: http://шлях до вашої карти XML формату

    Висновки

    Файл robots txt – функціональний інструмент, завдяки якому веб-розробник дає інструкції пошуковим системам, як взаємодіяти з сайтом. Завдяки йому ми забезпечуємо правильну індексацію, захищаємо веб-ресурс від потрапляння під фільтри пошукових систем, знижуємо навантаження на сервер та покращуємо параметри сайту для SEO.

    Щоб правильно прописати інструкції файлу robots.txt, дуже важливо чітко розуміти, що ви робите, і навіщо ви це робите. Відповідно, якщо не впевнені, краще зверніться за допомогою до фахівців. У нашій компанії налаштування robots txt входить до послуги внутрішньої оптимізації сайту для пошукових систем .

    До речі, в нашій практиці був випадок, коли клієнт звернувся за послугою розкрутки сайту, в корені якого файл robots txt був відсутній і індексація відбувалася некоректно. Почитайте, там багато цікавих моментів: « SEO-Кейс: Просування сайту медичних довідок ».

    FAQ

    Що таке файл robots.txt?

    Robots txt - це документ, що містить правила індексації вашого сайту, окремих його файлів або URL-пошуковиками. Правила, описані у файлі robots.txt, називають директивами.

    Навіщо потрібний файл robots.txt?

    Robots txt допомагає закрити від індексації окремі файли, дублі сторінок, документи, що не несуть користі для відвідувачів, а також сторінки, що містять неунікальний контент.

    Де знаходиться файл robots.txt?

    Він розміщується у кореневій папці веб-ресурсу. Щоб перевірити його наявність, достатньо до URL-адреси вашого веб-ресурсу дописати /robots.txt і натиснути Enter. Якщо вона на місці, відкриється його сторінка. Так можна переглянути файл на будь-якому сайті, навіть на сторонньому. Просто додайте адресу /robots.txt.

    У Вас залишились запитання?
    Наші експерти готові відповісти на них.
    Залишіть ваші контактні дані.
    Будемо раді обговорити ваш проект!
    Отримати консультацію
    Наш менеджер зв'яжеться з Вами найближчим часом
    Ми використовуємо файли cookie
    Ми оптимізуємо роботу сайту, створюємо персоналізований маркетинговий досвід та збираємо дані щодо використання сайту та аналітику. Натиснувши «Прийняти», ви погоджуєтеся використовувати наші файли cookie.