Как да блокирате индексирането на сайт в robots.txt: инструкции и препоръки

Съдържание:

Как да блокирате индексирането на сайт в robots.txt: инструкции и препоръки
Как да блокирате индексирането на сайт в robots.txt: инструкции и препоръки
Anonim

Работата на SEO оптимизатора е много мащабна. На начинаещите се препоръчва да запишат алгоритъма за оптимизация, за да не пропуснат нито една стъпка. В противен случай промоцията едва ли ще се нарече успешна, тъй като сайтът постоянно ще изпитва неуспехи и грешки, които ще трябва да бъдат коригирани за дълго време.

Една от стъпките за оптимизация е работата с файла robots.txt. Всеки ресурс трябва да има този документ, защото без него ще бъде по-трудно да се справим с оптимизацията. Той изпълнява много функции, които ще трябва да разберете.

Робот асистент

Файлът robots.txt е обикновен текстов документ, който може да се види в стандартния Notepad на системата. Когато го създавате, трябва да зададете кодирането на UTF-8, за да може да се чете правилно. Файлът работи с http, https и FTP протоколи.

Този документ е помощник за търсене на роботи. В случай, че не знаете, всяка система използва "паяци", които бързо обхождат световната мрежа, за да връщат подходящи сайтове за заявки.потребители. Тези роботи трябва да имат достъп до ресурсните данни, robots.txt работи за това.

За да могат паяците да намерят своя път, трябва да изпратите документа robots.txt в главната директория. За да проверите дали сайтът има този файл, въведете „https://site.com.ua/robots.txt“в адресната лента на браузъра. Вместо "site.com.ua" трябва да въведете нужния ресурс.

Работа с robots.txt
Работа с robots.txt

Документни функции

Файлът robots.txt предоставя на роботите няколко вида информация. Той може да даде частичен достъп, така че "паякът" да сканира конкретни елементи от ресурса. Пълният достъп ви позволява да проверите всички налични страници. Пълната забрана не позволява на роботите дори да започнат да проверяват и те напускат сайта.

След като посетят ресурса, "паяците" получават подходящ отговор на заявката. Може да има няколко от тях, всичко зависи от информацията в robots.txt. Например, ако сканирането е било успешно, роботът ще получи кода 2xx.

Може би сайтът е бил пренасочен от една страница към друга. В този случай роботът получава код 3xx. Ако този код се появи няколко пъти, тогава паякът ще го следва, докато не получи друг отговор. Въпреки че, като правило, той използва само 5 опита. В противен случай се появява популярната грешка 404.

Ако отговорът е 4xx, тогава роботът има право да обхожда цялото съдържание на сайта. Но в случай на 5xx кода, проверката може да спре напълно, тъй като това често показва временни грешки в сървъра.

Търсене роботи
Търсене роботи

За каквоимате нужда от robots.txt?

Както може би се досещате, този файл е ръководството за роботите до корена на сайта. Сега се използва за частично ограничаване на достъпа до неподходящо съдържание:

  • страници с лична информация на потребителите;
  • огледални сайтове;
  • резултати от търсенето;
  • формуляри за подаване на данни и др.

Ако в корена на сайта няма файл robots.txt, роботът ще обходи абсолютно цялото съдържание. Съответно в резултатите от търсенето може да се появят нежелани данни, което означава, че и вие, и сайтът ще пострадате. Ако има специални инструкции в документа robots.txt, тогава "паякът" ще ги последва и ще даде информацията, желана от собственика на ресурса.

Работа с файл

За да използвате robots.txt за блокиране на индексирането на сайта, трябва да разберете как да създадете този файл. За да направите това, следвайте инструкциите:

  1. Създайте документ в Notepad или Notepad++.
  2. Задайте разширението на файла ".txt".
  3. Въведете необходимите данни и команди.
  4. Запазете документа и го качете в корена на сайта.

Както виждате, на един от етапите е необходимо да зададете команди за роботи. Те са два вида: разрешаващи (Allow) и забраняващи (Disallow). Освен това някои оптимизатори могат да определят скоростта на обхождане, хоста и връзката към картата на страницата на ресурса.

Как да затворите сайт от индексиране
Как да затворите сайт от индексиране

За да започнете да работите с robots.txt и напълно да блокирате индексирането на сайта, трябва също да разберете използваните символи. Например в документизползвайте "/", което показва, че е избран целият сайт. Ако се използва "", тогава е необходима поредица от знаци. По този начин ще бъде възможно да се посочи конкретна папка, която може да бъде сканирана или не.

Функция на ботове

"Паяците" за търсачките са различни, така че ако работите за няколко търсачки наведнъж, тогава ще трябва да вземете предвид този момент. Имената им са различни, което означава, че ако искате да се свържете с конкретен робот, ще трябва да посочите името му: „Потребителски агент: Yandex“(без кавички).

Ако искате да зададете директиви за всички търсачки, тогава трябва да използвате командата: "Потребителски агент: " (без кавички). За да блокирате правилно индексирането на сайта чрез robots.txt, трябва да знаете спецификата на популярните търсачки.

Факт е, че най-популярните търсачки Yandex и Google имат няколко бота. Всеки от тях има свои собствени задачи. Например Yandex Bot и Googlebot са основните „паяци“, които обхождат сайта. Познавайки всички ботове, ще бъде по-лесно да настроите фино индексирането на вашия ресурс.

Как работи файлът robots.txt
Как работи файлът robots.txt

Примери

И така, с помощта на robots.txt, можете да затворите сайта от индексиране с прости команди, основното е да разберете от какво се нуждаете конкретно. Например, ако искате Googlebot да не се доближава до вашия ресурс, трябва да му дадете съответната команда. Ще изглежда така: "Потребителски агент: Googlebot Disallow: /" (без кавички).

Сега трябва да разберем какво има в тази команда и как работи. Така че "Потребителски агент"се използва, за да се използва директно обаждане до един от ботовете. След това посочваме кой, в нашия случай това е Google. Командата "Disallow" трябва да започне на нов ред и да забрани на робота да влиза в сайта. Символът на наклонена черта в този случай показва, че всички страници на ресурса са избрани за изпълнение на командата.

За какво е robots.txt?
За какво е robots.txt?

В robots.txt можете да деактивирате индексирането за всички търсачки с проста команда: "Потребителски агент:Забрани: /" (без кавички). Знакът звездичка в този случай обозначава всички роботи за търсене. Обикновено такава команда е необходима, за да се постави на пауза индексирането на сайта и да започне кардинална работа по него, което в противен случай може да повлияе на оптимизацията.

Ако ресурсът е голям и има много страници, той често съдържа собствена информация, която или е нежелателна за разкриване, или може да повлияе негативно на популяризирането. В този случай трябва да разберете как да затворите страницата от индексиране в robots.txt.

Можете да скриете или папка, или файл. В първия случай трябва да започнете отново, като се свържете с конкретен бот или с всеки, така че използваме командата „User-agent“, а по-долу определяме командата „Disallow“за конкретна папка. Ще изглежда така: "Disallow: / folder /" (без кавички). По този начин скривате цялата папка. Ако съдържа някакъв важен файл, който искате да покажете, тогава трябва да напишете командата по-долу: „Разрешаване: /folder/file.php“(без кавички).

Проверка на файла

Ако използвате robots.txt, за да затворите сайта отУспяхте да индексирате, но не знаете дали всичките ви директиви са работили правилно, можете да проверите правилността на работата.

Първо, трябва отново да проверите разположението на документа. Не забравяйте, че трябва да бъде изключително в основната папка. Ако е в главната папка, тогава няма да работи. След това отворете браузъра и въведете следния адрес там: „https://yoursite. com/robots.txt (без кавички). Ако получите грешка в уеб браузъра си, файлът не е там, където трябва да бъде.

Как да затворите папка от индексиране
Как да затворите папка от индексиране

Директивите могат да се проверяват в специални инструменти, които се използват от почти всички уеб администратори. Говорим за продуктите на Google и Yandex. Например в Google Search Console има лента с инструменти, където трябва да отворите "Crawl" и след това да стартирате "Robots.txt File Inspection Tool". Трябва да копирате всички данни от документа в прозореца и да започнете да сканирате. Точно същата проверка може да се направи в Yandex. Webmaster.

Препоръчано: