Как да настроя Robots.txt правилно?

Съдържание:

Как да настроя Robots.txt правилно?
Как да настроя Robots.txt правилно?
Anonim

Правилният txt на Robots за html сайта създава макети за действие за ботове на търсачките, като им казва какво могат да проверят. Този файл често се нарича Протокол за изключване на роботи. Първото нещо, което ботовете търсят, преди да обхождат уебсайт, е robots.txt. Може да сочи или да каже на Sitemap да не проверява определени поддомейни. Когато искате търсачките да търсят най-често срещаното, тогава robots.txt не е задължителен. В този процес е много важно файлът да е форматиран правилно и да не индексира потребителската страница с личните данни на потребителя.

Принцип на сканиране на роботи

Принципът на сканиране на робот
Принципът на сканиране на робот

Когато търсачката срещне файл и види забранен URL, тя не го обхожда, но може да го индексира. Това е така, защото дори ако на роботите не е разрешено да преглеждат съдържанието, те могат да запомнят обратните връзки, сочещи към забранения URL. Поради блокиран достъп до връзката, URL адресът ще се появи в търсачките, но без фрагменти. Акоза входящата маркетингова стратегия се изисква правилният txt на Robots за bitrix (Bitrix), те осигуряват проверка на сайта по искане на потребителя чрез скенери.

От друга страна, ако файлът не е правилно форматиран, това може да доведе до това сайтът да не се показва в резултатите от търсенето и да не бъде намерен. Търсачките не могат да заобиколят този файл. Програмистът може да види robots.txt на всеки сайт, като отиде до неговия домейн и го последва с robots.txt, например www.domain.com/robots.txt. Използвайки инструмент като секцията за SEO оптимизация на Unamo, където можете да въведете всеки домейн и услугата ще покаже информация за съществуването на файла.

Ограничения за сканиране:

  1. Потребителят има остаряло или чувствително съдържание.
  2. Изображенията на сайта няма да бъдат включени в резултатите от търсенето на изображения.
  3. Сайтът все още не е готов за демонстрация, която да бъде индексирана от робота.

Имайте предвид, че информацията, която потребителят желае да получи от търсачката, е достъпна за всеки, който въведе URL адреса. Не използвайте този текстов файл, за да скриете чувствителни данни. Ако домейнът има грешка 404 (не е намерен) или 410 (пропуснато), търсачката проверява сайта въпреки наличието на robots.txt, като в този случай счита, че файлът липсва. Други грешки като 500 (Вътрешна грешка в сървъра), 403 (Забранено), изтекло време или „не е налично“спазват инструкциите на robots.txt, но байпасът може да бъде отложен, докато файлът е наличен.

Създаване на файл за търсене

Създаване на файл за търсене
Създаване на файл за търсене

МногоCMS програми като WordPress вече имат файл robots.txt. Преди да конфигурира правилно Robots txt WordPress, потребителят трябва да се запознае с неговите възможности, за да разбере как да получи достъп до него. Ако програмистът сам създаде файла, той трябва да отговаря на следните условия:

  1. Трябва да е с малки букви.
  2. Използвайте UTF-8 кодиране.
  3. Запазване в текстов редактор като файл (.txt).

Когато потребителят не знае къде да го постави, той се свързва с доставчика на софтуер за уеб сървър, за да разбере как да получи достъп до корена на домейн или да отиде в конзолата на Google и да го изтегли. С тази функция Google може също да провери дали ботът функционира правилно и списъка със сайтове, които са били блокирани с помощта на файла.

Основният формат на правилния Robots txt за bitrix (Bitrix):

  1. Legend robots.txt.
  2. , добавя коментари, които се използват само като бележки.
  3. Тези коментари ще бъдат игнорирани от скенерите заедно с всички потребителски печатни грешки.
  4. User-agent - показва на коя търсачка са изброени инструкциите за файла.
  5. Добавянето на звездичка () казва на скенерите, че инструкциите са за всеки.

Показване на конкретен бот, например Googlebot, Baiduspider, Applebot. Disallow указва на роботите кои части от уебсайта не трябва да се обхождат. Изглежда така: Потребителски агент:. Звездичката означава "всички ботове". Въпреки това, можете да посочите страници за конкретниботове. За да направите това, трябва да знаете името на бота, за който са зададени препоръки.

Правилният txt на роботите за Yandex може да изглежда така:

Правилно robots txt за Yandex
Правилно robots txt за Yandex

Ако ботът не трябва да обхожда сайта, можете да го посочите и за да намерите имената на потребителските агенти, се препоръчва да се запознаете с онлайн възможностите на useragentstring.com.

Оптимизация на страницата

Оптимизация на страницата
Оптимизация на страницата

Следните два реда се считат за пълен файл robots.txt, а един файл robots може да съдържа множество реда потребителски агенти и директиви, които деактивират или разрешават обхождането. Основният формат на правилния txt Robots:

  1. Потребителски агент: [потребителско име на агент].
  2. Disallow: .

Във файла всеки блок от директиви се показва като дискретен, разделен с ред. Във файла до директорията на потребителя на агента всяко правило се прилага към определен набор от редове, разделени на секции. Ако файл има правило за няколко агента, роботът ще вземе предвид само най-конкретната група инструкции.

Технически синтаксис

Технически синтаксис
Технически синтаксис

Може да се разглежда като "език" на файловете robots.txt. Има пет термина, които могат да съществуват в този формат, основните са:

  1. User-agent - уеб робот с инструкции за обхождане, обикновено търсачка.
  2. Disallow е команда, използвана, за да каже на потребителския агент да заобиколи(пропускане) на конкретен URL. Има само едно забранено условие за всяко.
  3. Разрешаване. За Googlebot, който получава достъп, дори потребителската страница е отказана.
  4. Crawl-delay - указва колко секунди ще са необходими на обхождащия, преди да обхожда. Когато ботът не го потвърди, скоростта се задава в конзолата на Google.
  5. Sitemap - Използва се за намиране на всякакви XML карти, свързани с URL.

Съвпадения на модела

Когато става въпрос за действително блокиране на URL адреси или разрешаване на валидни текстови текстове на роботи, операциите могат да бъдат доста трудни, тъй като ви позволяват да използвате съвпадение на шаблони, за да покриете редица възможни URL параметри. Google и Bing използват два знака, които идентифицират страници или подпапки, които SEO иска да изключи. Двата знака са звездичка () и знакът за долар ($), където:е заместващ знак, който представлява произволна последователност от знаци. $ - съответства на края на URL адреса.

Google предлага голям списък от възможни синтаксиси на шаблони, които обясняват на потребителя как правилно да настрои Robots txt файл. Някои често срещани случаи на употреба включват:

  1. Предотвратете показването на дублирано съдържание в резултатите от търсенето.
  2. Пазете всички секции на уебсайта частни.
  3. Запазване на вътрешни страници с резултати от търсене въз основа на отворено изявление.
  4. Посочете местоположение.
  5. Предотвратяване на търсачките да индексират определенифайлове.
  6. Указване на забавяне на обхождането, за да спре презареждането при сканиране на няколко области със съдържание едновременно.

Проверка за наличието на файл с робот

Ако в сайта няма области, които трябва да бъдат обходени, тогава robots.txt изобщо не е необходим. Ако потребителят не е сигурен, че този файл съществува, той трябва да влезе в основния домейн и да го напише в края на URL адреса, нещо като това: moz.com/robots.txt. Редица ботове за търсене игнорират тези файлове. Въпреки това, като правило, тези роботи не принадлежат към реномирани търсачки. Те са видът спамъри, агрегатори за поща и други видове автоматизирани ботове, които се намират в изобилие в Интернет.

Много е важно да запомните, че използването на стандарта за изключване на роботи не е ефективна мярка за сигурност. Всъщност някои ботове може да започват със страници, където потребителят ги настройва в режим на сканиране. Има няколко части, които влизат в стандартния файл с изключения. Преди да кажете на робота на кои страници не трябва да работи, трябва да посочите с кой робот да говори. В повечето случаи потребителят ще използва проста декларация, която означава "всички ботове".

SEO оптимизация

SEO оптимизация
SEO оптимизация

Преди оптимизиране, потребителят трябва да се увери, че не блокира съдържание или секции от сайта, които трябва да бъдат заобиколени. Връзките към страници, блокирани от правилния txt на Robots, няма да се зачитат. Това означава:

  1. Ако те не са свързани с други страници, достъпни за търсачките, т.е. страници,не е блокиран от robots.txt или метаробот и свързаните ресурси няма да бъдат обхождани и следователно не могат да бъдат индексирани.
  2. Не може да бъде предадена връзка от блокирана страница към местоназначението на връзката. Ако има такава страница, по-добре е да използвате различен механизъм за блокиране от robots.txt.

Тъй като други страници може директно да се свързват към страница, съдържаща лична информация и искате да блокирате тази страница от резултатите от търсенето, използвайте различен метод, като например защита с парола или мета данни без индекс. Някои търсачки имат множество потребителски агенти. Например Google използва Googlebot за органични търсения и Googlebot-Image за търсене на изображения.

Повечето потребителски агенти от една и съща търсачка следват едни и същи правила, така че няма нужда да се определят директиви за всеки от няколкото робота, но възможността да го направи може да настрои фино обхождането на съдържанието на сайта. Търсачката кешира съдържанието на файла и обикновено актуализира кешираното съдържание поне веднъж на ден. Ако потребителят промени файла и иска да го актуализира по-бързо от обикновено, той може да изпрати URL адреса на robots.txt на Google.

Търсачки

Проверка за съществуването на файл робот
Проверка за съществуването на файл робот

За да разберете как Robots txt работи правилно, трябва да знаете за възможностите на търсачките. Накратко, тяхната способност се крие във факта, че изпращат "скенери", които са програми, коитосърфиране в интернет за информация. След това те съхраняват част от тази информация, за да я предадат по-късно на потребителя.

За много хора Google вече е интернет. Всъщност те са прави, тъй като това е може би най-важното му изобретение. И въпреки че търсачките са се променили много от създаването си, основните принципи са все същите. Роботите, известни още като "ботове" или "паяци", намират страници от милиарди уебсайтове. Търсачките им дават насоки къде да отидат, докато отделните сайтове също могат да комуникират с ботове и да им казват кои конкретни страници трябва да гледат.

По принцип собствениците на сайтове не желаят да се показват в търсачките: администраторски страници, бекенд портали, категории и тагове и други информационни страници. Файлът robots.txt може да се използва и за предотвратяване на търсачките да проверяват страници. Накратко, robots.txt казва на уеб роботите какво да правят.

Забраняване на страници

Това е основната част от файла за изключване на робота. С проста декларация потребителят казва на бот или група ботове да не обхождат определени страници. Синтаксисът е прост, например, за да откажете достъп до всичко в директорията "admin" на сайта, напишете: Disallow: /admin. Този ред ще попречи на ботове да обхождат yoursite.com/admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html и всичко друго в администраторската директория.

За да забраните една страница, просто я посочете в реда за забрана: Disallow: /public/exception.html. Сега страницата "изключение".няма да мигрира, но всичко останало в папката "public" ще.

За да включите няколко страници, просто ги избройте:

Директории и страници
Директории и страници

Тези четири реда от правилния Robots txt за symphony ще се прилагат към всеки потребителски агент, посочен в горната част на секциятаrobots.txt за

Забранете страниците
Забранете страниците

Sitemap:

Други команди:live - не позволявайте на уеб роботите да индексират cpresources/ или provider/.

Потребителски агент:Disallow: /cpresources/.

Отказ: / доставчик / Забрани: /.env.

Задаване на стандарти

Потребителят може да посочи конкретни страници за различни ботове, като комбинира предишните два елемента, ето как изглежда. Пример за правилния txt на Robots за всички търсачки е представен по-долу.

Поставяне на стандарти
Поставяне на стандарти

Разделите "администратор" и "частен" ще бъдат невидими за Google и Bing, но Google все още ще вижда "тайната" директория, докато Bing не. Можете да посочите общи правила за всички ботове, като използвате потребителския агент Asterisk, и след това да дадете конкретни инструкции на ботовете в следващите раздели. С познанията по-горе, потребителят може да напише пример за правилния txt на Robots за всички търсачки. Просто стартирайте любимия си текстов редактор и кажете на ботовете, че не са добре дошли в определени части на сайта.

Съвети за подобряване на производителността на сървъра

SublimeText еуниверсален текстов редактор и златният стандарт за много програмисти. Освен това неговите съвети за програмиране се основават на ефективно кодиране. потребителите оценяват наличието на преки пътища в програмата. Ако потребителят иска да види пример за файл robots.txt, той трябва да отиде на който и да е сайт и да добави „/robots.txt“в края. Ето част от файла robots.txt GiantBicycles.

Програмата осигурява създаване на страници, които потребителите не искат да показват в търсачките. И също така има няколко изключителни неща, за които малко хора знаят. Например, докато файлът robots.txt казва на ботовете къде да не ходят, файлът с карта на сайта прави обратното и им помага да намерят това, което търсят, и докато търсачките вероятно вече знаят къде се намира картата на сайта, тя не получава по пътя.

Има два типа файлове: HTML страница или XML файл. HTML страница е тази, която показва на посетителите всички налични страници на уебсайт. В неговия собствен robots.txt изглежда така: Sitemap://www.makeuseof.com/sitemap_index.xml. Ако сайтът не е индексиран от търсачките, въпреки че е бил обходен няколко пъти от уеб роботи, трябва да се уверите, че файлът присъства и че неговите разрешения са зададени правилно.

По подразбиране това ще се случи с всички инсталации на SeoToaster, но ако е необходимо, можете да го нулирате по следния начин: Файл robots.txt - 644. В зависимост от PHP сървъра, ако това не работи за потребителя, той препоръчва се да опитате следното: Файл robots.txt - 666.

Задаване на забавяне на сканирането

Директивата за забавяне на байпаса информира някоитърсачките колко често могат да индексират страница в сайта. Измерва се в секунди, въпреки че някои търсачки го интерпретират малко по-различно. Някои хора виждат забавяне на обхождането 5, когато им се каже да изчакат пет секунди след всяко сканиране, за да започнат следващото.

Други тълкуват това като инструкция за сканиране само на една страница на всеки пет секунди. Роботът не може да сканира по-бързо, за да запази честотната лента на сървъра. Ако сървърът трябва да съответства на трафика, той може да зададе забавяне за байпас. Като цяло, в повечето случаи потребителите не трябва да се тревожат за това. Ето как се задава забавянето на обхождането от осем секунди - Закъснение при обхождане: 8.

Но не всички търсачки ще се подчинят на тази директива, така че когато забранявате страници, можете да зададете различни забавяния на обхождането за определени търсачки. След като всички инструкции във файла са настроени, можете да го качите на сайта, първо се уверете, че е прост текстов файл и има име robots.txt и може да бъде намерен на yoursite.com/robots.txt.

Най-добрият WordPress бот

Най-добрият WordPress бот
Най-добрият WordPress бот

Има някои файлове и директории на WordPress сайт, които трябва да се заключват всеки път. Директориите, които потребителите трябва да забраняват, са директорията cgi-bin и стандартните WP директории. Някои сървъри не позволяват достъп до директорията cgi-bin, но потребителите трябва да я включат в директивата disallow, преди да конфигурират правилно Robots txt WordPress

Стандартни директории на WordPress,които трябва да блокират са wp-admin, wp-content, wp-includes. Тези директории не съдържат данни, които първоначално са полезни за търсачките, но има изключение, т.е. има поддиректория с име качвания в директорията wp-content. Тази поддиректория трябва да бъде разрешена във файла robot.txt, тъй като включва всичко, което се зарежда с помощта на функцията за качване на WP медия. WordPress използва тагове или категории за структуриране на съдържанието.

Ако се използват категории, тогава, за да се направи правилния Robots txt за Wordpress, както е посочено от производителя на програмата, е необходимо да се блокират архивите с етикети от търсенето. Първо, те проверяват базата данни, като отидат в панела "Администриране" > "Настройки" > "Постоянна връзка".

По подразбиране основата е етикетът, ако полето е празно: Disallow: / tag /. Ако се използва категория, тогава трябва да деактивирате категорията във файла robot.txt: Disallow: /category/. По подразбиране основата е етикетът, ако полето е празно: Disallow: / tag /. Ако се използва категория, тогава трябва да деактивирате категорията във файла robot.txt: Disallow: / category /.

Файлове, използвани предимно за показване на съдържание, те ще бъдат блокирани от правилния txt файл на Robots за Wordpress:

Роботи txt за wordpress
Роботи txt за wordpress

Основна настройка на Joomla

След като потребителят инсталира Joomla, трябва да видите правилната txt настройка на Joomla Robots в глобалната конфигурация, която се намира в контролния панел. Някои настройки тук са много важни за SEO. Първо намерете името на сайта и се уверете в товаизползва се краткото име на сайта. След това намират група настройки вдясно на същия екран, която се нарича SEO настройки. Този, който определено ще трябва да промените, е вторият: използвайте URL за пренаписване.

Това звучи сложно, но основно помага на Joomla да създава по-чисти URL адреси. Най-забележимо, ако премахнете реда index.php от URL адресите. Ако го промените по-късно, URL адресите ще се променят и Google няма да го хареса. Въпреки това, когато променяте тази настройка, трябва да се предприемат няколко стъпки едновременно, за да се създаде правилния txt за Joomla:

  1. Намерете htaccess.txt файл в основната папка на Joomla.
  2. Маркирай го като.htaccess (без разширение).
  3. Включете името на сайта в заглавията на страниците.
  4. Намерете настройките за метаданни в долната част на екрана за глобална конфигурация.

Робот в облака MODX

Робот в облака MODX
Робот в облака MODX

По-рано MODX Cloud предоставяше на потребителите възможността да контролират поведението на разрешаване на обслужване на файла robots.txt въз основа на превключване в таблото за управление. Въпреки че това беше полезно, беше възможно случайно да се разреши индексиране на сайтове за етапи/разработчици чрез превключване на опция в таблото за управление. По същия начин беше лесно да се деактивира индексирането на производствения сайт.

Днес услугата предполага наличието на файлове robots.txt във файловата система със следното изключение: всеки домейн, който завършва с modxcloud.com, ще служи като Disallow: /директива за всички потребителски агенти, независимо от присъствието или липса на файла. Производствените сайтове, които получават реален посетителски трафик, ще трябва да използват свой собствен домейн, ако потребителят иска да индексира сайта си.

Някои организации използват правилния Robots txt за modx, за да стартират множество уебсайтове от една инсталация, използвайки Contexts. Случай, в който това може да се приложи, би бил публичен маркетингов сайт, комбиниран с микросайтове на целевите страници и евентуално непубличен интранет.

Традиционно това беше трудно да се направи за многопотребителски инсталации, тъй като те споделят един и същ мрежов корен. С MODX Cloud това е лесно. Просто качете допълнителен файл на уебсайт, наречен robots-intranet.example.com.txt със следното съдържание и той ще блокира индексирането с добре работещи роботи и всички други имена на хостове ще се върнат към стандартните файлове, освен ако няма други специфични възли с имена.

Robots.txt е важен файл, който помага на потребителя да направи връзка към сайта в Google, основните търсачки и други уебсайтове. Разположен в основата на уеб сървър, файлът инструктира уеб роботите да обхождат сайт, да задават кои папки трябва или не трябва да индексират, като използват набор от инструкции, наречен Протокол за изключване на ботове. Пример за правилния txt на Robots за всички търсачки obots.txt е особено лесен за правене със SeoToaster. За него е създадено специално меню в контролния панел, така че ботът никога няма да се налага да се претоварва, за да получи достъп.

Препоръчано: