Robots.txt – начин на употреба и полезни съвети

Научете защо се използва Robots.txt и как да го оптимизирате за целите на вашия сайт

Здравейте приятели,

В тази статия ще се спра над един много важен елемент от вашия сайт, който играе сериозна роля за целите на SEO. Това е файлът Robots.txt. След като я прочетете ще знаете как да го използвате и по какъв начин да го оптимизирате за вашите конкретни нужди.

Защо се използва Robots.txt и откъде произлиза името му?

Robots.txt е файлът, чрез който протича функционалността на REP (Robots Exclusion Protocol). Този протокол представлява група от web стандарти, които регулират поведението на Интернет роботите, както и индексирането от страна на търсачките. Развитието на REP е преминало през различни фази и е започнало през 1994 година.

Следователно името на файла и на протокола е свързано с роботите (или ботовете, както още са известни), които посещават вашия сайт, обхождат го и събират информация за него. Някои роботи са полезни (като Googlebot), а други могат да ви навредят и вие следва да ограничите достъпа им. Robots.txt е част от процеса на защита спрямо последните, но далеч не е достатъчно средство за тази цел. Желателно е да го комбинирате заедно с .htaccess и евентуално антивирус/firewall.

Robots.txt може да ви бъде полезен основно за определяне на начина, по който търсачките работят със сайта ви. Самият файл представлява обикновен текст (както можете да се ориентирате от неговото разширение – txt). Можете да го редактирате с най-обикновен редактор (примерно Notepad), като в него описвате конкретни правила за Интернет роботите.

Как да използвам Robots.txt?

Първо трябва да проверите дали този файл съществува на вашия сървър. Правилото гласи, че този файл следва да бъде в основната директория на сайта ви, за да може да бъде достъпен чрез:

http://вашият-сайт.com/robots.txt

 

Сега следва да въведете в него командите, чрез които роботите ще се ориентират какво могат и какво не, когато посетят вашия сайт.

Един базов Robots.txt файл съдържа следното:


User-Agent: *

Allow: /

Disallow: /folder/ 

Разяснявам какво виждате в кода по-горе:

  • User-Agent – тук определяте конкретното правило за конкретен робот. В примера по-горе е използвано „*“, което означава, че всички роботи следва да се съобразят с изискванията по-долу. Можете да конкретизирате, примерно за Гугъл нещата ще изглеждат така: „User-agent: Googlebot„. Важното е да знаете името на конкретния робот и да го изпишете коректно;
  • Allow – разрешава обхождането и индексирането на конкретна част от сайта. В случая е използвано „/“, което позволява достъпа до цялото съдържание на сайта;
  • Disallow – обратното на Allow, като в случая е посочена директорията „folder“, която не бива да бъде обходена и индексирана;

Можете да създавате няколко различни правила за различните роботи. Всяко правило започва с User-Agent. Освен Allow и Disallow можете да изпозлвате и други команди, като примерно Noindex. Гугъл конкретно ще разпознае тази команда и ботът може да се съобрази с нея.

Това означава, че ако искате дадена страница да не бъде индексирана и последвана, вие следва да сложите следния таг в heading секцията ѝ:

<meta name="robots" content="noindex,nofollow">

Можете да изберете и само Noindex:

<meta name="robots" content="noindex">

Или пък само Nofollow:

<meta name="robots" content="nofollow">

 

И така – вече сте запознати със същината и структурата на Robots.txt. Нека сега да се спрем над някои важни моменти.

  • Първо следва да внимавате за кои роботи ограничавате дадени директории. Ако чрез Robots.txt блокирате достъпа на бота (особено на Googlebot) до директорията с файловете по дизайна на вашия сайт, то е много вероятно да не можете да разберете дали скоростта му на зареждане е добра или не, както и дали отговаря на изискванията за mobile-friendly. Следете за съобщения в Search Console (бившия Webmaster Tools) и ако забележите, че имате проблеми страници от гледна точка на мобилните устройства или имате блокирани страници, то следва да тествате промените първо в инструмента за проверка на Robots.txt в самата конзола на Гугъл и ако всичко проработи там да ги приложите и в реалния Robots.txt файл на вашия сайт;
    Неправилно блокираните елементи в Robots.txt могат да навредят на оценката за използваемост на сайта от мобилни устройства.

    Неправилно блокираните елементи водят до грешки при определяне дали страниците на даден сайта са mobile-friendly или не

    Неправилно блокираните елементи забавят работата на роботите на търсачките и могат да доведат до лоши резултати от гледна точка на SEO.

    Всички неправилно блокирани елементи в Robots.txt ще забавят обхождането и индексирането и могат да създадат проблеми от гледна точка на SEO.

  • Второ – това, че сте въвели дадено правило изобщо не означава, че роботите ще се съобразят с него. Това важи най-вече за опасните роботи, които са създадени с цел вреда. Ето защо в началото на тази статия споменах, че Robots.txt файла е само част от процеса, но не е достатъчен за цялостна защита;
  • Трето – стара практика е да се добавя линк към вашия sitemap.xml в Robots.txt. Презумпцията е, че по този начин ще се подобри обхождането и индексирането на сайта. Разбира се в днешно време тази стъпка е по-скоро излишна, при условие, че сте добавили картата на сайта в Search Console, но въпреки това според някои колеги може да бъде от полза. Можете да направите това чрез следния код в края на Robots.txt:
    Sitemap: http://вашият-сайт.com/sitemap.xml
  • Четвърто – за Гугъл и за Бинг можете да използвате специални символи при изписването на правилата:
    • * – wildcard, който представя всяка една поредица от символи;
    • $ – съвпада с края на URL адрес;
  • Пето – за всеки URL е допустима употребата само на един Disallow ред;
  • Шесто – всеки събдомейн или главен (root) домейн изисква свой собствен Robots.txt файл;
  • Седмо – вече знаете, че файлът трябва да е с малки букви (robots.txt). Друго важно правописно правило е свързано със свободните интервали при изпиосване на URL. Те не са допустими! Примерно „/категория/ /продукт/“ изписано по този начин няма да бъде уважено от роботите;
  • Осмо – дори и блокиран в Robots.txt даден URL пак може да бъде индексиран, но ще бъде изобразен като директория, а не като нормална част от Google индекса. Това може да бъде проблем, тъй като за робота не е ясно дали в крайна сметка, ако на тези страници има линкове, то те следва да предават link juice. Ето защо в този случай <meta name=“robots“ content=“noindex“> е с по-голяма тежест спрямо Disallow в Robots.txt;

Това е приятели! Надявам се, че вече ще можете да създадете един оптимизиран и полезен за вашия сайт Robots.txt файл. Ако имате въпроси, то коментарите по-долу са на ваше разположение!

До нови срещи!

*Изображението в заглавната картинка е благодарение на vectorcharacters.net.