Słownik SEO – Techniczne SEO

Robots.txt

Robots.txt to plik tekstowy umieszczony w głównym katalogu domeny (np. laskowskikamil.pl/robots.txt, który informuje roboty wyszukiwarek o tym, które części strony mogą, a których nie powinny indeksować. To podstawowe narzędzie kontroli crawlowania – nieprawidłowo skonfigurowany może zablokować indeksowanie całej strony.

Czas czytania: ok. 5 minutKategoria: Techniczne SEO

Czym jest robots.txt?

Plik robots.txt to standard komunikacji między stronami internetowymi a robotami wyszukiwarek (crawlerami). Informuje Googlebot i inne roboty o strukturze strony – które katalogi i pliki mogą przeglądać, a których unikać. Ważne rozróżnienie: robots.txt kontroluje crawlowanie (odwiedzanie strony przez robota), ale nie indeksowanie. Strona zablokowana w robots.txt może nadal pojawić się w wynikach wyszukiwania, jeśli Google dowie się o niej z linków zewnętrznych.

Dyrektywa User-agent
Określa do jakiego robota odnoszą się poniższe reguły. User-agent: * oznacza wszystkie roboty, User-agent: Googlebot tylko robota Google.
Dyrektywa Disallow
Blokuje dostęp robota do podanej ścieżki. Disallow: /admin/ blokuje cały katalog /admin/, Disallow: / blokuje całą stronę.
Dyrektywa Allow
Pozwala na dostęp do podanej ścieżki mimo szerszego blokowania. Użyteczna przy blokowaniu katalogu z wyjątkiem konkretnych podstron.
Dyrektywa Sitemap
Wskazuje lokalizację mapy witryny XML. Sitemap: https://domena.pl/sitemap.xml ułatwia robotom odkrywanie wszystkich stron serwisu.

Jak prawidłowo skonfigurować robots.txt?

Konfiguracja robots.txt powinna być przemyślana – zbyt restrykcyjne blokady mogą uniemożliwić indeksowanie ważnych stron, zbyt liberalne – marnować crawl budget na strony bez wartości SEO. Przed wprowadzeniem zmian zawsze testuj konfigurację w narzędziu Google Search Console.

  • 1Sprawdź aktualny robots.txt wchodząc na domena.pl/robots.txt – upewnij się że nie blokujesz ważnych sekcji strony takich jak /blog/ czy główny katalog
  • 2Blokuj strony bez wartości SEO: /wp-admin/, /cart/, /checkout/, strony wyników wyszukiwania wewnętrznego, strony z parametrami URL
  • 3Dodaj dyrektywę Sitemap w robots.txt – ułatwia to Google odkrycie mapy witryny nawet jeśli nie została zgłoszona w Search Console
  • 4Testuj konfigurację w Google Search Console (Ustawienia – Robots.txt) lub narzędziu Google Robots Testing Tool przed wdrożeniem zmian
  • 5Pamiętaj: robots.txt blokuje crawlowanie, nie indeksowanie. Do blokowania indeksowania używaj meta robots noindex lub tagu x-robots-tag w headerze HTTP

Najczęstsze błędy

Poniżej najczęstsze błędy związane z robots.txt, które warto znać i unikać w codziennej pracy SEO.

  • Zablokowanie całej strony w robots.txt – Disallow: / w pliku robots.txt blokuje Googlebota przed crawlowaniem całej strony. To częsty błąd po migracji lub w środowiskach staging, które przypadkowo trafiają na produkcję.
  • Blokowanie plików CSS i JS – Zablokowanie plików styli i skryptów uniemożliwia Google renderowanie strony i ocenę jej wyglądu. Google potrzebuje dostępu do CSS i JS żeby prawidłowo zrozumieć treść strony.
  • Mylenie robots.txt z zabezpieczeniem strony – Robots.txt to grzecznościowy protokół – dobrze zachowujące się roboty go przestrzegają, ale złośliwe boty ignorują. Nie używaj robots.txt do ukrywania poufnych danych czy chronionych treści.
  • Brak testowania po zmianach – Każda zmiana robots.txt powinna być przetestowana w Google Search Console. Literówka w ścieżce może zablokować ważną sekcję serwisu.

Często zadawane pytania

Poniżej odpowiedzi na najczęściej zadawane pytania dotyczące Robots.txt.

Czy robots.txt zapobiega indeksowaniu strony?
Nie bezpośrednio. Robots.txt blokuje crawlowanie – Googlebot nie odwiedzi zablokowanej strony. Jednak Google może nadal zaindeksować adres URL jeśli znajdzie link do niego z innej strony. Efekt będzie taki, że strona pojawi się w wynikach bez treści (samo URL i ewentualnie anchor text linku). Do pełnego zablokowania indeksowania użyj meta robots noindex.
Jak sprawdzić czy mój robots.txt jest poprawny?
Wejdź na domena.pl/robots.txt – plik powinien być widoczny jako zwykły tekst. Następnie użyj narzędzia Inspekcja URL w Google Search Console i sprawdź czy Google może crawlować docelowe URL. W GSC jest też dedykowany tester robots.txt w sekcji Ustawienia.
Czy każda strona potrzebuje pliku robots.txt?
Nie jest obowiązkowy, ale jest dobrą praktyką. Bez robots.txt Google crawluje wszystko co znajdzie. Dla prostych stron wizytówkowych może to być wystarczające. Dla rozbudowanych serwisów, sklepów i WordPress bez robots.txt marnujesz crawl budget na strony techniczne bez wartości SEO.
Jak wygląda prawidłowy robots.txt dla WordPress?
Podstawowy robots.txt dla WordPress powinien blokować: /wp-admin/ (z wyjątkiem /wp-admin/admin-ajax.php), /wp-includes/, strony z parametrami /?s= (wyszukiwanie). Nie blokuj /wp-content/uploads/ ani plików CSS i JS. Wtyczki Yoast SEO i RankMath generują robots.txt automatycznie – sprawdź ich konfigurację w ustawieniach.

Powiązane hasła w słowniku SEO

Robots.txt jest powiązane z wieloma innymi pojęciami SEO. Poznaj je, aby lepiej rozumieć cały ekosystem pozycjonowania.

Powiązane artykuły na blogu

Jeśli chcesz dowiedzieć się więcej o robots.txt, zajrzyj do poniższych artykułów.