Robots.txt
Robots.txt to plik tekstowy umieszczony w głównym katalogu domeny (np. laskowskikamil.pl/robots.txt, który informuje roboty wyszukiwarek o tym, które części strony mogą, a których nie powinny indeksować. To podstawowe narzędzie kontroli crawlowania – nieprawidłowo skonfigurowany może zablokować indeksowanie całej strony.
Czym jest robots.txt?
Plik robots.txt to standard komunikacji między stronami internetowymi a robotami wyszukiwarek (crawlerami). Informuje Googlebot i inne roboty o strukturze strony – które katalogi i pliki mogą przeglądać, a których unikać. Ważne rozróżnienie: robots.txt kontroluje crawlowanie (odwiedzanie strony przez robota), ale nie indeksowanie. Strona zablokowana w robots.txt może nadal pojawić się w wynikach wyszukiwania, jeśli Google dowie się o niej z linków zewnętrznych.
Jak prawidłowo skonfigurować robots.txt?
Konfiguracja robots.txt powinna być przemyślana – zbyt restrykcyjne blokady mogą uniemożliwić indeksowanie ważnych stron, zbyt liberalne – marnować crawl budget na strony bez wartości SEO. Przed wprowadzeniem zmian zawsze testuj konfigurację w narzędziu Google Search Console.
- 1Sprawdź aktualny robots.txt wchodząc na domena.pl/robots.txt – upewnij się że nie blokujesz ważnych sekcji strony takich jak /blog/ czy główny katalog
- 2Blokuj strony bez wartości SEO: /wp-admin/, /cart/, /checkout/, strony wyników wyszukiwania wewnętrznego, strony z parametrami URL
- 3Dodaj dyrektywę Sitemap w robots.txt – ułatwia to Google odkrycie mapy witryny nawet jeśli nie została zgłoszona w Search Console
- 4Testuj konfigurację w Google Search Console (Ustawienia – Robots.txt) lub narzędziu Google Robots Testing Tool przed wdrożeniem zmian
- 5Pamiętaj: robots.txt blokuje crawlowanie, nie indeksowanie. Do blokowania indeksowania używaj meta robots noindex lub tagu x-robots-tag w headerze HTTP
Najczęstsze błędy
Poniżej najczęstsze błędy związane z robots.txt, które warto znać i unikać w codziennej pracy SEO.
- ✗Zablokowanie całej strony w robots.txt – Disallow: / w pliku robots.txt blokuje Googlebota przed crawlowaniem całej strony. To częsty błąd po migracji lub w środowiskach staging, które przypadkowo trafiają na produkcję.
- ✗Blokowanie plików CSS i JS – Zablokowanie plików styli i skryptów uniemożliwia Google renderowanie strony i ocenę jej wyglądu. Google potrzebuje dostępu do CSS i JS żeby prawidłowo zrozumieć treść strony.
- ✗Mylenie robots.txt z zabezpieczeniem strony – Robots.txt to grzecznościowy protokół – dobrze zachowujące się roboty go przestrzegają, ale złośliwe boty ignorują. Nie używaj robots.txt do ukrywania poufnych danych czy chronionych treści.
- ✗Brak testowania po zmianach – Każda zmiana robots.txt powinna być przetestowana w Google Search Console. Literówka w ścieżce może zablokować ważną sekcję serwisu.
Często zadawane pytania
Poniżej odpowiedzi na najczęściej zadawane pytania dotyczące Robots.txt.
Czy robots.txt zapobiega indeksowaniu strony?
Jak sprawdzić czy mój robots.txt jest poprawny?
Czy każda strona potrzebuje pliku robots.txt?
Jak wygląda prawidłowy robots.txt dla WordPress?
Powiązane hasła w słowniku SEO
Robots.txt jest powiązane z wieloma innymi pojęciami SEO. Poznaj je, aby lepiej rozumieć cały ekosystem pozycjonowania.
Powiązane artykuły na blogu
Jeśli chcesz dowiedzieć się więcej o robots.txt, zajrzyj do poniższych artykułów.