Robots.txt pod ChatGPT Search: kiedy blokować, kiedy wpuszczać, a kiedy selekcjonować
Praktyczne podejście do robots.txt pod ChatGPT Search: scenariusze blokowania, selektywnego dostępu i typowe błędy. Jak myśleć o crawlability, kiedy chcesz cytowań, a kiedy ochrony treści.
Robots.txt pod ChatGPT Search: kiedy blokować, kiedy wpuszczać, a kiedy selekcjonować
Jeśli traktujesz ChatGPT Search jako kanał pozyskiwania widoczności, to crawlability staje się strategiczna. OpenAI wskazuje, że aby strona była dostępna w ChatGPT Search, trzeba dopuścić crawl i zadbać o dostęp dla crawlera (w tym reguły na host/CDN). Źródło: OpenAI – ChatGPT search.
W tym wpisie nie wchodzimy w „magiczne triki”. Chodzi o proste decyzje: co chcesz udostępniać, co chcesz chronić i jak uniknąć przypadkowego wycięcia całej witryny z cytowań.
3 strategie: blokuj / wpuszczaj / selekcjonuj
1) Wpuszczaj (domyślnie dla content marketingu)
Wpuszczanie crawlerów ma sens, jeśli:
- celem jest widoczność i cytowania,
- treści są publiczne i mają generować leady,
- masz dobrze ustawiony canonical i unikasz duplikacji.
2) Blokuj (gdy content jest „premium” lub wrażliwy)
Blokowanie ma sens, jeśli:
- masz content płatny i nie chcesz ekstrakcji,
- masz dane wrażliwe, które nie powinny być indeksowane,
- masz prywatne panele / aplikacje.
3) Selekcjonuj (najczęściej najlepszy kompromis)
Selekcja ma sens, gdy:
- chcesz cytowań dla bloga i stron ofertowych,
- ale nie chcesz crawl dla paneli, plików, parametrów, koszyków, stagingu.
Co najczęściej „psuje” dostępność pod Search
- przypadkowe
Disallow: /w robots.txt (lub na środowisku produkcyjnym), - blokowanie katalogu z blogiem,
- duplikaty URL (parametry, /?utm=) bez kanonikala,
- blokady na poziomie CDN/WAF (bot widzi 403/429).
Minimalna polityka dla bloga (praktycznie)
Jeśli masz blog publiczny, zwykle chcesz:
- pozwolić na crawl
/blog/i powiązanych zasobów, - blokować
/admin/,/api/(jeśli niepubliczne),/dashboard/,/staging/, - blokować wyniki wyszukiwania wewnętrznego i parametry generujące duplikaty.
Krok po kroku: jak podejść do decyzji (15 minut)
- Wypisz katalogi: publiczne content, ofertowe, panele, staging.
- Zdecyduj: co ma generować cytowania (wpuszczaj), co ma być prywatne (blokuj).
- Sprawdź, czy canonical jest spójny (jedna wersja URL).
- Przetestuj dostępność z zewnątrz (czy bot nie dostaje 403/429).
- Ustal politykę na stałe (a nie „ad hoc”).
FAQ
Czy blokowanie robotów chroni treść przed wykorzystaniem przez modele?
Robots.txt jest standardem kontroli crawl i indeksacji, ale nie jest „prawem”. W praktyce jednak jest to podstawowe narzędzie, żeby komunikować, co ma być crawl’owane, a co nie.
Czy powinienem blokować cały serwis, jeśli mam część premium?
Zwykle nie. Najlepsza praktyka to selekcja: blokujesz strefy premium i panele, a zostawiasz publiczny content, który generuje leady.
Co jest gorsze: blokada w robots czy 403 z WAF/CDN?
Dla widoczności – oba mogą wyciąć stronę. Robots jest przynajmniej „jasną instrukcją”, a 403/429 często jest efektem ubocznym konfiguracji bezpieczeństwa.
Czy selekcja wystarczy, jeśli mam duplikaty URL?
Selekcja pomaga, ale duplikaty URL bez kanonikala nadal rozmywają sygnały. Najpierw uporządkuj canonical i parametry, potem dopiero dopracuj robots.
Jakie strony najczęściej warto blokować?
Panele, staging, koszyki, wyszukiwarki wewnętrzne, wyniki filtrowania, parametry generujące duplikaty i zasoby, które nie mają wartości jako „źródło” (np. techniczne endpointy).
Chcesz dowiedzieć się więcej o GEO?
Sprawdź nasze narzędzia do monitorowania widoczności w AI i rozpocznij optymalizację swojej strony.