Robots.txt pod ChatGPT Search: kiedy blokować, kiedy wpuszczać, a kiedy selekcjonować

Jeśli traktujesz ChatGPT Search jako kanał pozyskiwania widoczności, to crawlability staje się strategiczna. OpenAI wskazuje, że aby strona była dostępna w ChatGPT Search, trzeba dopuścić crawl i zadbać o dostęp dla crawlera (w tym reguły na host/CDN). Źródło: OpenAI – ChatGPT search.

W tym wpisie nie wchodzimy w „magiczne triki”. Chodzi o proste decyzje: co chcesz udostępniać, co chcesz chronić i jak uniknąć przypadkowego wycięcia całej witryny z cytowań.

3 strategie: blokuj / wpuszczaj / selekcjonuj

1) Wpuszczaj (domyślnie dla content marketingu)

Wpuszczanie crawlerów ma sens, jeśli:

celem jest widoczność i cytowania,
treści są publiczne i mają generować leady,
masz dobrze ustawiony canonical i unikasz duplikacji.

2) Blokuj (gdy content jest „premium” lub wrażliwy)

Blokowanie ma sens, jeśli:

masz content płatny i nie chcesz ekstrakcji,
masz dane wrażliwe, które nie powinny być indeksowane,
masz prywatne panele / aplikacje.

3) Selekcjonuj (najczęściej najlepszy kompromis)

Selekcja ma sens, gdy:

chcesz cytowań dla bloga i stron ofertowych,
ale nie chcesz crawl dla paneli, plików, parametrów, koszyków, stagingu.

Co najczęściej „psuje” dostępność pod Search

przypadkowe Disallow: / w robots.txt (lub na środowisku produkcyjnym),
blokowanie katalogu z blogiem,
duplikaty URL (parametry, /?utm=) bez kanonikala,
blokady na poziomie CDN/WAF (bot widzi 403/429).

Minimalna polityka dla bloga (praktycznie)

Jeśli masz blog publiczny, zwykle chcesz:

pozwolić na crawl /blog/ i powiązanych zasobów,
blokować /admin/, /api/ (jeśli niepubliczne), /dashboard/, /staging/,
blokować wyniki wyszukiwania wewnętrznego i parametry generujące duplikaty.

Krok po kroku: jak podejść do decyzji (15 minut)

Wypisz katalogi: publiczne content, ofertowe, panele, staging.
Zdecyduj: co ma generować cytowania (wpuszczaj), co ma być prywatne (blokuj).
Sprawdź, czy canonical jest spójny (jedna wersja URL).
Przetestuj dostępność z zewnątrz (czy bot nie dostaje 403/429).
Ustal politykę na stałe (a nie „ad hoc”).

FAQ

Czy blokowanie robotów chroni treść przed wykorzystaniem przez modele?

Robots.txt jest standardem kontroli crawl i indeksacji, ale nie jest „prawem”. W praktyce jednak jest to podstawowe narzędzie, żeby komunikować, co ma być crawl’owane, a co nie.

Czy powinienem blokować cały serwis, jeśli mam część premium?

Zwykle nie. Najlepsza praktyka to selekcja: blokujesz strefy premium i panele, a zostawiasz publiczny content, który generuje leady.

Co jest gorsze: blokada w robots czy 403 z WAF/CDN?

Dla widoczności – oba mogą wyciąć stronę. Robots jest przynajmniej „jasną instrukcją”, a 403/429 często jest efektem ubocznym konfiguracji bezpieczeństwa.

Czy selekcja wystarczy, jeśli mam duplikaty URL?

Selekcja pomaga, ale duplikaty URL bez kanonikala nadal rozmywają sygnały. Najpierw uporządkuj canonical i parametry, potem dopiero dopracuj robots.

Jakie strony najczęściej warto blokować?

Panele, staging, koszyki, wyszukiwarki wewnętrzne, wyniki filtrowania, parametry generujące duplikaty i zasoby, które nie mają wartości jako „źródło” (np. techniczne endpointy).