GEO
ChatGPT
AI Visibility

Robots.txt pod ChatGPT Search: kiedy blokować, kiedy wpuszczać, a kiedy selekcjonować

Praktyczne podejście do robots.txt pod ChatGPT Search: scenariusze blokowania, selektywnego dostępu i typowe błędy. Jak myśleć o crawlability, kiedy chcesz cytowań, a kiedy ochrony treści.

BiznesRewolucje.ai

Robots.txt pod ChatGPT Search: kiedy blokować, kiedy wpuszczać, a kiedy selekcjonować

Jeśli traktujesz ChatGPT Search jako kanał pozyskiwania widoczności, to crawlability staje się strategiczna. OpenAI wskazuje, że aby strona była dostępna w ChatGPT Search, trzeba dopuścić crawl i zadbać o dostęp dla crawlera (w tym reguły na host/CDN). Źródło: OpenAI – ChatGPT search.

W tym wpisie nie wchodzimy w „magiczne triki”. Chodzi o proste decyzje: co chcesz udostępniać, co chcesz chronić i jak uniknąć przypadkowego wycięcia całej witryny z cytowań.

3 strategie: blokuj / wpuszczaj / selekcjonuj

1) Wpuszczaj (domyślnie dla content marketingu)

Wpuszczanie crawlerów ma sens, jeśli:

  • celem jest widoczność i cytowania,
  • treści są publiczne i mają generować leady,
  • masz dobrze ustawiony canonical i unikasz duplikacji.

2) Blokuj (gdy content jest „premium” lub wrażliwy)

Blokowanie ma sens, jeśli:

  • masz content płatny i nie chcesz ekstrakcji,
  • masz dane wrażliwe, które nie powinny być indeksowane,
  • masz prywatne panele / aplikacje.

3) Selekcjonuj (najczęściej najlepszy kompromis)

Selekcja ma sens, gdy:

  • chcesz cytowań dla bloga i stron ofertowych,
  • ale nie chcesz crawl dla paneli, plików, parametrów, koszyków, stagingu.

Co najczęściej „psuje” dostępność pod Search

  • przypadkowe Disallow: / w robots.txt (lub na środowisku produkcyjnym),
  • blokowanie katalogu z blogiem,
  • duplikaty URL (parametry, /?utm=) bez kanonikala,
  • blokady na poziomie CDN/WAF (bot widzi 403/429).

Minimalna polityka dla bloga (praktycznie)

Jeśli masz blog publiczny, zwykle chcesz:

  • pozwolić na crawl /blog/ i powiązanych zasobów,
  • blokować /admin/, /api/ (jeśli niepubliczne), /dashboard/, /staging/,
  • blokować wyniki wyszukiwania wewnętrznego i parametry generujące duplikaty.

Krok po kroku: jak podejść do decyzji (15 minut)

  1. Wypisz katalogi: publiczne content, ofertowe, panele, staging.
  2. Zdecyduj: co ma generować cytowania (wpuszczaj), co ma być prywatne (blokuj).
  3. Sprawdź, czy canonical jest spójny (jedna wersja URL).
  4. Przetestuj dostępność z zewnątrz (czy bot nie dostaje 403/429).
  5. Ustal politykę na stałe (a nie „ad hoc”).

FAQ

Czy blokowanie robotów chroni treść przed wykorzystaniem przez modele?

Robots.txt jest standardem kontroli crawl i indeksacji, ale nie jest „prawem”. W praktyce jednak jest to podstawowe narzędzie, żeby komunikować, co ma być crawl’owane, a co nie.

Czy powinienem blokować cały serwis, jeśli mam część premium?

Zwykle nie. Najlepsza praktyka to selekcja: blokujesz strefy premium i panele, a zostawiasz publiczny content, który generuje leady.

Co jest gorsze: blokada w robots czy 403 z WAF/CDN?

Dla widoczności – oba mogą wyciąć stronę. Robots jest przynajmniej „jasną instrukcją”, a 403/429 często jest efektem ubocznym konfiguracji bezpieczeństwa.

Czy selekcja wystarczy, jeśli mam duplikaty URL?

Selekcja pomaga, ale duplikaty URL bez kanonikala nadal rozmywają sygnały. Najpierw uporządkuj canonical i parametry, potem dopiero dopracuj robots.

Jakie strony najczęściej warto blokować?

Panele, staging, koszyki, wyszukiwarki wewnętrzne, wyniki filtrowania, parametry generujące duplikaty i zasoby, które nie mają wartości jako „źródło” (np. techniczne endpointy).

Chcesz dowiedzieć się więcej o GEO?

Sprawdź nasze narzędzia do monitorowania widoczności w AI i rozpocznij optymalizację swojej strony.