Crawl budget to liczba stron, które Googlebot jest w stanie i chce przeskanować na Twojej stronie w określonym czasie. Dla małych serwisów z 50 podstronami budżet crawlowania nie stanowi problemu — Google bez trudu przejrzy wszystko. Przy serwisie e-commerce z 50 000 produktów, tysiącami wariantów filtrowania i dynamicznie generowanymi URL-ami — crawl budget staje się realnym ograniczeniem. Googlebot nie odwiedzi wszystkich stron, więc musi wybrać. Optymalizacja crawl budget to sposób na to, żeby wybierał strony, na których Ci zależy.
Jak Google oblicza budżet crawlowania?
Crawl budget składa się z dwóch komponentów: crawl rate limit (limit szybkości crawlowania) i crawl demand (zapotrzebowanie na crawlowanie).
Crawl rate limit to maksymalna liczba równoczesnych połączeń, które Googlebot może otworzyć z Twoim serwerem, bez powodowania problemów z wydajnością. Jeśli serwer odpowiada szybko (poniżej 200 ms), Googlebot zwiększa intensywność crawlowania. Jeśli serwer zaczyna odpowiadać wolno lub zwracać błędy 5xx, Googlebot automatycznie zwalnia — bo nie chce „położyć” strony.
Crawl demand to zainteresowanie Google Twoimi stronami. Strony popularne (dużo ruchu, dużo linków zwrotnych), często aktualizowane i ważne tematycznie są crawlowane częściej. Stare podstrony bez ruchu, bez linków i bez zmian treści — rzadziej. Google nie marnuje zasobów na strony, które nie wnoszą wartości do indeksu.
Kiedy crawl budget staje się problemem?
Przy serwisach poniżej 10 000 stron Google zazwyczaj radzi sobie bez problemów. Przy większych serwisach — szczególnie e-commerce z parametrami filtrowania, paginacją i wariantami produktów — pojawia się ryzyko, że Googlebot spędza czas na stronach nieistotnych kosztem stron priorytetowych.
Symptomy problemu z crawl budget: nowe produkty indeksują się z opóźnieniem kilku tygodni zamiast dni, zmienione treści nie są odświeżane w wynikach wyszukiwania, raport „Statystyki crawlowania” w Google Search Console pokazuje dużą liczbę crawlowanych URL-i z błędami lub przekierowaniami.
Czynniki marnujące crawl budget w serwisach e-commerce
Największe straty crawl budget wynikają z URL-i, które nie powinny istnieć albo nie powinny być dostępne dla Googlebota. Identyfikacja i eliminacja tych marnotrawnych URL-i to pierwszy krok optymalizacji.
- Parametry filtrowania i sortowania generujące tysiące unikatowych URL-i. Sklep z 20 filtrami (kolor, rozmiar, cena, marka) i ich kombinacjami potrafi wygenerować setki tysięcy URL-i, z których każdy jest osobną „stroną” z prawie identyczną treścią. Googlebot crawluje je wszystkie, bo nie wie, które są wartościowe.
- Paginacja bez limitu — strony /page/1/ do /page/500/ w każdej kategorii. Googlebot podąża za linkami paginacji i dochodzi do stron, na których jest 1-2 produkty.
- Faceted navigation (nawigacja fasetowa) z każdą kombinacją filtrów jako osobnym URL-em. Sklep z 5000 produktów i 15 filtrami może generować miliony URL-i — daleko poza możliwościami crawl budget.
- Wersje testowe, staging i URL-e z parametrami sesji. Jeśli serwer nie jest odpowiednio skonfigurowany, Googlebot może crawlować te same strony z różnymi parametrami tracking (UTM, session ID, click ID).
Kolejny problem to duplikacja treści wynikająca z wersji HTTP/HTTPS i www/bez-www. Jeśli serwer serwuje te same strony pod czterema wariantami URL-a (http://domena.pl, https://domena.pl, http://www.domena.pl, https://www.domena.pl), Googlebot potencjalnie crawluje każdą stronę czterokrotnie. Prawidłowe przekierowania 301 na jedną wersję kanoniczną eliminują ten problem.
W serwisach wielojęzycznych dodatkowym obciążeniem są strony z identyczną strukturą w każdej wersji językowej. Jeśli serwis ma 10 000 stron w 5 językach — to 50 000 URL-i do zcrawlowania, nawet jeśli szablony i struktura nawigacyjna są identyczne. Prawidłowa implementacja hreflang i dedykowane sitemapy XML dla każdej wersji językowej pomagają Googlebotowi efektywniej zarządzać crawlowaniem w takim środowisku.
Każdy niepotrzebnie zcrawlowany URL to jeden URL mniej, który Googlebot mógł przeznaczyć na Twoją nową kolekcję produktów lub zaktualizowany artykuł blogowy.

Strategie optymalizacji crawl budget krok po kroku
Optymalizacja crawl budget sprowadza się do dwóch zasad: pokaż Googlebotowi strony ważne i ukryj (lub zablokuj) strony nieistotne.
Robots.txt to pierwszy poziom kontroli. Zablokuj crawlowanie ścieżek z parametrami filtrowania (Disallow: /*?color=), sortowania (Disallow: /*?orderby=) i wewnętrznego wyszukiwania (Disallow: /search/). Pamiętaj: blokada w robots.txt nie oznacza usunięcia z indeksu — jeśli do tych stron prowadzą linki, Google może je zaindeksować na podstawie informacji z linków.
Tag canonical na stronach z parametrami wskazuje Google wersję preferowaną. Filtrowana wersja kategorii (/buty/?kolor=czarny) powinna mieć canonical wskazujący na czystą kategorię (/buty/). Google może nadal crawlować obie wersje, ale wie, którą indeksować.
Meta tag noindex na stronach paginacji powyżej określonego progu (np. od strony 5 wzwyż) ogranicza liczbę URL-i w indeksie. Googlebot nadal crawluje te strony, ale nie musi ich przetwarzać pod kątem indeksacji — co pośrednio usprawnia przydzielanie budżetu.
Szybkość serwera wpływa bezpośrednio na crawl rate limit. Przy pozycjonowaniu stron www inwestycja w wydajny hosting, CDN i optymalizację backendu zwraca się nie tylko szybszym ładowaniem dla użytkowników, ale też intensywniejszym crawlowaniem przez Googlebota.
Monitorowanie crawl budget w Google Search Console
Google Search Console w sekcji „Ustawienia” → „Statystyki crawlowania” udostępnia raport, który pokazuje: łączną liczbę żądań crawlowania dziennie, średni czas odpowiedzi serwera, rozkład kodów odpowiedzi (200, 301, 404, 5xx) oraz typy crawlowanych zasobów (HTML, CSS, JS, obrazy).
Jak czytać raport crawlowania i wyciągać wnioski?
Szukaj trzech wzorców. Wysoki odsetek odpowiedzi 301 i 404 oznacza, że Googlebot marnuje crawl budget na strony, które nie istnieją lub przekierowują — napraw łańcuchy przekierowań i usuń martwe linki wewnętrzne. Duży udział crawlowania zasobów CSS i JavaScript w stosunku do HTML-a może oznaczać zbyt dużą liczbę zewnętrznych skryptów — sprawdź, czy robots.txt nie blokuje istotnych zasobów, ale pozwól zablokować te, które nie są potrzebne do renderowania.
Spadek dziennej liczby żądań crawlowania (przy niezmienionym rozmiarze serwisu) sygnalizuje problem z wydajnością serwera lub jakością treści. Google zmniejsza intensywność crawlowania, gdy serwer odpowiada wolno lub zwraca dużo błędów.
Warto też regularnie sprawdzać raport „Pokrycie indeksu” (lub „Strony” w nowej wersji GSC). Strony oznaczone jako „Wykryto — obecnie niezaindeksowane” to sygnał, że Google je znalazł, ale nie miał wystarczającego budżetu lub powodu, żeby je zaindeksować. Duża liczba takich stron w serwisie e-commerce oznacza, że crawl budget jest niewystarczający lub źle rozdzielany — agencja SEO może pomóc zdiagnozować przyczyny i wdrożyć poprawki.
Analiza logów serwera daje pełniejszy obraz niż GSC. Narzędzia takie jak Screaming Frog Log Analyser pokazują dokładnie, które URL-e Googlebot odwiedza najczęściej — i pozwalają zidentyfikować sytuacje, w których 60% budżetu crawlowania jest marnowane na strony filtrowania, podczas gdy nowe produkty czekają tygodniami na pierwszą wizytę robota.


