A WordPress weboldalak – ahogy az internet legtöbb oldala – rendszeresen látogatottak különféle keresőrobotok (botok) által, például a Google, Bing vagy más keresőmotorok algoritmusai által. Ezek a robotok segítik az oldalakat indexelni a keresőkben, hogy azok megjelenjenek a találatok között. Ebben a cikkben összefoglaljuk, hogyan működnek ezek a botok, hogyan viselkednek a WordPress oldalakkal szemben, és mit tehet a szabályozásukra.
Mi az a bot vagy keresőrobot?
A bot egy automatizált program, amely az internetet pásztázza, oldalak tartalmát olvassa, követi a linkeket és elemzi az adatokat.
A legismertebb keresőmotorokhoz tartozó botok:
(Ezek a legelterjedtebbek, mert a Google, Bing stb. keresési indexeit frissítik.)
- Googlebot - Google keresőmotor
- BingBot - Microsoft Bing keresőmotor
- Yahoo Slurp - Yahoo (Binggel közösen) keresőmotor
- Yandex Bot - Yandex (orosz kereső) keresőmotor
- Baidu Spider - Baidu (Kínai kereső) keresőmotor
- DuckDuckBot - DuckDuckGo keresőmotor
Mit csinálnak?
- Betöltik az oldalakat: lekérik a WordPress oldal HTML-tartalmát (úgy, mintha egy látogató böngészőből nyitná meg).
- Feltérképezik a linkeket: végigkövetik az oldalon található belső és külső hivatkozásokat.
- Elemzik a tartalmat: figyelik a szövegeket, címsorokat, metaadatokat (pl. <title>, <meta name="description">), képek alt értékeit stb.
- Figyelik a strukturált adatokat (schema markup): pl. termékek, események, értékelések, stb.
- Bejegyzik az adatokat az indexbe, hogy megjelenhessen a keresőben.
Hatásaik:
- A weboldal megjelenik a Google-ben, Bing-ben stb. – vagy nem, ha blokkolásra kerülnek.
- Rossz robots.txt vagy noindex beállításnál az oldal nem kerül indexelésre.
A legismertebb SEO és elemző eszközökhöz tartozó botok:
(Ezek nem keresők, hanem SEO-elemzést, linkelemzést vagy versenytársvizsgálatot végeznek.)
- AhrefsBot - Ahrefs eszköz
- SemrushBot - Semrush eszköz
- Moz MJ12 Bot - Majestic / Moz eszköz
- Dotbot - Moz (korábbi crawler) eszköz
- Screaming Frog Bot - Screaming Frog SEO Spider eszköz
- SerpstatBot - Serpstat eszköz
Mit csinálnak?
- Teljes SEO elemzést készítenek:
- Térképezik az URL-struktúrát
- Lekérik az oldal metaadatait, fejlécét, betöltési idejét
- Ellenőrzik a duplikált tartalmakat, hibás linkeket (404)
- Megnézik a robots.txt, sitemap.xml állományokat
- Betöltik a CSS/JS fájlokat is, ha a bot fejlett
- Ezek gyakran nagy számú párhuzamos lekérést indítanak (pl. több száz URL rövid idő alatt).
⚠️ Fontos megjegyzés osztott tárhelyeken
Bizonyos SEO elemző botok – például az AhrefsBot és a SemrushBot – jelentős szerverterhelést okoznak a lekérdezéseikkel. Ezért ezek a botok alapértelmezetten tiltva vannak az osztott tárhelyes környezetünkben a szolgáltatás stabilitásának megőrzése érdekében.
Amennyiben szeretné ezeket a botokat engedélyezni (pl. SEO audit céljából), akkor ez csak dedikált szerveres vagy VPS szolgáltatás keretében lehetséges, amivel kapcsolatosan kérjük, hogy vegye fel ügyfélszolgálatunkkal a kapcsolatot.
A dedikált szolgáltatással kapcsolatban részleteket az alábbi oldalon találnak:
Force E csomag esetében:
Force E NVME AMD Epyc csomagok
VPS esetében Cpanel liszensz vásárlása is javasolt, amit az alábbi oldalon tudnak megtekinteni:
KVM Force SSD VPS csomagok
Amennyiben a váltással kapcsolatosan szeretnének részletesebb információt kapni, abban az esetben vegyék fel a kapcsolatot az ügyfélszolgálatunkkal az Ügyféladmin felületről a Támogatás/Új Kérés küldése menüpont alól, hogy segíthessünk.
Monitoring és egyéb botok:
- UptimeRobotBot - Elérhetőség-ellenőrzés
- PingDom Bot - Sebesség- és elérhetőség mérés
Mit csinálnak?
- Rendszeresen lekérik az oldalad fő URL-jét (pl. 1–5 percenként).
- Ellenőrzik:
- Elérhető-e az oldal?
- Milyen gyorsan tölt be?
- Van-e HTTP hiba (pl. 508, 403, 404)?
Hatása:
- Nem veszélyes, de felesleges erőforrást használhat, amennyiben túl sűrűn van beállítva.
- Célszerű IP-cím vagy user-agent alapján szabályozni őket.
- Fontos, hogy ezek a Botok, abban az esetben is szerverhibát fognak küldeni a felhasználónak, ha a weboldalban van a hiba és a weboldal nem tud megjelenni, független a szerver elérhetőségétől, így ebben az esetben első körben javasoljuk ellenőrizni a weboldalt.
⚠️ Milyen WordPress fájlokat, részeket érintenek?
- robots.txt: utasítja a botokat, mit ne nézzenek meg
- sitemap.xml: megmutatja a fontos oldalaid listáját
- WordPress oldalak (pl. weboldalam.eu/blog, example.hu/kategoria/...)
- Admin felület (pl. /wp-admin/) – ezt tiltani kell a botok elől!
- Beépülők által generált oldalak (pl. WooCommerce termékek)
⚙️ Hogyan szabályozhatjuk a botok viselkedését?
A WordPress oldalak esetében a robots.txt fájl az elsődleges eszköz, amellyel szabályozható, mit látogathatnak a botok és mit nem.
Mi az a robots.txt?
A robots.txt egy egyszerű szöveges fájl a weboldal gyökérkönyvtárában (pl. https://weboldalam.eu/robots.txt), amely utasításokat ad a botoknak arról, hogy mit szabad és mit nem szabad feltérképezniük, tehát mit indexelhetnek és mit nem.
Hogyan szerkeszthető a robots.txt WordPress-ben?
- SEO plugin segítségével (pl. Yoast SEO, RankMath)
- Yoast: SEO > Tools > File Editor menüpont alatt szerkeszthető
- RankMath: General Settings > Edit robots.txt
- FTP vagy fájlkezelő segítségével
- A robots.txt fájlt kézzel is van lehetősége módosítani. A fájl minden esetben a weboldal dokumentumgyökerében helyezkedik el, ami a tárhely fődomainjának esetében alapértelmezetten a public_html mappa. A kiegészítő tartományok esetében a Cpanel admin felületen a “Tartományok” menüpontban tudja ezt megtekinteni külön-külön domainenként.
Mit érdemes tiltani a botoknak?
- A privát admin felületeket (/wp-admin/, /wp-login.php)
- Teszt vagy staging oldalakat
- Automatikusan generált aloldalakat, amik nem hasznosak a kereső számára
⚠️ Fontos: Ne tiltsa a teljes weboldalt, mert akkor a keresőrobotok sem látják – így a Google-ben sem jelenik meg!
⚙️ Alapértelmezett robots.txt fájlként az alábbit javasoljuk beállítani
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /cgi-bin/
Disallow: /?s=
Disallow: /search
Allow: /wp-admin/admin-ajax.php
# Sitemap (sitemap saját elérési útjára lesz szükség)
Sitemap: https://www.weboldalam.eu/sitemap.xml
Magyarázat:
- User-agent: * → minden botra vonatkozik (pl. Googlebot, Bingbot stb.).
- Disallow: /wp-admin/ → az adminfelület ne legyen indexelve.
- Disallow: /wp-login.php → a bejelentkező oldal rejtve maradjon.
- Disallow: /?s= és /search → keresési eredményoldalak kizárása.
- Allow: /wp-admin/admin-ajax.php → AJAX működés engedélyezése (fontos sok pluginhez).
- Sitemap: → a sitemap helyét szükséges megadni, hogy a botok gyorsan megtalálják.
Mi történik, amikor egy bot meglátogatja a weboldalt?
A bot – például a Googlebot vagy egy SEO-elemző robot, mint az AhrefsBot – pontosan ugyanúgy kéri le a weboldalt, mint egy böngésző:
- Lekéri az oldal URL-jét (pl. weboldalam.eu)
- A szerver betölti a WordPress oldalt
- Lefut a teljes WordPress inicializáció:
- DB kapcsolat létrejön
- Betöltődnek a sablonok, pluginok
- Lefutnak a hookok (pl. init, wp_loaded)
- Generálódik a HTML
- A válasz visszakerül a bothoz
Ez egy látogatás. Ha egy bot percenként több száz URL-t kér le, valamint a botok jelenléte nincsen korlátozva, abban az esetben problémák jöhetnek elő a kiszolgálói tárhelyen, ezáltal a weboldalon.
Milyen terhelést jelent ez a szerverre?
Erőforrás |
Hatás |
CPU |
Tömeges PHP-feldolgozás – minden lekérés elindítja a WordPress-t/weboldal lekérfezést |
RAM |
Betöltött sablonok, pluginok memóriában maradnak lekérés közben |
MySQL |
Több lekérés több egyidejű adatbázis-kapcsolatot hoz létre |
IO (lemez) |
Ha nincs cache, minden oldal újraépül lemezműveletekkel |
EP limit (Entry Processes) |
Osztott tárhelyeken ez hamar betelik: minden új folyamat 1 EP-nek számít, ami az osztott tárhelyeken limitálva van, így ennek az értéknek az elérését követően a CPU használat drasztikusan megemelkedik és elérik a tárhely erőforráslimiteit, ami a weboldalon “508 Resource Limit is Reached” hibaüzenetet eredményez |
Technikai háttérproblémák
1. Cache nélküli oldalak
Ha nincs Page Cache (pl. WP Rocket, W3TC), akkor minden lekérés teljesen újraépül, azaz minden egyes kérés betölti a WP rendszert/meghívja az oldalt.
2. Keresőoldalak, archívumok, /tag/ URL-ek
Ha ezek indexelve vannak, és a bot bejárja mindet, akár több ezer lekérés is lehet. Ezeket gyakran nem nézi valós látogató, mégis sok erőforrást igényelnek.
3. AJAX és REST API végpontok
Botok előszeretettel próbálják bejárni a /wp-json és /wp-admin/admin-ajax.php végpontokat is, ami extra CPU és DB terhelést jelent, ezért a fent említett módon ezeket javasoljuk korlátozni.
4. Nem korlátozott botforgalom
Ha nincs robotok számára szabályozás (robots.txt vagy .htaccess), bárki bármilyen tempóban kérhet le oldalakat, ami a terhelést fogja okozni a weboldalon, ami a korábban említett “508 Resource Limit is Reached” hibát fogja eredményezni a weboldalon.
Összegzés: hogyan tudják túlterhelni a botok az oldalt?
- Magas látogatási gyakoriság → nincsen korlátozva a botok jelenléte
- Sok egyidejű kapcsolat → elérjük az EP limitet
- Nem releváns oldalak lekérése → haszontalan, mégis erőforrást fogyaszt
- Nincs cache → minden oldal a nulláról kerül meghívásra
Megoldások
Megoldás |
Mire jó |
robots.txt szabályozás |
Botok tiltása felesleges részeken |
Cache plugin |
Csökkenti a PHP és DB terhelést |
Rate limit (pl. Cloudflare) |
Limitálja a lekérések számát időegységenként |
Amennyiben továbbra is kérdése lenne ezzel kapcsolatosan, kérjük küldje meg számunkra az Ügyféladmin felületről a Támogatás/Új Kérés küldése alól, hogy segíthessünk.