Robots.txt-definitie

23 Augustus 2024

Het robots.txt-bestand is een essentieel hulpmiddel voor webbeheerders en SEO-professionals, die een eenvoudige maar krachtige methode bieden om te beheren hoe zoekmachines interactie met een website. Door een correct geconfigureerd robots.txt-bestand te implementeren, kunnen website-eigenaren bepalen welke delen van hun site toegankelijk zijn voor webcrawlers en welke verborgen moeten blijven.

robots.txt

Wat is een robots.txt-bestand?

Een robots.txt-bestand is een gewoon tekstbestand die verblijft in de root directory van een website en wordt gebruikt om te communiceren met webcrawlers (ook wel robots of spiders genoemd). Het biedt instructies, ook wel 'richtlijnen' genoemd, die specificeren welke delen van de website door zoekmachines moeten worden gecrawld en geรฏndexeerd en welke delen moeten worden uitgesloten.

Het robots.txt-bestand speelt een cruciale rol bij zoekmachineoptimalisatie (SEO) doordat webmasters de zichtbaarheid van hun inhoud in de resultaten van zoekmachines kunnen controleren, gevoelige inhoud kunnen beschermen en ervoor kunnen zorgen dat niet-essentiรซle delen van een website de zoekmachine niet rommelig maken. resultaten.

Technische structuur van robots.txt

Het robots.txt-bestand wordt beheerd door een eenvoudige maar nauwkeurige syntaxis. Elke richtlijn bestaat uit twee hoofdelementen:

  • gebruikersagent. Dit specificeert de naam van de webcrawler waarop de richtlijn van toepassing is. De crawler van Google wordt bijvoorbeeld geรฏdentificeerd als Googlebot, terwijl de crawler van Bing Bingbot is. Als de richtlijn op alle crawlers van toepassing is, wordt het sterretje (*) gebruikt.
  • Niet toestaan/toestaan. Deze richtlijnen bepalen tot welke delen van de site de crawler wel of geen toegang heeft. De disallow-richtlijn verhindert dat een crawler toegang krijgt tot specifieke URL's of mappen, terwijl de Allow-richtlijn expliciet toegang tot bepaalde gebieden toestaat, zelfs als deze zich binnen een niet-toegestane zone bevinden. directory.

Bovendien, de filet ondersteunt commentaar, dit zijn regels die beginnen met het #-symbool. Opmerkingen worden door crawlers genegeerd en worden gebruikt voor menselijke referentie.

robots.txt Voorbeeld

Een typisch robots.txt-bestand kan verschillende richtlijnen bevatten die van toepassing zijn op specifieke of alle crawlers. Een site kan bijvoorbeeld voorkomen dat alle crawlers toegang krijgen tot bepaalde privรฉmappen, terwijl ze wel toegang krijgen tot openbare inhoud. Een robots.txt-bestand kan zijn gestructureerd met meerdere user-agentregels, waardoor nauwkeurige controle over verschillende crawlers mogelijk is. Bijvoorbeeld:

  • Een richtlijn kan Googlebot targeten, waardoor deze geen toegang krijgt tot een volledige map die niet-openbare informatie bevat.
  • Voor alle crawlers kan een andere richtlijn gelden, waardoor ze geen tijdelijke bestanden of pagina's die nog in aanbouw zijn, kunnen indexeren.
  • Er kan een gespecialiseerde richtlijn worden gebruikt voor een specifieke crawler zoals AdsBot-Google, die Google Ads verwerkt, om ervoor te zorgen dat advertenties correct worden weergegeven zonder onnodige pagina's te indexeren.

Dankzij dit detailniveau in een robots.txt-bestand kunnen webmasters de interactie van hun site met verschillende zoekmachines nauwkeurig afstemmen.

Hoe werkt een robots.txt-bestand?

Het robots.txt-bestand fungeert als het eerste contactpunt tussen een webcrawler en een website. Wanneer een webcrawler een site bezoekt, controleert deze het robots.txt-bestand voordat de inhoud wordt gecrawld. Dit bestand is doorgaans toegankelijk via het URL-pad https://www.example.com/robots.txt.

Wanneer een crawler het robots.txt-bestand tegenkomt, leest hij de richtlijnen om te bepalen welke delen van de website hij mag crawlen. De crawler volgt de regels die in het bestand zijn beschreven, waarbij de toegestane inhoud wordt geรฏndexeerd of de niet-toegestane secties worden overgeslagen.

Het proces kan worden opgesplitst in de volgende stappen:

  • Eerste verzoek. Bij aankomst op een website vraagt โ€‹โ€‹de crawler het robots.txt-bestand op. Dit is doorgaans het eerste bestand waartoe toegang wordt gezocht.
  • Parseerrichtlijnen. De crawler leest en interpreteert de richtlijnen in het robots.txt-bestand. Dit omvat onder meer inzicht in welke user-agent hij identificeert en welke delen van de website beperkt of toegestaan โ€‹โ€‹zijn voor crawlen.
  • Kruipgedrag. De crawler beslist welke URL's voor toegang en indexering op basis van de geparseerde richtlijnen. Als een URL niet is toegestaan, slaat de crawler, afhankelijk van de configuratie, deze over, waardoor deze bij toekomstige crawls mogelijk volledig wordt vermeden.

Beperkingen en overwegingen

Hoewel robots.txt een krachtig hulpmiddel is, kent het beperkingen. Bijvoorbeeld:

  • Geen handhavingsmechanisme. Het robots.txt-bestand is een vrijwillige standaard, wat betekent dat hoewel gerenommeerde crawlers zoals Googlebot of Bingbot zich aan de regels houden, kwaadaardige of niet-conforme crawlers het bestand mogelijk volledig negeren.
  • Geen veiligheidsgarantie. Er mag niet op het robots.txt-bestand worden vertrouwd voor veiligheidsdoeleinden. Omdat het openbaar toegankelijk is, kan iedereen het bekijken en zien welke delen van de site beperkt zijn, waardoor mogelijk gevoelige informatie openbaar wordt gemaakt.
  • Limieten voor bestandsgrootte. Sommige crawlers leggen groottelimieten op aan robots.txt-bestanden. Google staat bijvoorbeeld maximaal 500 KB toe. Als het bestand deze omvang overschrijdt, kan het worden afgekapt, wat kan leiden tot mogelijke problemen met niet-geparseerde richtlijnen.
robots.txt uitgelegd.

Hoe maak je een robots.txt-bestand?

Het maken van een robots.txt-bestand vereist aandacht voor detail om ervoor te zorgen dat het de gewenste instructies effectief communiceert met webcrawlers.

Hier volgen de stappen om een โ€‹โ€‹robots.txt-bestand te maken:

  1. Open een teksteditor. Begin met het openen van een teksteditor zoals Kladblok (Windows) of Teksteditor (macOS). Vermijd het gebruik van tekstverwerkers zoals Microsoft Word, omdat deze opmaak kunnen toevoegen die niet compatibel is met de bestandsindeling robots.txt.
  2. Schrijf de richtlijnen. Schrijf zorgvuldig de richtlijnen voor de crawlers. Begin met het specificeren van de user-agent, gevolgd door de disallow- of allow-regels. Elke richtlijn moet op een aparte regel staan โ€‹โ€‹om duidelijkheid en correcte parsering door crawlers te garanderen.
  3. Denk aan de bestandsstructuur. Als uw site verschillende regels heeft voor verschillende crawlers, kunt u het bestand ordenen door richtlijnen onder elke user-agent-kop te groeperen. Zorg ervoor dat de instructies duidelijk zijn en niet met elkaar in strijd zijn, omdat tegenstrijdige regels kunnen leiden tot onvoorspelbaar gedrag van crawlers.
  4. Opslaan als platte tekst. Sla het bestand op als robots.txt zonder extra bestandsextensies. Het bestand moet worden gecodeerd in UTF-8 om compatibiliteit tussen verschillende systemen en crawlers te garanderen.
  5. Uploaden naar de hoofdmap. Gebruik een FTP klant of uw webhosting bedieningspaneel om het robots.txt-bestand naar de hoofdmap van uw website te uploaden. Deze map is doorgaans de hoofdmap waarin de startpagina van uw website zich bevindt.

Voor grotere of complexere websites kunnen aanvullende overwegingen nodig zijn. Voordat u het robots.txt-bestand live maakt, is het raadzaam tools zoals de robots.txt Tester van Google Search Console te gebruiken om te controleren op syntaxisfouten of conflicten die van invloed kunnen zijn op het crawlen.

Bovendien genereren sommige websites hun robots.txt-bestanden dynamisch op basis van omstandigheden zoals gebruikersgedrag of veranderingen in de sitestructuur. Deze aanpak vereist server-kant scripting en zorgvuldig beheer om ervoor te zorgen dat het gegenereerde bestand altijd accuraat en actueel is.

Hoe zoekmachines in robots.txt blokkeren?

Het blokkeren van zoekmachines voor specifieke delen van uw website met behulp van robots.txt vereist een nauwkeurige configuratie om te voorkomen dat per ongeluk belangrijke inhoud wordt uitgesloten.

Zo blokkeer je zoekmachines:

  • Identificeer de doelcrawlers. Bepaal of u alle zoekmachines of alleen specifieke zoekmachines wilt blokkeren. Dit wordt gedaan door de user-agents te identificeren van de crawlers die u wilt blokkeren.
  • Definieer de gebieden die u wilt blokkeren. Geef duidelijk aan welke mappen of bestanden u niet wilt laten crawlen. Dit kunnen privรฉsecties, dubbele inhoud of gebieden in ontwikkeling zijn.
  • Pas de richtlijnen toe. Gebruik in het robots.txt-bestand de disallow-instructie om de URL's of mappen op te geven waartoe de geรฏdentificeerde crawlers geen toegang mogen hebben. Zorg ervoor dat deze regels nauwkeurig zijn om onbedoelde blokkering van belangrijke inhoud te voorkomen.
  • Houd rekening met het crawlbudget. Door onnodige gedeelten van uw site te blokkeren, kunt u uw crawlbudget optimaliseren: de hoeveelheid middelen die zoekmachines toewijzen aan het crawlen van uw site. Door crawlers te richten op de belangrijkste inhoud, kunt u de efficiรซntie van de indexering van uw site verbeteren.

Randzaken afhandelen

Voor het op de juiste manier blokkeren van zoekmachines is een evenwichtige controle nodig over wat wordt geรฏndexeerd, terwijl ervoor wordt gezorgd dat belangrijke inhoud zichtbaar blijft voor zoekmachines. In bepaalde scenario's moet u mogelijk aanvullende stappen ondernemen.

Als bepaalde URL-parameters bijvoorbeeld dubbele inhoud of onnodige pagina's genereren, gebruikt u de disallow-richtlijn om te voorkomen dat crawlers toegang krijgen tot die specifieke URL's. In andere gevallen moet u mogelijk hele delen van de site blokkeren, zoals archieven of verouderde inhoud die niet langer relevant is. U moet er echter voor zorgen dat waardevolle inhoud daarbij niet per ongeluk wordt geblokkeerd.

Hoe kan ik een sitemap toevoegen aan robots.txt?

Het toevoegen van een sitemapverwijzing aan uw robots.txt-bestand verbetert het indexeringsproces voor uw website aanzienlijk.

Zo voegt u een sitemap toe aan robots.txt:

  1. Genereer een sitemap. Zorg ervoor dat er op uw website een XML-sitemap beschikbaar is. Deze sitemap moet alle belangrijke URL's van uw site bevatten, samen met metadata zoals de datum van laatste wijziging en de prioriteit van elke URL.
  2. Voeg een sitemaprichtlijn toe. Voeg aan het einde van uw robots.txt-bestand een richtlijn toe die de locatie van uw sitemap specificeert. Deze richtlijn moet rechtstreeks verwijzen naar de URL waar de sitemap wordt gehost.
  3. Meerdere sitemaps. Als uw website meerdere sitemaps heeft (bijvoorbeeld omdat er een groot aantal pagina's is), kunt u meerdere sitemaprichtlijnen opnemen. Elk ervan moet op een nieuwe regel worden vermeld.
  4. Opslaan en verifiรซren. Sla het bijgewerkte robots.txt-bestand op en verifieer de juistheid ervan met behulp van tools zoals Google Search Console. Zorg ervoor dat zoekmachines toegang hebben tot de sitemap en dat deze de structuur van uw website correct weergeeft.

Technische overwegingen

Wanneer u een sitemap aan het robots.txt-bestand toevoegt, zijn er enkele belangrijke technische overwegingen waarmee u rekening moet houden. Als uw website groot is en meerdere sitemaps vereist, kunt u een sitemapindexbestand gebruiken waarin alle afzonderlijke sitemaps worden vermeld. In dit geval moet het robots.txt-bestand verwijzen naar het sitemapindexbestand in plaats van naar individuele sitemaps.

Zorg er bovendien voor dat de sitemap-URL in het robots.txt-bestand overeenkomt met het protocol (HTTP of HTTPS) gebruikt door uw website. Als het protocol van uw website en de sitemap-URL niet overeenkomen, kan dit leiden tot problemen met de indexering door zoekmachines.

Hoe robots.txt aan een website toevoegen?

Het toevoegen van een robots.txt-bestand aan uw website is eenvoudig, maar het moet correct worden gedaan om ervoor te zorgen dat het naar behoren functioneert.

Zo voegt u een robots.txt-bestand toe:

  1. Maak het robots.txt-bestand. Schrijf het bestand met behulp van een teksteditor en volg de eerder besproken syntaxisrichtlijnen. Zorg ervoor dat alle richtlijnen correct zijn opgemaakt en het beoogde crawlgedrag weerspiegelen.
  2. Toegang tot de hoofdmap van de website. Gebruik een FTP-client of uw webhostingcontrolepaneel om naar de hoofdmap van uw website te navigeren. Deze map is doorgaans de hoofdmap waarin uw indexbestand (zoals index.html of index.php) zich bevindt.
  3. Upload het bestand. Upload het robots.txt-bestand naar de hoofdmap. Het moet op het hoogste niveau van uw apparaat worden geplaatst domein om rechtstreeks toegankelijk te zijn via uw hoofd-URL (bijvoorbeeld https://www.example.com/robots.txt).
  4. Controleer het uploaden. Controleer na het uploaden of het bestand toegankelijk is door naar de URL in a web browser. Het bestand moet correct worden geladen en de richtlijnen moeten zichtbaar zijn.

Veelvoorkomende problemen die u moet vermijden

Wanneer u het robots.txt-bestand aan uw website toevoegt, moet u rekening houden met enkele veelvoorkomende valkuilen. Een veel voorkomend probleem is het plaatsen van het bestand in de verkeerde map. Het is essentieel om ervoor te zorgen dat het robots.txt-bestand zich in de hoofdmap bevindt en niet in een submap of map, omdat zoekmachines het niet kunnen vinden als het verkeerd is geplaatst.

Controleer bovendien of de bestandsrechten correct zijn ingesteld. Voor het bestand is doorgaans een machtigingsinstelling van 644 vereist, waardoor leestoegang voor iedereen mogelijk is en de schrijftoegang wordt beperkt. Dit zorgt ervoor dat webcrawlers het bestand kunnen lezen zonder het te kunnen wijzigen.

Beste praktijken voor robots.txt

Hier volgen de best practices voor het maken en beheren van uw robots.txt-bestand:

  • Vermijd het blokkeren van kritieke pagina's. Zorg ervoor dat essentiรซle pagina's, vooral de pagina's die bijdragen aan uw SEO-strategie, niet per ongeluk worden geblokkeerd. Dit omvat landingspagina's, productpagina's en inhoud die verkeer of conversies genereert.
  • Gebruik specifieke richtlijnen. In plaats van brede regels voor niet-toestaan โ€‹โ€‹die onbedoeld waardevolle inhoud kunnen blokkeren, kunt u specifieke richtlijnen toepassen die alleen gericht zijn op de gebieden die u wilt beperken. Als bijvoorbeeld slechts een bepaalde submap binnen een map moet worden geblokkeerd, geeft u die submap op in plaats van de hele map.
  • Test het robots.txt-bestand regelmatig. Regelmatig testen van het robots.txt-bestand met tools zoals de robots.txt Tester van Google Search Console kan helpen bij het identificeren van fouten of verkeerde configuraties die van invloed kunnen zijn op de zichtbaarheid van uw site in zoekmachines. Testen is vooral belangrijk na het maken van bestandswijzigingen of het lanceren van een nieuwe site.
  • Werk het bestand regelmatig bij. Naarmate uw website evolueert, moet uw robots.txt-bestand dat ook doen. Controleer en update het bestand regelmatig om nieuwe inhoud weer te geven, verwijder verouderde richtlijnen en pas het aan de structuurwijzigingen van uw site aan.
  • Gebruik robots.txt niet uit veiligheidsoverwegingen. Het robots.txt-bestand is openbaar toegankelijk, waardoor het niet geschikt is voor het beveiligen van gevoelige inhoud. Gebruik de juiste authenticatiemethoden zoals sterk wachtwoord bescherming, HTTPS, of server-toegangscontroles aan de zijkant voor echte beveiligingsbehoeften.
  • Voeg sitemapreferenties toe. Door uw sitemap aan het robots.txt-bestand toe te voegen, zorgt u ervoor dat zoekmachines de inhoud van uw site gemakkelijk kunnen vinden en indexeren. Dit is vooral handig voor grote sites waar de structuur misschien niet meteen duidelijk is voor crawlers.
  • Controleer op syntaxisfouten. Eรฉn enkele syntaxisfout kan ertoe leiden dat het hele bestand door crawlers wordt genegeerd of verkeerd wordt geรฏnterpreteerd. Veel voorkomende fouten zijn ontbrekende dubbele punten, onjuist gebruik van jokertekens of onjuiste mappaden. Met behulp van een validatortool kunt u deze fouten onderkennen voordat ze de prestaties van uw site beรฏnvloeden.

Nikola
Kosti
Nikola is een doorgewinterde schrijver met een passie voor alles wat met hightech te maken heeft. Na het behalen van een graad in journalistiek en politieke wetenschappen, werkte hij in de telecommunicatie- en onlinebanksector. Schrijft momenteel voor phoenixNAP, hij is gespecialiseerd in het oplossen van complexe vraagstukken over de digitale economie, e-commerce en informatietechnologie.