Het is de taak van zoekmachines om zoveel mogelijk informatie te vergaren (indexeren). In hun zoektocht naar informatie gaan ze er steeds van uit dat alle gevonden informatie in hun database opgenomen mag worden.
In bepaalde situaties kan het echter wenselijk zijn dat de beschikbare informatie niet zomaar door iedereen raadpleegbaar is via Google (bijv. een document met contactgegevens). Er bestaan verschillende manieren om de informatie van je website af te schermen. Hieronder vindt u een overzicht van de belangrijkste methodes.
Als onderstaande technieken niet werken kan je steeds aan Google vragen om een bestaande link te verwijderen uit hun database. Dit kan eenvoudig met de webmasterhulpprogramma’s van Google.
Meer informatie vindt je op de support-website van Google.
Opgelet: Google (en andere zoekmachines) zijn een belangrijke bron van bezoekers. Een verkeerde (te strenge) configuratie kan vervelende/verstrekkende gevolgen hebben. Als je vragen hebt kan je ons altijd contacteren.
Robots.txt
Een “Robots.txt”-bestand vertelt zoekmachines (“search engine spiders”) welke onderdelen van de website geraadpleegd mogen worden. Je kan een dergelijk bestand eenvoudig zelf aanmaken en op de root van je website plaatsen. Als je dit document in een submap plaatst, zal het genegeerd worden.
Enkele voorbeelden van de inhoud van een “Robots.txt”-bestand
Alle inhoud mag geindexeerd worden
User-agent: *
Disallow:
Niets van de inhoud mag geindexeerd worden
User-agent: *
Disallow: /
Google (lees: Googlebot) mag 1 bestand in een map indexeren, de rest van de map moet genegeerd worden
User-agent: Googlebot
Disallow: /folder1/
Allow: /folder1/myfile.html
Je kan ook gebruik maken van wildcards bij het opstellen van een robots.txt-bestand. Het gebruik van wildcards wordt door Google, Yahoo! Search en Microsoft toegestaan
Alle pagina’s blokkeren waar zich een “?” in de url bevindt:
User-agent: *
Disallow: /*?
Je kan een “$”-teken gebruiken om het einde van een character te specifieren. Als je de toegang tot alle url’s die eindigen op “.aps” wilt blokkeren kan dat op volgende manier:
User-agent: Googlebot
Disallow: /*.asp$
Robots Metatag
Door te wisselen van index naar no-index en van follow naar no-follow kunt u het gedrag van een zoekmachine proberen te beïnvloeden.
- index = deze pagina indexeren
- noindex = deze pagina niet indexeren
- follow = de links die op deze pagina staan volgen
- nofollow = de links die op deze pagina staan niet volgen.
- none = deze pagina niet indexeren en de links niet volgen
Hieronder vindt u enkele voorbeelden.
noindex
De links van een pagina worden bezocht door de zoekmachine (wat relevant is voor een betere score bij Google), maar de gevonden informatie op de pagina wordt niet getoond in de resultatenlijst
<meta name="robots" content="noindex">
nofollow
De aanwezige links worden niet gevolgd, maar de inhoud van de pagina wordt wel geïndexeerd.
<meta name="robots" content="noindex, nofollow" />
<meta name="robots" content="none" />
Combinatie van de 2 tags
Als de inhoud van de pagina niet geïndexeerd mag worden en de aanwezige links niet gevolgd mogen worden, kan je de 2 tags combineren. Je kan ook “none” gebruiken
<meta name="robots" content="noindex, nofollow" />
<meta name="robots" content="none" />
tags op linkniveau
Een goede score in een zoekmachine wordt voor een deel berekent door de hoeveelheid / kwaliteit van de links die naar deze pagina leiden. Door rel=”nofollow” aan een hyperlink toe te voegen kan je in je website een link naar een andere website plaatsen, zonder dat Google een hogere ranking zal toekennen aan de betreffende website.
Deze tag- is vooral bedoeld bij het publiceren van comments op blogs of wanneer iemand een link wilt leggen naar een website maar deze website daar niet mee bevoordelen (bij google).
Robots Metatag ‘versus’ Robots.txt?
Een van de grootste nadelen van een robots-metatag is dat de zoekmachine eerst de pagina moet bekijken alvorens hij kan beslissen of deze geïndexeerd mag worden. Bij een robots.txt wordt deze op een centrale plaats opgenomen (bij voorkeur in de root) waardoor de spiders enkel deze file openen.
Een zoekmachine zal bij de robots metatag dus toch alle pagina’s openen en bekijken. Het gebruik van een robots.txt kan dus schelen in het dataverkeer (bij het bezoek van een zoekmachine) aanzienlijk verminderen.
Met robots-metatag heeft kan de dan weer snel en eenvoudig een unieke pagina afschermen, zonder steeds een nieuw “robots.txt”-bestand aan te maken.
Indien de beheerder van de website niet over de nodige rechten beschikt om bestanden toe te voegen aan de root kan een robots-metatag een oplossing bieden.
