Las metatags son etiquetas html que incorporan información (metadatos) sobre una página web. Las podríamos considerar las "antecesoras" de lo que ahora es la Web Semántica, también llamada Web 3.0. Se incorporan en el encabezado (dentro de las etiquetas <head></head>) de las páginas web, para proporcionar datos muy básicos (autor, título, fecha, palabras clave, descripción) a navegadores, aplicaciones y buscadores.
Una de las metatags que ha venido cobrando más importancia en los últimos años es la metatag robots. Su utilidad es la de informar a los buscadores (Google, Bing, Yahoo...) sobre cuales páginas pueden indexar, y con que limitaciones. Su sintaxis es la siguiente:
<meta name="robots" value="atributo1, atributo2, atributo 3...">

La metatag "robots" nos permite decir a los buscadores las páginas que deben indexar, seguir o ignorar.
Los "atributos" que se pueden incluir, son las siguientes:
- index: Permite al buscador que indexe esa página (opción por defecto).
- noindex: NO permite a los buscadores que indexen esa página.
- follow: Le dice al buscador que puede seguir rastreando los enlaces que encuentre en la página (opción por defecto).
- nofollow: Le dice al buscador que NO siga rastreando los enlaces que encuentre en la página
- none: Es una abreviatura de noindex + nofollow.
- noarchive: No permite a los buscadores que guarden la página en caché
- nosnippet: No permite a los buscadores que muestren un fragmento de texto de la web en sus resultados de búsqueda, y tampoco deja que la guarde en caché.
- noodp: No permite a los buscdores que utilicen la descripción oficial de la página que hay en DMOZ (wikipedia) en sus resultados de búsqueda. En caso que no esté registrada en DMOZ (web oficial), no tiene utilidad.
- noydir: No permite a Yahoo! que utilice la descripción oficial de la página que hay en el directorio Yahoo en sus resultados de búsqueda. En caso que no esté registrada en tal directorio, no tiene utilidad.
En cuanto a los "robots" (a veces se les llama crawlers, agents, bots, robots o spiders) hay cientos de ellos. Aquí se puede consultar una exhaustiva base de datos de robots de buscadores. Aunque los más importantes y utilizados son los siguientes:
- Google: GOOGLEBOT
- Yahoo: SLURP
- Bing: MSNBOT
- Ask: TEOMA
No todos los robots aceptan todos los atributos, aunque si los más importantes. A saber: