🤖 ▷ La Guía Web de robots y robots.txt

1 minuto(s) de lectura

Introducción

Los robots web (también conocidos como errantes, rastreadores o arañas) son programas que atraviesan la cada página web de todo el mundo de Internet automáticamente. Los motores de búsqueda como Google los usan para indexar el contenido web, los spammers los usan para buscar direcciones de correo electrónico y otros muchos más tienen diferenciados usos.

Con esta página traemos toda la información necesaria para ser todo un maestro sobre los robots web.

Qué es robots.txt

Los propietarios de sitios web usan el archivo /robots.txt para dar instrucciones sobre su sitio a los robots web; esto se llama el protocolo de exclusión de robots.

Funciona así: un robot quiere visitar la URL de un sitio web, por ejemplo, http://www.ejemplo.com/bienvenido.html & antes de hacerlo, primero comprueba si existe el documento: http://www.ejemplo.com/robots.txt y dependiendo del contenido que exista dentro del mismo, actua.

Si el robot encuentra:

User-agent: *
Disallow: /

La parte de “User-Agent: * “significa que esta sección se aplica a todos los robots y “Disallow: /” dice al robot que no debe visitar ninguna página de nuestro sitio web.

Existen dos consideraciones importantes que debes tener en cuenta a la hora de usar /robots.txt:

  • Los robots pueden ignorar tu /robots.txt. Especialmente los robots de malware que escanean la web en busca de vulnerabilidades de seguridad y los dedicados a recolectar direcciones de correo electrónico que trabajan como “spammers” no prestarán atención.
  • El archivo /robots.txt es un archivo disponible públicamente. Osea, cualquiera posee acceso a ver qué secciones de su servidor no desea que usen los robots.

Por tanto, no intentes usar /robots.txt para ocultar información.

🚧🚧🚧🚧🚧👷‍♂️🚧🚧🚧🚧🚧

Los detalles /Robots.txt es un estándar de facto y no es propiedad de ningún organismo de estándares. Hay dos descripciones históricas:

Lista Robots

Actualizado:

Deja un comentario