Robots.txt: Un estándar para la exclusión de robots

WWW Robots (también llamados errantes o arañas) son programas que atraviesan muchas páginas en la World Wide Web mediante la recuperación recursiva de páginas enlazadas. Para obtener más información, consulta guía de robots.txt y preguntas frecuentes sobre robots.txt.

En 1993 y 1994 hubo ocasiones en que los robots visitaron los servidores WWW donde no fueron bienvenidos por varias razones. A veces, estos motivos eran específicos del robot, por ejemplo, ciertos robots inundaban los servidores con solicitudes de disparo rápido o recuperaban los mismos archivos repetidamente.

En otras situaciones, los robots atravesaron partes de servidores WWW que no eran adecuados, por ejemplo, árboles virtuales muy profundos, información duplicada, información temporal o scripts cgi con efectos secundarios (como votar).

Estos incidentes indicaron la necesidad de mecanismos establecidos para los servidores WWW para indicar a los robots a qué partes de su servidor no se debe acceder. Este estándar aborda esta necesidad con una solución operativa.

MENÚ ?

? Quizás te interese: guía de robots.txt >> preguntas frecuentes sobre robots.txt >> recursos webmaster >> aprender posicionamiento web >> recursos de posicionamiento y seo >> cursos gratis de seo >> libros gratis de seo >> mejores libros de programación >> programas para desarrolladores
{: .notice–warning}

? Los Mejores Chollos de Amazon, ¡Agrégalos a tu Lista de Deseos!

Estado de este documento

Este documento representa un consenso el 30 de junio de 1994 sobre la lista de correo de robots (robots-request@nexor.co.uk), entre la mayoría de los autores de robots y otras personas interesadas en robots. También ha estado abierto para discusión en la lista de correo técnico de la World Wide Web (www-talk@info.cern.ch). Este documento se basa en un borrador de trabajo previo con el mismo título.

No es un estándar oficial respaldado por un organismo de estándares, ni es propiedad de ninguna organización comercial. Nadie lo aplica, y no hay garantía de que todos los robots actuales y futuros lo usen. Considérelo una instalación común que la mayoría de los autores de robots ofrecen a la comunidad WWW para proteger el servidor WWW contra accesos no deseados de sus robots.

El método

El método utilizado para excluir robots de un servidor es crear un archivo en el servidor que especifique una política de acceso para robots. Este archivo debe ser accesible a través de HTTP en la URL local ” /robots.txt“. El contenido de este archivo se especifica a continuación.

Se eligió este enfoque porque puede implementarse fácilmente en cualquier servidor WWW existente, y un robot puede encontrar la política de acceso con solo una recuperación de documentos.

Un posible inconveniente de este enfoque de archivo único es que solo un administrador del servidor puede mantener dicha lista, no los mantenedores de documentos individuales en el servidor. Esto puede resolverse mediante un proceso local para construir el archivo único a partir de varios otros, pero si, o cómo, esto se hace está fuera del alcance de este documento.

La elección de la URL fue motivada por varios criterios:

  • El nombre del archivo debe caber en las restricciones de nombres de archivos de todos los sistemas operativos comunes.
  • La extensión del nombre de archivo no debería requerir una configuración de servidor adicional.
  • El nombre del archivo debe indicar el propósito del archivo y ser fácil de recordar.
  • La probabilidad de un choque con los archivos existentes debe ser mínima.

? Los Mejores Chollos de Amazon, ¡Agrégalos a tu Lista de Deseos!

El formato

El formato y la semántica del /robots.txtarchivo ” ” son los siguientes:

El archivo consta de uno o más registros separados por una o más líneas en blanco (terminadas por CR, CR / NL o NL). Cada registro contiene líneas de la forma ” :“. El nombre del campo no distingue entre mayúsculas y minúsculas.

Los comentarios se pueden incluir en el archivo usando las convenciones de shell de bourne de UNIX: el carácter ‘ #‘ se usa para indicar que el espacio anterior (si lo hay) y el resto de la línea hasta la terminación de la línea se descartan. Las líneas que contienen solo un comentario se descartan por completo y, por lo tanto, no indican un límite de registro.

El registro comienza con una o más User-agent líneas, seguido de una o más Disallowlíneas, como se detalla a continuación. Los encabezados no reconocidos se ignoran.

  • Agente de usuario

    El valor de este campo es el nombre del robot para el que el registro describe la política de acceso.Si hay más de un campo Usuario-agente presente, el registro describe una política de acceso idéntica para más de un robot. Al menos un campo debe estar presente por registro.El robot debe ser liberal al interpretar este campo. Se recomienda una coincidencia de subcadena del nombre sin mayúsculas y minúsculas sin información de versión.Si el valor es ‘ *‘, el registro describe la política de acceso predeterminada para cualquier robot que no coincida con ninguno de los otros registros. No está permitido tener múltiples registros de este tipo en el ” /robots.txt” archivo.

  • Rechazar

    El valor de este campo especifica una URL parcial que no se debe visitar. Esta puede ser una ruta completa o una ruta parcial; no se recuperará ninguna URL que comience con este valor. Por ejemplo, Disallow: /help no permite ambos /help.htmly /help/index.html, mientras Disallow: /help/que no /help/index.html permitiría pero permitiría /help.html.Cualquier valor vacío indica que se pueden recuperar todas las URL. Al menos un campo Disallow debe estar presente en un registro.

La presencia de un ” /robots.txt” archivo vacío no tiene una semántica asociada explícita, se tratará como si no estuviera presente, es decir, todos los robots se considerarán bienvenidos.

? Los Mejores Chollos de Amazon, ¡Agrégalos a tu Lista de Deseos!

Ejemplos

El siguiente /robots.txtarchivo ” ” de ejemplo especifica que ningún robot debe visitar una URL que comience con ” /cyberworld/map/” o ” /tmp/” o /foo.html:

robots.txt para http://www.example.com/

Agente de usuario: *
No permitir: / cyberworld / map / # Este es un espacio de URL virtual infinito
No permitir: / tmp / # estos pronto desaparecerán
No permitir: /foo.html

Este ” /robots.txt” archivo de ejemplo especifica que ningún robot debe visitar ninguna URL que comience con ” /cyberworld/map/“, excepto el robot llamado ” cybermapper“:

robots.txt para http://www.example.com/

Agente de usuario: *
No permitir: / cyberworld / map / # Este es un espacio de URL virtual infinito

Cybermapper sabe a dónde ir

Usuario-agente: cybermapper
Rechazar:

Este ejemplo indica que ningún robot debe visitar más este sitio:

vete

Agente de usuario: *
No permitir: /

? Los Mejores Chollos de Amazon, ¡Agrégalos a tu Lista de Deseos!

Código de ejemplo

Aunque no es parte de esta especificación, algunos códigos de ejemplo en Perl están disponibles en norobots.pl. Es un poco más flexible en su análisis que las especificaciones de este documento, y se proporciona tal cual, sin garantía.

Nota: este código ya no está disponible. En su lugar, recomiendo utilizar el código de exclusión de robots en la biblioteca Perl libwww-perl5, disponible desde CPAN en el directorio LWP.

Dirección del autor

Martijn Koster⏪ Regresa a La Guía de Robots.txt

? Los Mejores Chollos de Amazon, ¡Agrégalos a tu Lista de Deseos!

Relacionado

ForEach de Javascript: Array para bucles

Como una de las estructuras de control básicas en la programación, los bucles son casi una adición diaria al código que escribimos. El bucle forEach clásico es uno de los primeros fragmentos de código que aprendemos a escribir como programadores. Si fueras un desarrollador de Javascript, sabrías que Javascript no es ajeno a la iteración a través de los elementos de una matriz o un mapa ¡SEGUIR LEYENDO!

10 Mejores alternativas de Sci-hub para descargar artículos de investigación gratis

Como sabemos, Sci-hub es un sitio web increíble con millones de artículos de investigación para todos los estudiantes universitarios y académicos. El sitio web de Sci-Hub se encarga de obtener los artículos de investigación y artículos de pago utilizando las credenciales que se filtran. La fuente de credenciales utilizada por este sitio web no está clara. Sin embargo, se supone que muchas de ellas son donadas, ¡SEGUIR LEYENDO!

10 Características Sorprendentes de Windows que Deberías Conocer en 2024

Aunque haya sido usuario de Windows durante décadas, el sistema operativo es tan amplio y complejo que siempre existen características útiles, pero menos conocidas, que podrían sorprenderte. En este sentido, he identificado diez funciones poco conocidas de Windows que pueden potenciar su eficiencia, comodidad e incluso su experiencia de uso lúdico en su PC.

¡REBAJADO!
Microsoft Surface Go 2 - Portátil 2 en 1 de 10.5 pulgadas Full HD, Wifi, Intel...
  • Procesador Dual-Core Intel Pentium Gold 4425Y (2...
  • Memoria RAM de 8 GB LPDDR3
  • Disco SSD de 128 GB
Todas estas características deberían ser compatibles tanto con Windows 10 ¡SEGUIR LEYENDO!
10 Criptomonedas con Potencial de Crecimiento de Futuro

El rumor en torno a las criptomonedas no se desvanece por mucho que existan grandes pesimistas alrededor de los malos rumores. Entonces, si consideras invertir en el mundo de las criptomonedas, deberías estar atento a las criptomonedas que se espera que tengan un buen desempeño para el resto de 2021. En los últimos tiempos, los tokens DeFi están recibiendo toda la atención y es más que ¡SEGUIR LEYENDO!

10 Empresas de robótica más importantes del mundo

Los cambios de paradigma revolucionarios debido a los desarrollos de la robótica en todo el mundo están generando nuevos puntos de vista en muchos sectores, entre ellos en los de la industria y la tecnología. Con la ayuda de la Inteligencia Artificial, la tecnología produce resultados innovadores cada segundo y el campo de la robótica define y reconfigura su uso a cada instante. Cada día que ¡SEGUIR LEYENDO!

10 Frameworks que los Desarrolladores de Software deberían Aprender 2024

Bienvenidos desarrolladores web y de software, estamos en los inicios de 2023 y es posible que muchos se esten planteado sus objetivos para lo largo del año. Con anterioridad ya he compartidos las rutas de aprendizaje para un desarrollador front-end, un desarrollador full-stack o un desarrollador back-end entre otros muchos contenidos más. En este artículo, me gustaría compartir algunos de los mejores frameworks y bibliotecas para ¡SEGUIR LEYENDO!

10 Repositorio de GitHub que todo Desarrollador Web debería conocer

GitHub es el lugar que debes buscar cuando intentas mejorar como desarrollador, toda la información que necesitas está disponible en algún repositorio que alguien ya se ha molestado en indexar. Sin embargo, la parte complicado es encontrar el repositorio más adecuado. Es fácil sentirse perdido en todos los repositorios disponibles dentro de GitHub. Para ayudarte, he elaborado una lista de 10 repositorios de GitHub que pueden ¡SEGUIR LEYENDO!

Deja un comentario

Salir de la versión móvil