Robots.txt: Un estándar para la exclusión de robots

WWW Robots (también llamados errantes o arañas) son programas que atraviesan muchas páginas en la World Wide Web mediante la recuperación recursiva de páginas enlazadas. Para obtener más información, consulta guía de robots.txt y preguntas frecuentes sobre robots.txt.

En 1993 y 1994 hubo ocasiones en que los robots visitaron los servidores WWW donde no fueron bienvenidos por varias razones. A veces, estos motivos eran específicos del robot, por ejemplo, ciertos robots inundaban los servidores con solicitudes de disparo rápido o recuperaban los mismos archivos repetidamente.

En otras situaciones, los robots atravesaron partes de servidores WWW que no eran adecuados, por ejemplo, árboles virtuales muy profundos, información duplicada, información temporal o scripts cgi con efectos secundarios (como votar).

Estos incidentes indicaron la necesidad de mecanismos establecidos para los servidores WWW para indicar a los robots a qué partes de su servidor no se debe acceder. Este estándar aborda esta necesidad con una solución operativa.

MENÚ ?

? Quizás te interese: guía de robots.txt >> preguntas frecuentes sobre robots.txt >> recursos webmaster >> aprender posicionamiento web >> recursos de posicionamiento y seo >> cursos gratis de seo >> libros gratis de seo >> mejores libros de programación >> programas para desarrolladores
{: .notice–warning}

? Los Mejores Chollos de Amazon, ¡Agrégalos a tu Lista de Deseos!

Estado de este documento

Este documento representa un consenso el 30 de junio de 1994 sobre la lista de correo de robots ([email protected]), entre la mayoría de los autores de robots y otras personas interesadas en robots. También ha estado abierto para discusión en la lista de correo técnico de la World Wide Web ([email protected]). Este documento se basa en un borrador de trabajo previo con el mismo título.

No es un estándar oficial respaldado por un organismo de estándares, ni es propiedad de ninguna organización comercial. Nadie lo aplica, y no hay garantía de que todos los robots actuales y futuros lo usen. Considérelo una instalación común que la mayoría de los autores de robots ofrecen a la comunidad WWW para proteger el servidor WWW contra accesos no deseados de sus robots.

El método

El método utilizado para excluir robots de un servidor es crear un archivo en el servidor que especifique una política de acceso para robots. Este archivo debe ser accesible a través de HTTP en la URL local ” /robots.txt “. El contenido de este archivo se especifica a continuación.

Se eligió este enfoque porque puede implementarse fácilmente en cualquier servidor WWW existente, y un robot puede encontrar la política de acceso con solo una recuperación de documentos.

Un posible inconveniente de este enfoque de archivo único es que solo un administrador del servidor puede mantener dicha lista, no los mantenedores de documentos individuales en el servidor. Esto puede resolverse mediante un proceso local para construir el archivo único a partir de varios otros, pero si, o cómo, esto se hace está fuera del alcance de este documento.

La elección de la URL fue motivada por varios criterios:

  • El nombre del archivo debe caber en las restricciones de nombres de archivos de todos los sistemas operativos comunes.
  • La extensión del nombre de archivo no debería requerir una configuración de servidor adicional.
  • El nombre del archivo debe indicar el propósito del archivo y ser fácil de recordar.
  • La probabilidad de un choque con los archivos existentes debe ser mínima.

? Los Mejores Chollos de Amazon, ¡Agrégalos a tu Lista de Deseos!

El formato

El formato y la semántica del /robots.txt archivo ” ” son los siguientes:

El archivo consta de uno o más registros separados por una o más líneas en blanco (terminadas por CR, CR / NL o NL). Cada registro contiene líneas de la forma ” : “. El nombre del campo no distingue entre mayúsculas y minúsculas.

Los comentarios se pueden incluir en el archivo usando las convenciones de shell de bourne de UNIX: el carácter ‘ # ‘ se usa para indicar que el espacio anterior (si lo hay) y el resto de la línea hasta la terminación de la línea se descartan. Las líneas que contienen solo un comentario se descartan por completo y, por lo tanto, no indican un límite de registro.

El registro comienza con una o más User-agent líneas, seguido de una o más Disallow líneas, como se detalla a continuación. Los encabezados no reconocidos se ignoran.

  • Agente de usuario

    El valor de este campo es el nombre del robot para el que el registro describe la política de acceso.Si hay más de un campo Usuario-agente presente, el registro describe una política de acceso idéntica para más de un robot. Al menos un campo debe estar presente por registro.El robot debe ser liberal al interpretar este campo. Se recomienda una coincidencia de subcadena del nombre sin mayúsculas y minúsculas sin información de versión.Si el valor es ‘ * ‘, el registro describe la política de acceso predeterminada para cualquier robot que no coincida con ninguno de los otros registros. No está permitido tener múltiples registros de este tipo en el ” /robots.txt ” archivo.

  • Rechazar

    El valor de este campo especifica una URL parcial que no se debe visitar. Esta puede ser una ruta completa o una ruta parcial; no se recuperará ninguna URL que comience con este valor. Por ejemplo, Disallow: /help no permite ambos /help.html y /help/index.html , mientras Disallow: /help/ que no /help/index.html permitiría pero permitiría /help.html .Cualquier valor vacío indica que se pueden recuperar todas las URL. Al menos un campo Disallow debe estar presente en un registro.

La presencia de un ” /robots.txt ” archivo vacío no tiene una semántica asociada explícita, se tratará como si no estuviera presente, es decir, todos los robots se considerarán bienvenidos.

? Los Mejores Chollos de Amazon, ¡Agrégalos a tu Lista de Deseos!

Ejemplos

El siguiente /robots.txt archivo ” ” de ejemplo especifica que ningún robot debe visitar una URL que comience con ” /cyberworld/map/ ” o ” /tmp/ ” o /foo.html :

robots.txt para http://www.example.com/

Agente de usuario: *
No permitir: / cyberworld / map / # Este es un espacio de URL virtual infinito
No permitir: / tmp / # estos pronto desaparecerán
No permitir: /foo.html

Este ” /robots.txt ” archivo de ejemplo especifica que ningún robot debe visitar ninguna URL que comience con ” /cyberworld/map/ “, excepto el robot llamado ” cybermapper “:

robots.txt para http://www.example.com/

Agente de usuario: *
No permitir: / cyberworld / map / # Este es un espacio de URL virtual infinito

Cybermapper sabe a dónde ir

Usuario-agente: cybermapper
Rechazar:

Este ejemplo indica que ningún robot debe visitar más este sitio:

vete

Agente de usuario: *
No permitir: /

? Los Mejores Chollos de Amazon, ¡Agrégalos a tu Lista de Deseos!

Código de ejemplo

Aunque no es parte de esta especificación, algunos códigos de ejemplo en Perl están disponibles en norobots.pl. Es un poco más flexible en su análisis que las especificaciones de este documento, y se proporciona tal cual, sin garantía.

Nota: este código ya no está disponible. En su lugar, recomiendo utilizar el código de exclusión de robots en la biblioteca Perl libwww-perl5, disponible desde CPAN en el directorio LWP.

Dirección del autor

Martijn Koster⏪ Regresa a La Guía de Robots.txt

? Los Mejores Chollos de Amazon, ¡Agrégalos a tu Lista de Deseos!

Relacionado

❌ React Native, crear aplicación como Netflix con Mario Díez

[no_toc] [expand title="Índice del Vídeotutorial"] 1. FlatList Horizontal 2. Componente Swiper 3. Menú Animado y Header 4. FlatList Grid 5. Más Flexbox, Tabs y Linear gradiantes 6. Reproductor de Vídeo 7. Share API 8. Animatable Header y NativeEvents 9. React Navigation 10. Header Múltiple con Animated 11. Modal con React Navigation 12. React Navigation con Redux 13. Servidor NodeJS con MongoDB para React Native 14. Conectando ¡SEGUIR LEYENDO!

❌ React Native con Mario Díez

[no_toc] [expand title="Índice del Vídeotutorial"] 1. Instalación 2. Introducción 3. Props y State 4. Fetch Data 5. ListView 6. Fech Data 2 7. Navigator IOS 8. Navigator 9. Flexbox 10. PropTypes 11. TabBarIOS 12. Formularios 13. AsyncStorage 14. Recorriendo Arrays con Map 15. Notificaciones Push 16. Notificaciones Push desde NodeJS 17. Barra de Búsqueda en ListView 18. Utilización de CameraRoll 19. Children o Props 20. Diferenciar ¡SEGUIR LEYENDO!

❌ React Native con Iván B. Trujillo

[no_toc] [expand title="Índice del Vídeotutorial"] 1. Primeros Pasos 2. Componentes, Botones y Alertas 3. Pantalla de Login, Navegador y Vistas 4. Navegación por Pestañas 5. Peticiones a API y ListView 6. Vista Detalles y Paso de Propiedades a Componente Hijo [/expand] [yotuwp type="playlist" id="PLuzQ5Ac_9_cI-ukaElfIFKXyhLsADBiJe" ] [expand title="Creador"] Editor del blog de Medium: Canarias JS [/expand]

❌ Javascript con Píldoras Informáticas

[no_toc] [expand title="Índice del Vídeotutorial"] 1. Presentación. Vídeo 1 2. Introducción. Vídeo 2 3. Sintaxis Básica I. Ubicación del código. Vídeo 3 4. Sintaxis Básica II. Estructuras Básicas. Vídeo 4 5. Sintaxis Básica III. Operadores Básicos. Vídeo 5 6. Sintaxis Básica IV. Operadores y prompt. Vídeo 6 7. Sintaxis Básica V Arrays, Matrices, Arreglos. Vídeo 7 8. Sintaxis Básica V. Arrays, Matrices, Arreglos II. Vídeo 8 ¡SEGUIR LEYENDO!

❌ Javascript con Falcon Masters

[no_toc] [expand title="Índice del Vídeotutorial"] 1. Introducción 2. Variables 3. Tipos de Dato 4. Arreglos 5. Metodos y propiedades para los Arreglos 6. Condicionales 7. Ciclo Fo 8. Ciclo While 9. Funciones 10. Ejercicio con Funciones y Formularios 11. Scope de Javascript (ámbito de las variables) 12. Metodos y propiedades para Cadenas de Texto 13. Introducción al DOM (Document Object Model) 14. Creando Nodos del DOM ¡SEGUIR LEYENDO!

Deja un comentario