🤖 ▷ Preguntas Frecuentes Sobre robots.txt

18 minuto(s) de lectura

Esta es una lista con preguntas frecuentes sobre robots web. Seleccione la pregunta para ir a la página de respuestas, o seleccione en el icono del ojo después de la pregunta para mostrar la respuesta en esta página.

Acerca de los robots WWW

¿Qué es un robot WWW?

Un robot es un programa que atraviesa automáticamente la estructura de hipertexto de la Web recuperando un documento y recuperando recursivamente todos los documentos a los que se hace referencia.

Tenga en cuenta que “recursivo” aquí no limita la definición a ningún algoritmo transversal específico; incluso si un robot aplica algo de heurística a la selección y el orden de los documentos para visitar y espacia las solicitudes durante un largo espacio de tiempo, sigue siendo un robot.

Los navegadores web normales no son robots, porque son operados por un humano y no recuperan automáticamente los documentos de referencia (que no sean imágenes en línea).

Los robots web a veces se denominan web wanderers, web crawlers o spiders. Estos nombres son un poco engañosos ya que dan la impresión de que el software se mueve entre sitios como un virus; En este caso, un robot simplemente visita los sitios solicitándoles documentos.

¿Qué es un agente?

La palabra “agente” se usa para muchos significados en informática en estos días. Específicamente:

  • Agentes autónomos Son programas que viajan entre sitios y deciden cuándo moverse y qué hacer. Estos solo pueden viajar entre servidores especiales y actualmente no están muy extendidos en Internet.

  • Agentes inteligentes Son programas que ayudan a los usuarios con cosas, como elegir un producto, o guiar a un usuario a través del llenado de formularios, o incluso ayudar a los usuarios a encontrar cosas. Estos generalmente tienen poco que ver con las redes.

  • Agente de usuario Es un nombre técnico para programas que realizan tareas de red para un usuario, como agentes de usuario web como Netscape Navigator y Microsoft Internet Explorer, y agente de usuario de correo electrónico como Qualcomm Eudora, etc.

¿Qué es un buscador?

Un motor de búsqueda es un programa que busca en algún conjunto de datos. En el contexto de la Web, la palabra “motor de búsqueda” se usa con mayor frecuencia para los formularios de búsqueda que buscan en bases de datos de documentos HTML recopilados por un robot.

¿Qué tipo de robots existen?

Los robots se pueden usar para varios propósitos:

  • Indexación
  • Validación HTML
  • Validación de enlace
  • Monitoreo “Qué hay de nuevo”
  • Reflejo Vea la lista de robots activos para ver qué robot hace qué. No me preguntes, todo lo que sé es lo que está en la lista.

Entonces, ¿qué son los robots, arañas, rastreadores web, gusanos, hormigas?

Esto solo son nombres para el mismo tipo de cosas, con connotaciones ligeramente diferentes:

  • Robots El nombre genérico.
  • Arañas Igual que los robots, pero suena más fresco en la prensa.
  • Gusanos Igual que los robots, aunque técnicamente un gusano es un programa de replicación, a diferencia de un robot.
  • Rastreadores web Igual que los robots, pero tenga en cuenta que WebCrawler es un robot específico
  • WebAnts Robots cooperadores distribuidos.

¿Son los robots malos para la web?

Hay algunas razones por las cuales las personas creen que los robots son malos para la Web:

  • Ciertas implementaciones de robots pueden (y han tenido en el pasado) redes y servidores sobrecargados. Esto sucede especialmente con personas que recién comienzan a escribir un robot; En estos días hay suficiente información sobre robots para evitar algunos de estos errores.
  • Los robots son operados por humanos, que cometen errores en la configuración, o simplemente no consideran las implicaciones de sus acciones. Esto significa que las personas deben tener cuidado, y los autores de robots deben dificultar que las personas cometan errores con efectos negativos.
  • Los robots de indexación en toda la web crean una base de datos central de documentos, que no se adapta demasiado bien a millones de documentos en millones de sitios. Pero al mismo tiempo, la mayoría de los robots están bien diseñados, operados profesionalmente, no causan problemas y brindan un servicio valioso en ausencia de mejores soluciones ampliamente implementadas.

Entonces, no, los robots no son intrínsecamente malos, ni intrínsecamente brillantes, y necesitan una atención cuidadosa.

¿Hay libros de robots?

Sí, existen algunos; lo más complicado es encontrarlos en español.

¿Dónde puedo encontrar más información sobre robots?

Hay una página de inicio de Web robots en:

https://ciberninjas.com/robots-txt/

Por supuesto, la última versión de estas preguntas frecuentes está allí; también encontrarás muchos detalles más.

Robots de indexación

¿Cómo decide un robot dónde visitar?

Esto depende del robot, cada uno usa diferentes estrategias. En general, comienzan desde una lista histórica de URL, especialmente de documentos con muchos enlaces en otros lugares, como listas de servidores, páginas “Novedades” y los sitios más populares en la Web.

La mayoría de los servicios de indexación también le permiten enviar URL manualmente, que luego serán colocadas en cola y visitadas por el robot.

A veces se utilizan otras fuentes de URL, como escáneres a través de publicaciones de USENET, listas de correo publicadas, etc.

Dados esos puntos de partida, un robot puede seleccionar URL para visitar e indexar, y analizar y usar como fuente para nuevas URL.

¿Cómo decide un robot de indexación qué indexar?

Si un robot de indexación conoce un documento, puede decidir analizarlo e insertarlo en su base de datos. La forma en que esto se hace depende del robot: algunos robots indexan los títulos HTML, o los primeros párrafos, o analizan todo el HTML e indexan todas las palabras, con ponderaciones que dependen de las construcciones HTML, etc. Algunos analizan la etiqueta META u otros Etiquetas ocultas

Esperamos que a medida que la Web evolucione haya más instalaciones disponibles para asociar eficientemente metadatos, como la indexación de información con un documento. Esto en la actualidad se realiza a través de los datos estructurados de Google a pesar de que no es una tecnología generalizada, ni estandar respecto a todos los bots de robots.

¿Cómo registro mi página con un robot?

Esto depende de la compaía creadora de cada buscador. Muchos servicios tienen un enlace a un formulario de envío de URL en su página de búsqueda, o tienen más información en sus páginas de ayuda. Por ejemplo:

¿Cómo obtengo un mejor posicionamiento en los motores de búsqueda?

Esto se conoce como “SEO” o Optimización de motores de búsqueda. Existen muchos sitios web, foros y empresas que tienen como objetivo / afirman ayudar con eso.

Básicamente el SEO se reduce a:

  • En el diseño de su sitio, use texto en lugar de imágenes y Flash para contenido importante.
  • Haga que su sitio funcione con JavaScript, Java y CSS deshabilitados.
  • Organice su sitio de modo que tenga páginas que se centren en un tema en particular.
  • Evite marcos HTML e iframes.
  • Utilice URL normales, evitando enlaces que parecen consultas de formulario (http://www.ejemplo.com/buscador?id).
  • Comercialice su sitio haciendo que otros sitios relevantes enlacen con el suyo.
  • No intentes engañar al sistema (rellenando tus páginas de palabras clave, o intentando apuntar a contenido específico en los motores de búsqueda, o usando granjas de enlaces).

Ver también:

Para administradores de servidores

¿Cómo sé si me ha visitado un robot?

Puedes verificar los registros de su servidor para los sitios que recuperan muchos documentos, especialmente en poco tiempo.

Si su servidor admite el registro de agente de usuario, puede verificar las recuperaciones con valores de encabezado de agente de usuario inusuales.

Finalmente, si observa que un sitio busca repetidamente el archivo ‘/robots.txt’ es probable que también sea un robot.

¡Me ha visitado un robot! ¿Ahora qué?

Si cree que ha descubierto un nuevo robot (es decir, uno que no figura en la lista de robots activos y que hace más que visitas esporádicas, envíeme un mensaje para que pueda anotarlo para futuras referencias. Pero no lo haga ¡No me cuentes sobre todos los robots que pasan!

¡Un robot rastrea mi sitio demasiado habitualmente!

Esto se llama “rastreo rápido” y las personas generalmente lo notan si están monitoreando o analizando un archivo de registro de acceso.

En primer lugar, compruebe si es un problema comprobando la carga de su servidor y supervisando el registro de errores de sus servidores, y las conexiones concurrentes si puede. Si tiene un servidor de rendimiento medio o alto, es muy probable que pueda hacer frente a una gran carga de incluso varias solicitudes por segundo, especialmente si las visitas son rápidas.

Sin embargo, puede tener problemas si tiene un sitio de bajo rendimiento, como su propia PC de escritorio o Mac en la que está trabajando, o ejecuta un software de servidor de bajo rendimiento, o si tiene muchas recuperaciones largas (como scripts CGI o documentos grandes ) Estos problemas se manifiestan en conexiones rechazadas, una alta carga, ralentizaciones del rendimiento o, en casos extremos, un bloqueo del sistema.

Si esto sucede, hay algunas cosas que debe hacer. Lo más importante, comience a registrar información: cuándo se dio cuenta, qué sucedió, qué dicen sus registros, qué está haciendo en respuesta, etc. Esto ayuda a investigar el problema más adelante. En segundo lugar, intente averiguar de dónde vino el robot, qué direcciones IP o dominios DNS, y vea si se mencionan en la lista de robots activos . Si puede identificar un sitio de esta manera, puede enviar un correo electrónico a la persona responsable y preguntarle qué pasa. Si esto no ayuda, pruebe su propio sitio para obtener números de teléfono o envíe un correo al administrador de correo en su dominio.

Si el robot no está en la lista, envíeme un correo electrónico con toda la información que ha recopilado, incluidas las acciones de su parte. Si no puedo ayudar, al menos puedo anotarlo para otros.

Normas de exclusión de robots

¿Por qué encuentro entradas para /robots.txt en mis archivos de registro?

robablemente provienen de robots que intentan ver si ha especificado alguna regla para ellos utilizando el Estándar para la exclusión de robots , consulte también a continuación .

Si no le importan los robots y desea evitar los mensajes en sus registros de errores, simplemente cree un archivo vacío llamado robots.txt en el nivel raíz de su servidor.

No pongas ningún lenguaje HTML o inglés “¿Quién demonios eres?” texto en él - aunque seguramente nunca será leído por nadie. 😅

¿Cómo evito que los robots escaneen mi sitio?

La forma rápida de evitar que los robots visiten su sitio es poner estas dos líneas en el archivo /robots.txt en su servidor:

User-agent: *
Disallow: /

Esto solo se cumplirá con robots con buen comportamiento.

Ver también:

¿Dónde descubro cómo funcionan los archivos /robots.txt?

El concepto básico es simple: al escribir un archivo de texto estructurado puede indicar a los robots que ciertas partes de su servidor están fuera del alcance de algunos o todos los robots.

Se explica mejor con un ejemplo:

# /robots.txt file for http://webcrawler.com/
# mail [email protected] for constructive criticism

User-agent: webcrawler
Disallow:

User-agent: lycra
Disallow: /

User-agent: *
Disallow: /tmp
Disallow: /logs

Las dos primeras líneas, que comienzan con ‘#’, especifican un comentario

El primer párrafo especifica que el robot llamado ‘webcrawler’ no tiene nada prohibido: puede ir a cualquier parte.

El segundo párrafo indica que el robot llamado ‘lycra’ tiene todas las URL relativas que comienzan con ‘/’ no permitido. Debido a que todas las URL relativas en un servidor comienzan con ‘/’, esto significa que todo el sitio está cerrado.

El tercer párrafo indica que todos los demás robots no deben visitar las URL que comienzan con / tmp o / log. Tenga en cuenta que ‘*’ es un token especial, que significa “cualquier otro agente de usuario”; no puede usar patrones comodín o expresiones regulares en las líneas Agente de usuario o No permitir.

Dos errores comunes:

Los comodines no son compatibles: en lugar de ‘No permitir: / tmp / *’ solo diga ‘No permitir: / tmp /’. No debe colocar más de una ruta en una línea Disallow (esto puede cambiar en una versión futura de la especificación).

¿Qué programa debo usar para crear /robots.txt?

Cualquier editor de texto o software que produzca un archivo de texto, será suficiente. Entre mis recursos o en Aplicaciones Escolares puedes encontrar varias programas que te servirán.

  • En Microsoft Windows, usa el Bloc de Notas o Wordpad (Guardar como documento de texto .txt) o incluso Microsoft Word (Guardar como texto sin formato).
  • En Macintosh, usa TextEdit (Formato-> Crear texto sin formato, luego Guardar como occidental).
  • En Linux, Vi, Emacs, la propia Consola.

¿Cómo uso /robots.txt en un host virtual?

El término “host virtual” a veces se usa para significar varias cosas diferentes:

  • Un servidor web de “host virtual” utiliza el encabezado de host HTTP para distinguir las solicitudes a diferentes nombres de dominio en la misma dirección IP. En este caso, el hecho de que el dominio esté en un host compartido no hace ninguna diferencia para un robot visitante, y puede colocar un archivo /robots.txt en el directorio dedicado a su dominio.

  • Un “servidor virtual” ejecuta un sistema operativo separado en una máquina virtual, como VMWare o Xen. De nuevo, para un robot que es una computadora separada.

¿Cómo uso /robots.txt en un host compartido?

Si comparte un host con otras personas y tiene una URL como: http://www.ejemplo.com/~NombreDeUsuario/ o http://www.ejemplo.com/NombreDeUsuario, entonces no puede tener tu propio / archivo robots.txt. Si deseas utilizar /robots.txt, tendrás que pedirselo al administrador del host.

Si desea más control, cambie de proveedor a un host virtual.

¿Qué pasa si no puedo crear un archivo robots.txt?

A veces no puedes crear un archivo robots.txt porque no administra todo el servidor. No todo está perdido: hay un nuevo estándar para usar etiquetas META HTML para mantener a los robots fuera de sus documentos.

La idea básica es que si incluye la etiqueta -noindex- siguiente en su documento HTML, ese documento no será indexado:

<meta name="robots" content="noindex"= />

En cambio si le incluyes -nofollow- los enlaces en ese documento no serán analizados por el robot.:

<meta name="robots" content="nofollow" />

¿Se puede bloquear solo a los robots malos?

En teoría sí, en la práctica, no. Si el robot defectuoso obedece a /robots.txt y conoce el nombre que busca en el campo Agente de usuario. entonces puede crear una sección en su /robotst.txt para excluirlo específicamente. Pero casi todos los robots malos ignoran /robots.txt, por lo que no tiene sentido.

Si el robot defectuoso opera desde una sola dirección IP, puede bloquear su acceso a su servidor web a través de la configuración del servidor o con un firewall de red.

Si las copias del robot funcionan en muchas direcciones IP diferentes, como las PC secuestradas que forman parte de una gran Botnet , entonces se vuelve más difícil. La mejor opción es utilizar la configuración avanzada de reglas de firewall que bloquea automáticamente el acceso a las direcciones IP que realizan muchas conexiones; pero eso puede golpear a los robots buenos también a los robots malos.

¿Por qué este robot ignoró mi /robots.txt?

Podría ser que estuviese escrito por un redactor / desarrollador de software sin experiencia. Ocasionalmente, se asigna a personas inexpertas la tarea de “escribir un robot web”. Más, es más probable que el robot esté escrito explícitamente para escanear su sitio en busca de información con la que realizar spam posteriormente: podría estar recopilando direcciones de correo electrónico para enviar correo no deseado, buscar formularios para publicar enlaces “spamdexing” o buscando agujeros de seguridad que explotar.

¿Se puede usar un documento /robots.txt ante un juicio?

No existe una ley que establezca que /robots.txt debe obedecerse, ni constituye un contrato vinculante entre el propietario del sitio y el usuario, pero tener un /robots.txt puede ser relevante en casos legales.

Me declaro IANAL, si requiere asesoramiento legal, obtenga servicios profesionales de un abogado calificado.

Algunos casos jurídicos en relación a /robots.txt:

Podrás encontrar muchos otros casos en Groklaw .

¿Seguramente enumerar archivos confidenciales es un problema?

A algunas personas les preocupa que la inclusión de páginas o directorios en el archivo /robots.txt pueda invitar a un acceso no deseado. Hay dos respuestas a esto.

La primera respuesta es una solución alternativa: puede poner todos los archivos que no desea que los robots visiten en un subdirectorio separado, hacer que ese directorio no se pueda enumerar en la web (configurando su servidor), luego coloque sus archivos allí, y enumere solo el nombre del directorio en /robots.txt. Ahora, un robot mal intencionado no atravesará ese directorio a menos que usted u otra persona coloque un enlace directo en la web a uno de sus archivos, y luego no sea culpa de /robots.txt.

En lugar de utilizar:

User-Agent: *
Disallow: /foo.html
Disallow: /bar.html

Usa:

User-Agent: *
Disallow: /norobots/

Posteriormente crea un directorio “norobots”, colocando foo.html y bar.html en él, y configure su servidor para que no genere una lista de directorios para ese directorio. Ahora todo lo que un atacante aprendería es que tienes un directorio “norobots”, pero no podrá enumerar los archivos incluidos; necesitaría adivinar sus nombres.

Sin embargo, en la práctica esta es una mala idea, es demasiado frágil. Alguien puede publicar un enlace a sus archivos en su sitio. O puede aparecer en un archivo de registro de acceso público, digamos del servidor proxy de su usuario, o tal vez aparezca en el registro del servidor web de alguien como Referer. O alguien puede configurar mal su servidor en una fecha futura, “arreglarlo” para mostrar una lista de directorio. Lo que me lleva a la respuesta real:

La verdadera respuesta es que /robots.txt no está diseñado para el control de acceso, así que no intentes usarlo como tal. Piense en ello como una señal de “No entrar”, no como una puerta cerrada. Si tiene archivos en su sitio web a los que no desea que accedan personas no autorizadas, configure su servidor para realizar la autenticación y configure la autorización adecuada. La autenticación básica ha existido desde los primeros días de la web (y, por ejemplo, Apache en UNIX es trivial de configurar). Los sistemas modernos de gestión de contenido admiten controles de acceso en páginas individuales y colecciones de recursos.

Acerca de las etiquetas META

¿Qué es el atributo de enlace rel=”nofollow”?

Es un atributo que se puede establecer en una etiqueta de enlace HTML, inventada por Google y adoptada por otros. Esos enlaces no obtendrán ningún crédito cuando Google clasifique los sitios web en los resultados de búsqueda, eliminando así el incentivo principal detrás de los robots de spammers de comentarios de blogs.

Puedes consultar, ¿Cómo prevenir comentarios con spam?, redactado por Google.

Según esa descripción, parece que solo afecta la clasificación, y el robot de Google aún puede seguir los enlaces e indexarlos. Si es así, es diferente de la semántica NOFOLLOW de la metaetiqueta de robots.

Disponibilidad

¿Dónde puedo usar un robot?

Si se refiere a poder comprobar como un robot está trabajando sobre su sitio web, puedes comprobarlo desde las herramientas de indexación de páginas web que ya hemos indicado en el apartado de ¿Cómo registro mi página con un robot?

¿Dónde puedo conseguir un robot?

Bueno, hoy en día desde Amazon podrás comprar algún 🤖 de los de película. No, fuera bromas.. Si a lo que te refieres es al robot / bot rastreador; en la pregunta siguiente encontrarás la respuesta.

Si por lo contrario, te refieres a un archivo robots.txt

¿Dónde puedo obtener el código fuente de un robot?

Existen múltiples formas de implementar un software similar al de un buscador a través de compilar código o implementar diferentes librerías; en el artículo de los motores de búsqueda de código abierto vas a tener la oportunidad de conocer más sobre cómo hacerlo y sobre todo algunas diferentes opciones.

Estoy escribiendo un robot, ¿de qué debo tener cuidado?

Primero lee por completo la página robots.txt junto a las guías de indexación y rastreo creadas por Google que en la actualidad existen en español:

Por último, puedes leer las actas de conferencias WWW y las especificaciones completas de HTML y HTTP. Algunos enlaces:

  • Estándar HTML - Última actualización 20 de septiembre de 2019
  • Palabras clave para su uso en RFC para indicar el estado de los niveles de requisitos de este Memo RFC2119 por S. Bradner. En muchos documentos de seguimiento de estándares se utilizan varias palabras para indicar los requisitos en la especificación.

  • URL: Localizadores uniformes de recursos RFC1738 por T. Berners-Lee Este documento especifica un Localizador Uniforme de Recursos (URL), la sintaxis y semántica de información formalizada para ubicación y acceso de recursos a través de Internet.

He escrito un robot, ¿Cómo lo enumero?

Actualizado:

Deja un comentario