Los robots web (también conocidos como errantes, rastreadores o arañas) son programas que atraviesan la cada página web de todo el mundo de Internet automáticamente. Los motores de búsqueda como Google los usan para indexar el contenido web, los spammers los usan para buscar direcciones de correo electrónico y otros muchos más tienen diferenciados usos.

Con esta página traemos toda la información necesaria para ser todo un maestro sobre los robots web.

MENÚ 👇

🔥 Seguro también te interesa: preguntas frecuentes sobre robots.txt » recursos webmaster » aprender posicionamiento web » recursos de posicionamiento y seo » cursos gratis de seo » » libros gratis de seo » mejores libros de programación » programas para desarrolladores

¿Qué es robots.txt?

Los propietarios de sitios web usan el archivo /robots.txt para dar instrucciones sobre su sitio a los robots web; esto se llama el protocolo de exclusión de robots.

Funciona así: un robot quiere visitar la URL de un sitio web, por ejemplo, http://www.ejemplo.com/bienvenido.html & antes de hacerlo, primero comprueba si existe el documento: http://www.ejemplo.com/robots.txt y dependiendo del contenido que exista dentro del mismo, actua.

Si el robot encuentra:

User-agent: *
Disallow: /

La parte de “User-Agent: * “significa que esta sección se aplica a todos los robots y “Disallow: /” dice al robot que no debe visitar ninguna página de nuestro sitio web.

Existen dos consideraciones importantes que debes tener en cuenta a la hora de usar /robots.txt:

  • Los robots pueden ignorar tu /robots.txt. Especialmente los robots de malware que escanean la web en busca de vulnerabilidades de seguridad y los dedicados a recolectar direcciones de correo electrónico que trabajan como “spammers” no prestarán atención.
  • El archivo /robots.txt es un archivo disponible públicamente. Osea, cualquiera posee acceso a ver qué secciones de su servidor no desea que usen los robots.

Por tanto, no intentes usar /robots.txt para ocultar información.

⏫ Regresar al Menú

👉 Ver también:
»¿Puedo bloquear solo robots malos?
» ¿Por qué este robot ignoró mi /robots.txt?
» ¿Cuáles son las implicaciones de seguridad de /robots.txt?

Al detalle

Robots.txt es un estándar de facto y no es propiedad de ningún organismo de estándares. Hay dos descripciones históricas:

El estándar /robots.txt no se desarrolla activamente. Consulte ¿Qué pasa con el desarrollo posterior de /robots.txt? para más discusión

El resto de esta página ofrece una descripción general de cómo usar /robots.txt en su servidor, con algunas recetas simples. Para obtener más información, consulte también las preguntas frecuentes .

¿Cómo crear un archivo /robots.txt?

¿Dónde debemos poner el fichero robots.txt?

La respuesta cortaes, en el directorio de nivel superior de su servidor web.

La respuesta más larga:

Cuando un robot busca el archivo “/robots.txt” para URL, despoja el componente de ruta de la URL (todo desde la primera barra oblicua) y coloca “/robots.txt” en su lugar.

Por ejemplo, para “ https://www.ejemplo.com/shop/index.html , eliminará” /shop/index.html “, lo reemplazará con” /robots.txt “y terminará en “https://www.ejemplo.com/robots.txt”.

Entonces, como propietario de un sitio web, debe colocarlo en el lugar correcto en su servidor web para que funcione la URL resultante. Por lo general, ese es el mismo lugar donde coloca la página principal “ index.html “ de bienvenida de tu sitio web . La ruta exacta puede cambiar, dependiendo del software que utilices o de las rutas usadas por tu servidor web.

Recuerde utilizar las letras con minúsculas para el nombre de archivo: “robots.txt”, y no “Robots.TXT”.

⏫ Regresar al Menú

👉 Ver también:
» ¿Qué programa debo usar para crear /robots.txt?
» ¿Cómo uso /robots.txt en un host virtual?
» ¿Cómo uso /robots.txt en un host compartido?

¿Qué debo poner en este archivo?

El archivo “/robots.txt” es un archivo de texto, con uno o más registros. Por lo general, contiene un solo registro que se ve así:

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~carpeta-personal/

En este ejemplo, se excluyen tres directorios.

Tenga en cuenta que necesita una línea separada “No permitir” para cada prefijo de URL que desee excluir; no puede decir “No permitir: / cgi-bin / / tmp /” en una sola línea. Además, es posible que no tenga líneas en blanco en un registro, ya que se usan para delimitar múltiples registros.

Tenga en cuenta también que el globing y la expresión regular no son compatibles con las líneas User-agent o Disallow. El ‘*’ en el campo Agente de usuario es un valor especial que significa “cualquier robot”. Específicamente, no puede tener líneas como “User-agent: * bot *”, “Disallow: / tmp / *” o “Disallow: * .gif”.

Lo que desea excluir depende de su servidor. Todo lo que no se rechaza explícitamente se considera un juego justo para recuperar. Aquí siguen algunos ejemplos:

Para excluir todos los robots de todo el servidor

User-agent: *
Disallow: /

Para permitir que todos los robots tengan acceso completo

User-agent: *
Disallow:

(o simplemente cree un archivo “/robots.txt” vacío, o no use ninguno)

Para excluir todos los robots de parte del servidor

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/

Para excluir un solo robot

User-agent: BadBot
Disallow: /

Para permitir un solo robot

User-agent: Google
Disallow:

User-agent: *
Disallow: /

Para excluir todos los archivos excepto uno

Esto es actualmente un poco incómodo, ya que no hay un campo “Permitir”. La manera fácil es colocar todos los archivos que se deshabilitarán en un directorio separado, decir “cosas” y dejar el único archivo en el nivel sobre este directorio:

User-agent: *
Disallow: /~carpeta-personal/stuff/

Alternativamente, puede rechazar explícitamente todas las páginas no permitidas:

Alternativamente, puede rechazar explícitamente todas las páginas no permitidas:

User-agent: *
Disallow: /~carpeta-personal/junk.html
Disallow: /~carpeta-personal/foo.html
Disallow: /~carpeta-personal/bar.html

⏫ Regresar al Menú

🔍 Los Mejores Libros sobre SEO, Posicionamiento y Marketing Digital; en una sola Colección Los Mejores Libros sobre SEO, Posicionamiento y Marketing Digital; en una sola Colección 🕵️‍♂️

Publicada por Ciberninjas en Martes, 10 de marzo de 2020

Acerca de la META etiqueta robots

En una palabra

Puede usar una etiqueta HTML especial META para indicar a los robots que no indexen el contenido de una página y / o que no la escaneen para buscar enlaces a seguir.

Por ejemplo:

<html>
<head>
<title> ... </title>
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">
</head>

Hay dos consideraciones importantes cuando se usa la etiqueta de robots:

  • Los robots pueden ignorar su etiqueta . Especialmente los robots de malware que escanean la web en busca de vulnerabilidades de seguridad, y los recolectores de direcciones de correo electrónico utilizados por los spammers no prestarán atención.
  • La directiva NOFOLLOW solo se aplica a los enlaces de esta página. Es muy probable que un robot encuentre los mismos enlaces en alguna otra página sin un NOFOLLOW (quizás en algún otro sitio), y aún así llegue a su página no deseada.

No confunda este NOFOLLOW con el atributo de enlace rel = "nofollow"](/robots-txt-preguntas-frecuentes/#acerca-de-las-etiquetas-meta).

Al detalle

Al igual que /robots.txt, la etiqueta META de robots es un estándar de facto. Se originó en una reunión de un taller de indexación distribuido en 1996, y se describió en las notas de la reunión.

La etiqueta META también se describe en la especificación HTML 4.01, Apéndice B.4.1.

A continuación se ofrece una descripción general de cómo usar las etiquetas de robots en tu página web, con algunos ejemplos simples. Para obtener más información, consulta nuestra página de preguntas frecuentes o FAQ.

¿Cómo escribir una metaetiqueta de robots?

¿Dónde situarlo?

Al igual que cualquier etiqueta , debe colocarse en la sección HEAD de una página HTML, como en el ejemplo anterior. Debe ponerlo en cada página de su sitio, porque un robot puede encontrar un enlace profundo a cualquier página de su sitio.

¿Qué poner en él?

El atributo “name” debe ser “ROBOTS”.

Los valores válidos para el atributo “CONTENT” son: “INDEX”, “NOINDEX”, “FOLLOW”, “NOFOLLOW”. Se permiten múltiples valores separados por comas, pero obviamente solo algunas combinaciones tienen sentido. Si no hay una etiqueta de robots, el valor predeterminado es “ INDEX, NOFOLLOW “, por lo que no hay necesidad de explicarlo. Eso quedaría:

<META NAME="ROBOTS" CONTENT="NOINDEX, FOLLOW"> 
<META NAME="ROBOTS" CONTENT="INDEX, NOFOLLOW"> 
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

⏫ Regresar al Menú

Sitios de Información Importantes

El Sitio sobre Búsqueda y Webmasters de Google

Muchas personas terminan en este sitio porque tienen preguntas sobre robots y motores de búsqueda específicos. Para tales preguntas, el mejor lugar son las propias páginas de ayuda del sitio relevante:

Sitios sobre motores de búsqueda

Sitios muy útiles para webmasters:

🔍 Los Mejores Libros sobre SEO, Posicionamiento y Marketing Digital; en una sola Colección Los Mejores Libros sobre SEO, Posicionamiento y Marketing Digital; en una sola Colección 🕵️‍♂️

Publicada por Ciberninjas en Martes, 10 de marzo de 2020

⏫ Regresar al Menú

¿Cómo chequear o probar tu robots.txt?

Rastreadores web

  • Bingbot es el nombre del webcrawler de Bing de Microsoft . Reemplazó a Msnbot .
  • Googlebot se describe con cierto detalle, pero la referencia es solo sobre una versión temprana de su arquitectura, que estaba basada en C ++ y Python . El rastreador se integró con el proceso de indexación, porque el análisis de texto se realizó para la indexación de texto completo y también para la extracción de URL. Hay un servidor de URL que envía listas de URL para que sean recuperadas por varios procesos de rastreo. Durante el análisis, las URL encontradas se pasaron a un servidor de URL que verificó si la URL se había visto anteriormente. De lo contrario, la URL se agregó a la cola del servidor de URL.
  • SortSite
  • Swiftbot es el rastreador web de Swiftype .
  • WebCrawler se utilizó para crear el primer índice de texto completo disponible públicamente de un subconjunto de la Web. Se basó en lib-WWW para descargar páginas, y otro programa para analizar y ordenar URL para una exploración más amplia del gráfico web. También incluía un rastreador en tiempo real que seguía enlaces basados en la similitud del texto de anclaje con la consulta proporcionada.
  • WebFountain es un rastreador modular distribuido similar a Mercator pero escrito en C ++.
  • World Wide Web Worm fue un rastreador utilizado para crear un índice simple de títulos de documentos y URL. Se puede buscar el índice utilizando el comando grep Unix .
  • Xenon es un rastreador web utilizado por las autoridades fiscales del gobierno para detectar fraudes.
  • Yahoo! Slurp era el nombre de Yahoo! buscador, el rastreador de Yahoo! contratado con Microsoft para usar Bingbot en su lugar.

⏫ Regresar al Menú

Rastreadores de código abierto

  • Frontera es un framework de rastreo web que implementa el componente de frontera de rastreo y proporciona primitivas de escalabilidad para aplicaciones de rastreo web.
  • GNU Wget es un rastreador operado por línea de comandos escrito en C y lanzado bajo la GPL. Por lo general, se usa para reflejar sitios web y FTP.
  • GRUB es un rastreador de búsqueda distribuida de código abierto que Wikia Search usó para rastrear la web.
  • Heritrix es el rastreador de calidad de archivo de Internet Archive, diseñado para archivar instantáneas periódicas de una gran parte de la Web. Fue escrito en Java.
  • ht: // Dig incluye un rastreador web en su motor de indexación.
  • HTTrack utiliza un rastreador web para crear un espejo de un sitio web para su visualización fuera de línea. Está escrito en C y publicado bajo la GPL.
  • mnoGoSearch es un rastreador, indexador y un motor de búsqueda escrito en C y con licencia bajo la GPL (* solo máquinas NIX)
  • Norconex HTTP Collector es una araña web, o rastreador, escrita en Java , que tiene como objetivo facilitar la vida de los integradores y desarrolladores de Enterprise Search (con licencia de Apache License.
  • Apache Nutch es un rastreador web altamente extensible y escalable escrito en Java y lanzado bajo una licencia de Apache. Está basado en Apache Hadoop y puede usarse con Apache Solr o Elasticsearch.
  • Open Search Server es un motor de búsqueda y una versión de software de rastreador web bajo la GPL.
  • PHP-Crawler es un simple rastreador basado en PHP y MySQL lanzado bajo la Licencia BSD.
  • Scrapy, un framework de webcrawler de código abierto, escrito en python (licenciado bajo BSD.
  • Seeks, un motor de búsqueda distribuido gratuito (con licencia AGPL.
  • StormCrawler, una colección de recursos para crear rastreadores web escalables y de baja latencia en Apache Storm ( licencia de Apache ).
  • tkWWW Robot, un rastreador basado en el navegador web tkWWW (con licencia bajo GPL ).
  • Xapian, un motor de búsqueda de rastreadores, escrito en c ++.
  • YaCy, un motor de búsqueda distribuido gratuito, basado en los principios de las redes punto a punto (con licencia bajo GPL ).
  • Trandoshan, un rastreador web distribuido de código abierto y gratuito diseñado para la web profunda.

⏫ Regresar al Menú

🔍 Los Mejores Libros sobre SEO, Posicionamiento y Marketing Digital; en una sola Colección Los Mejores Libros sobre SEO, Posicionamiento y Marketing Digital; en una sola Colección 🕵️‍♂️

Publicada por Ciberninjas en Martes, 10 de marzo de 2020

Actualizado: