La Guía Web Completa de Rastreadores Web y robots.txt

Los robots web (también conocidos como errantes, rastreadores o arañas) son programas que atraviesan la cada página web de todo el mundo de Internet automáticamente. Los motores de búsqueda como Google los usan para indexar el contenido web, los spammers los usan para buscar direcciones de correo electrónico y otros muchos más tienen diferenciados usos.

? Quizás te interese: preguntas frecuentes sobre robots.txt >> recursos webmaster >> aprender posicionamiento web >> recursos de posicionamiento y seo >> cursos gratis de seo >> >> libros gratis de seo >> mejores libros de programación >> programas para desarrolladores

Con esta página traemos toda la información necesaria para ser todo un maestro sobre los robots web.

¿Qué es robots.txt?

Los propietarios de sitios web usan el archivo /robots.txt para dar instrucciones sobre su sitio a los robots web; esto se llama el protocolo de exclusión de robots.

Funciona así: un robot quiere visitar la URL de un sitio web, por ejemplo, http://www.ejemplo.com/bienvenido.html & antes de hacerlo, primero comprueba si existe el documento: http://www.ejemplo.com/robots.txt y dependiendo del contenido que exista dentro del mismo, actua.

Si el robot encuentra:


User-agent: *
Disallow: /

La parte de “User-Agent: * “significa que esta sección se aplica a todos los robots y “Disallow: /” dice al robot que no debe visitar ninguna página de nuestro sitio web.

Existen dos consideraciones importantes que debes tener en cuenta a la hora de usar /robots.txt:

  • Los robots pueden ignorar tu /robots.txt. Especialmente los robots de malware que escanean la web en busca de vulnerabilidades de seguridad y los dedicados a recolectar direcciones de correo electrónico que trabajan como “spammers” no prestarán atención.
  • El archivo /robots.txt es un archivo disponible públicamente. Osea, cualquiera posee acceso a ver qué secciones de su servidor no desea que usen los robots.

Por tanto, no intentes usar /robots.txt para ocultar información.

? Ver también:
>>¿Puedo bloquear solo robots malos?
>> ¿Por qué este robot ignoró mi /robots.txt?
>> ¿Cuáles son las implicaciones de seguridad de /robots.txt?

Robots.txt al detalle

Robots.txt es un estándar de facto y no es propiedad de ningún organismo de estándares. Hay dos descripciones históricas:

El estándar /robots.txt no se desarrolla activamente. Consulte ¿Qué pasa con el desarrollo posterior de /robots.txt? para más discusión

El resto de esta página ofrece una descripción general de cómo usar /robots.txt en su servidor, con algunas recetas simples. Para obtener más información, consulte también las preguntas frecuentes .

? Los Mejores Chollos de Amazon, ¡Agrégalos a tu Lista de Deseos!

¿Cómo crear un archivo /robots.txt?

¿Dónde debemos poner el fichero robots.txt?

La respuesta cortaes, en el directorio de nivel superior de su servidor web.

La respuesta más larga:

Cuando un robot busca el archivo “/robots.txt” para URL, despoja el componente de ruta de la URL (todo desde la primera barra oblicua) y coloca “/robots.txt” en su lugar.

Por ejemplo, para ” https://www.ejemplo.com/shop/index.html , eliminará” /shop/index.html “, lo reemplazará con” /robots.txt “y terminará en “https://www.ejemplo.com/robots.txt”.

Entonces, como propietario de un sitio web, debe colocarlo en el lugar correcto en su servidor web para que funcione la URL resultante. Por lo general, ese es el mismo lugar donde coloca la página principal ” index.html ” de bienvenida de tu sitio web . La ruta exacta puede cambiar, dependiendo del software que utilices o de las rutas usadas por tu servidor web.

Recuerde utilizar las letras con minúsculas para el nombre de archivo: “robots.txt”, y no “Robots.TXT”.

? Ver también:
>> ¿Qué programa debo usar para crear /robots.txt?
>> ¿Cómo uso /robots.txt en un host virtual?
>> ¿Cómo uso /robots.txt en un host compartido?

¿Qué debo poner en este archivo?

El archivo “/robots.txt” es un archivo de texto, con uno o más registros. Por lo general, contiene un solo registro que se ve así:

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~carpeta-personal/

En este ejemplo, se excluyen tres directorios.

Tenga en cuenta que necesita una línea separada “No permitir” para cada prefijo de URL que desee excluir; no puede decir “No permitir: / cgi-bin / / tmp /” en una sola línea. Además, es posible que no tenga líneas en blanco en un registro, ya que se usan para delimitar múltiples registros.

Tenga en cuenta también que el globing y la expresión regular no son compatibles con las líneas User-agent o Disallow. El ‘*’ en el campo Agente de usuario es un valor especial que significa “cualquier robot”. Específicamente, no puede tener líneas como “User-agent: * bot *”, “Disallow: / tmp / *” o “Disallow: * .gif”.

Lo que desea excluir depende de su servidor. Todo lo que no se rechaza explícitamente se considera un juego justo para recuperar. Aquí siguen algunos ejemplos:

Para excluir todos los robots de todo el servidor


User-agent: *
Disallow: /

Para permitir que todos los robots tengan acceso completo


User-agent: *
Disallow:

(o simplemente cree un archivo “/robots.txt” vacío, o no use ninguno)

? Los Mejores Chollos de Amazon, ¡Agrégalos a tu Lista de Deseos!

Para excluir todos los robots de parte del servidor


User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/

Para excluir un solo robot


User-agent: BadBot
Disallow: /

Para permitir un solo robot


User-agent: Google
Disallow:

User-agent: *
Disallow: /

Para excluir todos los archivos excepto uno

Esto es actualmente un poco incómodo, ya que no hay un campo “Permitir”. La manera fácil es colocar todos los archivos que se deshabilitarán en un directorio separado, decir “cosas” y dejar el único archivo en el nivel sobre este directorio:


User-agent: *
Disallow: /~carpeta-personal/stuff/

Alternativamente, puede rechazar explícitamente todas las páginas no permitidas:

Alternativamente, puede rechazar explícitamente todas las páginas no permitidas:


User-agent: *
Disallow: /~carpeta-personal/junk.html
Disallow: /~carpeta-personal/foo.html
Disallow: /~carpeta-personal/bar.html

? Los Mejores Chollos de Amazon, ¡Agrégalos a tu Lista de Deseos!

Acerca de la META etiqueta robots

En una palabra

Puede usar una etiqueta HTML especial META para indicar a los robots que no indexen el contenido de una página y / o que no la escaneen para buscar enlaces a seguir.

Por ejemplo:

...

Hay dos consideraciones importantes cuando se usa la etiqueta de robots:

  • Los robots pueden ignorar su etiqueta . Especialmente los robots de malware que escanean la web en busca de vulnerabilidades de seguridad, y los recolectores de direcciones de correo electrónico utilizados por los spammers no prestarán atención.
  • La directiva NOFOLLOW solo se aplica a los enlaces de esta página. Es muy probable que un robot encuentre los mismos enlaces en alguna otra página sin un NOFOLLOW (quizás en algún otro sitio), y aún así llegue a su página no deseada.

No confunda este NOFOLLOW con el atributo de enlace rel = "nofollow" ](/robots-txt-preguntas-frecuentes/#acerca-de-las-etiquetas-meta).

Al detalle

Al igual que /robots.txt, la etiqueta META de robots es un estándar de facto. Se originó en una reunión de un taller de indexación distribuido en 1996, y se describió en las notas de la reunión.

La etiqueta META también se describe en la especificación HTML 4.01, Apéndice B.4.1.

A continuación se ofrece una descripción general de cómo usar las etiquetas de robots en tu página web, con algunos ejemplos simples. Para obtener más información, consulta nuestra página de preguntas frecuentes o FAQ.

? Los Mejores Chollos de Amazon, ¡Agrégalos a tu Lista de Deseos!

¿Cómo escribir una metaetiqueta de robots?

¿Dónde situarlo?

Al igual que cualquier etiqueta , debe colocarse en la sección HEAD de una página HTML, como en el ejemplo anterior. Debe ponerlo en cada página de su sitio, porque un robot puede encontrar un enlace profundo a cualquier página de su sitio.

¿Qué poner en él?

El atributo “ name ” debe ser “ROBOTS”.

Los valores válidos para el atributo “ CONTENT ” son: “ INDEX “, “ NOINDEX “, “ FOLLOW “, “ NOFOLLOW “. Se permiten múltiples valores separados por comas, pero obviamente solo algunas combinaciones tienen sentido. Si no hay una etiqueta de robots, el valor predeterminado es ” INDEX, NOFOLLOW “, por lo que no hay necesidad de explicarlo. Eso quedaría:

Sitios de Información Importantes

El Sitio sobre Búsqueda y Webmasters de Google

Muchas personas terminan en este sitio porque tienen preguntas sobre robots y motores de búsqueda específicos. Para tales preguntas, el mejor lugar son las propias páginas de ayuda del sitio relevante:

? Los Mejores Chollos de Amazon, ¡Agrégalos a tu Lista de Deseos!

Sitios sobre motores de búsqueda

Sitios muy útiles para webmasters:

? Los Mejores Libros sobre SEO, Posicionamiento y Marketing Digital; en una sola Colección Los Mejores Libros sobre SEO, Posicionamiento y Marketing Digital; en una sola Colección ?️‍♂️Publicada por Ciberninjas en Martes, 10 de marzo de 2020

¿Cómo chequear o probar tu robots.txt?

Rastreadores web

Bingbot es el nombre del webcrawler de Bing de Microsoft . Reemplazó a Msnbot .
Googlebot se describe con cierto detalle, pero la referencia es solo sobre una versión temprana de su arquitectura, que estaba basada en C ++ y Python . El rastreador se integró con el proceso de indexación, porque el análisis de texto se realizó para la indexación de texto completo y también para la extracción de URL. Hay un servidor de URL que envía listas de URL para que sean recuperadas por varios procesos de rastreo. Durante el análisis, las URL encontradas se pasaron a un servidor de URL que verificó si la URL se había visto anteriormente. De lo contrario, la URL se agregó a la cola del servidor de URL.
SortSite
– Swiftbot es el rastreador web de Swiftype .
WebCrawler se utilizó para crear el primer índice de texto completo disponible públicamente de un subconjunto de la Web. Se basó en lib-WWW para descargar páginas, y otro programa para analizar y ordenar URL para una exploración más amplia del gráfico web. También incluía un rastreador en tiempo real que seguía enlaces basados en la similitud del texto de anclaje con la consulta proporcionada.
WebFountain es un rastreador modular distribuido similar a Mercator pero escrito en C ++.
World Wide Web Worm fue un rastreador utilizado para crear un índice simple de títulos de documentos y URL. Se puede buscar el índice utilizando el comando grep Unix .
Xenon es un rastreador web utilizado por las autoridades fiscales del gobierno para detectar fraudes.
– Yahoo! Slurp era el nombre de Yahoo! buscador, el rastreador de Yahoo! contratado con Microsoft para usar Bingbot en su lugar.

? Los Mejores Chollos de Amazon, ¡Agrégalos a tu Lista de Deseos!

Rastreadores de código abierto

  • Frontera es un framework de rastreo web que implementa el componente de frontera de rastreo y proporciona primitivas de escalabilidad para aplicaciones de rastreo web.
  • GNU Wget es un rastreador operado por línea de comandos escrito en C y lanzado bajo la GPL. Por lo general, se usa para reflejar sitios web y FTP.
  • GRUB es un rastreador de búsqueda distribuida de código abierto que Wikia Search usó para rastrear la web.
  • Heritrix es el rastreador de calidad de archivo de Internet Archive, diseñado para archivar instantáneas periódicas de una gran parte de la Web. Fue escrito en Java.
  • ht: // Dig incluye un rastreador web en su motor de indexación.
  • HTTrack utiliza un rastreador web para crear un espejo de un sitio web para su visualización fuera de línea. Está escrito en C y publicado bajo la GPL.
  • mnoGoSearch es un rastreador, indexador y un motor de búsqueda escrito en C y con licencia bajo la GPL (* solo máquinas NIX)
  • Norconex HTTP Collector es una araña web, o rastreador, escrita en Java , que tiene como objetivo facilitar la vida de los integradores y desarrolladores de Enterprise Search (con licencia de Apache License.
  • Apache Nutch es un rastreador web altamente extensible y escalable escrito en Java y lanzado bajo una licencia de Apache. Está basado en Apache Hadoop y puede usarse con Apache Solr o Elasticsearch.
  • Open Search Server es un motor de búsqueda y una versión de software de rastreador web bajo la GPL.
  • PHP-Crawler es un simple rastreador basado en PHP y MySQL lanzado bajo la Licencia BSD.
  • Scrapy, un framework de webcrawler de código abierto, escrito en python (licenciado bajo BSD.
  • Seeks, un motor de búsqueda distribuido gratuito (con licencia AGPL.
  • StormCrawler, una colección de recursos para crear rastreadores web escalables y de baja latencia en Apache Storm ( licencia de Apache ).
  • tkWWW Robot, un rastreador basado en el navegador web tkWWW (con licencia bajo GPL ).
  • Xapian, un motor de búsqueda de rastreadores, escrito en c ++.
  • YaCy, un motor de búsqueda distribuido gratuito, basado en los principios de las redes punto a punto (con licencia bajo GPL ).
  • Trandoshan, un rastreador web distribuido de código abierto y gratuito diseñado para la web profunda.

? Los Mejores Chollos de Amazon, ¡Agrégalos a tu Lista de Deseos!


Relacionado

ForEach de Javascript: Array para bucles

Como una de las estructuras de control básicas en la programación, los bucles son casi una adición diaria al código que escribimos. El bucle forEach clásico es uno de los primeros fragmentos de código que aprendemos a escribir como programadores. Si fueras un desarrollador de Javascript, sabrías que Javascript no es ajeno a la iteración a través de los elementos de una matriz o un mapa ¡SEGUIR LEYENDO!

10 Mejores alternativas de Sci-hub para descargar artículos de investigación gratis

Como sabemos, Sci-hub es un sitio web increíble con millones de artículos de investigación para todos los estudiantes universitarios y académicos. El sitio web de Sci-Hub se encarga de obtener los artículos de investigación y artículos de pago utilizando las credenciales que se filtran. La fuente de credenciales utilizada por este sitio web no está clara. Sin embargo, se supone que muchas de ellas son donadas, ¡SEGUIR LEYENDO!

10 Características Sorprendentes de Windows que Deberías Conocer en 2024

Aunque haya sido usuario de Windows durante décadas, el sistema operativo es tan amplio y complejo que siempre existen características útiles, pero menos conocidas, que podrían sorprenderte. En este sentido, he identificado diez funciones poco conocidas de Windows que pueden potenciar su eficiencia, comodidad e incluso su experiencia de uso lúdico en su PC.

¡REBAJADO!
Microsoft Surface Go 2 - Portátil 2 en 1 de 10.5 pulgadas Full HD, Wifi, Intel...
  • Procesador Dual-Core Intel Pentium Gold 4425Y (2...
  • Memoria RAM de 8 GB LPDDR3
  • Disco SSD de 128 GB
Todas estas características deberían ser compatibles tanto con Windows 10 ¡SEGUIR LEYENDO!

10 Criptomonedas con Potencial de Crecimiento de Futuro

El rumor en torno a las criptomonedas no se desvanece por mucho que existan grandes pesimistas alrededor de los malos rumores. Entonces, si consideras invertir en el mundo de las criptomonedas, deberías estar atento a las criptomonedas que se espera que tengan un buen desempeño para el resto de 2021. En los últimos tiempos, los tokens DeFi están recibiendo toda la atención y es más que ¡SEGUIR LEYENDO!

10 Empresas de robótica más importantes del mundo

Los cambios de paradigma revolucionarios debido a los desarrollos de la robótica en todo el mundo están generando nuevos puntos de vista en muchos sectores, entre ellos en los de la industria y la tecnología. Con la ayuda de la Inteligencia Artificial, la tecnología produce resultados innovadores cada segundo y el campo de la robótica define y reconfigura su uso a cada instante. Cada día que ¡SEGUIR LEYENDO!

10 Frameworks que los Desarrolladores de Software deberían Aprender 2024

Bienvenidos desarrolladores web y de software, estamos en los inicios de 2023 y es posible que muchos se esten planteado sus objetivos para lo largo del año. Con anterioridad ya he compartidos las rutas de aprendizaje para un desarrollador front-end, un desarrollador full-stack o un desarrollador back-end entre otros muchos contenidos más. En este artículo, me gustaría compartir algunos de los mejores frameworks y bibliotecas para ¡SEGUIR LEYENDO!

10 Repositorio de GitHub que todo Desarrollador Web debería conocer

GitHub es el lugar que debes buscar cuando intentas mejorar como desarrollador, toda la información que necesitas está disponible en algún repositorio que alguien ya se ha molestado en indexar. Sin embargo, la parte complicado es encontrar el repositorio más adecuado. Es fácil sentirse perdido en todos los repositorios disponibles dentro de GitHub. Para ayudarte, he elaborado una lista de 10 repositorios de GitHub que pueden ¡SEGUIR LEYENDO!