Chica rastreando la profundidad de Internet y los buscadores de Internet
Chica rastreando la profundidad de Internet y los buscadores de Internet
  • Tiempo de lectura:19 minutos de lectura
  • Categor√≠a de la entrada:Webmaster

Los robots web (tambi√©n conocidos como errantes, rastreadores o ara√Īas) son programas que atraviesan la cada p√°gina web de todo el mundo de Internet autom√°ticamente. Los motores de b√ļsqueda como Google los usan para indexar el contenido web, los spammers los usan para buscar direcciones de correo electr√≥nico y otros muchos m√°s tienen diferenciados usos.

ūüĒ• Quiz√°s te interese: preguntas frecuentes sobre robots.txt >> recursos webmaster >> aprender posicionamiento web >> recursos de posicionamiento y seo >> cursos gratis de seo >> >> libros gratis de seo >> mejores libros de programaci√≥n >> programas para desarrolladores

Con esta página traemos toda la información necesaria para ser todo un maestro sobre los robots web.

¬ŅQu√© es robots.txt?

Los propietarios de sitios web usan el archivo /robots.txt para dar instrucciones sobre su sitio a los robots web; esto se llama el protocolo de exclusión de robots.

Funciona así: un robot quiere visitar la URL de un sitio web, por ejemplo, http://www.ejemplo.com/bienvenido.html & antes de hacerlo, primero comprueba si existe el documento: http://www.ejemplo.com/robots.txt y dependiendo del contenido que exista dentro del mismo, actua.

Si el robot encuentra:


User-agent: *
Disallow: /

La parte de “User-Agent: * “significa que esta secci√≥n se aplica a todos los robots y “Disallow: /” dice al robot que no debe visitar ninguna p√°gina de nuestro sitio web.

Existen dos consideraciones importantes que debes tener en cuenta a la hora de usar /robots.txt:

  • Los robots pueden ignorar tu /robots.txt. Especialmente los robots de malware que escanean la web en busca de vulnerabilidades de seguridad y los dedicados a recolectar direcciones de correo electr√≥nico que trabajan como “spammers” no prestar√°n atenci√≥n.
  • El archivo /robots.txt es un archivo disponible p√ļblicamente. Osea, cualquiera posee acceso a ver qu√© secciones de su servidor no desea que usen los robots.

Por tanto, no intentes usar /robots.txt para ocultar información.

ūüĎČ Ver tambi√©n:
>>¬ŅPuedo bloquear solo robots malos?
>> ¬ŅPor qu√© este robot ignor√≥ mi /robots.txt?
>> ¬ŅCu√°les son las implicaciones de seguridad de /robots.txt?

Robots.txt al detalle

Robots.txt es un est√°ndar de facto y no es propiedad de ning√ļn organismo de est√°ndares. Hay dos descripciones hist√≥ricas:

El est√°ndar /robots.txt no se desarrolla activamente. Consulte ¬ŅQu√© pasa con el desarrollo posterior de /robots.txt? para m√°s discusi√≥n

El resto de esta página ofrece una descripción general de cómo usar /robots.txt en su servidor, con algunas recetas simples. Para obtener más información, consulte también las preguntas frecuentes .

ūüõí Los Mejores Chollos de Amazon, ¬°Agr√©galos a tu Lista de Deseos!

¬ŅC√≥mo crear un archivo /robots.txt?

¬ŅD√≥nde debemos poner el fichero robots.txt?

La respuesta cortaes, en el directorio de nivel superior de su servidor web.

La respuesta m√°s larga:

Cuando un robot busca el archivo “/robots.txt” para URL, despoja el componente de ruta de la URL (todo desde la primera barra oblicua) y coloca “/robots.txt” en su lugar.

Por ejemplo, para ” https://www.ejemplo.com/shop/index.html , eliminar√°” /shop/index.html “, lo reemplazar√° con” /robots.txt “y terminar√° en “https://www.ejemplo.com/robots.txt”.

Entonces, como propietario de un sitio web, debe colocarlo en el lugar correcto en su servidor web para que funcione la URL resultante. Por lo general, ese es el mismo lugar donde coloca la p√°gina principal ” index.html ” de bienvenida de tu sitio web . La ruta exacta puede cambiar, dependiendo del software que utilices o de las rutas usadas por tu servidor web.

Recuerde utilizar las letras con min√ļsculas para el nombre de archivo: “robots.txt”, y no “Robots.TXT”.

ūüĎČ Ver tambi√©n:
>> ¬ŅQu√© programa debo usar para crear /robots.txt?
>> ¬ŅC√≥mo uso /robots.txt en un host virtual?
>> ¬ŅC√≥mo uso /robots.txt en un host compartido?

¬ŅQu√© debo poner en este archivo?

El archivo “/robots.txt” es un archivo de texto, con uno o m√°s registros. Por lo general, contiene un solo registro que se ve as√≠:

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~carpeta-personal/

En este ejemplo, se excluyen tres directorios.

Tenga en cuenta que necesita una l√≠nea separada “No permitir” para cada prefijo de URL que desee excluir; no puede decir “No permitir: / cgi-bin / / tmp /” en una sola l√≠nea. Adem√°s, es posible que no tenga l√≠neas en blanco en un registro, ya que se usan para delimitar m√ļltiples registros.

Tenga en cuenta tambi√©n que el globing y la expresi√≥n regular no son compatibles con las l√≠neas User-agent o Disallow. El ‘*’ en el campo Agente de usuario es un valor especial que significa “cualquier robot”. Espec√≠ficamente, no puede tener l√≠neas como “User-agent: * bot *”, “Disallow: / tmp / *” o “Disallow: * .gif”.

Lo que desea excluir depende de su servidor. Todo lo que no se rechaza explícitamente se considera un juego justo para recuperar. Aquí siguen algunos ejemplos:

Para excluir todos los robots de todo el servidor


User-agent: *
Disallow: /

Para permitir que todos los robots tengan acceso completo


User-agent: *
Disallow:

(o simplemente cree un archivo “/robots.txt” vac√≠o, o no use ninguno)

ūüõí Los Mejores Chollos de Amazon, ¬°Agr√©galos a tu Lista de Deseos!

Para excluir todos los robots de parte del servidor


User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/

Para excluir un solo robot


User-agent: BadBot
Disallow: /

Para permitir un solo robot


User-agent: Google
Disallow:

User-agent: *
Disallow: /

Para excluir todos los archivos excepto uno

Esto es actualmente un poco inc√≥modo, ya que no hay un campo “Permitir”. La manera f√°cil es colocar todos los archivos que se deshabilitar√°n en un directorio separado, decir “cosas” y dejar el √ļnico archivo en el nivel sobre este directorio:


User-agent: *
Disallow: /~carpeta-personal/stuff/

Alternativamente, puede rechazar explícitamente todas las páginas no permitidas:

Alternativamente, puede rechazar explícitamente todas las páginas no permitidas:


User-agent: *
Disallow: /~carpeta-personal/junk.html
Disallow: /~carpeta-personal/foo.html
Disallow: /~carpeta-personal/bar.html

ūüõí Los Mejores Chollos de Amazon, ¬°Agr√©galos a tu Lista de Deseos!

Acerca de la META etiqueta robots

En una palabra

Puede usar una etiqueta HTML especial META para indicar a los robots que no indexen el contenido de una p√°gina y / o que no la escaneen para buscar enlaces a seguir.

Por ejemplo:




...


Hay dos consideraciones importantes cuando se usa la etiqueta de robots:

  • Los robots pueden ignorar su etiqueta . Especialmente los robots de malware que escanean la web en busca de vulnerabilidades de seguridad, y los recolectores de direcciones de correo electr√≥nico utilizados por los spammers no prestar√°n atenci√≥n.
  • La directiva NOFOLLOW solo se aplica a los enlaces de esta p√°gina. Es muy probable que un robot encuentre los mismos enlaces en alguna otra p√°gina sin un NOFOLLOW (quiz√°s en alg√ļn otro sitio), y a√ļn as√≠ llegue a su p√°gina no deseada.

No confunda este NOFOLLOW con el atributo de enlace rel = "nofollow"](/robots-txt-preguntas-frecuentes/#acerca-de-las-etiquetas-meta).

Al detalle

Al igual que /robots.txt, la etiqueta META de robots es un estándar de facto. Se originó en una reunión de un taller de indexación distribuido en 1996, y se describió en las notas de la reunión.

La etiqueta META también se describe en la especificación HTML 4.01, Apéndice B.4.1.

A continuación se ofrece una descripción general de cómo usar las etiquetas de robots en tu página web, con algunos ejemplos simples. Para obtener más información, consulta nuestra página de preguntas frecuentes o FAQ.

ūüõí Los Mejores Chollos de Amazon, ¬°Agr√©galos a tu Lista de Deseos!

¬ŅC√≥mo escribir una metaetiqueta de robots?

¬ŅD√≥nde situarlo?

Al igual que cualquier etiqueta , debe colocarse en la sección HEAD de una página HTML, como en el ejemplo anterior. Debe ponerlo en cada página de su sitio, porque un robot puede encontrar un enlace profundo a cualquier página de su sitio.

¬ŅQu√© poner en √©l?

El atributo “name” debe ser “ROBOTS”.

Los valores v√°lidos para el atributo “CONTENT” son: “INDEX“, “NOINDEX“, “FOLLOW“, “NOFOLLOW“. Se permiten m√ļltiples valores separados por comas, pero obviamente solo algunas combinaciones tienen sentido. Si no hay una etiqueta de robots, el valor predeterminado es ” INDEX, NOFOLLOW “, por lo que no hay necesidad de explicarlo. Eso quedar√≠a:





Sitios de Información Importantes

El Sitio sobre B√ļsqueda y Webmasters de Google

Muchas personas terminan en este sitio porque tienen preguntas sobre robots y motores de b√ļsqueda espec√≠ficos. Para tales preguntas, el mejor lugar son las propias p√°ginas de ayuda del sitio relevante:

ūüõí Los Mejores Chollos de Amazon, ¬°Agr√©galos a tu Lista de Deseos!

Sitios sobre motores de b√ļsqueda

Sitios muy √ļtiles para webmasters:

ūüĒć Los Mejores Libros sobre SEO, Posicionamiento y Marketing Digital; en una sola Colecci√≥n Los Mejores Libros sobre SEO, Posicionamiento y Marketing Digital; en una sola Colecci√≥n ūüēĶÔłŹ‚Äć‚ôāÔłŹ

Publicada por Ciberninjas en Martes, 10 de marzo de 2020

¬ŅC√≥mo chequear o probar tu robots.txt?

Rastreadores web


Bingbot es el nombre del webcrawler de Bing de Microsoft . Reemplazó a Msnbot .
Googlebot se describe con cierto detalle, pero la referencia es solo sobre una versión temprana de su arquitectura, que estaba basada en C ++ y Python . El rastreador se integró con el proceso de indexación, porque el análisis de texto se realizó para la indexación de texto completo y también para la extracción de URL. Hay un servidor de URL que envía listas de URL para que sean recuperadas por varios procesos de rastreo. Durante el análisis, las URL encontradas se pasaron a un servidor de URL que verificó si la URL se había visto anteriormente. De lo contrario, la URL se agregó a la cola del servidor de URL.
SortSite
– Swiftbot es el rastreador web de Swiftype .
WebCrawler se utiliz√≥ para crear el primer √≠ndice de texto completo disponible p√ļblicamente de un subconjunto de la Web. Se bas√≥ en lib-WWW para descargar p√°ginas, y otro programa para analizar y ordenar URL para una exploraci√≥n m√°s amplia del gr√°fico web. Tambi√©n inclu√≠a un rastreador en tiempo real que segu√≠a enlaces basados en la similitud del texto de anclaje con la consulta proporcionada.
WebFountain es un rastreador modular distribuido similar a Mercator pero escrito en C ++.
World Wide Web Worm fue un rastreador utilizado para crear un índice simple de títulos de documentos y URL. Se puede buscar el índice utilizando el comando grep Unix .
Xenon es un rastreador web utilizado por las autoridades fiscales del gobierno para detectar fraudes.
– Yahoo! Slurp era el nombre de Yahoo! buscador, el rastreador de Yahoo! contratado con Microsoft para usar Bingbot en su lugar.

ūüõí Los Mejores Chollos de Amazon, ¬°Agr√©galos a tu Lista de Deseos!

Rastreadores de código abierto

  • Frontera es un framework de rastreo web que implementa el componente de frontera de rastreo y proporciona primitivas de escalabilidad para aplicaciones de rastreo web.
  • GNU Wget es un rastreador operado por l√≠nea de comandos escrito en C y lanzado bajo la GPL. Por lo general, se usa para reflejar sitios web y FTP.
  • GRUB es un rastreador de b√ļsqueda distribuida de c√≥digo abierto que Wikia Search us√≥ para rastrear la web.
  • Heritrix es el rastreador de calidad de archivo de Internet Archive, dise√Īado para archivar instant√°neas peri√≥dicas de una gran parte de la Web. Fue escrito en Java.
  • ht: // Dig incluye un rastreador web en su motor de indexaci√≥n.
  • HTTrack utiliza un rastreador web para crear un espejo de un sitio web para su visualizaci√≥n fuera de l√≠nea. Est√° escrito en C y publicado bajo la GPL.
  • mnoGoSearch es un rastreador, indexador y un motor de b√ļsqueda escrito en C y con licencia bajo la GPL (* solo m√°quinas NIX)
  • Norconex HTTP Collector es una ara√Īa web, o rastreador, escrita en Java , que tiene como objetivo facilitar la vida de los integradores y desarrolladores de Enterprise Search (con licencia de Apache License.
  • Apache Nutch es un rastreador web altamente extensible y escalable escrito en Java y lanzado bajo una licencia de Apache. Est√° basado en Apache Hadoop y puede usarse con Apache Solr o Elasticsearch.
  • Open Search Server es un motor de b√ļsqueda y una versi√≥n de software de rastreador web bajo la GPL.
  • PHP-Crawler es un simple rastreador basado en PHP y MySQL lanzado bajo la Licencia BSD.
  • Scrapy, un framework de webcrawler de c√≥digo abierto, escrito en python (licenciado bajo BSD.
  • Seeks, un motor de b√ļsqueda distribuido gratuito (con licencia AGPL.
  • StormCrawler, una colecci√≥n de recursos para crear rastreadores web escalables y de baja latencia en Apache Storm ( licencia de Apache ).
  • tkWWW Robot, un rastreador basado en el navegador web tkWWW (con licencia bajo GPL ).
  • Xapian, un motor de b√ļsqueda de rastreadores, escrito en c ++.
  • YaCy, un motor de b√ļsqueda distribuido gratuito, basado en los principios de las redes punto a punto (con licencia bajo GPL ).
  • Trandoshan, un rastreador web distribuido de c√≥digo abierto y gratuito dise√Īado para la web profunda.

ūüõí Los Mejores Chollos de Amazon, ¬°Agr√©galos a tu Lista de Deseos!