Los robots web (también conocidos como errantes, rastreadores o arañas) son programas que atraviesan la cada página web de todo el mundo de Internet automáticamente. Los motores de búsqueda como Google los usan para indexar el contenido web, los spammers los usan para buscar direcciones de correo electrónico y otros muchos más tienen diferenciados usos.
? Quizás te interese: preguntas frecuentes sobre robots.txt >> recursos webmaster >> aprender posicionamiento web >> recursos de posicionamiento y seo >> cursos gratis de seo >> >> libros gratis de seo >> mejores libros de programación >> programas para desarrolladores
Con esta página traemos toda la información necesaria para ser todo un maestro sobre los robots web.
¿Qué es robots.txt?
Los propietarios de sitios web usan el archivo /robots.txt para dar instrucciones sobre su sitio a los robots web; esto se llama el protocolo de exclusión de robots.
Funciona así: un robot quiere visitar la URL de un sitio web, por ejemplo, http://www.ejemplo.com/bienvenido.html & antes de hacerlo, primero comprueba si existe el documento: http://www.ejemplo.com/robots.txt y dependiendo del contenido que exista dentro del mismo, actua.
Si el robot encuentra:
User-agent: *
Disallow: /
La parte de “User-Agent: * “significa que esta sección se aplica a todos los robots y “Disallow: /” dice al robot que no debe visitar ninguna página de nuestro sitio web.
Existen dos consideraciones importantes que debes tener en cuenta a la hora de usar /robots.txt:
- Los robots pueden ignorar tu /robots.txt. Especialmente los robots de malware que escanean la web en busca de vulnerabilidades de seguridad y los dedicados a recolectar direcciones de correo electrónico que trabajan como “spammers” no prestarán atención.
- El archivo /robots.txt es un archivo disponible públicamente. Osea, cualquiera posee acceso a ver qué secciones de su servidor no desea que usen los robots.
Por tanto, no intentes usar /robots.txt para ocultar información.
? Ver también:
>>¿Puedo bloquear solo robots malos?
>> ¿Por qué este robot ignoró mi /robots.txt?
>> ¿Cuáles son las implicaciones de seguridad de /robots.txt?
Robots.txt al detalle
Robots.txt es un estándar de facto y no es propiedad de ningún organismo de estándares. Hay dos descripciones históricas:
- El documento original de 1994 A Standard for Robot Exclusion{:tar}.
- Especificación HTML 4.01, Apéndice B.4.1
- Wikipedia – Estándar de exclusión de robots
El estándar /robots.txt no se desarrolla activamente. Consulte ¿Qué pasa con el desarrollo posterior de /robots.txt? para más discusión
El resto de esta página ofrece una descripción general de cómo usar /robots.txt en su servidor, con algunas recetas simples. Para obtener más información, consulte también las preguntas frecuentes .
? Los Mejores Chollos de Amazon, ¡Agrégalos a tu Lista de Deseos!
¿Cómo crear un archivo /robots.txt?
¿Dónde debemos poner el fichero robots.txt?
La respuesta cortaes, en el directorio de nivel superior de su servidor web.
La respuesta más larga:
Cuando un robot busca el archivo “/robots.txt” para URL, despoja el componente de ruta de la URL (todo desde la primera barra oblicua) y coloca “/robots.txt” en su lugar.
Por ejemplo, para ”
https://www.ejemplo.com/shop/index.html
, eliminará”
/shop/index.html
“, lo reemplazará con”
/robots.txt
“y terminará en “https://www.ejemplo.com/robots.txt”.
Entonces, como propietario de un sitio web, debe colocarlo en el lugar correcto en su servidor web para que funcione la URL resultante. Por lo general, ese es el mismo lugar donde coloca la página principal ”
index.html
” de bienvenida de tu sitio web . La ruta exacta puede cambiar, dependiendo del software que utilices o de las rutas usadas por tu servidor web.
Recuerde utilizar las letras con minúsculas para el nombre de archivo: “robots.txt”, y no “Robots.TXT”.
? Ver también:
>> ¿Qué programa debo usar para crear /robots.txt?
>> ¿Cómo uso /robots.txt en un host virtual?
>> ¿Cómo uso /robots.txt en un host compartido?
¿Qué debo poner en este archivo?
El archivo “/robots.txt” es un archivo de texto, con uno o más registros. Por lo general, contiene un solo registro que se ve así:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~carpeta-personal/
En este ejemplo, se excluyen tres directorios.
Tenga en cuenta que necesita una línea separada “No permitir” para cada prefijo de URL que desee excluir; no puede decir “No permitir: / cgi-bin / / tmp /” en una sola línea. Además, es posible que no tenga líneas en blanco en un registro, ya que se usan para delimitar múltiples registros.
Tenga en cuenta también que el globing y la expresión regular no son compatibles con las líneas User-agent o Disallow. El ‘*’ en el campo Agente de usuario es un valor especial que significa “cualquier robot”. Específicamente, no puede tener líneas como “User-agent: * bot *”, “Disallow: / tmp / *” o “Disallow: * .gif”.
Lo que desea excluir depende de su servidor. Todo lo que no se rechaza explícitamente se considera un juego justo para recuperar. Aquí siguen algunos ejemplos:
Para excluir todos los robots de todo el servidor
User-agent: *
Disallow: /
Para permitir que todos los robots tengan acceso completo
User-agent: *
Disallow:
(o simplemente cree un archivo “/robots.txt” vacío, o no use ninguno)
? Los Mejores Chollos de Amazon, ¡Agrégalos a tu Lista de Deseos!
Para excluir todos los robots de parte del servidor
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/
Para excluir un solo robot
User-agent: BadBot
Disallow: /
Para permitir un solo robot
User-agent: Google
Disallow:
User-agent: *
Disallow: /
Para excluir todos los archivos excepto uno
Esto es actualmente un poco incómodo, ya que no hay un campo “Permitir”. La manera fácil es colocar todos los archivos que se deshabilitarán en un directorio separado, decir “cosas” y dejar el único archivo en el nivel sobre este directorio:
User-agent: *
Disallow: /~carpeta-personal/stuff/
Alternativamente, puede rechazar explícitamente todas las páginas no permitidas:
Alternativamente, puede rechazar explícitamente todas las páginas no permitidas:
User-agent: *
Disallow: /~carpeta-personal/junk.html
Disallow: /~carpeta-personal/foo.html
Disallow: /~carpeta-personal/bar.html
? Los Mejores Chollos de Amazon, ¡Agrégalos a tu Lista de Deseos!
Acerca de la META etiqueta robots
En una palabra
Puede usar una etiqueta HTML especial
META
para indicar a los robots que no indexen el contenido de una página y / o que no la escaneen para buscar enlaces a seguir.
Por ejemplo:
Hay dos consideraciones importantes cuando se usa la etiqueta de robots:
- Los robots pueden ignorar su etiqueta . Especialmente los robots de malware que escanean la web en busca de vulnerabilidades de seguridad, y los recolectores de direcciones de correo electrónico utilizados por los spammers no prestarán atención.
- La directiva NOFOLLOW solo se aplica a los enlaces de esta página. Es muy probable que un robot encuentre los mismos enlaces en alguna otra página sin un NOFOLLOW (quizás en algún otro sitio), y aún así llegue a su página no deseada.
No confunda este NOFOLLOW con el atributo de enlace
rel = "nofollow"
](/robots-txt-preguntas-frecuentes/#acerca-de-las-etiquetas-meta).
Al detalle
Al igual que /robots.txt, la etiqueta META de robots es un estándar de facto. Se originó en una reunión de un taller de indexación distribuido en 1996, y se describió en las notas de la reunión.
La etiqueta META también se describe en la especificación HTML 4.01, Apéndice B.4.1.
A continuación se ofrece una descripción general de cómo usar las etiquetas de robots en tu página web, con algunos ejemplos simples. Para obtener más información, consulta nuestra página de preguntas frecuentes o FAQ.
? Los Mejores Chollos de Amazon, ¡Agrégalos a tu Lista de Deseos!
¿Cómo escribir una metaetiqueta de robots?
¿Dónde situarlo?
Al igual que cualquier etiqueta , debe colocarse en la sección HEAD de una página HTML, como en el ejemplo anterior. Debe ponerlo en cada página de su sitio, porque un robot puede encontrar un enlace profundo a cualquier página de su sitio.
¿Qué poner en él?
El atributo “
name
” debe ser “ROBOTS”.
Los valores válidos para el atributo “
CONTENT
” son: “
INDEX
“, “
NOINDEX
“, “
FOLLOW
“, “
NOFOLLOW
“. Se permiten múltiples valores separados por comas, pero obviamente solo algunas combinaciones tienen sentido. Si no hay una etiqueta de robots, el valor predeterminado es ”
INDEX, NOFOLLOW
“, por lo que no hay necesidad de explicarlo. Eso quedaría:
Sitios de Información Importantes
El Sitio sobre Búsqueda y Webmasters de Google
Muchas personas terminan en este sitio porque tienen preguntas sobre robots y motores de búsqueda específicos. Para tales preguntas, el mejor lugar son las propias páginas de ayuda del sitio relevante:
? Los Mejores Chollos de Amazon, ¡Agrégalos a tu Lista de Deseos!
Sitios sobre motores de búsqueda
Sitios muy útiles para webmasters:
? Los Mejores Libros sobre SEO, Posicionamiento y Marketing Digital; en una sola Colección Los Mejores Libros sobre SEO, Posicionamiento y Marketing Digital; en una sola Colección ?️♂️Publicada por Ciberninjas en Martes, 10 de marzo de 2020
¿Cómo chequear o probar tu robots.txt?
Rastreadores web
– Bingbot es el nombre del webcrawler de Bing de Microsoft . Reemplazó a Msnbot .
– Googlebot se describe con cierto detalle, pero la referencia es solo sobre una versión temprana de su arquitectura, que estaba basada en C ++ y Python . El rastreador se integró con el proceso de indexación, porque el análisis de texto se realizó para la indexación de texto completo y también para la extracción de URL. Hay un servidor de URL que envía listas de URL para que sean recuperadas por varios procesos de rastreo. Durante el análisis, las URL encontradas se pasaron a un servidor de URL que verificó si la URL se había visto anteriormente. De lo contrario, la URL se agregó a la cola del servidor de URL.
– SortSite
– Swiftbot es el rastreador web de Swiftype .
– WebCrawler se utilizó para crear el primer índice de texto completo disponible públicamente de un subconjunto de la Web. Se basó en lib-WWW para descargar páginas, y otro programa para analizar y ordenar URL para una exploración más amplia del gráfico web. También incluía un rastreador en tiempo real que seguía enlaces basados en la similitud del texto de anclaje con la consulta proporcionada.
– WebFountain es un rastreador modular distribuido similar a Mercator pero escrito en C ++.
– World Wide Web Worm fue un rastreador utilizado para crear un índice simple de títulos de documentos y URL. Se puede buscar el índice utilizando el
comando grep
Unix .
– Xenon es un rastreador web utilizado por las autoridades fiscales del gobierno para detectar fraudes.
– Yahoo! Slurp era el nombre de Yahoo! buscador, el rastreador de Yahoo! contratado con Microsoft para usar Bingbot en su lugar.
? Los Mejores Chollos de Amazon, ¡Agrégalos a tu Lista de Deseos!
Rastreadores de código abierto
- Frontera es un framework de rastreo web que implementa el componente de frontera de rastreo y proporciona primitivas de escalabilidad para aplicaciones de rastreo web.
- GNU Wget es un rastreador operado por línea de comandos escrito en C y lanzado bajo la GPL. Por lo general, se usa para reflejar sitios web y FTP.
- GRUB es un rastreador de búsqueda distribuida de código abierto que Wikia Search usó para rastrear la web.
- Heritrix es el rastreador de calidad de archivo de Internet Archive, diseñado para archivar instantáneas periódicas de una gran parte de la Web. Fue escrito en Java.
- ht: // Dig incluye un rastreador web en su motor de indexación.
- HTTrack utiliza un rastreador web para crear un espejo de un sitio web para su visualización fuera de línea. Está escrito en C y publicado bajo la GPL.
- mnoGoSearch es un rastreador, indexador y un motor de búsqueda escrito en C y con licencia bajo la GPL (* solo máquinas NIX)
- Norconex HTTP Collector es una araña web, o rastreador, escrita en Java , que tiene como objetivo facilitar la vida de los integradores y desarrolladores de Enterprise Search (con licencia de Apache License.
- Apache Nutch es un rastreador web altamente extensible y escalable escrito en Java y lanzado bajo una licencia de Apache. Está basado en Apache Hadoop y puede usarse con Apache Solr o Elasticsearch.
- Open Search Server es un motor de búsqueda y una versión de software de rastreador web bajo la GPL.
- PHP-Crawler es un simple rastreador basado en PHP y MySQL lanzado bajo la Licencia BSD.
- Scrapy, un framework de webcrawler de código abierto, escrito en python (licenciado bajo BSD.
- Seeks, un motor de búsqueda distribuido gratuito (con licencia AGPL.
- StormCrawler, una colección de recursos para crear rastreadores web escalables y de baja latencia en Apache Storm ( licencia de Apache ).
- tkWWW Robot, un rastreador basado en el navegador web tkWWW (con licencia bajo GPL ).
- Xapian, un motor de búsqueda de rastreadores, escrito en c ++.
- YaCy, un motor de búsqueda distribuido gratuito, basado en los principios de las redes punto a punto (con licencia bajo GPL ).
- Trandoshan, un rastreador web distribuido de código abierto y gratuito diseñado para la web profunda.
? Los Mejores Chollos de Amazon, ¡Agrégalos a tu Lista de Deseos!