Preguntas Frecuentes Sobre robots.txt

Esta es una lista con preguntas frecuentes sobre acerca de los robots web de la WWW. Solamente debes navegar a través del menú para ir hacía la respuesta correcta.

Contenidos

Acerca de los robots WWW

¿Qué es un robot WWW?

Un robot es un programa que atraviesa automáticamente la estructura de hipertexto de la Web recuperando un documento y recuperando recursivamente todos los documentos a los que se hace referencia.

Tenga en cuenta que “recursivo” aquí no limita la definición a ningún algoritmo transversal específico; incluso si un robot aplica algo de heurística a la selección y el orden de los documentos para visitar y espacia las solicitudes durante un largo espacio de tiempo, sigue siendo un robot.

Los navegadores web normales no son robots, porque son operados por un humano y no recuperan automáticamente los documentos de referencia (que no sean imágenes en línea).

Los robots web a veces se denominan web wanderers, web crawlers o spiders. Estos nombres son un poco engañosos ya que dan la impresión de que el software se mueve entre sitios como un virus; En este caso, un robot simplemente visita los sitios solicitándoles documentos.

⏫ Regresar al Menú

¿Qué es un agente?

La palabra “agente” se usa para muchos significados en informática en estos días. Específicamente:

Agentes autónomos
Son programas que viajan entre sitios y deciden cuándo moverse y qué hacer. Estos solo pueden viajar entre servidores especiales y actualmente no están muy extendidos en Internet.
Agentes inteligentes
Son programas que ayudan a los usuarios con cosas, como elegir un producto, o guiar a un usuario a través del llenado de formularios, o incluso ayudar a los usuarios a encontrar cosas. Estos generalmente tienen poco que ver con las redes.
Agente de usuario
Es un nombre técnico para programas que realizan tareas de red para un usuario, como agentes de usuario web como Netscape Navigator y Microsoft Internet Explorer, y agente de usuario de correo electrónico como Qualcomm Eudora, etc.

⏫ Regresar al Menú

¿Qué es un buscador?

Un motor de búsqueda es un programa que busca en algún conjunto de datos. En el contexto de la Web, la palabra “motor de búsqueda” se usa con mayor frecuencia para los formularios de búsqueda que buscan en bases de datos de documentos HTML recopilados por un robot.

⏫ Regresar al Menú

¿Qué tipo de robots existen?

Los robots se pueden usar para varios propósitos:
– Indexación
– Validación HTML
– Validación de enlace
– Monitoreo “Qué hay de nuevo”
– Reflejo
Vea la lista de robots activos para ver qué robot hace qué. No me preguntes, todo lo que sé es lo que está en la lista.

⏫ Regresar al Menú

Entonces, ¿Qué son los robots, arañas, rastreadores web, gusanos, hormigas?

Esto solo son nombres para el mismo tipo de cosas, con connotaciones ligeramente diferentes:

Robots
El nombre genérico.
Arañas
Igual que los robots, pero suena más fresco en la prensa.
Gusanos
Igual que los robots, aunque técnicamente un gusano es un programa de replicación, a diferencia de un robot.
Rastreadores web
Igual que los robots, pero tenga en cuenta que WebCrawler es un robot específico
WebAnts
Robots cooperadores distribuidos.

⏫ Regresar al Menú

¿Son los robots malos para la web?

Hay algunas razones por las cuales las personas creen que los robots son malos para la Web:
– Ciertas implementaciones de robots pueden (y han tenido en el pasado) redes y servidores sobrecargados. Esto sucede especialmente con personas que recién comienzan a escribir un robot; En estos días hay suficiente información sobre robots para evitar algunos de estos errores.
– Los robots son operados por humanos, que cometen errores en la configuración, o simplemente no consideran las implicaciones de sus acciones. Esto significa que las personas deben tener cuidado, y los autores de robots deben dificultar que las personas cometan errores con efectos negativos.
– Los robots de indexación en toda la web crean una base de datos central de documentos, que no se adapta demasiado bien a millones de documentos en millones de sitios.
Pero al mismo tiempo, la mayoría de los robots están bien diseñados, operados profesionalmente, no causan problemas y brindan un servicio valioso en ausencia de mejores soluciones ampliamente implementadas.

Entonces, no, los robots no son intrínsecamente malos, ni intrínsecamente brillantes, y necesitan una atención cuidadosa.

⏫ Regresar al Menú

¿Hay libros de robots?

Sí, existen algunos; lo más complicado es encontrarlos en español.

Bots y otras bestias de Internet
Perl & LWP (2002)
Programación Web con Perl
Spidering Hacks: 100 consejos y herramientas de resistencia industrial
Webbots, arañas y rastreadores de pantalla

⏫ Regresar al Menú

¿Dónde puedo encontrar más información sobre robots?

Hay una página con una amplia guía sobre robots en: /robots-txt/ ?

Por supuesto, la última versión de estas preguntas frecuentes está allí; también encontrarás muchos detalles más.

⏫ Regresar al Menú

Robots de indexación

¿Cómo decide un robot dónde visitar?

Esto depende del robot, cada uno usa diferentes estrategias. En general, comienzan desde una lista histórica de URL, especialmente de documentos con muchos enlaces en otros lugares, como listas de servidores, páginas “Novedades” y los sitios más populares en la Web.

La mayoría de los servicios de indexación también le permiten enviar URL manualmente, que luego serán colocadas en cola y visitadas por el robot.

A veces se utilizan otras fuentes de URL, como escáneres a través de publicaciones de USENET, listas de correo publicadas, etc.

Dados esos puntos de partida, un robot puede seleccionar URL para visitar e indexar, y analizar y usar como fuente para nuevas URL.

¿Cómo decide un robot de indexación qué indexar?

Si un robot de indexación conoce un documento, puede decidir analizarlo e insertarlo en su base de datos. La forma en que esto se hace depende del robot: algunos robots indexan los títulos HTML, o los primeros párrafos, o analizan todo el HTML e indexan todas las palabras, con ponderaciones que dependen de las construcciones HTML, etc. Algunos analizan la etiqueta META u otros Etiquetas ocultas

Esperamos que a medida que la Web evolucione haya más instalaciones disponibles para asociar eficientemente metadatos, como la indexación de información con un documento. Esto en la actualidad se realiza a través de los datos estructurados de Google a pesar de que no es una tecnología generalizada, ni estandar respecto a todos los bots de robots.

¿Cómo registro mi página con un robot?

Esto depende de la compaía creadora de cada buscador. Muchos servicios tienen un enlace a un formulario de envío de URL en su página de búsqueda, o tienen más información en sus páginas de ayuda. Por ejemplo:
– Google
– Bing
– Yahoo
– Duck Duck Go

¿Cómo obtengo un mejor posicionamiento en los motores de búsqueda?

Esto se conoce como “SEO” o Optimización de motores de búsqueda. Existen muchos sitios web, foros y empresas que tienen como objetivo / afirman ayudar con eso.

Básicamente el SEO se reduce a:
– En el diseño de su sitio, use texto en lugar de imágenes y Flash para contenido importante.
– Haga que su sitio funcione con JavaScript, Java y CSS deshabilitados.
– Organice su sitio de modo que tenga páginas que se centren en un tema en particular.
– Evite marcos HTML e iframes.
– Utilice URL normales, evitando enlaces que parecen consultas de formulario (http://www.ejemplo.com/buscador?id).
– Comercialice su sitio haciendo que otros sitios relevantes enlacen con el suyo.
– No intentes engañar al sistema (rellenando tus páginas de palabras clave, o intentando apuntar a contenido específico en los motores de búsqueda, o usando granjas de enlaces).

Ver también:
– Guía de optimización en buscadores (SEO) para principiantes por Google Search Console
– Consola de Buscadores / Search Console: Primeros Pasos
– Blog para Webmasters por Google, noticias sobre indexación y rastreo de páginas web a través del buscador Google

Para administradores de servidores

¿Cómo sé si me ha visitado un robot?

Puedes verificar los registros de su servidor para los sitios que recuperan muchos documentos, especialmente en poco tiempo.

Si su servidor admite el registro de agente de usuario, puede verificar las recuperaciones con valores de encabezado de agente de usuario inusuales.

Finalmente, si observa que un sitio busca repetidamente el archivo ‘/robots.txt’ es probable que también sea un robot.

¡Me ha visitado un robot! ¿Ahora qué?

Si cree que ha descubierto un nuevo robot (es decir, uno que no figura en la lista de robots activos y que hace más que visitas esporádicas, envíeme un mensaje para que pueda anotarlo para futuras referencias. Pero no lo haga ¡No me cuentes sobre todos los robots que pasan!

¡Un robot rastrea mi sitio demasiado habitualmente!

Esto se llama “rastreo rápido” y las personas generalmente lo notan si están monitoreando o analizando un archivo de registro de acceso.

En primer lugar, compruebe si es un problema comprobando la carga de su servidor y supervisando el registro de errores de sus servidores, y las conexiones concurrentes si puede. Si tiene un servidor de rendimiento medio o alto, es muy probable que pueda hacer frente a una gran carga de incluso varias solicitudes por segundo, especialmente si las visitas son rápidas.

Sin embargo, puede tener problemas si tiene un sitio de bajo rendimiento, como su propia PC de escritorio o Mac en la que está trabajando, o ejecuta un software de servidor de bajo rendimiento, o si tiene muchas recuperaciones largas (como scripts CGI o documentos grandes ) Estos problemas se manifiestan en conexiones rechazadas, una alta carga, ralentizaciones del rendimiento o, en casos extremos, un bloqueo del sistema.

Si esto sucede, hay algunas cosas que debe hacer. Lo más importante, comience a registrar información: cuándo se dio cuenta, qué sucedió, qué dicen sus registros, qué está haciendo en respuesta, etc. Esto ayuda a investigar el problema más adelante. En segundo lugar, intente averiguar de dónde vino el robot, qué direcciones IP o dominios DNS, y vea si se mencionan en la lista de robots activos . Si puede identificar un sitio de esta manera, puede enviar un correo electrónico a la persona responsable y preguntarle qué pasa. Si esto no ayuda, pruebe su propio sitio para obtener números de teléfono o envíe un correo al administrador de correo en su dominio.

Si el robot no está en la lista, envíeme un correo electrónico con toda la información que ha recopilado, incluidas las acciones de su parte. Si no puedo ayudar, al menos puedo anotarlo para otros.

Normas de exclusión de robots

¿Por qué encuentro entradas para /robots.txt en mis archivos de registro?

robablemente provienen de robots que intentan ver si ha especificado alguna regla para ellos utilizando el Estándar para la exclusión de robots , consulte también a continuación .

Si no le importan los robots y desea evitar los mensajes en sus registros de errores, simplemente cree un archivo vacío llamado robots.txt en el nivel raíz de su servidor.

No pongas ningún lenguaje HTML o inglés “¿Quién demonios eres?” texto en él – aunque seguramente nunca será leído por nadie. ?

¿Cómo evito que los robots escaneen mi sitio?

La forma rápida de evitar que los robots visiten su sitio es poner estas dos líneas en el archivo /robots.txt en su servidor:

User-agent: * Disallow: /

Esto solo se cumplirá con robots con buen comportamiento.

Ver también:

¿Puedo bloquear solo robots malos?

¿Dónde descubro cómo funcionan los archivos /robots.txt?

El concepto básico es simple: al escribir un archivo de texto estructurado puede indicar a los robots que ciertas partes de su servidor están fuera del alcance de algunos o todos los robots.

Se explica mejor con un ejemplo:

robots.txt file for http://webcrawler.com/


mail [email protected] for constructive criticism
User-agent: webcrawler

Disallow:
User-agent: lycra

Disallow: /

User-agent: * Disallow: /tmp Disallow: /logs

Las dos primeras líneas, que comienzan con ‘#’, especifican un comentario

El primer párrafo especifica que el robot llamado ‘webcrawler’ no tiene nada prohibido: puede ir a cualquier parte.

El segundo párrafo indica que el robot llamado ‘lycra’ tiene todas las URL relativas que comienzan con ‘/’ no permitido. Debido a que todas las URL relativas en un servidor comienzan con ‘/’, esto significa que todo el sitio está cerrado.

El tercer párrafo indica que todos los demás robots no deben visitar las URL que comienzan con / tmp o / log. Tenga en cuenta que ‘*’ es un token especial, que significa “cualquier otro agente de usuario”; no puede usar patrones comodín o expresiones regulares en las líneas Agente de usuario o No permitir.

Dos errores comunes:

Los comodines no son compatibles: en lugar de ‘No permitir: / tmp / *’ solo diga ‘No permitir: / tmp /’.
No debe colocar más de una ruta en una línea Disallow (esto puede cambiar en una versión futura de la especificación).

⏫ Regresar al Menú

¿Qué programa debo usar para crear /robots.txt?

con cualquier editor de texto de los que puedes encontrar en nuestra guía o software que produzca un archivo simple de texto, te será suficiente.

Algunos ejemplos:

En Microsoft Windows, usando el Bloc de Notas o Wordpad (Guardar como documento de texto .txt) o incluso Microsoft Word (Guardar como texto sin formato).
En Macintosh, usa TextEdit (Formato-> Crear texto sin formato, luego Guardar como occidental).
En Linux, Vi, Emacs o la propia Consola.

⏫ Regresar al Menú

¿Cómo uso /robots.txt en un host virtual?

El término “host virtual” a veces se usa para significar varias cosas diferentes:

Un servidor web de “host virtual” utiliza el encabezado de host HTTP para distinguir las solicitudes a diferentes nombres de dominio en la misma dirección IP. En este caso, el hecho de que el dominio esté en un host compartido no hace ninguna diferencia para un robot visitante, y puede colocar un archivo /robots.txt en el directorio dedicado a su dominio.
Un “servidor virtual” ejecuta un sistema operativo separado en una máquina virtual, como VMWare o Xen. De nuevo, para un robot que es una computadora separada.

⏫ Regresar al Menú

¿Cómo uso /robots.txt en un host compartido?

Si comparte un host con otras personas y tiene una URL como: http://www.ejemplo.com/~NombreDeUsuario/ o http://www.ejemplo.com/NombreDeUsuario, entonces no puede tener tu propio / archivo robots.txt. Si deseas utilizar /robots.txt, tendrás que pedirselo al administrador del host.

Si desea más control, cambie de proveedor a un host virtual.

⏫ Regresar al Menú

¿Qué pasa si no puedo crear un archivo robots.txt?

A veces no puedes crear un archivo robots.txt porque no administra todo el servidor. No todo está perdido: hay un nuevo estándar para usar etiquetas META HTML para mantener a los robots fuera de sus documentos.

La idea básica es que si incluye la etiqueta -noindex- siguiente en su documento HTML, ese documento no será indexado:

En cambio si le incluyes -nofollow- los enlaces en ese documento no serán analizados por el robot.:

⏫ Regresar al Menú

¿Se puede bloquear solo a los robots malos?

En teoría sí, en la práctica, no. Si el robot defectuoso obedece a /robots.txt y conoce el nombre que busca en el campo Agente de usuario. entonces puede crear una sección en su /robotst.txt para excluirlo específicamente. Pero casi todos los robots malos ignoran /robots.txt, por lo que no tiene sentido.

Si el robot defectuoso opera desde una sola dirección IP, puede bloquear su acceso a su servidor web a través de la configuración del servidor o con un firewall de red.

Si las copias del robot funcionan en muchas direcciones IP diferentes, como las PC secuestradas que forman parte de una gran Botnet , entonces se vuelve más difícil. La mejor opción es utilizar la configuración avanzada de reglas de firewall que bloquea automáticamente el acceso a las direcciones IP que realizan muchas conexiones; pero eso puede golpear a los robots buenos también a los robots malos.

⏫ Regresar al Menú

¿Por qué este robot ignoró mi /robots.txt?

Podría ser que estuviese escrito por un redactor / desarrollador de software sin experiencia. Ocasionalmente, se asigna a personas inexpertas la tarea de “escribir un robot web”. Más, es más probable que el robot esté escrito explícitamente para escanear su sitio en busca de información con la que realizar spam posteriormente: podría estar recopilando direcciones de correo electrónico para enviar correo no deseado, buscar formularios para publicar enlaces “spamdexing” o buscando agujeros de seguridad que explotar.

⏫ Regresar al Menú

¿Se puede usar un documento /robots.txt ante un juicio?

No existe una ley que establezca que /robots.txt debe obedecerse, ni constituye un contrato vinculante entre el propietario del sitio y el usuario, pero tener un /robots.txt puede ser relevante en casos legales.

Me declaro IANAL, si requiere asesoramiento legal, obtenga servicios profesionales de un abogado calificado.

Algunos casos jurídicos en relación a /robots.txt:
– Defensores de la salud contra el archivo de Internet
– El uso del archivo web no constituye piratería, dice un tribunal de los EE. UU.
– Juez federal aprueba firma de abogados acusada de piratear archivos web de opositores
– Despacho de abogados de EE. UU. Libre de cargos de hackeo de robots.txt DMCA
– Defensores de la salud: el increíble caso de “Abogados como hackers”
– Más sobre pleitos tontos – Internet Archive y la BBC Flap
– Copiepresse (Bélgica) vs Google
– Actualización en Copiepresse v. Google
– ¿Por qué el tribunal belga falló contra Google?
– AFP vs Google
– AFP demanda a Google en lugar de escribir Robots.Txt File
– eBay vs Edge del postor
– ¿Cuándo ‘spidering’ equivale a traspaso?
– ORDEN DE OTORGAMIENTO DE PRENSA PRELIMINAR
– Caso de búsqueda de subasta espera decisión

Podrás encontrar muchos otros casos en Groklaw .

⏫ Regresar al Menú

¿Seguramente enumerar archivos confidenciales es un problema?

A algunas personas les preocupa que la inclusión de páginas o directorios en el archivo /robots.txt pueda invitar a un acceso no deseado. Hay dos respuestas a esto.

La primera respuesta es una solución alternativa: puede poner todos los archivos que no desea que los robots visiten en un subdirectorio separado, hacer que ese directorio no se pueda enumerar en la web (configurando su servidor), luego coloque sus archivos allí, y enumere solo el nombre del directorio en /robots.txt. Ahora, un robot mal intencionado no atravesará ese directorio a menos que usted u otra persona coloque un enlace directo en la web a uno de sus archivos, y luego no sea culpa de /robots.txt.

En lugar de utilizar:

User-Agent: * Disallow: /foo.html Disallow: /bar.html

Usa:

User-Agent: * Disallow: /norobots/

Posteriormente crea un directorio “norobots”, colocando foo.html y bar.html en él, y configure su servidor para que no genere una lista de directorios para ese directorio. Ahora todo lo que un atacante aprendería es que tienes un directorio “norobots”, pero no podrá enumerar los archivos incluidos; necesitaría adivinar sus nombres.

Sin embargo, en la práctica esta es una mala idea, es demasiado frágil. Alguien puede publicar un enlace a sus archivos en su sitio. O puede aparecer en un archivo de registro de acceso público, digamos del servidor proxy de su usuario, o tal vez aparezca en el registro del servidor web de alguien como Referer. O alguien puede configurar mal su servidor en una fecha futura, “arreglarlo” para mostrar una lista de directorio. Lo que me lleva a la respuesta real:

La verdadera respuesta es que /robots.txt no está diseñado para el control de acceso, así que no intentes usarlo como tal. Piense en ello como una señal de “No entrar”, no como una puerta cerrada. Si tiene archivos en su sitio web a los que no desea que accedan personas no autorizadas, configure su servidor para realizar la autenticación y configure la autorización adecuada. La autenticación básica ha existido desde los primeros días de la web (y, por ejemplo, Apache en UNIX es trivial de configurar). Los sistemas modernos de gestión de contenido admiten controles de acceso en páginas individuales y colecciones de recursos.

⏫ Regresar al Menú

Acerca de las etiquetas META

¿Qué es el atributo de enlace rel=”nofollow,noreferrer”?

Es un atributo que se puede establecer en una etiqueta de enlace HTML, inventada por Google y adoptada por otros. Esos enlaces no obtendrán ningún crédito cuando Google clasifique los sitios web en los resultados de búsqueda, eliminando así el incentivo principal detrás de los robots de spammers de comentarios de blogs.

Puedes consultar, ¿Cómo prevenir comentarios con spam?, redactado por Google.

Según esa descripción, parece que solo afecta la clasificación, y el robot de Google aún puede seguir los enlaces e indexarlos. Si es así, es diferente de la semántica NOFOLLOW de la metaetiqueta de robots.

⏫ Regresar al Menú

Disponibilidad

¿Dónde puedo usar un robot?

Si se refiere a poder comprobar como un robot está trabajando sobre su sitio web, puedes comprobarlo desde las herramientas de indexación de páginas web que ya hemos indicado en el apartado de ¿Cómo registro mi página con un robot?

⏫ Regresar al Menú

¿Dónde puedo conseguir un robot?

Bueno, hoy en día desde Amazon podrás comprar algún ? de los de película. No, fuera bromas.. Si a lo que te refieres es al robot / bot rastreador; en la pregunta siguiente encontrarás la respuesta.

Si por lo contrario, te refieres a un archivo robots.txt

¿Dónde puedo obtener el código fuente de un robot?

Existen múltiples formas de implementar un software similar al de un buscador a través de compilar código o implementar diferentes librerías; en el artículo de los motores de búsqueda de código abierto vas a tener la oportunidad de conocer más sobre cómo hacerlo y sobre todo algunas diferentes opciones.

Estoy escribiendo un robot, ¿De qué debo tener cuidado?

Primero lee por completo la página robots.txt junto a las guías de indexación y rastreo creadas por Google que en la actualidad existen en español:
– Especificaciones de robots.txt
– Especificaciones de metaetiquetas ..de robots y del encabezado HTTP X-Robots-Tag

Por último, puedes leer las actas de conferencias WWW y las especificaciones completas de HTML y HTTP. Algunos enlaces:
– Estándar HTML – Última actualización 20 de septiembre de 2019
– Palabras clave para su uso en RFC para indicar el estado de los niveles de requisitos de este Memo RFC2119 por S. Bradner.
En muchos documentos de seguimiento de estándares se utilizan varias palabras para indicar los requisitos en la especificación.

URL: Localizadores uniformes de recursos RFC1738 por T. Berners-Lee
Este documento especifica un Localizador Uniforme de Recursos (URL), la sintaxis y semántica de información formalizada para ubicación y acceso de recursos a través de Internet.

⏫ Regresar al Menú

Relacionado

❌ React Native, crear aplicación como Netflix con Mario Díez

[no_toc] [expand title="Índice del Vídeotutorial"] 1. FlatList Horizontal 2. Componente Swiper 3. Menú Animado y Header 4. FlatList Grid 5. Más Flexbox, Tabs y Linear gradiantes 6. Reproductor de Vídeo 7. Share API 8. Animatable Header y NativeEvents 9. React Navigation 10. Header Múltiple con Animated 11. Modal con React Navigation 12. React Navigation con Redux 13. Servidor NodeJS con MongoDB para React Native 14. Conectando ¡SEGUIR LEYENDO!

❌ React Native con Mario Díez

[no_toc] [expand title="Índice del Vídeotutorial"] 1. Instalación 2. Introducción 3. Props y State 4. Fetch Data 5. ListView 6. Fech Data 2 7. Navigator IOS 8. Navigator 9. Flexbox 10. PropTypes 11. TabBarIOS 12. Formularios 13. AsyncStorage 14. Recorriendo Arrays con Map 15. Notificaciones Push 16. Notificaciones Push desde NodeJS 17. Barra de Búsqueda en ListView 18. Utilización de CameraRoll 19. Children o Props 20. Diferenciar ¡SEGUIR LEYENDO!

❌ React Native con Iván B. Trujillo

[no_toc] [expand title="Índice del Vídeotutorial"] 1. Primeros Pasos 2. Componentes, Botones y Alertas 3. Pantalla de Login, Navegador y Vistas 4. Navegación por Pestañas 5. Peticiones a API y ListView 6. Vista Detalles y Paso de Propiedades a Componente Hijo [/expand] [yotuwp type="playlist" id="PLuzQ5Ac_9_cI-ukaElfIFKXyhLsADBiJe" ] [expand title="Creador"] Editor del blog de Medium: Canarias JS [/expand]

❌ Javascript con Píldoras Informáticas

[no_toc] [expand title="Índice del Vídeotutorial"] 1. Presentación. Vídeo 1 2. Introducción. Vídeo 2 3. Sintaxis Básica I. Ubicación del código. Vídeo 3 4. Sintaxis Básica II. Estructuras Básicas. Vídeo 4 5. Sintaxis Básica III. Operadores Básicos. Vídeo 5 6. Sintaxis Básica IV. Operadores y prompt. Vídeo 6 7. Sintaxis Básica V Arrays, Matrices, Arreglos. Vídeo 7 8. Sintaxis Básica V. Arrays, Matrices, Arreglos II. Vídeo 8 ¡SEGUIR LEYENDO!

❌ Javascript con Falcon Masters

[no_toc] [expand title="Índice del Vídeotutorial"] 1. Introducción 2. Variables 3. Tipos de Dato 4. Arreglos 5. Metodos y propiedades para los Arreglos 6. Condicionales 7. Ciclo Fo 8. Ciclo While 9. Funciones 10. Ejercicio con Funciones y Formularios 11. Scope de Javascript (ámbito de las variables) 12. Metodos y propiedades para Cadenas de Texto 13. Introducción al DOM (Document Object Model) 14. Creando Nodos del DOM ¡SEGUIR LEYENDO!

Acerca de los robots WWW

¿Qué es un robot WWW?

¿Qué es un agente?

¿Qué es un buscador?

¿Qué tipo de robots existen?

Entonces, ¿Qué son los robots, arañas, rastreadores web, gusanos, hormigas?

¿Son los robots malos para la web?

¿Hay libros de robots?

¿Dónde puedo encontrar más información sobre robots?

Robots de indexación

¿Cómo decide un robot dónde visitar?

¿Cómo decide un robot de indexación qué indexar?

¿Cómo registro mi página con un robot?

¿Cómo obtengo un mejor posicionamiento en los motores de búsqueda?

Para administradores de servidores

¿Cómo sé si me ha visitado un robot?

¡Me ha visitado un robot! ¿Ahora qué?

¡Un robot rastrea mi sitio demasiado habitualmente!

Normas de exclusión de robots

¿Por qué encuentro entradas para /robots.txt en mis archivos de registro?

¿Cómo evito que los robots escaneen mi sitio?

¿Dónde descubro cómo funcionan los archivos /robots.txt?

¿Qué programa debo usar para crear /robots.txt?

¿Cómo uso /robots.txt en un host virtual?

¿Cómo uso /robots.txt en un host compartido?

¿Qué pasa si no puedo crear un archivo robots.txt?

¿Se puede bloquear solo a los robots malos?

¿Por qué este robot ignoró mi /robots.txt?

¿Se puede usar un documento /robots.txt ante un juicio?

¿Seguramente enumerar archivos confidenciales es un problema?

Acerca de las etiquetas META

¿Qué es el atributo de enlace rel=”nofollow,noreferrer”?

Disponibilidad

¿Dónde puedo usar un robot?

¿Dónde puedo conseguir un robot?

¿Dónde puedo obtener el código fuente de un robot?

Estoy escribiendo un robot, ¿De qué debo tener cuidado?

Deja un comentario