Aprovechar el poder de los robots Txt

Una vez que tengamos un sitio web en funcionamiento, debemos asegurarnos de que todos los motores de búsqueda que visitan puedan acceder a todas las páginas que queremos que vean.

A veces, es posible que queramos que los motores de búsqueda no indexen ciertas partes del sitio, o incluso que excluyan a otros SE del sitio por completo.

Aquí es donde entra un pequeño archivo de texto de 2 líneas llamado robots.txt.

Robots.txt reside en el directorio principal de su sitio web (en los sistemas LINUX, este es su directorio / public_html /) y se parece a lo siguiente:

User-agent : *

No permitir:

la primera línea controla el “bot” que visitará su sitio, la segunda línea controla si se permite su ingreso, o qué partes del sitio no se les permite visitar …

Si desea manejar múltiples “bots”, simplemente repita las líneas anteriores.

Un ejemplo:

User-agent: googlebot

Disallow:

User-agent: askjeeves Disallow

: /

Esto permitirá que Goggle (nombre de agente de usuario GoogleBot) visite todas las páginas y directorios, mientras que al mismo tiempo prohíbe a Ask Jeeves del sitio por completo.

Para encontrar una lista “razonablemente” actualizada de nombres de usuarios de robots, visite http://www.robotstxt.org/wc/active/html/index.html 

Incluso si desea permitir que cada robot indexe cada página de su sitio , todavía es muy recomendable colocar un archivo robots.txt en su sitio. Detendrá sus registros de errores que se llenan con las entradas de los motores de búsqueda que intentan acceder a su archivo robots.txt que no existe.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *