robots.txt para WordPress
Escrito por Neri, un hermoso 23 de July de 2010 y archivado bajo el sello de TipsEste artículo tiene 7 comentarios, pero no olvides que el tuyo también importa
En innumerables ocasiones he leído en foros consultas, dudas y problemas relacionados al robots.txt, también un par de veces me han preguntado y la respuesta es la misma que suelo dar la mayoría de las veces que me preguntan algo sobre un sitio: DEPENDE.

Para entender que robots.txt es el que más se ajusta a nuestras necesidades, primero hay que entender en que consiste, una breve explicación:
El protocolo de robots.txt es un método para evitar que ciertos bots que analizan los sitios Web agreguen información innecesaria a los resultados de búsqueda.(Wikipedia)
Básicamente un robots.txt consiste en indicar el robot y lo que queremos que haga, el robot se indica como “User-agent: nombre del bot” y las órdenes “Allow :”, “Disallow :”
Por ejemplo si queremos que ningún robot pueda acceder al directorio “privado” vamos a poner lo siguiente:
User-agent: *
Disallow : /privado/
El caracter “*” es usado como comodín para indicar todos los robots, por ejemplo si quisiéramos que solo el robot de Yahoo no ingrese a la carpeta “privado” vamos a poner lo siguiente:
User-agent: Slurp
Disallow : /privado/
Hace bastante tiempo, WordPress (o sus desarrolladores) eran medios torpe y no incluían las meta tags noindex y nofollow en el área de administración y había que decirle al bot que no indexe el login por ejemplo, hoy ya eso no es un problema.
Como dije al principio, el robots.txt depende de que necesitemos y de las preferencias nuestras, por ejemplo a mi no me gusta que se indexe el archivo (2009/03), ni tampoco lo de autor (/author/*), ni las páginas (/page/*).
En el robots.txt también podemos incluir la dirección de nuestro sitemap del modo “Sitemap: http://dominio.com/sitemap.xml”
La orden “Allow” no suele ser muy utilizada, en mi caso la uso si creo algún directorio y quiero que google lo indexe más rápido, o para las categorías, tags e imagenes, aunque a veces no es necesario.
Muchos siguen teniendo en cuenta robots.txt de hace 3 años llenos de código innecesario, mi recomendación es que hagan un robot que sea lo más corto posible, como por ejemplo:
User-agent: *
Disallow:
Sitemap: http://dominio.com/sitemap.xml
Tengan en cuenta que los bots son case sensitive, esto quiere decir que no es lo mismo decirles que un directorio se llama “Privado” o “privado”.
Pueden encontrar información más detallada sobre los robots.txt en la web de los robots.




duda. por que no te gusta que los robots indexen el author, los archivos, la pages?
Porque no sirve de cara al seo y no aporta nada
gracias por el dato Neri
Algunos blogs indexan como tags nombres de autor y cosas asi innecesarias realmente, tambien se ven los casos donde blogs tienen una carpeta ‘/videos’ donde la ruta de los videos son ‘http:sitio.com/videos/talvideo.wmv’ y estos son idexados por google, lo que hace que algunos vivarachos copien la url y roben el ancho de banda del sitio.
Un robot.txt mal configurado podria traer consecuencias catastroficas, asi que gracias por la eplicacion.
“indexe el archivo (2009/03), ni tampoco lo de autor (/author/*), ni las páginas (/page/*).”
Podrias poner un ejemplo de como seria para impedir al robot que visite page, author, archivo. Gracias por adelantado
Roberto, lo podés ver acá http://wordpress-hacks.com/robots.txt
saludos
Algunos blogs indexan como tags nombres de autor y cosas asi innecesarias realmente, tambien se ven los casos donde blogs tienen una carpeta ‘/videos’ donde la ruta de los videos son ‘http:sitio.com/videos/talvideo.wmv’ y estos son idexados por google, lo que hace que algunos vivarachos copien la url y roben el ancho de banda del sitio.Un robot.txt mal configurado podria traer consecuencias catastroficas, asi que gracias por la eplicacion.