Tabla de contenidos
Que Es El Archivo robots.txt ?
Es un fichero de texto que mediante una determinada sintaxis recomienda a los buscadores que deben y que no deben indexar. En todo sitio web existen URLs que por determinadas razones no son convenientes de indexar, mediante este fichero no indexarlas es posible.
Lo primero que hacen las arañas de los buscadores al llegar a tu sitio es buscar el archivo robots.txt. En función de lo que diga en el archivo lo indexará o no.
«Lo primero que hacen las arañas de los buscadores al llegar a tu sitio es buscar el archivo robots.txt. En función de lo que diga en el archivo lo indexará o no.»
No solo puedes impedir que sean indexadas algunas de tus paginas, sino que tambien puedes denegar el acceso a algún buscador. Veremos como hacer todo esto mas adelante.
Como Crear Archivo robots.txt ?
Existen varias formas de crearlo, pero yo prefiero hacerlo de manera manual. Basta con crear un archivo de texto (.txt) y nombrarlo robots.txt (con minuscula). Una vez que hayamos escrito lo necesario en dicho fichero debemos subirlo al servidor de nuestra web.
Resumen De Comandos Para Crear Archivo robots.txt
Los comandos más importantes a la hora de crear un robotsa.txt son:
- User-agent – Indica qué tipo de robot debe cumplir con las directivas que se indiquen a continuación.
- Disallow – Deniega el acceso a un directorio o página concreta.
- Allow – Funciona al contrario que la directiva Disallow, permitiendo el acceso a directorios y páginas. Se puede utilizar para sobrescribir la directiva Disallow parcial o totalmente.
- Sitemap – Indicar la ruta donde se encuentra un mapa del sitio en XML.
Adicionalmente, puedes utilizar comodines para aumentar o reducir la concordancia:
- Asterisco (*) – Vale por una secuencia cualquiera de caracteres. Por ejemplo, todos los directorios que empiezan por “privado” serían “/privado*/”
- Dólar ($) – Indica el final de una URL. Por ejemplo, para indicar cualquier archivo que acabe con la extensión .php se utilizaría “/*.php$”.
Sus Funciones Principales
Luego de estudiar los comandos principales dejemos en claro las funciones principales del robots.txt:
- Bloquear que cierto contenido sea indexado por los buscadores.
- Bloquear algunos bots maliciosos y abusivos.
- Impedir que seamos perjudicados por los buscadores al indexar contenido duplicado (principalmente en gestores de contenido como WordPress).
- Indicar la localización de los mapas del sitio en XML, esto permitirá acelerar el proceso de indexacion de toda la web
1. Como Bloquear Indexación De Contenido
El evitar que ciertas páginas y directorios de tu sitio sean accesibles a los buscadores es una de las funciones mas aprovechadas del robots.txt. Esto es posible gracias al comando Disallow. Un directorio que no necesita ser indexado (en WordPress) es el /wp-login/. Bastaría con escribir los siguiente para que no sea indexado.
Disallow: /wp-login/
Asi como con ese directorio puedes hacerlo con todos los que desees que no sean indexados.
2. Como Bloquear Bots Maliciosos (BadBots)
Para quien no sepa un robot o bot, es una aplicación que se dedica a acceder recursos y que tiene un comportamiento programado. Un ejemplo de ellos es el buen bot de Google (Googlebot), pero también existen bots malos (bad bots) que tienen un comportamiento abusivo dentro de tu sitio web.
Te enseñare como bloquear con el robots.txt estos bad bots, aunque tengo una mala noticia, ellos son famosos por no seguir las directrices que se les especifica. Es decir trataremos de bloquerlo, pero no es 100% seguro.
El comando que usaremos para indicar qué tipo de robot debe cumplir con las directivas es el User-agent. EL bloque de los Bad bots se pude hacer de dos maneras:
- Hacer una lista blanca de bots, denegando el acceso a los demás bots no incluidos en la lista. Los comandos serian los siguientes:
User-agent: Googlebot User-agent: Bingbot Disallow: User-agent: * Disallow: /
Con las primeras 3 lineas de comandos damos acceso a los robots Googlebot y Bingbot (arañas de Google y Bing) a todo el sitio. Mientras que con las ultimas dos lineas denegamos acceso a todo nuestro sitio a los demás bots.
- Dar acceso a todos los bots e individualizar los bad bots que querríamos bloquear.
User-agent: * Disallow: User-agent: WebCopier Disallow: / User-agent: Fetch Disallow: /
En este caso con las primeras dos lineas damos acceso a todo el sitio a cualquier bot. Luego denegamos acceso a dos bad bots que son WebCopier y Fetch.
Aqui te dejo acceso a una web que contiene un listado de bots maliciosos Listado de BadBots.
3. Como Impedir Indexacion De Contenido Duplicado
Nunca fue tan fácil crear un blog como desde que existen los gestores de contenido (CMS), pero uno de sus puntos flojos son la cantidad de contenido duplicado que crean. Cuando publique este articulo este se publicara en la home, las categorías, en la pagina de autor, en su url, etc. Cada de una de esas publicaciones se harán bajo una url distinta generando grandes cantidades de contenido duplicado. Esto no le gusta para nada a los a los buscadores.
Nunca fue tan facil crear un blog como desde que se crearon los gestores de contenido (CMS), pero uno de sus puntos flojos son la cantidad de contenido duplicado que crean.
En WordPress eliminando de la indexacion directorios como /category/, /page/, /trackback/ es mucho el contenido duplicado que estarás eliminando de la indexación.
4. Como Indicar la localización de los mapas del sitio en XML
Esto es mas que fácil, si ya has creado un sitemap solo tienes que conocer la url del mismo y escribir la siguiente linea de comando. Por si no sabes como crear un sitemap lee este articulo–> Como Crear Sitemap En WordPress
Sitemap: https://luisforgiarini.com/sitemap_index.xml
Es de vital importancia que coloques el sitemap en tu robots.txt, esto acelerará el proceso de indexacion de tu web.
Ejemplo robots.txt Para WordPress
Aqui te dejo un robots.txt ejemplo que puedes utilizar para tu wordpress, recuerda copiarlo tal cual esta. Respeta las mayúsculas/minúsculas, la puntuación y los espacio, separando cada grupo (User-agent/Disallow) con una linea en blanco.
User-agent: * Disallow: /wp-login/ Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /wp-content/cache/ Disallow: /wp-content/themes/ Disallow: /*/feed/ Disallow: /*/trackback/ Disallow: /trackback/ Disallow: /tag/ Disallow: /category/*/* Disallow: /*/attachment/ Disallow: /author/ Disallow: /*/page/ Disallow: /feed/ Disallow: /tag/*/page/ Disallow: /tag/*/feed/ Disallow: /page/ Disallow: /comments/ Disallow: */comments/ Disallow: /*? Disallow: /xmlrpc.php Disallow: /*?s= Disallow: /*/*/*/feed.xml/ Disallow: /?attachment_id* Allow: /wp-content/uploads/ Sitemap: https://luisforgiarini.com/sitemap_index.xml
Verificación De Correcto Funcionamiento
Una vez creado tu robots.txt puedes verificar su correcto funcionamiento en Search Console de Goolge. Para ello debes dirigete a Rastreo –.Probador de robots.txt. Como es obvio para usarla debes tener tu cuenta de Search Console ya creada, con tu sitio agregado en ella.

Una vez cargados los comandos de robots.txt puedes comprobar si los directorios y paginas son bloqueados correctamente (solo para bots de Google).
Bueno eso ha sido todo sobre el tema. Espero que te sea de utilidad, y de ser asi deja un comentario y compártelo!! 🙂
Saludos!!
Pingback: Como Indexar Una Pagina En Google Rápidamente - LuisForgiariniBlog