Seleccionar página

¿Qué es un Robots.txt?

Es un archivo público que se crea para organizar el tráfico de los rastreadores en tu página web y también para indicarle a Google que no pase por determinadas páginas.

Hay que tener cuidado con este tipo de archivo ya que por error se pueden dejar de indexar páginas que sí queremos que lo hagan. Normalmente se utiliza para evitar el acceso a determinadas partes del sitio como contenido duplicado, partes privadas, bloquea el acceso a archivos de código…El robot.txt se puede crear en un bloc de notas normal.

Para saber si tienes creado este archivo debes incluir /robots.txt al final de tu dominio. Por ejemplo si tu dominio es https://jordi-puig.com/ debes incluir https://jordi-puig.com/robots.txt.

Los comandos más importantes son:

  • Disallow: no permite el acceso a un directorio o página.
  • Allow: permite el acceso a una web en concreta ( ej: Agencia Marketing Digital Terrassa) o directorio
  • User- agent: indica el tipo de robot que debe de cumplir las órdenes que se le indican a continuación.
  • Crawl -delay: es el número de segundos que los robots deben de esperar entre cada página.

Los comodines que se utilizan para indicar órdenes a los robots son:

  • *: indica todos en una secuencia. Ejemplo User agent * significa todos los directorios.
  • $: indica cualquier archivo que termine con esa extensión. Ejemplo: .css$ expresa todos los archivos que terminan en .css.

No hay que olvidar que este archivo es público por lo que puede acceder cualquier tipo de personas. Así que no lo utilices para ocultar información privada.

¿Tienes dudas?

Si tienes alguna duda, ponte en contacto conmigo y te resolveré todos los problemas.