Definición de arañas y rastreadores web

Abadía de Senanque en Provenza con campos de lavanda

Las arañas, a las que se puede hacer referencia como rastreadores web, son programas (o scripts automatizados) que “rastrean” a través de la web en busca de datos. las arañas viajan a través de las URL del sitio web y pueden extraer datos como direcciones de correo electrónico de páginas web. también se utilizan para alimentar información que se encuentra en sitios web a motores de búsqueda. tenga en cuenta, sin embargo, que no todos ellos son amigables en su intención.

cómo los spammers usan arañas

google, yahoo! y otros motores de búsqueda no son los únicos interesados ​​en rastrear sitios web, también lo son los estafadores y los spammers.

los spammers utilizan las arañas y otras herramientas automatizadas para buscar direcciones de correo electrónico en sitios web (una práctica a menudo denominada “recolección”) y las utilizan para crear listas de spam.

Los motores de búsqueda también utilizan las arañas para obtener más información sobre su sitio web, pero sin instrucciones o “permisos” sobre cómo rastrear su sitio, puede presentar importantes riesgos de seguridad de la información. viajan siguiendo enlaces y son muy hábiles para encontrar enlaces a bases de datos, archivos de programas y otra información a la que no desea que accedan.

los webmasters pueden ver registros para ver qué arañas y otros robots han visitado sus sitios. Esta información ayuda a los webmasters a saber quién indexa su sitio, con qué frecuencia, y les permite ajustar su SEO y actualizar los archivos robot.txt para prohibir que ciertos robots rastreen su sitio en el futuro.

consejos para proteger su sitio web de rastreadores de robots no deseados

incluso si no le preocupan las arañas maliciosas que rastrean su sitio, debe proporcionar instrucciones importantes a los motores de búsqueda. Todos los sitios web deben tener un archivo ubicado en el directorio raíz llamado archivo robots.txt que le permita indicar a los rastreadores web dónde desea que busquen las páginas de índice si son un motor de búsqueda.

así como puede decirle a los rastreadores buscados dónde desea que naveguen, también puede decirles dónde no pueden ir e incluso bloquear rastreadores específicos de todo su sitio web.

Es importante tener en cuenta que un archivo robots.txt bien preparado tendrá un gran valor para los motores de búsqueda y podría ser un elemento clave para mejorar el rendimiento de su sitio web, pero algunos rastreadores de robots aún ignorarán sus instrucciones. Por eso es importante mantener siempre actualizado todo su software, complementos y aplicaciones.

artículos e información relacionados

Debido a la prevalencia de la recolección de información utilizada con fines malvados, la legislación se aprobó en 2003 para hacer que ciertas prácticas sean ilegales. Estas leyes de protección al consumidor se enmarcan en la ley Can-Spam de 2003.

tómese el tiempo para leer sobre la ley de correo no deseado si su empresa participa en algún envío masivo o recolección de información. Puede obtener más información sobre las leyes contra el correo no deseado, cómo tratar con los spammers y lo que usted como propietario de un negocio no puede hacer, leyendo los siguientes artículos:

  • Can-Spam Act 2003
  • Reglas de la ley Can-Spam para organizaciones sin fines de lucro
  • 5 reglas de correo no deseado que los propietarios de pequeñas empresas deben comprender