Blog

La inteligencia artificial roba  datos y contenido de aquí y de allá

La inteligencia artificial colecciona datos y contenido de donde haga falta

La inteligencia artificial está transformando la forma en que las personas acceden a la información en internet. En este sentido, cada vez se utilizan motores como ChatGPT, Géminis, o Claude, para encontrar contenido.

Pero, ¿cómo se alimenta a la bestia?

Estas inteligencias artificiales se alimentan esencialmente de información publicada en diferentes portales.

Artículos, hojas de productos, guías, páginas corporativas, blogs de distintas temáticas... son los sitios web preferidos por las empresas de AI. 

En este sentido, entendemos perfectamente la preocupación de particulares y empresas, "víctimas" de los raspadores de IA, que obtienen contenido sin permiso, ni consideraciones éticas o legales.

Incluso si los administradores bloquean a los bots de esas empresas, mediante el archivo robots.txt, o controles de acceso API, para que no visiten sus sitios.

cómo bloquear los robots de raspado de IA en su archivo robots.txt

Ejemplo de cómo intentar bloquear los robots de raspado de IA mediante el archivo robots.txt.

Sin este contenido estructurado, accesible, y muchas veces referenciado, ninguna IA puede generar una respuesta relevante, y la mayoría de las veces, son los propietarios de estos sitios quienes hacen el trabajo sin recibir nada a cambio.

Algo parecido a pagar una fiesta a la que no estás invitado.

Incluso algunos afirman que vampirizan datos sin respetar los derechos de autor.

Para intentar evitar este expolio, algunas empresas y creadores de contenido, trabajan con compañías como Cloudflare para cortar los llamados rastreadores que leen e ingieren su contenido.

En el caso de Google, sin embargo, eso no parece ser una opción viable, ya que el rastreador de IA de la compañía, es el mismo que utiliza para mostrar los resultados de búsqueda.

Si alguien intenta evitar que la máquina de inteligencia artificial de Google rastree su contenido, es muy posible, que tenga problemas a la hora de indexar su página web en este motor de búsqueda.

Aunque hay vida fuera de Google, todavía sigue siendo el buscador mayoritario (representa entre el 25% y el 30% de las visitas), por lo que cortar los rastreadores de la compañía de California, puede llegar ser financieramente inviable para los portales y empresas que viven de la publicidad.

Pero Google no es el único malo de la película

Por su parte, Meta afirma que su IA generativa está diseñada para “ayudar a las personas a resolver problemas complejos, ser más imaginativos y crear algo nunca antes visto”.

Para lograr esto, Meta utiliza una gran cantidad de datos para entrenar sus modelos, provenientes de información en línea disponible públicamente, datos con licencia, y  el contenido que los usuarios comparten en sus plataformas.

Incluso las personas que no tienen cuentas de Meta podrían ver su información procesada por la IA de la compañía, si aparecen en imágenes o publicaciones compartidas por terceros.

Meta reconoce: “Incluso si no utiliza nuestros Productos y servicios o tiene una cuenta, aún podemos procesar información sobre usted”.

Si bien con las protecciones GDPR, podemos evitar que Meta use directamente nuestros datos, no hay nada que hacer si estos aparecen en publicaciones de terceros, o en sitios de acceso público.

¿Conclusión?

A los creadores de contenido no les quedará otra que considerar la aplicación de tácticas más agresivas para proteger su propiedad digital, como la contratación de perros guardianes virtuales, la instalación de minas terrestres de contenido, o la escritura de artículos tan terribles, que incluso los sistemas de inteligencia artificial más desesperados salgan por patas.

En el caso de las personas (ellos nos llaman usuarios) la única solución es regresar al siglo XIX.

© 2019 - 2025 Infosegur.net

Contenido bajo una licencia de Creative Commons 4.0