El panorama de la formación en inteligencia artificial (IA) está experimentando un cambio significativo a medida que los dominios web restringen cada vez más el acceso a sus datos. Un nuevo informe titulado «Consent in Crisis: The Rapid Decline of the AI Data Commons», dirigido por Shayne Longpre y un equipo de colaboradores, destaca los crecientes desafíos a los que se enfrentan los desarrolladores de IA debido a estas restricciones. Realizado a lo largo de un año, de 2023 a 2024, el estudio examina cómo están evolucionando las preferencias de consentimiento de los dominios web y las implicaciones para los corpus de entrenamiento de IA.

El informe  se basan en una auditoría de 14.000 dominios web, centrada en sus políticas sobre rastreadores web y uso de datos de IA. Realizado por un equipo de investigadores, el estudio se basó en la necesidad de comprender la dinámica cambiante de la accesibilidad y el consentimiento de los datos web. La auditoría reveló un aumento significativo de las cláusulas específicas de la IA que limitan el uso de datos y las incoherencias entre las condiciones de servicio de los sitios web y sus archivos robots.txt. Este cambio es indicativo de problemas más amplios con los protocolos web existentes, que no fueron diseñados para gestionar la reutilización masiva de datos de Internet para el entrenamiento de IA.

Proliferación de restricciones

Los resultados del estudio indican una rápida proliferación de restricciones en los rastreadores web utilizados para el desarrollo de IA. En sólo un año, alrededor del 5% de los tokens de los principales corpus de entrenamiento de IA, como C4, RefinedWeb y Dolma, han pasado a estar restringidos debido a cambios en los archivos robots.txt. Entre las fuentes mantenidas más activamente, esta cifra se eleva al 28%. Además, el 45% de C4 está ahora restringido por acuerdos de términos de servicio. Si estas restricciones se respetan o se hacen cumplir, podrían sesgar significativamente la diversidad, frescura y escalabilidad de los sistemas de IA de propósito general.

Hallazgos

Las conclusiones revelan un rápido aumento de las restricciones en el uso de datos de IA procedentes de dominios web. Los puntos clave incluyen:

  • Alrededor del 5% de los tokens de los principales corpus de entrenamiento de IA, como C4, RefinedWeb y Dolma, se han restringido debido a cambios en los archivos robots.txt, y el 45% de los tokens de C4 están restringidos por acuerdos de términos de servicio.
  • Las incoherencias entre los archivos robots.txt y los documentos de condiciones de servicio indican la ineficacia de los protocolos web actuales para comunicar el consentimiento.
  • Las restricciones están provocando un sesgo potencial en los datos de entrenamiento de IA, reduciendo la diversidad y la frescura.

Inconsistencias e Ineficiencias

Un hallazgo significativo del informe es la inconsistencia entre los archivos robots.txt y los documentos de Términos de Servicio. Estas discrepancias apuntan a ineficiencias en los protocolos web actuales para comunicar las preferencias de consentimiento. Por ejemplo, los rastreadores de OpenAI enfrentan restricciones más significativas en comparación con los de otros desarrolladores de IA, lo que resalta la necesidad urgente de mecanismos más efectivos para gestionar el uso de datos web.

Impacto en los Datos de Entrenamiento de IA

El estudio indica que las crecientes restricciones están remodelando el panorama de los datos de entrenamiento de IA. Los dominios web más frecuentemente accedidos, que contribuyen con la mayoría de los tokens a los corpus de IA, incluyen noticias, enciclopedias y sitios de redes sociales. Estas fuentes son más propensas a tener contenido generado por usuarios, elementos multimedia y contenido monetizado. A medida que crecen las restricciones, los datos de entrenamiento de IA pueden volverse menos representativos de la web actual, inclinándose hacia contenido más antiguo y menos diverso.

Desajuste Entre los Usos de IA y los Datos de Entrenamiento

El informe también destaca un desajuste entre los tipos de datos web utilizados para el entrenamiento de IA y las aplicaciones del mundo real de la IA conversacional. Mientras que una porción significativa de los datos de entrenamiento proviene de sitios de noticias, las interacciones de los usuarios con sistemas de IA como ChatGPT a menudo involucran escritura creativa, lluvia de ideas y solicitudes de información general. Estas áreas están menos representadas en los datos derivados de la web, lo que podría afectar el rendimiento y la alineación de los modelos de IA con las expectativas de los usuarios.

Tendencias Futuras y Desafíos

Las previsiones del estudio sugieren una continua disminución en las fuentes de datos web abiertas. Para abril de 2025, se espera que un 2-4% adicional de los tokens de C4, RefinedWeb y Dolma se vuelvan restringidos. Esta tendencia subraya la necesidad urgente de mejores protocolos para gestionar el consentimiento de datos web. Sin mecanismos mejorados, la disponibilidad de datos de entrenamiento de alta calidad disminuirá, planteando desafíos significativos para la escalabilidad y las capacidades de los modelos de IA futuros.

Conclusión

El rápido declive de los datos comunes de IA presenta desafíos sustanciales para el desarrollo de IA. A medida que los dominios web restringen cada vez más el acceso a sus datos, la diversidad y frescura de los datos de entrenamiento de IA están en riesgo. Las inconsistencias en los mecanismos de consentimiento complican aún más el problema, destacando la necesidad de protocolos mejorados para gestionar el uso de datos web. Abordar estos desafíos es crucial para garantizar el avance continuo y el uso ético de las tecnologías de IA.