Los profetas de la inteligencia artificial (IA) y los medios de comunicación están pronosticando el fin del auge de la IA generativa, con rumores de un inminente colapso catastrófico de los modelos.
Pero, ¿hasta qué punto son realistas estas predicciones? ¿Y qué es exactamente el colapso de modelos?
Debatido en 2023, pero popularizado más recientemente, el «colapso de modelos» se refiere a un escenario hipotético en el que los futuros sistemas de IA se vuelven progresivamente menos eficientes debido al aumento de datos generados por IA en internet.
La necesidad de datos
Los sistemas modernos de IA se construyen utilizando aprendizaje automático. Los programadores diseñan la estructura matemática subyacente, pero la verdadera «inteligencia» proviene de entrenar el sistema para imitar patrones en los datos.
Pero no se trata de cualquier dato. Los sistemas de IA generativa actuales necesitan datos de alta calidad, y en grandes cantidades.
Para obtener estos datos, grandes empresas tecnológicas como OpenAI, Google, Meta y Nvidia rastrean continuamente internet, recopilando terabytes de contenido para alimentar a las máquinas. Sin embargo, desde la llegada de sistemas de IA generativa útiles y ampliamente disponibles en 2022, cada vez más personas están subiendo y compartiendo contenido creado, en parte o en su totalidad, por IA.
En 2023, los investigadores empezaron a preguntarse si podían prescindir de los datos creados por humanos y depender únicamente de los datos generados por IA para el entrenamiento.
Hay grandes incentivos para que esto funcione. Además de proliferar en internet, el contenido creado por IA es mucho más barato que los datos generados por humanos. Además, recolectarlo en masa no presenta problemas éticos ni legales.
Sin embargo, los investigadores descubrieron que sin datos humanos de alta calidad, los sistemas de IA entrenados con datos generados por IA se vuelven cada vez menos eficientes a medida que cada modelo aprende del anterior. Es como una versión digital del problema de la endogamia.
Este «entrenamiento repetitivo» parece llevar a una reducción en la calidad y diversidad del comportamiento del modelo. Calidad aquí se refiere a una combinación de ser útil, inofensivo y honesto. Diversidad se refiere a la variación en las respuestas y a las perspectivas culturales y sociales representadas en las salidas de la IA.
En resumen: al utilizar tanto los sistemas de IA, podríamos estar contaminando la misma fuente de datos que necesitamos para que sean útiles.
Evitar el colapso
¿No pueden las grandes tecnológicas simplemente filtrar el contenido generado por IA? No realmente. Las empresas tecnológicas ya invierten mucho tiempo y dinero en limpiar y filtrar los datos que recopilan, y según un experto de la industria, a veces descartan hasta un 90% de los datos que recogen inicialmente para entrenar los modelos.
Estos esfuerzos podrían volverse aún más exigentes a medida que aumente la necesidad de eliminar específicamente el contenido generado por IA. Pero, lo más importante, es que a largo plazo será cada vez más difícil distinguir el contenido generado por IA. Esto hará que filtrar y eliminar datos sintéticos sea un esfuerzo de rendimiento decreciente (financieramente hablando).
En última instancia, la investigación realizada hasta ahora muestra que simplemente no podemos prescindir por completo de los datos humanos. Después de todo, es de donde proviene la «I» de la IA.
¿Nos dirigimos hacia una catástrofe?
Hay indicios de que los desarrolladores ya están teniendo que esforzarse más para obtener datos de alta calidad. Por ejemplo, la documentación que acompaña al lanzamiento de GPT-4 mencionaba a un número sin precedentes de personal involucrado en las partes relacionadas con los datos del proyecto.
También podríamos estar quedándonos sin nuevos datos humanos. Algunas estimaciones dicen que el conjunto de datos textuales generados por humanos podría agotarse sobre 2026.
Es probable que por eso OpenAI y otros estén compitiendo para asegurar asociaciones exclusivas con gigantes de la industria como Shutterstock, Associated Press y NewsCorp. Estos poseen grandes colecciones de datos humanos propietarios que no están disponibles fácilmente en internet.
Sin embargo, las perspectivas de un colapso catastrófico de modelos podrían estar exageradas. La mayoría de las investigaciones hasta ahora se centran en casos donde los datos sintéticos reemplazan a los datos humanos. En la práctica, es probable que los datos humanos e IA se acumulen en paralelo, lo que reduce la probabilidad de colapso.
El escenario futuro más probable también incluirá un ecosistema de plataformas de IA generativa relativamente diversas que serán utilizadas para crear y publicar contenido, en lugar de un modelo monolítico. Esto también aumentará la robustez frente al colapso.
Es una buena razón para que los reguladores promuevan una competencia saludable limitando los monopolios en el sector de la IA y financien el desarrollo de tecnología de interés público.
Las preocupaciones reales
También existen riesgos más sutiles derivados de un exceso de contenido creado por IA.
Una avalancha de contenido sintético podría no representar una amenaza existencial para el progreso del desarrollo de la IA, pero sí amenaza el bien digital público que representa internet (humana).
Por ejemplo, los investigadores encontraron una disminución del 16% en la actividad en el sitio web de codificación StackOverflow un año después del lanzamiento de ChatGPT. Esto sugiere que la asistencia de IA ya podría estar reduciendo las interacciones entre personas en algunas comunidades en línea.
La hiperproducción de contenido impulsada por IA también está dificultando encontrar contenido que no sea clickbait lleno de anuncios.
Se está volviendo imposible distinguir de manera fiable entre contenido generado por humanos y contenido generado por IA. Un método para remediar esto sería marcar o etiquetar el contenido generado por IA, como yo y muchos otros hemos destacado recientemente, y como se refleja en la legislación provisional del gobierno australiano.
Hay otro riesgo también. A medida que el contenido generado por IA se vuelve sistemáticamente homogéneo, corremos el riesgo de perder diversidad sociocultural, y algunos grupos de personas podrían incluso experimentar una desaparición cultural. Necesitamos urgentemente una investigación interdisciplinaria sobre los desafíos sociales y culturales que plantean los sistemas de IA.
Las interacciones humanas y los datos humanos son importantes, y debemos protegerlos. Por nuestro propio bien, y tal vez también para evitar el posible riesgo de un futuro colapso de modelos.
—
Aaron J. Snoswell es Investigador en Responsabilidad de IA, Universidad Tecnológica de Queensland. Puedes leer el artículo original en inglés aquí.
Este artículo fue publicado originalmente en The Conversation y traducido para Novaceno.