como entrenar GPT-4

OpenAI transcribió miles de videos de YouTube para entrenar GPT-4

OpenAI, desesperado por obtener datos de entrenamiento, desarrolló (supuestamente) un modelo de transcripción que usó para transcribir más de un millón de horas de videos de YouTube para entrenar GPT-4. El presidente de OpenAI, Greg Brockman, participó personalmente en la recopilación de los vídeos que se utilizaron, escribe The New York Times.

No es novedad que las empresas de inteligencia artificial lo tienen muy dificil a la hora de recopilar datos de entrenamiento de alta calidad. Ello implica hacer cosas que a veces caen en el área gris y confusa de la Ley de derechos de autor de IA.

La portavoz de OpenAI, Lindsay Held, dijo a The Verge en un correo electrónico que la empresa selecciona conjuntos de datos «únicos» para cada uno de sus modelos, usando «numerosas fuentes, incluidos datos disponibles públicamente y asociaciones para obtener datos no públicos», y que están estudiando la posibilidad de generar sus propios datos sintéticos.

Un artículo del Times dice que la compañía agotó los suministros de datos útiles en 2021 y valoró la transcripción de videos, podcasts y audiolibros de YouTube después de analizar otros recursos. Para entonces, había entrenado sus modelos con datos que incluían código informático de Github, bases de datos de movimientos de ajedrez y contenido de tareas escolares de Quizlet. El portavoz de Google, Matt Bryant, dijo a The Verge en un correo electrónico que la compañía ha «visto informes no confirmados» de la actividad de OpenAI, y agregó que «tanto nuestros archivos robots.txt como nuestros Términos de servicio prohíben la extracción o descarga no autorizada de contenido de YouTube». Bryant dijo que Google está tomando «medidas técnicas y legales» para evitar dicho uso no autorizado.

Todo «no» vale para entrenar GPT-4

Google también recopiló transcripciones de YouTube, según fuentes del Times. Bryant dijo que la compañía ha entrenado a sus modelos “en algunos contenidos de YouTube, de acuerdo con nuestros acuerdos con los creadores de YouTube”.

El Times escribe que el departamento legal de Google pidió al equipo de privacidad de la compañía que modificara el lenguaje de su política para ampliar lo que podía hacer con los datos de los consumidores.

Google, OpenAI y el mundo del entrenamiento de IA en general están luchando con datos de entrenamiento que se evaporan rápidamente para sus modelos, que mejoran cuanto más datos absorben. Ignorar políticas corporativas para asegurarse poder obtener datos de cualquier repositorio con posibilidades ha pasado a ser una prioridad tan elevada, que justifica prácticamente todo.

Las dimensiones son tan absolutamente desmesuradas, que algunas compañías están comenzando a utilizar los denominados datos sintéticos, es decir, datos obtenidos de otros algoritmos, para alimentar con ellas los suyos. Estamos en una fase de «todo vale» en la que lo único que importa es que el algoritmo resultante parezca tener una cierta calidad, sin entrar demasiado en detalles.

Fuente; bit.ly/3UaRaSw

Related posts