
Un nuevo tipo de gran modelo de lenguaje (LLM), desarrollado por investigadores del Allen Institute for AI (Ai2), permite controlar cómo se utilizan los datos de entrenamiento incluso después de construir el modelo.
El nuevo modelo FlexOlmo, podría poner en entredicho el paradigma actual de las grandes empresas de inteligencia artificial, que absorben datos de internet, libros y otras fuentes, a menudo sin tener en cuenta su propiedad intelectual, y luego se apropian por completo de los modelos resultantes. Hoy en día, una vez que los datos se incorporan a un modelo de IA, extraerlos de ese modelo es un poco como intentar recuperar los huevos de un pastel ya terminado.
“Convencionalmente, los datos están dentro o fuera. Una vez que entren esos datos, pierdes el control. Y no tienes salida, a menos que me obligues a pasar por otra ronda multimillonaria de formación”, explica Ali Farhadi, CEO de Ai2, con sede en Seattle, Washington.
Ai2 defiende que los autores intelectuales mantengan el control
Quienes quieran aportar datos a un modelo FlexOlmo pueden hacerlo copiando primero un modelo compartido públicamente conocido como “anchor”. A continuación, entrenan un segundo modelo con sus propios datos, combinan el resultado con el modelo de anclaje y devuelven el resultado a quien esté construyendo el tercer y último modelo.
Contribuir de este modo significa que nunca hay que entregar los datos. Y como el modelo del propietario de los datos se combina con el modelo final, es posible extraer los datos más adelante. Por ejemplo, un editor de revistas puede aportar texto de su archivo de artículos a un modelo, pero eliminar más tarde el submodelo entrenado con esos datos si hay un litigio legal o si la empresa se opone a cómo se está utilizando un modelo.
“La formación es totalmente asíncrona. Los propietarios de los datos no tienen que coordinarse, y la generación puede hacerse de forma completamente independiente”, explica Sewon Min, investigador científico de Ai2 que dirigió el trabajo técnico.
La arquitectura del modelo FlexOlmo es lo que se conoce como una “mezcla de expertos”, un diseño popular que normalmente se utiliza para combinar simultáneamente varios submodelos en uno mayor y más capaz. La innovación clave de Ai2 es una forma de fusionar submodelos que se entrenaron de forma independiente. Para ello se utiliza un nuevo esquema de representación de los valores de un modelo, de modo que sus capacidades puedan fusionarse con las de otros cuando se ejecute el modelo combinado final.
Para probar este método, los investigadores de FlexOlmo crearon un conjunto de datos que denominan Flexmix a partir de fuentes propias, como libros y sitios web. Utilizaron el diseño de FlexOlmo para construir un modelo con 37,000 millones de parámetros, aproximadamente una décima parte del mayor modelo de código abierto de Meta. A continuación, compararon su modelo con varios otros. Comprobaron que superaba a cualquier modelo individual en todas las tareas y que, además, obtenía un 10% más de puntos de referencia comunes que otros dos métodos de fusión de modelos entrenados de forma independiente.