
Databricks, una empresa que ayuda a las gigantes tecnológicas a crear modelos de IA personalizados, ha desarrollado un truco de aprendizaje automático que puede aumentar el rendimiento de un modelo generativo sin necesidad de datos etiquetados o brutos. Durante un año, Jonathan Frankle, científico jefe de IA en Databricks, habló con los clientes sobre los principales retos para conseguir que los sistemas de inteligencia artificial funcionen de forma fiable. Según él, el problema son los “datos sucios”.
“Todo el mundo tiene algunos datos y una mínima idea de lo que quiere hacer”, reitera Frankle. Añade que nadie ofrece datos claros y precisos que puedan introducirse en un prompt (instrucción) o en una interfaz de programación de aplicaciones para un modelo. El modelo de Databricks podría permitir a las empresas desplegar agentes de IA para tareas específicas sin que la calidad de los datos sea un obstáculo.
Una mezcla para reproducir mejores datos
La técnica ofrece una visión poco usual de los trucos clave que los ingenieros usan para mejorar las capacidades de los modelos avanzados de inteligencia artificial, especialmente cuando es difícil conseguir buenos datos. El método combina las ideas producidas por modelos de razonamiento avanzados con el aprendizaje por refuerzo, una forma de mejorar la práctica con datos de entrenamiento “sintéticos” o generados por la IA.
Los últimos modelos de OpenAI, Google y DeepSeek se basan en gran medida en el aprendizaje por refuerzo y en datos de entrenamiento sintéticos. WIRED reveló que Nvidia planea adquirir Gretel, una empresa especializada en datos sintéticos. “Todos estamos navegando por este espacio”, afirma Frankle.
El método de Databricks aprovecha el hecho de que, con suficientes intentos, incluso un modelo débil puede obtener una buena puntuación en una determinada tarea o referencia. Los investigadores llaman a este método de mejorar el rendimiento de un modelo “best-of-N” (mejor de N). Databricks entrenó a un modelo para predecir qué resultado preferirían los evaluadores humanos. El modelo de recompensa de Databricks (DBRM) puede utilizarse para mejorar el rendimiento de otros modelos sin necesidad de más datos etiquetados.
El DBRM selecciona los mejores resultados de un modelo determinado. Así, se crean datos de entrenamiento sintéticos que permiten afinar el modelo para que produzca mejores resultados a la primera. Databricks denomina a su nuevo método “Test-time Adaptive Optimization” (TAO), u Optimización adaptativa en tiempo de prueba. “Este método utiliza un aprendizaje por refuerzo relativamente ligero para incorporar las ventajas de la optimización adaptativa en el propio modelo”, explica Frankle.
La investigación realizada por Databricks demuestra que el método TAO mejora a medida que se amplía a modelos más grandes y capaces. El aprendizaje por refuerzo y los datos sintéticos ya se utilizan ampliamente, pero combinarlos para mejorar los grandes modelos de lenguaje (LLM) es una técnica relativamente nueva y técnicamente difícil.
Databricks es inusualmente abierta sobre cómo desarrolla la IA, porque quiere demostrar a los clientes que tiene las habilidades necesarias para crear potentes modelos personalizados para ellos. En el pasado, la empresa reveló a WIRED cómo desarrolló DBX, un modelo avanzado de lenguaje de código abierto (LLM) desde cero.
El futuro de TAO es brillante
Sin datos bien etiquetados y cuidadosamente conservados, es difícil ajustar un LLM para realizar tareas específicas con mayor eficacia, como analizar informes financieros o historiales médicos para encontrar patrones o identificar problemas. Muchas empresas esperan ahora utilizar los LLM para automatizar tareas con los llamados agentes de IA.
Por ejemplo, un agente utilizado en finanzas podría analizar los principales resultados de una empresa, generar un informe y enviarlo automáticamente a distintos analistas. Otro contexto en el que sería útil un agente es en la industria de los seguros de salud, orientando a los clientes con información sobre un fármaco o una enfermedad relevante.