
Daniel Jackson, informático del Instituto Tecnológico de Massachusetts, afirma que el enfoque de Reflection parece prometedor dado el mayor alcance de su recopilación de información. Sin embargo, asegura Jackson, aún están por verse los beneficios del enfoque, ya que la encuesta de la empresa no es suficiente para convencerle de sus amplias ventajas. Señala que el enfoque también podría aumentar los costos de cálculo y crear potencialmente nuevos problemas de seguridad: “Sería leer todos esos mensajes privados”.
Reflection defiende que el enfoque multiagente minimiza los costos de computación y que hace uso de un entorno seguro que proporciona más seguridad que algunas herramientas SaaS (Software como Servicio) convencionales.
Un agente que no se entrena de datos ajenos
En Nueva York, WIRED se reunió con Ioannis Antonoglou, director técnico de la empresa. Su experiencia en el entrenamiento de modelos de IA para razonar y jugar se está aplicando para que construyan código y realicen otras tareas útiles. Como ingeniero fundador de Google DeepMind, Antonoglou realizó una investigación pionera sobre una técnica conocida como aprendizaje por refuerzo, que se utilizó sobre todo para crear AlphaGo, un programa que aprendió a jugar al antiguo juego de mesa Go a un nivel sobrehumano.
El aprendizaje por refuerzo, que consiste en entrenar un modelo de inteligencia artificial a través de la práctica combinada con retroalimentación positiva y negativa, ha saltado a los titulares en los últimos años porque ofrece una forma de entrenar un LLM para que produzca mejores resultados. Combinado con la formación humana, el aprendizaje por refuerzo puede entrenar a un LLM para que ofrezca respuestas más coherentes y agradables a las consultas. Con formación adicional, el aprendizaje por refuerzo ayuda a un modelo a aprender a realizar una especie de razonamiento simulado, mediante el cual los problemas complicados se dividen en pasos para poder abordarlos con mayor eficacia. Asimov utiliza actualmente modelos de código abierto, pero Reflection está empleando el aprendizaje por refuerzo para entrenar modelos personalizados que, según afirma, “rinden aún mejor”. En lugar de aprender a ganar a un juego como el Go, el modelo aprende a construir un software acabado. Aprovechar más datos de toda la empresa debería. Reflection utiliza datos de anotadores humanos y también genera sus propios datos sintéticos. No se entrena con datos de clientes.
Las grandes empresas de IA ya utilizan el aprendizaje por refuerzo para ajustar los agentes. Por ejemplo, una herramienta de OpenAI llamada Deep Research, utiliza los comentarios de humanos expertos como señal de aprendizaje por refuerzo que enseña a un agente a rastrear páginas web en busca de información sobre un tema antes de generar un informe detallado.
“Creamos algo parecido a Deep Research, pero para sus sistemas de ingeniería. Hemos visto que en los grandes equipos de ingeniería, muchos de los conocimientos se almacenan fuera de la base de código”, afirma Antonoglou, señalando que el entrenamiento en algo más que código proporciona una ventaja. Stephanie Zhan, socia de la firma de inversión Sequoia, que respalda Reflection, sugiere que la startup “mantiene el mismo nivel que los laboratorios de alta categoría”.
El camino hacia la superinteligencia
Ahora que el sector de la IA aspira a la superinteligencia y que empresas con grandes recursos como Meta están invirtiendo grandes sumas en contratación y construcción de infraestructuras, es posible que a las empresas emergentes como Reflection les resulte más difícil competir.
Preguntamos a los responsables de Reflection cómo sería el camino hacia una inteligencia más avanzada. Creen que un agente cada vez más inteligente se convertiría en un oráculo del conocimiento institucional y organizativo de las empresas. Debería aprender a construir y reparar software de forma autónoma. Con el tiempo, inventaría nuevos algoritmos, hardware y productos de forma autónoma.
El siguiente paso más inmediato podría ser menos grandioso. “Hemos hablando con clientes que empiezan a preguntarnos: ‘¿Nuestro personal técnico de ventas o nuestro equipo de asistencia técnica pueden utilizar esto?'”, concluye Laskin.
Artículo originalmente publicado en WIRED. Adaptado por Alondra Flores.