Por qué Apple sigue dudando sobre lanzar unos AirPods con cámara

Si hubiera que poner en entredicho las credenciales de privacidad de Apple con un solo movimiento, no habría nada peor que lanzar unos AirPods con cámara. Independientemente de si llegan al mercado o no, todos los audífonos inalámbricos de Apple, generarían la misma duda: ¿Me están grabando ahora mismo?

Según Mark Gurman, una fuente fiable de Bloomberg, Apple ha diseñado unos AirPods con cámara para que Siri pueda “ver” el entorno del usuario. Se encuentran en las últimas fases de prueba con empleados de Apple como parte de una iniciativa para impulsar el desarrollo de dispositivos con IA.

Sin embargo, una fuente que pidió permanecer en el anonimato por no estar autorizada a hablar públicamente sobre el tema, declaró a WIRED que es probable que Apple retrase el lanzamiento de los AirPods con cámara. Si bien el hardware está listo, la inteligencia visual de Siri aún no está a la altura. A los ejecutivos de Apple también les preocupa que la compañía esté introduciendo un riesgo significativo para la privacidad con las cámaras de los audífonos sin casos de uso convincentes. Apple no respondió de inmediato a la solicitud de comentarios de WIRED.

Esto nos lleva a la pregunta principal: ¿Qué ventajas buscaría Apple al añadir cámaras a sus AirPods, especialmente en un momento en que la preocupación de los consumidores por la privacidad y la vigilancia informal a través de las cámaras de las gafas inteligentes, los timbres con cámara e incluso las cámaras de los teléfonos está en aumento?

Navegación, compras y una Siri más inteligente

Según Bloomberg, estos AirPods tienen vástagos más grandes para albergar cámaras de baja resolución; funcionan como los ojos de Siri, proporcionando contexto visual para las peticiones habladas. No están diseñados para capturar fotos y videos, como las gafas inteligentes. Algunos casos de uso mencionados en el informe incluyen la navegación basada en puntos de referencia y la identificación de alimentos para facilitar las compras en el supermercado.

“La localización mediante visión artificial es la opción más obvia. Debe ser una experiencia muy pasiva, y por eso creo que usarla para mejorar la precisión de la ubicación y corregir el GPS tiene sentido”, afirma Anshel Sag, analista principal de Moor Insights & Strategy. Google también está utilizando cámaras en sus próximas gafas inteligentes para comprender la orientación del usuario al usar la navegación a pie con Google Maps.

Otras posibles funciones resultarán familiares para cualquiera que esté al tanto de las últimas novedades en gafas inteligentes. A Peter Richardson, vicepresidente de Counterpoint Research, le gusta la idea de pararse frente al refrigerador y preguntarle al asistente de IA qué preparar para la cena, como ejemplo de cómo los datos de múltiples dispositivos podrían trabajar en conjunto.

“Eso requiere información visual. Hay mucho contexto: ¿Es mitad de semana? ¿Tengo entrenamiento por la mañana? ¿Es viernes y me apetece tomar una copa de vino? ¿Vienen mis amigos?”, explica Richardson. De forma similar, combinados con el Apple Watch, los datos visuales podrían hacer que Siri sea más intuitiva. “Si estoy en la estación de Paddington corriendo, puede que llegue tarde al tren, así que mejor no me llames”, explica.

Como ocurre con muchos dispositivos portátiles de nicho, también existen algunas aplicaciones interesantes en materia de accesibilidad. 9to5mac sugiere que una Siri omnisciente a través de los AirPods, posiblemente con capacidades infrarrojas, podría mejorar las funciones de Image Explorer y VoiceOver de Apple para usuarios con discapacidad visual. En todos estos casos, una información clave que aún desconocemos es si las cámaras estarían orientadas hacia adelante o hacia el exterior. Gurman indica que se encenderá una pequeña luz LED cuando se envíen datos visuales a la nube.

Datos visuales para la IA

A primera vista, el razonamiento podría parecer obvio: recopilar datos del mundo real. A medida que los creadores de modelos de IA de las grandes empresas tecnológicas y las startups emprendedoras van más allá de los grandes modelos de lenguaje (LLM) basados en texto, adentrándose en el procesamiento de imágenes, la cartografía y la robótica, el popular y asequible accesorio de Apple podría transformarse en el equivalente de los autos de Street View de Google en 2026.

“Recibir información, ya sea visual o acústica, es información nueva que nunca se ha utilizado para entrenar la IA. Pero solo es útil si luego se puede usar para entrenarla”, dice Richardson.