Modelo V-JEPA de Meta aprende física intuitiva mediante vídeos
98% de precisión en pruebas de física intuitiva. El sistema desarrollado por Meta aprende del entorno sin asumir reglas físicas predefinidas.
Arquitectura predictiva avanzada
V-JEPA utiliza representaciones latentes en lugar de analizar píxeles individuales. Descarta información irrelevante y se centra en aspectos esenciales del vídeo mediante dos codificadores y un predictor.
Demostración de intuición física
El modelo muestra niveles elevados de error predictivo ante eventos físicamente imposibles. Su reacción es comparable a la sorpresa infantil cuando objetos desaparecen tras una ocultación.
Evaluación comparativa del rendimiento
En pruebas IntPhys, V-JEPA alcanzó 98% de precisión frente a modelos basados en píxeles que apenas superaban el azar. Expertos como Micha Heilbron consideran comprensible que sea aprendible sin conocimientos innatos.
Aplicación en robótica
La versión V-JEPA 2, con 1.200 millones de parámetros, se ha aplicado a tareas de manipulación robótica. Requiere solo 60 horas de datos para planificar acciones tras el preentrenamiento.
Limitaciones actuales del sistema
Karl Friston señala la falta de codificación de incertidumbre como carencia fundamental. La memoria temporal equivale a pocos segundos, limitando predicciones en secuencias largas.
Antecedentes del desarrollo
Yann LeCun creó la arquitectura JEPA para imágenes en 2022. V-JEPA, lanzado en 2024, extiende este concepto al vídeo mediante aprendizaje autosupervisado que prescinde de grandes volúmenes de datos etiquetados.
Implicaciones tecnológicas futuras
El enfoque permite adaptación eficiente a múltiples tareas con mínimos datos etiquetados. Establece bases para sistemas de IA que comprenden interacciones físicas complejas en entornos reales.