Meta, la compañía de tecnología, ha introducido el Segment Anything Model 2 (SAM 2), una versión avanzada de su modelo de aprendizaje automático diseñado para identificar y segmentar elementos en imágenes y vídeos. Este desarrollo es una actualización significativa del SAM original, lanzado en 2023, y se destaca por su capacidad mejorada para delinear objetos, incluso en videos, a través de la segmentación precisa de píxeles.
SAM se ha convertido en una herramienta popular debido a la creciente importancia de la segmentación en la visión artificial, una tecnología que permite a las máquinas identificar y analizar objetos. Meta ha seguido un enfoque de código abierto con SAM 2, compartiendo la investigación y el código bajo una licencia Apache 2.0 permisiva. Además, han proporcionado el conjunto de datos SA-V, que incluye alrededor de 51,000 vídeos y más de 600,000 "masklets" o máscaras espacio-temporales, facilitando la segmentación interactiva en tiempo real para vídeos cortos.
Capacidades mejoradas
SAM 2 presenta mejoras notables respecto a su predecesor, destacándose por su capacidad para identificar objetos en imágenes y vídeos, incluso aquellos que no han sido previamente vistos. Este avance permite que el modelo funcione de manera más rápida y con menos intervención del usuario, triplicando la eficiencia en la interacción. Meta enfrentó desafíos significativos en la segmentación de objetos en movimiento, incluyendo problemas de iluminación y superposición de elementos. Sin embargo, SAM 2 ha demostrado ser capaz de abordar estos retos, ofreciendo soluciones precisas y rápidas.
La herramienta proporciona una predicción inmediata de los elementos que necesitan ser segmentados en un vídeo, aplicando una máscara espacio-temporal que se ajusta a las instrucciones del usuario. Esta máscara puede ser refinada interactivamente, permitiendo ajustes precisos hasta que se logre el resultado deseado. Este proceso es facilitado por una arquitectura más compleja que la del modelo original, incorporando un sistema de memoria que ayuda a mantener la consistencia a lo largo de todos los fotogramas del vídeo.
A pesar de sus avances, SAM 2 no es infalible. El modelo puede perder el rastro de objetos si hay cambios drásticos en la perspectiva de la cámara o si los objetos están ocultos por un largo período. Además, cuando el objeto objetivo solo se especifica en un fotograma, SAM 2 puede confundirlo con otros objetos, aunque esto se puede corregir manualmente. La segmentación de objetos muy complejos y en movimiento rápido también puede resultar en predicciones irregulares. Meta ha señalado que el modelo no penaliza las predicciones que se mueven entre fotogramas durante el entrenamiento, lo que puede afectar la uniformidad temporal en la segmentación.
Impacto y futuro
El lanzamiento de SAM 2 marca un avance significativo en el campo de la visión artificial, proporcionando una herramienta poderosa para diversas aplicaciones. Desde su debut, SAM ha sido utilizado en una variedad de campos, incluyendo el desarrollo de nuevas funciones en Meta, como Background y Cutout para Instagram, y en aplicaciones como el análisis de arrecifes de coral, la planificación de auxilio en casos de desastre a través de imágenes satelitales, y la segmentación de imágenes celulares para la detección de cáncer de piel.
Con las capacidades mejoradas de SAM 2, se espera que estas aplicaciones se expandan y evolucionen, ofreciendo nuevas oportunidades para la innovación y el desarrollo. En una carta abierta, el CEO de Meta, Mark Zuckerberg, destacó el potencial de la inteligencia artificial de código abierto para mejorar la productividad y la calidad de vida, subrayando la importancia de compartir estos avances con la comunidad global.