NVIDIA, ampliamente reconocida por su dominio en el hardware de inteligencia artificial gracias a sus potentes GPUs como las H100 y las nuevas B200, ha decidido adentrarse también en el competitivo terreno del software. Tradicionalmente, NVIDIA ha liderado en la infraestructura de centros de datos, pero ahora busca competir en el desarrollo de grandes modelos de lenguaje (LLM). La empresa ha anunciado su propio LLM, denominado NVLM 1.0, una familia de modelos que destacan en la visión y el lenguaje.
NVLM 1.0: Un nuevo modelo multimodal
NVLM 1.0 es un conjunto de modelos multimodales que, según NVIDIA, compiten directamente con grandes nombres del sector como GPT-4 y Llama 3. El modelo más destacado de esta familia es el NVLM-D-72B, que cuenta con 72.000 millones de parámetros y ha demostrado un rendimiento sobresaliente en tareas de visión y lenguaje, superando incluso a Llama 3 405B en ciertas pruebas, a pesar de ser un modelo más compacto.
Uno de los aspectos más interesantes de NVLM 1.0 es su naturaleza de código abierto. NVIDIA planea publicar los pesos y el código utilizado para entrenar el modelo, facilitando a los desarrolladores la posibilidad de adaptarlo y aplicarlo en sus propios proyectos. Este enfoque se alinea con la tendencia de ofrecer recursos abiertos, como lo ha hecho Meta con Llama, permitiendo una mayor accesibilidad y flexibilidad en el uso de inteligencia artificial.
Un modelo versátil para múltiples aplicaciones
NVLM-D-72B tiene capacidades multimodales que le permiten interpretar tanto entradas visuales como textuales. Puede analizar imágenes, resolver problemas matemáticos paso a paso, e incluso interpretar memes, lo que lo hace particularmente versátil. NVIDIA ha explicado que el modelo utiliza técnicas avanzadas como OCR, razonamiento, y conocimientos del mundo para lograr un análisis integral de las entradas.
La entrada de NVIDIA en el terreno del software de IA marca un nuevo hito para la compañía. Al ofrecer su modelo de forma abierta, la empresa se postula como un competidor serio frente a otros gigantes de la IA, con una alternativa atractiva para desarrolladores y expertos que buscan soluciones más accesibles y poderosas.