Mientras el mundo sigue maravillado con el GPT-4o-mini, Apple ha decidido expandir su familia de modelos de inteligencia artificial. Recientemente, el equipo de investigación de Apple, parte del proyecto DataComp for Language Models, lanzó una serie de modelos DCLM en la plataforma Hugging Face.

Apple ha presentado estos dos modelos principales: uno con 7 mil millones de parámetros y otro con 1.4 mil millones. El modelo de 7 mil millones de parámetros ha demostrado un rendimiento excepcional en las pruebas, superando al Mistral-7B y acercándose a modelos líderes como Llama 3 y Gemma. Vaishaal Shankar, del equipo de Apple, destacó que estos son los modelos de código abierto con mejor rendimiento hasta la fecha.

Estos modelos no solo son eficaces, sino también completamente de código abierto. Apple ha compartido los pesos del modelo, el código de entrenamiento y el conjunto de datos de preentrenamiento, fomentando la colaboración y el avance en la comunidad de IA. Ambos están disponibles bajo licencias que permiten su uso comercial, distribución y modificación. Sin embargo, es importante señalar que aún están en una fase de investigación temprana y pueden mostrar ciertos sesgos o respuestas inapropiadas debido a los datos de prueba utilizados. Estos desarrollos destacan la importancia de la curación de datos en el entrenamiento de modelos de lenguaje y ofrecen una base sólida para futuras investigaciones en este campo.

 

Colaboración multidisciplinaria

El proyecto DataComp es un esfuerzo colaborativo que incluye investigadores de Apple, la Universidad de Washington, la Universidad de Tel Aviv y el Instituto de Investigación Toyota. Utilizando un marco estandarizado, el equipo ha experimentado con diferentes estrategias de curación de datos para entrenar modelos altamente eficientes.

El modelo DCLM-Baseline-7B, entrenado con 2.5 billones de tokens, ha alcanzado una precisión del 63.7% en la prueba MMLU, superando al anterior líder en la categoría de modelos de datos abiertos. El modelo más pequeño, con 1.4 mil millones de parámetros, también ha mostrado un rendimiento impresionante, compitiendo seriamente con otros modelos en su categoría.

 

Un nuevo paso adelante

La presentación de Apple Intelligence hace unos meses marca un cambio importante para una compañía que había esperado su momento (quizá demasiado para algunos) para incursionar en la IA. Apple lazó una propuesta innovadora y distintiva, con una IA híbrida que combina capacidades locales y en la nube, garantizando la privacidad del usuario.

Tim Cook destacó que Apple Intelligence debía ser potente, intuitiva y privada, alineándose con la estrategia de Apple. Craig Federighi, responsable de software, explicó que "se prioriza la ejecución local de los modelos para evitar la recolección de datos personales."

Este sistema de IA utiliza la potencia de los chips en los últimos iPad, iPhone y Mac para ejecutar modelos generativos sin comprometer la privacidad del usuario. Apple Intelligence utiliza un índice semántico basado en la información del usuario para ofrecer resultados precisos. Sin embargo, también incorpora funciones en la nube para manejar solicitudes más complejas, utilizando la Private Cloud Compute de Apple, que procesa datos sin almacenarlos, garantizando que desaparezcan tras su uso. Con esta combinación de IA local y en la nube, Apple busca ofrecer una solución potente y segura, posicionándose fuertemente en el mercado de la inteligencia artificial.