OpenAI ha comenzado a implementar el modo de voz avanzado para su chatbot ChatGPT, ofreciendo a los usuarios respuestas de audio hiperrealistas con la tecnología GPT-4o. Este lanzamiento, iniciado el martes, está inicialmente disponible para un pequeño grupo de usuarios de ChatGPT Plus como parte de una versión alfa, y se espera que la función esté disponible para todos los suscriptores de Plus en el otoño de 2024.
La controversia y Scarlett Johansson
La presentación de la voz de GPT-4o en mayo causó gran impacto al público por su sorprendente realismo y rapidez en las respuestas, asemejándose notablemente a la voz de la actriz Scarlett Johansson, famosa por su papel en la película "Her". Tras la demostración, Johansson negó haber autorizado el uso de su voz y tomó acciones legales para proteger su imagen. OpenAI respondió negando el uso de su voz y posteriormente eliminó la voz que había sido exhibida. Esta controversia llevó a OpenAI a retrasar el lanzamiento del modo de voz avanzado para reforzar sus medidas de seguridad.
Funcionalidades del Modo de Voz Avanzado
El nuevo modo de voz avanzado de ChatGPT se distingue por ser multimodal, integrando varias funciones en un solo modelo sin depender de otros auxiliares. Anteriormente, ChatGPT utilizaba tres modelos separados para procesar el audio: uno para convertir la voz en texto, otro para procesar el mensaje con GPT-4, y un tercero para convertir el texto de nuevo en voz. La nueva versión reduce significativamente la latencia en las conversaciones y es capaz de detectar entonaciones emocionales como tristeza, alegría o incluso canto. OpenAI está introduciendo esta nueva funcionalidad de manera gradual para monitorear su uso y asegurar que se mantenga dentro de las normas establecidas. Los usuarios seleccionados recibirán una notificación en la aplicación ChatGPT y un correo electrónico con instrucciones sobre cómo utilizar la nueva función.
En los meses siguientes a la demostración inicial, OpenAI ha probado las capacidades de voz de GPT-4o con más de 100 miembros externos que hablan 45 idiomas diferentes. Un informe sobre estas pruebas de seguridad se publicará a principios de agosto. Además, la compañía ha restringido el uso del modo de voz avanzado a cuatro voces preestablecidas (Juniper, Breeze, Cove y Ember), todas ellas creadas en colaboración con actores de voz contratados. La voz de "Sky" que se mostró inicialmente ya no está disponible.
Además, OpenAI ha implementado nuevos filtros para evitar solicitudes de generación de música u otros contenidos de audio protegidos por derechos de autor, en respuesta a preocupaciones legales crecientes en torno al uso de modelos de audio como GPT-4o. Recientemente, sellos discográficos han presentado demandas contra generadores de canciones de IA como Suno y Udio, marcando una nueva frontera en las disputas legales por derechos de autor.