En Resumen

  • OpenAI ha comenzado a implementar su Modo de Voz Avanzado para los usuarios de ChatGPT Plus y Teams, permitiendo conversaciones fluidas en tiempo real impulsadas por GPT-4.
  • La función se está implementando para todos los usuarios de Plus y Team en la aplicación ChatGPT a lo largo de la semana, con cinco nuevas voces disponibles: Arbor, Maple, Sol, Spruce y Vale.
  • OpenAI también ha refinado los acentos en idiomas extranjeros populares y ha mejorado la velocidad y suavidad de la conversación, con una esfera azul animada que representa visualmente la interacción de voz.

OpenAI ha comenzado a implementar su muy esperado Modo de Voz Avanzado para los usuarios de ChatGPT Plus y Teams, marcando otro paso hacia una interacción de IA más parecida a la humana.

La función permite conversaciones fluidas en tiempo real impulsadas por GPT-4o, el último modelo de OpenAI, que combina texto, visión y audio para ofrecer respuestas más rápidas.

“Advanced Voice se está implementando para todos los usuarios de Plus y Team en la aplicación ChatGPT a lo largo de la semana”, dijo OpenAI en un tuit oficial, “También puede decir “Lo siento, llegué tarde” en más de 50 idiomas”, agregó—abordando la larga demora por la que pasó este proyecto.

No hace falta decir que aún falta un elemento notable: la voz "Sky", coqueta y definitivamente demasiado parecida a la de un humano, que causó revuelo por su sorprendente parecido con la actriz Scarlett Johansson. Después de que su equipo legal enviara cartas al CEO de OpenAI, Sam Altman, OpenAI puso la voz "Sky" en espera, manteniendo que cualquier parecido entre la distintiva voz de Johansson y Sky era puramente coincidental.

En lugar de eso, OpenAI presentó cinco nuevas voces: Arbor, Maple, Sol, Spruce y Vale, que están disponibles tanto en el Modo de Voz Estándar como en el Modo de Voz Avanzado. Estas se suman a las voces previamente disponibles: Breeze, Juniper, Cove y Ember. (Por alguna razón, la empresa parece estar nombrándolas con fragancias de jabón). Los usuarios en los niveles Plus y Team obtendrán gradualmente acceso a estas nuevas voces, diseñadas para hacer que las conversaciones sean más naturales, con capacidad de respuesta emocional y la habilidad de interrumpir y cambiar de tema sobre la marcha.

Además, OpenAI está agregando compatibilidad con instrucciones personalizadas y "memorias" para permitir a los usuarios personalizar aún más su experiencia con ChatGPT, adaptando las interacciones a sus preferencias. Al igual que el chatbot basado en texto aprende de sus instrucciones (es decir, su nombre, ocupación y probablemente el tipo de respuestas que le gusta leer), las nuevas voces intentarán aprender de sus conversaciones, haciéndolas más naturales, familiares y adaptadas a sus preferencias.

Los usuarios en la UE, Reino Unido, Suiza, Islandia, Noruega y Liechtenstein tendrán que esperar, ya que la función aún no se ha implementado en esas regiones. Los usuarios empresariales y educativos pueden esperar acceso a partir de la próxima semana, según la línea de tiempo de OpenAI. La implementación es lenta y no todos los usuarios, incluso de regiones admitidas, tienen disponible la función.

OpenAI también ha refinado los acentos en idiomas extranjeros populares y ha mejorado la velocidad y suavidad de la conversación. El diseño también ha sido actualizado, con una esfera azul animada que representa visualmente la interacción de voz a medida que sucede y es más agradable al menos estéticamente hablando que el punto negro minimalista que solían mostrar.

Imagen: OpenAI

Mientras OpenAI continúa refinando sus ofertas de IA de voz, la competencia en el espacio se ha estado calentando.

NotebookLM de Google actualmente marca el estándar con algunas de las voces de IA más parecidas a humanos disponibles, capaz de simular debates completos entre oradores generados por IA con un realismo notable.

La herramienta de IA de Google puede procesar hasta un millón de tokens de datos y permitir a los usuarios interactuar con ella, según informó anteriormente Decrypt. Una vez que los usuarios suben un grupo específico de documentos con diferentes tipos de información, Notebook LM puede generar hasta 10 minutos de audio con dos IAs hablando sobre esa información específica. El resultado es casi extremadamente realista.

Además de Google, Meta también ha entrado en la batalla con su propio asistente en vivo, Meta AI, aunque aún no está ampliamente disponible. El asistente también es capaz de mantener conversaciones naturales con los usuarios, procesando comandos con fluidez. La voz es más natural que la típicamente robótica que vemos en la mayoría de los asistentes de IA, pero aún tiene algunas características distintivas, como la cadencia y velocidad del habla, que la hacen identificable como generada por IA. Dicho esto, Reuters ha informado que el próximo chatbot de Meta tendrá las personalidades de Judy Dench y Michael Cerna. No es la de Scarlet Johansson, pero tampoco son cualquiera cosa.

Editado por Josh Quittner y Sebastian Sinclair

Generally Intelligent Newsletter

A weekly AI journey narrated by Gen, a generative AI model.