En Resumen
- Kuaishou lanzó silenciosamente la función de generación de audio en Kling 2.1, permitiendo crear clips con efectos sonoros sincronizados como pasos y lluvia.
- Los analistas señalaron que Kling 2.1 resulta veinte veces más económico que Veo 3 de Google, costando 300 créditos por video versus 4.000 créditos.
- La plataforma china afirmó que su herramienta puede agregar efectos a videos silenciosos existentes, una capacidad que Veo 3 no pudo igualar.
La plataforma china de videos cortos Kuaishou ha añadido una función de generación de audio a Kling 2.1, su herramienta de creación de videos impulsada por inteligencia artificial, lo que permite a los usuarios producir clips con efectos de sonido sincronizados como pasos, lluvia y ruido ambiental.
La función, que se lanzó silenciosamente la semana pasada, está disponible en el modo de imagen a video de Kling, donde los usuarios suben una imagen fija y la plataforma la anima tanto con movimiento como con audio generado por inteligencia artificial.
La competencia enfrenta a Kling contra Veo 3 de Google, que se lanzó con capacidades de audio integradas desde el primer día.
Los primeros usuarios en Twitter elogiaron la sincronización audiovisual impecable de Kling, con el creador Roberto Nickson calificándola como "uno de los modelos más útiles en el mercado" para producir contenido de video generativo.
La función es gratuita durante el lanzamiento inicial, accesible a través del sitio web y la aplicación móvil de Kling.
Kling 2.1 one of the most useful models on the market
— Roberto Nickson (@rpnickson) June 12, 2025
Kling 2.1 genera clips de 5 a 10 segundos con una resolución de hasta 1080p, utilizando lo que la empresa describe como "mecanismos de atención espaciotemporales en 3D" para sincronizar los sonidos con las imágenes.
La herramienta de audio actualmente solo genera efectos de sonido, no diálogos ni música, y produce algo similar al audio de idiomas del sudeste asiático cuando se trata de texto, muy tonal y completamente ininteligible. Pero eso por sí solo no es suficiente para coronar a Google como el Rey indiscutible de los videos generativos.
Probamos las nuevas funciones de audio de Kling 2.1 contra Veo 3 de Google para ver cómo se compara el recién llegado.
El Precio de la Creación
La brecha de precios entre las dos plataformas resulta ser masiva.
La función de audio de Kling 2.1 solo es compatible con la versión estándar, no con la edición Master de gama alta. Sin embargo, a las tarifas actuales, los usuarios pueden generar más de 20 videos en Kling por cada creación en Veo 3.
Por ejemplo, utilizando el sistema de créditos de Freepik, una generación con Google Veo 3 está actualmente en oferta por 4.000 créditos (siendo el precio normal de 8.000 créditos por video), mientras que Kling 2.1 cuesta 300 créditos por video.

El modelo de Google se ejecuta exclusivamente a través de su suscripción Ultra de $250 al mes. Kling está disponible en su sitio oficial, ofreciendo algunas generaciones gratuitas, con suscripciones que comienzan alrededor de $9 al mes.
Incluso con la actual tarificación promocional de Google, Veo 3 sigue siendo diez veces más caro que Kling.
Para los creadores que saben que la generación de video implica mucha prueba y error, con tasas de fracaso que frustran incluso a los usuarios más pacientes, la economía de Kling hace que la experimentación sea factible.
El plan Premium en Kling desbloquea una resolución de 1080p, mejorando la calidad general del video manteniendo aún la ventaja de costos.
Capacidades de Audio
Veo 3 ofrece una generación de sonido sofisticada, sintetizando con precisión el habla y emparejando elementos de audio complejos con escenas visuales.
Su comprensión del audio espacial y los sonidos contextuales superó ampliamente las ofertas de Kling.
Mientras Kling 2.1 no puede competir, en justicia, apuntó a algo diferente: sonidos ambientales y efectos de fondo, sin diálogo, sin música. Así que por ahora olvídate de esas entrevistas callejeras de IA virales. Los intentos de generar audio producen un galimatías de palabras.
Sin embargo, para escenas o videos que requieren audio atmosférico, sus resultados fueron aceptables.
2. An off-road SUV drives through rocky, muddy, and wet forest terrain.
You hear the crunch, the splash, the growl of the engine. Felt like a real shoot. pic.twitter.com/S0gVhCAQjk
— ZOYA ✪ (@Zoya_ai) June 12, 2025
La nueva capacidad de la plataforma para agregar efectos a videos silenciosos existentes le otorga una ventaja que Veo 3 no pudo igualar.
Los usuarios pueden cargar videos terminados y adaptarlos con paisajes sonoros apropiados, un flujo de trabajo que el modelo de Google no admite. Curiosamente, Veo puede crear videos, pero no puede editarlos.
Además de la capacidad de crear sonidos para videos silenciosos, Kling también ofrece una función de sincronización labial.
Los usuarios pueden cargar una foto y un discurso o diálogo por separado, y el modelo creará un video en el que los sujetos interactúan de forma natural, como si estuvieran hablando entre ellos según el audio cargado.
【Kling AI(@Kling_ai)】リップシンク update!!📢
動画に登場するキャラクターを選択して、どの人物が話しているかを選択できたり、音声のタイミングを調整するリップシンクの編集機能が追加されました。… pic.twitter.com/brvGUOgLKs— SEIIIRU😈動画生成AI×AfterEffects (@seiiiiiiiiiiru) June 10, 2025
La proporción de generación de veinte a uno significaba que los creadores pueden experimentar con diferentes enfoques de audio en Kling mientras que los usuarios de Veo 3 tienen que perfeccionar su diseño de sonido en menos intentos.
Para aficionados y aquellos que aprenden video generativo, el enfoque de Kling ofrece más espacio para la prueba y error.
Pero los creadores profesionales que necesitan una sincronización audiovisual precisa y diálogos encontrarán que el sofisticado motor de sonido de Veo 3 vale la pena la prima.
Calidad de Generación de Video
Las pruebas de calidad de video produjeron resultados inesperados. En una escena de prueba con una mujer huyendo de una araña gigante, la versión estándar de Kling 2.1 superó tanto a Veo 3 como a su propia edición Master.
El modelo estándar representó con precisión la dinámica de la escena, mostrando un movimiento fluido y una dirección adecuada. Veo 3 inexplicablemente generó que la mujer corriera hacia la araña en lugar de alejarse de ella.
La edición Master suele producir imágenes más nítidas y claras, pero la versión estándar demostró una comprensión superior de la escena y un movimiento más fluido.
Esto es extraño ya que una mayor resolución siempre debería traducirse en mejores resultados, pero tal vez el problema se redujo a problemas de técnica de prompt o simplemente mala suerte en la generación.
Dicho esto, Kling 2.1 estándar con generaciones de 1080p es un gran modelo que se defiende bien contra Google Veo 3 aquí.
Flujos de trabajo y limitaciones de la plataforma
Las limitaciones de la plataforma dan forma al flujo de trabajo de cada herramienta de manera diferente. La función de audio de Kling 2.1 solo funciona con la generación de imagen a video, no de texto a video, lo cual sigue siendo exclusivo de la edición Master sin soporte de audio, sí, esto es extraño, pero es lo que hay.
El mejor método es utilizar Kolors, el generador de imágenes de Kuaishou, para crear fotogramas iniciales antes de convertirlos en video con audio sincronizado. Kolors produce imágenes altamente realistas que sirven como excelentes puntos de partida para la generación de video.
Sin embargo, es posible que encuentres que los modelos que incluyen Reve, MidJourney, Recraft, Flux e incluso ChatGPT son más fáciles de usar con prompts.

Veo 3 tomó un enfoque opuesto, ofreciendo solo generación de texto a video sin ninguna opción de imagen a video.
Esto obliga a los usuarios a depender completamente de la ingeniería de prompts, sin forma de controlar el inicio visual.
La decisión de Google también parece particularmente extraña dado que el anterior Veo 2 en realidad admite la conversión de imagen a video a través de su plataforma separada Flow.

La falta de control visual significa que los usuarios tienen que generar videos a ciegas, esperando que sus indicaciones de texto produzcan los fotogramas iniciales deseados.
Enfoques de Moderación de Contenido
La moderación de contenido reveló filosofías contrastantes. Veo 3 emplea un filtrado agresivo de palabras clave y controles posteriores a la generación, bloqueando contenido que viola las políticas de Google.
El sistema señala indicaciones potencialmente problemáticas antes de la generación y analiza videos completos en busca de violaciones de políticas.

Kling aplica restricciones más liberales, permitiendo contenido que Veo bloqueará directamente.
Sin embargo, los datos de entrenamiento del modelo naturalmente excluyeron contenido explícito: el modelo genera figuras sin detalles anatómicos y violencia sin gore.
Así, los usuarios pueden generar ciertos tipos de contenido que evitan los filtros de palabras clave manteniendo los límites de seguridad.

Ambas plataformas reembolsan créditos cuando la censura posterior a la generación bloquea un video, pero el enfoque más ligero de Kling permite una mayor libertad creativa dentro de los límites.
Conclusiones
Veo 3 todavía podría ser el rey, pero Kling 2.1 definitivamente está cerca de un populista en una misión para derrocar a la monarquía.
Su función de audio es bastante revolucionaria si consideras que es una herramienta de $9 compitiendo contra una suscripción de $250.
Los sonidos atmosféricos funcionan, la lluvia suena como lluvia, los pasos coinciden con el movimiento la mayor parte del tiempo, y puedes generar veinte intentos mientras los usuarios de Veo cuidadosamente elaboran su única toma.
Esa función de adaptación, donde agregas sonido a videos terminados, es algo que Google no ofrece, y es genuinamente útil para rescatar clips silenciosos.
Las cosas se verán completamente diferentes si tu objetivo principal es el habla. El galimatías de Kling no engañará a nadie.
Para este tipo de requisito específico, Veo 3 de Google es la elección obvia y única. ¡El rey está (casi) muerto. ¡Viva Kling!
Editado por Josh Quittner y Sebastian Sinclair