Sesame y su «viral» Asistente Virtual Maya: La IA que Habla como un Humano

Sesame lanza Maya, un asistente virtual avanzado que utiliza el modelo CSM-1B, capaz de replicar el habla humana de manera natural.
TechCrunch
Sesame AI Maya
Sesame AI Maya

La inteligencia artificial avanza a pasos agigantados, y una de las áreas donde más se siente su impacto es en los asistentes virtuales. La startup Sesame ha decidido dar un paso adelante con Maya, un asistente impulsado por IA que busca hacer que las interacciones con la tecnología sean más humanas que nunca.

Lo que hace especial a Maya el el tono, ritmo y fluidez en la conversación, que han sido diseñados para que suene casi indistinguible de una persona real.

El secreto detrás de este avance es CSM-1B, el modelo de inteligencia artificial que da vida a Maya, que con mil millones de parámetros y una técnica avanzada de procesamiento de audio, representa una apuesta ambiciosa en el mundo de la IA conversacional.

CSM-1B y RVQ: La Tecnología que Permite una Conversación Natural

Para entender cómo funciona Maya, primero hay que conocer la base de su tecnología. CSM-1B es un modelo de IA que procesa y genera voz con una precisión impresionante. Su innovación clave radica en el uso de una técnica llamada «residual vector quantization» (RVQ).

¿Qué es RVQ y por qué es tan importante?

RVQ es una forma avanzada de codificación de audio, que permite a la IA interpretar y generar sonido en pequeños fragmentos discretos. En otras palabras, convierte la voz en datos manejables que luego pueden ser reconstruidos con gran fidelidad.

Este sistema no es completamente nuevo, ya que compañías como Google y Meta también han trabajado en modelos de inteligencia artificial de audio. Sin embargo, el enfoque de Sesame permite un nivel de detalle y naturalidad en el habla que antes no era posible.

Esto significa que Maya no solo suena más natural, sino que también incorpora pausas, disfluencias y matices propios del lenguaje humano, lo que la hace mucho más convincente en una conversación real.

Los Riesgos de una IA con Voz Humana

Si bien el avance tecnológico es impresionante, también plantea riesgos significativos.

Sesame ha dejado claro que CSM-1B no tiene restricciones incorporadas para evitar usos malintencionados. Esto significa que el modelo podría ser utilizado para crear voces falsas o contenido engañoso, algo que ha sido motivo de preocupación en el ámbito de la ciberseguridad y la ética en la IA.

Organizaciones como Consumer Reports han advertido sobre el peligro de las herramientas de clonación de voz, que pueden facilitar fraudes o desinformación. Con tecnologías como la de Sesame, la necesidad de regulaciones y medidas de seguridad se vuelve más urgente que nunca.

Por ello, la empresa ha pedido a los desarrolladores que usen el modelo de manera responsable, evitando cualquier aplicación que imite voces sin consentimiento o que pueda inducir a error a otras personas.

El Futuro de Sesame: Más que un Asistente Virtual

Sesame no solo busca mejorar la forma en que hablamos con la tecnología, sino que ya está pensando en el siguiente paso.

La compañía, cofundada por Brendan Iribe (quien previamente trabajó en Oculus), ha recibido inversiones de grandes firmas como Andreessen Horowitz, Spark Capital y Matrix Partners. Este respaldo financiero les ha permitido explorar nuevas aplicaciones de la inteligencia artificial más allá de los asistentes de voz.

Uno de los proyectos más ambiciosos en los que trabajan actualmente es un par de gafas de inteligencia artificial, diseñadas para usarse durante todo el día e integradas con modelos personalizados de IA.

¿Cómo Cambiará la Industria de los Asistentes Virtuales?

El lanzamiento de Maya y la tecnología detrás de ella abre un mundo de posibilidades para la interacción humano-máquina.

Mayor naturalidad en asistentes virtuales, lo que hará que su uso sea más intuitivo y cómodo.
Nuevas aplicaciones en accesibilidad, ayudando a personas con dificultades de comunicación o limitaciones visuales a interactuar con la tecnología de manera más eficiente.
Mayor personalización, ya que los asistentes podrán adaptarse mejor a los usuarios según su tono de voz y estilo conversacional.

Sin embargo, también plantea desafíos importantes en términos de seguridad, regulación y confianza del usuario. La capacidad de una IA para hablar como un humano plantea preguntas éticas difíciles, especialmente en un mundo donde la desinformación es un problema creciente.

Conclusión

Sesame está marcando un nuevo estándar en asistentes virtuales, llevando la conversación entre humanos y máquinas a un nivel nunca antes visto.

Su tecnología ofrece una experiencia conversacional más natural y fluida, pero también trae consigo retos en seguridad y regulación.

El verdadero impacto de Maya y de CSM-1B dependerá de cómo se utilice esta tecnología en el futuro. Si se maneja de manera ética y responsable, podría representar una de las innovaciones más importantes en la forma en que interactuamos con la inteligencia artificial. De lo contrario, nos enfrentaremos a un mundo donde será cada vez más difícil distinguir entre la voz de un humano y la de una máquina.

TechCrunch Disrupt 2025 convoca eventos paralelos en San Francisco

Los organizadores de TechCrunch Disrupt 2025 buscan propuestas para eventos paralelos durante la semana del
Imagen sin título Información de autor no disponible / TechCrunch Events

Mastodon no puede cumplir ley de verificación edad Misisipi

La red social descentralizada alega carecer de medios técnicos para aplicar la normativa estatal que
Imagen sin título Información de autor no disponible / TechCrunch

Munify recauda 3M para neobanco de diáspora egipcia

Startup respaldada por Y Combinator ofrece transferencias más rápidas y económicas para la comunidad egipcia
Imagen sin título Información de autor no disponible / TechCrunch

Mukesh Ambani lanza nueva empresa de IA con Google y Meta

El magnate indio crea Reliance Intelligence para construir la infraestructura nacional de inteligencia artificial con
Mukesh Ambani, presidente de Reliance Industries Dhiraj Singh/Bloomberg via Getty Images / TechCrunch

Búsqueda del tesoro masiva reúne a 12.000 personas en San Francisco

Más de 12.000 participantes se unieron a Pursuit, una cacería urbana sin premio económico que
Jugadores de Pursuit reunidos en el vestíbulo del edificio Don Lee en San Francisco Boone Ashworth / WIRED

Vocal Image recauda 3,6 millones para entrenador vocal con IA

Startup estonia con 12M$ en ingresos recurrentes ofrece entrenamiento vocal mediante IA. La aplicación tiene
Imagen sin título Vanessa Buhrig / Vocal Image / TechCrunch

Will Smith publica vídeo polémico con fans de aspecto artificial

El actor Will Smith genera controversia al publicar un vídeo de su gira europea donde
Comparativa de imágenes del vídeo de Will Smith y publicaciones anteriores Andreas Rentz / Getty Images / TechCrunch

Anthropic obliga a usuarios a decidir sobre uso de chats para IA

Anthropic cambia su política de datos: usuarios deben optar por no compartir conversaciones antes del
Imagen sin título Información de autor no disponible / TechCrunch

Commonwealth Fusion Systems recauda 863 millones de Nvidia y Google

La startup de fusión nuclear obtiene financiación récord para acelerar el desarrollo de su reactor
Imagen sin título Información de autor no disponible / TechCrunch

Acuerdo Intel-EEUU impide venta de unidad de fundición

El pacto con el gobierno estadounidense incluye cláusulas que penalizan a Intel si se desprende
Imagen sin título Información de autor no disponible / TechCrunch

Inversiones en tecnología limpia en EE.UU. caen 15%

Las inversiones en manufactura de tecnología limpia en Estados Unidos registraron una caída del 15%
Imagen sin título Sean Gallup / Getty Images / TechCrunch

Threads prueba función para compartir textos largos

Meta testea nueva herramienta que permite adjuntar bloques de texto en publicaciones, compitiendo directamente con
Captura de pantalla de la nueva función de adjuntar texto en Threads Jaap Arriens/NurPhoto / Getty Images / TechCrunch