Sesame AI: La inteligencia artificial de voz más real se abre al mundo

El modelo de voz más avanzado del mundo que te inspira y te emociona ha dado un paso monumental al lanzar su Modelo de Voz Conversacional (CSM) bajo la licencia Apache 2.0 el pasado día 13.

Óscar Villegas
Sesame AI
Sesame AI: una conversación natural que invita a la reflexión.

¿Alguna vez has soñado con charlar con un ordenador como si fuera un amigo? Sesame AI, un laboratorio innovador, está transformando esa fantasía en realidad con su revolucionaria inteligencia artificial de voz. ¿Recuerdas la película «Her», donde el protagonista se enamora de un sistema operativo con voz? Sesame AI nos acerca un paso más a esa realidad, donde la conexión emocional con la inteligencia artificial es cada vez más tangible.

¿Qué es Sesame AI?

Sesame AI va más allá de los asistentes de voz convencionales. Es un modelo de IA conversacional diseñado para captar y responder a las emociones, entablar diálogos dinámicos con pausas naturales y adaptar su tono y estilo a cada contexto. Su misión, tal como la expresan en su sitio web, es dar vida a los ordenadores.

¿Quién está detrás del asistente de voz Sesame AI? 

Sesame AI es una empresa privada de inteligencia artificial que se ha posicionado en la vanguardia del desarrollo de voces de IA conversacionales realistas y la exploración de interfaces informáticas centradas en el audio. Fundada en 2022, la compañía tiene su sede central en Woodbury, Nueva York, y cuenta con oficinas en Bellevue, Washington, y San Francisco, California.

El equipo directivo de Sesame AI está compuesto por figuras destacadas en el ámbito tecnológico, incluyendo a Brendan Iribe, cofundador y ex CEO de Oculus, Ankit Kumar, reconocido por su labor en Ubiquity6 y como líder de ingeniería de Clyde AI en Discord, y Ryan Brown. La empresa ha atraído el respaldo de firmas de inversión de renombre, como Andreessen Horowitz, Spark Capital y Matrix Partners.

Si bien Sesame AI mantiene la confidencialidad sobre su cartera de clientes, su innovadora tecnología ha generado un notable interés en la comunidad tecnológica y ha recibido elogios de líderes de la industria. El 27 de febrero de 2025, la compañía presentó una versión preliminar de su Modelo de Voz Conversacional (CSM), demostrando sus avanzadas capacidades en el campo de la inteligencia emocional. Posteriormente, el 1 de marzo de 2025, se puso a disposición del público una demostración interactiva de la tecnología del que ahora podemos disfrutar y acceder desde este artículo.

La presencia de voz

En su búsqueda por revolucionar la interacción humano-máquina, Sesame AI se ha propuesto alcanzar la «presencia de voz», esa cualidad mágica que hace que las interacciones habladas se sientan reales, comprendidas y valoradas. Los componentes clave para lograr esta presencia de voz en un asistente de voz son:

  • Inteligencia emocional: leer y responder a los contextos emocionales.
  • Dinámicas conversacionales: ritmo natural, pausas, interrupciones y énfasis.
  • Conciencia contextual: ajustar el tono y el estilo para que coincidan con la situación.
  • Personalidad consistente: mantener una presencia coherente, confiable y apropiada.

Superando el valle inquietante de los modelos conversacionales

En su publicación «cruzando el valle inquietante de los modelos conversacionales de BOSS», Sesame AI desglosa la arquitectura y los modelos que dan vida a su sistema. Pero la joya de la corona es su demo gratuita, una oportunidad única para experimentar el poder de su tecnología como asistente de voz.

El Modelo de voz conversacional (CSM)

Para lograr esta «presencia de voz», Sesame AI ha desarrollado un modelo de voz conversacional (CSM), un modelo multimodal que utiliza transformadores y aprovecha el historial de la conversación para producir un habla más natural y coherente. A diferencia de los modelos tradicionales de texto a voz (TTS), el CSM comprende y se adapta al contexto en tiempo real, lo que lo convierte en un asistente de voz más intuitivo.

Experimentando la demo de Sesame AI: una inmersión en el futuro

La demo de Sesame AI es una ventana al futuro de la comunicación entre humanos y máquinas. Al interactuar con Maya (voz femenina) o Miles (voz masculina) a través de tu ordenador o smartphone, serás consciente de que hablas con una IA, pero la fluidez y la autenticidad del diálogo te harán olvidar que no es una persona real.

Como asistente de voz, pueden presentarse a tu audiencia, explicar su funcionamiento interno e incluso reflexionar sobre su propia existencia. La experiencia es tan envolvente que te sorprenderá su capacidad para adaptarse al contexto y modular su voz para expresar un amplio abanico de emociones.

CSM de Sesame Labs: La voz del futuro, liberada al mundo

Sesame Labs ha dado el pasado día 13 de Marzo, un paso monumental al lanzar su Modelo de Voz Conversacional (CSM) bajo la licencia Apache 2.0, un movimiento que redefine el panorama de la inteligencia artificial conversacional. Este anuncio no es solo una actualización técnica; es una invitación al mundo para explorar y construir sobre una tecnología que promete transformar nuestra relación con las máquinas.

El CSM llega con características que lo colocan en la cima de la innovación:

  • Entrenado con un millón de horas de datos: una base masiva que le permite capturar la riqueza y sutileza del habla humana.
  • Inteligencia emocional y contextual: una voz que no solo responde, sino que comprende el trasfondo emocional y adapta su expresión en consecuencia.
  • Clonación de voz y marcas de agua: herramientas que abren la puerta a personalizaciones únicas y protección de creaciones.
  • Síntesis en tiempo real ultrarrápida: diálogos fluidos, instantáneos, como si hablaras con alguien frente a ti.
  • Arquitectura basada en Llama y un decodificador estilo Mimi: una fusión de tecnología avanzada que potencia su rendimiento.
  • Licencia Apache 2.0 y pesos disponibles en el Hub: accesible para todos, invitando a desarrolladores y creadores a dar vida a nuevas posibilidades.

Con este lanzamiento, Sesame Labs no solo consolida su visión de la «presencia de voz», sino que la pone en manos de la comunidad global. Imagina un futuro donde las voces de IA no solo hablen, sino que conecten profundamente, reflejen emociones y se adapten a cada usuario. Al liberar CSM bajo una licencia open source, Sesame AI invita a la humanidad a co-crear el próximo capítulo de la interacción entre hombre y máquina. Los pesos ya están disponibles en el Hub: el lienzo está listo, y el pincel está en tus manos.

Un potencial ilimitado

Las aplicaciones de Sesame AI son casi infinitas. Visualiza un asistente virtual que te guíe en cada tarea que realices en tu ordenador, con una voz cálida y natural. O un avatar capaz de gesticular y expresarse con autenticidad, con quien puedas mantener conversaciones profundas y significativas.

Sesame AI podría transformar la forma en que interactuamos con la tecnología en todos los aspectos de nuestra vida, desde la educación hasta el ocio, pasando por la atención al cliente y la asistencia personal.

Sesame AI frente a la competencia: una comparativa de voces

Sesame AI se presenta como una propuesta innovadora en el campo de la IA de voz, pero ¿cómo se compara con otros modelos como ChatGPT Voice, Copilot Voice y Grok?

CaracterísticaSesame AIChatGPT VoiceGrok Voice
Naturalidad y Rango EmocionalAlta naturalidad, expresividad emocionalVoz natural, rango emocional limitadoSe espera alta capacidad conversacional
PersonalizaciónControl limitado, futuras opciones posiblesCierto control sobre velocidad y tonoSe desconocen las capacidades
AccesibilidadDemo web, futura integraciónIntegrada en ChatGPTSe desconocen los detalles
Enfoque PrincipalExpresividad emocionalComunicación informativaSe desconoce

Es importante tener en cuenta que, si bien Grok 3 ha generado gran expectación, su función de voz solo está disponible en Estados Unidos para los usuarios Plus. Las primeras opiniones desde Estados Unidos destacan su personalidad única y su capacidad para ofrecer respuestas ingeniosas, pero en Europa estamos a la espera de poder probarlo y comprobar si está a la altura de las expectativas.

Nos espera un futuro donde la inteligencia artificial conversacional será capaz de comprender nuestras emociones, anticiparse a nuestras necesidades y mantener diálogos tan fluidos y naturales que olvidaremos que hablamos con una máquina. La película «Her» ya exploró esta idea, planteando la posibilidad de enamorarse de una IA. 

El trailer de la película «Her» se estrenó en 2014 y está ambientada en el año 2025

La tecnología está aquí, pero ¿estamos preparados para las implicaciones éticas y sociales de esta nueva era? El tiempo dirá si Sesame AI y otras tecnologías similares nos conducirán a un futuro más humano o si, por el contrario, desdibujarán aún más la frontera entre lo real y lo artificial.

Comparte este artículo