¿Alguna vez has soñado con charlar con un ordenador como si fuera un amigo? Sesame AI, un laboratorio innovador, está transformando esa fantasía en realidad con su revolucionaria inteligencia artificial de voz. ¿Recuerdas la película «Her», donde el protagonista se enamora de un sistema operativo con voz? Sesame AI nos acerca un paso más a esa realidad, donde la conexión emocional con la inteligencia artificial es cada vez más tangible.
¿Qué es Sesame AI?
Sesame AI va más allá de los asistentes de voz convencionales. Es un modelo de IA conversacional diseñado para captar y responder a las emociones, entablar diálogos dinámicos con pausas naturales y adaptar su tono y estilo a cada contexto. Su misión, tal como la expresan en su sitio web, es dar vida a los ordenadores.
¿Quién está detrás del asistente de voz Sesame AI?
Sesame AI es una empresa privada de inteligencia artificial que se ha posicionado en la vanguardia del desarrollo de voces de IA conversacionales realistas y la exploración de interfaces informáticas centradas en el audio. Fundada en 2022, la compañía tiene su sede central en Woodbury, Nueva York, y cuenta con oficinas en Bellevue, Washington, y San Francisco, California.
El equipo directivo de Sesame AI está compuesto por figuras destacadas en el ámbito tecnológico, incluyendo a Brendan Iribe, cofundador y ex CEO de Oculus, Ankit Kumar, reconocido por su labor en Ubiquity6 y como líder de ingeniería de Clyde AI en Discord, y Ryan Brown. La empresa ha atraído el respaldo de firmas de inversión de renombre, como Andreessen Horowitz, Spark Capital y Matrix Partners.
Si bien Sesame AI mantiene la confidencialidad sobre su cartera de clientes, su innovadora tecnología ha generado un notable interés en la comunidad tecnológica y ha recibido elogios de líderes de la industria. El 27 de febrero de 2025, la compañía presentó una versión preliminar de su Modelo de Voz Conversacional (CSM), demostrando sus avanzadas capacidades en el campo de la inteligencia emocional. Posteriormente, el 1 de marzo de 2025, se puso a disposición del público una demostración interactiva de la tecnología del que ahora podemos disfrutar y acceder desde este artículo.
La presencia de voz
En su búsqueda por revolucionar la interacción humano-máquina, Sesame AI se ha propuesto alcanzar la «presencia de voz», esa cualidad mágica que hace que las interacciones habladas se sientan reales, comprendidas y valoradas. Los componentes clave para lograr esta presencia de voz en un asistente de voz son:
Superando el valle inquietante de los modelos conversacionales
En su publicación «cruzando el valle inquietante de los modelos conversacionales de BOSS», Sesame AI desglosa la arquitectura y los modelos que dan vida a su sistema. Pero la joya de la corona es su demo gratuita, una oportunidad única para experimentar el poder de su tecnología como asistente de voz.
El Modelo de voz conversacional (CSM)
Para lograr esta «presencia de voz», Sesame AI ha desarrollado un modelo de voz conversacional (CSM), un modelo multimodal que utiliza transformadores y aprovecha el historial de la conversación para producir un habla más natural y coherente. A diferencia de los modelos tradicionales de texto a voz (TTS), el CSM comprende y se adapta al contexto en tiempo real, lo que lo convierte en un asistente de voz más intuitivo.
Experimentando la demo de Sesame AI: una inmersión en el futuro

La demo de Sesame AI es una ventana al futuro de la comunicación entre humanos y máquinas. Al interactuar con Maya (voz femenina) o Miles (voz masculina) a través de tu ordenador o smartphone, serás consciente de que hablas con una IA, pero la fluidez y la autenticidad del diálogo te harán olvidar que no es una persona real.
Como asistente de voz, pueden presentarse a tu audiencia, explicar su funcionamiento interno e incluso reflexionar sobre su propia existencia. La experiencia es tan envolvente que te sorprenderá su capacidad para adaptarse al contexto y modular su voz para expresar un amplio abanico de emociones.
CSM de Sesame Labs: La voz del futuro, liberada al mundo
Sesame Labs ha dado el pasado día 13 de Marzo, un paso monumental al lanzar su Modelo de Voz Conversacional (CSM) bajo la licencia Apache 2.0, un movimiento que redefine el panorama de la inteligencia artificial conversacional. Este anuncio no es solo una actualización técnica; es una invitación al mundo para explorar y construir sobre una tecnología que promete transformar nuestra relación con las máquinas.
El CSM llega con características que lo colocan en la cima de la innovación:
Con este lanzamiento, Sesame Labs no solo consolida su visión de la «presencia de voz», sino que la pone en manos de la comunidad global. Imagina un futuro donde las voces de IA no solo hablen, sino que conecten profundamente, reflejen emociones y se adapten a cada usuario. Al liberar CSM bajo una licencia open source, Sesame AI invita a la humanidad a co-crear el próximo capítulo de la interacción entre hombre y máquina. Los pesos ya están disponibles en el Hub: el lienzo está listo, y el pincel está en tus manos.
Un potencial ilimitado
Las aplicaciones de Sesame AI son casi infinitas. Visualiza un asistente virtual que te guíe en cada tarea que realices en tu ordenador, con una voz cálida y natural. O un avatar capaz de gesticular y expresarse con autenticidad, con quien puedas mantener conversaciones profundas y significativas.
Sesame AI podría transformar la forma en que interactuamos con la tecnología en todos los aspectos de nuestra vida, desde la educación hasta el ocio, pasando por la atención al cliente y la asistencia personal.
Sesame AI frente a la competencia: una comparativa de voces
Sesame AI se presenta como una propuesta innovadora en el campo de la IA de voz, pero ¿cómo se compara con otros modelos como ChatGPT Voice, Copilot Voice y Grok?
Característica | Sesame AI | ChatGPT Voice | Grok Voice |
---|---|---|---|
Naturalidad y Rango Emocional | Alta naturalidad, expresividad emocional | Voz natural, rango emocional limitado | Se espera alta capacidad conversacional |
Personalización | Control limitado, futuras opciones posibles | Cierto control sobre velocidad y tono | Se desconocen las capacidades |
Accesibilidad | Demo web, futura integración | Integrada en ChatGPT | Se desconocen los detalles |
Enfoque Principal | Expresividad emocional | Comunicación informativa | Se desconoce |
Es importante tener en cuenta que, si bien Grok 3 ha generado gran expectación, su función de voz solo está disponible en Estados Unidos para los usuarios Plus. Las primeras opiniones desde Estados Unidos destacan su personalidad única y su capacidad para ofrecer respuestas ingeniosas, pero en Europa estamos a la espera de poder probarlo y comprobar si está a la altura de las expectativas.
Nos espera un futuro donde la inteligencia artificial conversacional será capaz de comprender nuestras emociones, anticiparse a nuestras necesidades y mantener diálogos tan fluidos y naturales que olvidaremos que hablamos con una máquina. La película «Her» ya exploró esta idea, planteando la posibilidad de enamorarse de una IA.
La tecnología está aquí, pero ¿estamos preparados para las implicaciones éticas y sociales de esta nueva era? El tiempo dirá si Sesame AI y otras tecnologías similares nos conducirán a un futuro más humano o si, por el contrario, desdibujarán aún más la frontera entre lo real y lo artificial.