Sesame lanza modelo de IA para asistente virtual Maya

Sesame libera su modelo CSM-1B, que potencia al asistente Maya, con 1,000 millones de parámetros bajo licencia abierta.
TechCrunch
Un micrófono de estilo retro en un fondo naranja con puntos de colores.
La imagen presenta un micrófono dibujado en un estilo retro sobre un fondo naranja, decorado con un patrón de puntos.

Sesame lanza su modelo base de IA detrás del asistente virtual Maya

La compañía de inteligencia artificial Sesame ha anunciado el lanzamiento de su modelo base, llamado CSM-1B, que potencia al asistente virtual Maya. Este modelo tiene un tamaño impresionante de 1.000 millones de parámetros, que son componentes individuales del modelo.

CSM-1B se ha liberado bajo una licencia Apache 2.0, lo que significa que puede ser utilizado comercialmente con pocas restricciones. Esta es una noticia destacable en el mundo de la tecnología, ya que las licencias abiertas permiten a otros desarrolladores usar y modificar el modelo para diferentes aplicaciones.

Tecnología detrás del modelo CSM-1B

CSM-1B genera “códigos de audio RVQ” a partir de entradas de texto y audio. RVQ, o “cuantificación vectorial residual”, es una técnica utilizada para codificar audio en tokens discretos llamados códigos. Esta tecnología es empleada actualmente en varias innovaciones de audio basadas en inteligencia artificial, como los sistemas SoundStream de Google y Encodec de Meta.

El modelo CSM-1B utiliza un modelo de la familia Llama de Meta como base, al cual se le añade un componente “decodificador” de audio. Aunque puede crear una variedad de voces, todavía no ha sido ajustado para imitar voces específicas, lo que lo hace menos efectivo para idiomas diferentes al inglés.

Preocupaciones sobre la seguridad y el uso ético

Uno de los puntos críticos del lanzamiento es la falta de salvaguardas reales dentro del modelo para prevenir usos malintencionados. La empresa simplemente apela al sentido del honor al instar a los desarrolladores a no usar el modelo para imitar voces sin consentimiento, crear contenido engañoso o conducir actividades dañinas.

Consumer Reports ha señalado que muchas herramientas populares de clonación de voz basadas en inteligencia artificial carecen de protecciones significativas para prevenir el fraude o abuso. En pruebas realizadas, la clonación de voz con el demo del modelo se llevó a cabo en menos de un minuto, demostrando lo fácil que puede llegar a ser generar contenido de voz incluso en temas controvertidos.

Contexto y futuro de Sesame

Sesame fue cofundada por Brendan Iribe, uno de los creadores de Oculus, y ha ganado rápidamente notoriedad gracias a su tecnología de asistentes que casi alcanzan realismo humano. Maya, junto con otro asistente de la compañía llamado Miles, puede tomar respiraciones, hablar con interrupciones y disfluencias, similar al modo de voz de OpenAI.

La compañía ha recaudado capital de importantes fondos de inversión como Andreessen Horowitz, Spark Capital y Matrix Partners. Además de su trabajo en tecnología de asistentes de voz, Sesame está desarrollando prototipos de gafas de inteligencia artificial diseñadas para ser usadas todo el día, integrando sus modelos personalizados en estos dispositivos.