Sesame lanza su modelo base de IA detrás del asistente virtual Maya
La compañía de inteligencia artificial Sesame ha anunciado el lanzamiento de su modelo base, llamado CSM-1B, que potencia al asistente virtual Maya. Este modelo tiene un tamaño impresionante de 1.000 millones de parámetros, que son componentes individuales del modelo.
CSM-1B se ha liberado bajo una licencia Apache 2.0, lo que significa que puede ser utilizado comercialmente con pocas restricciones. Esta es una noticia destacable en el mundo de la tecnología, ya que las licencias abiertas permiten a otros desarrolladores usar y modificar el modelo para diferentes aplicaciones.
Tecnología detrás del modelo CSM-1B
CSM-1B genera “códigos de audio RVQ” a partir de entradas de texto y audio. RVQ, o “cuantificación vectorial residual”, es una técnica utilizada para codificar audio en tokens discretos llamados códigos. Esta tecnología es empleada actualmente en varias innovaciones de audio basadas en inteligencia artificial, como los sistemas SoundStream de Google y Encodec de Meta.
El modelo CSM-1B utiliza un modelo de la familia Llama de Meta como base, al cual se le añade un componente “decodificador” de audio. Aunque puede crear una variedad de voces, todavía no ha sido ajustado para imitar voces específicas, lo que lo hace menos efectivo para idiomas diferentes al inglés.
Preocupaciones sobre la seguridad y el uso ético
Uno de los puntos críticos del lanzamiento es la falta de salvaguardas reales dentro del modelo para prevenir usos malintencionados. La empresa simplemente apela al sentido del honor al instar a los desarrolladores a no usar el modelo para imitar voces sin consentimiento, crear contenido engañoso o conducir actividades dañinas.
Consumer Reports ha señalado que muchas herramientas populares de clonación de voz basadas en inteligencia artificial carecen de protecciones significativas para prevenir el fraude o abuso. En pruebas realizadas, la clonación de voz con el demo del modelo se llevó a cabo en menos de un minuto, demostrando lo fácil que puede llegar a ser generar contenido de voz incluso en temas controvertidos.
Contexto y futuro de Sesame
Sesame fue cofundada por Brendan Iribe, uno de los creadores de Oculus, y ha ganado rápidamente notoriedad gracias a su tecnología de asistentes que casi alcanzan realismo humano. Maya, junto con otro asistente de la compañía llamado Miles, puede tomar respiraciones, hablar con interrupciones y disfluencias, similar al modo de voz de OpenAI.
La compañía ha recaudado capital de importantes fondos de inversión como Andreessen Horowitz, Spark Capital y Matrix Partners. Además de su trabajo en tecnología de asistentes de voz, Sesame está desarrollando prototipos de gafas de inteligencia artificial diseñadas para ser usadas todo el día, integrando sus modelos personalizados en estos dispositivos.