Seminario Internacional sobre Inteligencia Artificial Aplicada al Audio y la Voz Humana

El miércoles 29 de mayo organizamos un evento educativo dirigido a la comunidad hispanoparlante, con la participación de dos de los principales exponentes latinos en el ámbito de la inteligencia artificial aplicada al audio y la voz humana. Este seminario internacional, que se extendió a lo largo de tres horas, contó con el “hosteo” del actual Vice Chairman de la Sección AES Argentina. Christian Paladino tuvo la responsabilidad de guiar a nuestros invitados José Elizalde y Juan “Cana” San Martín.

En la primera parte del webinario se llevó a cabo una entrevista al ingeniero mexicano José Elizalde. Durante esta sesión, José describió sus primeros pasos, sus inquietudes técnicas y artísticas, que lo llevaron a profundizar sus conocimientos en música y tecnología. Además, ofreció un análisis detallado de su trabajo tecnológico relacionado con el lenguaje, lingüística, informática e inteligencia artificial.

José Elizondo es músico e ingeniero, con títulos en Música e Ingeniería Eléctrica del MIT. También estudió análisis musical, orquestación y dirección en Harvard. Como compositor, ha colaborado en la creación de música para orquestas y conjuntos de cámara. Además, ha publicado artículos sobre tecnología y diseño de interfaces en revistas internacionales y ha presentado talleres en varios países sobre diseño y tecnología intercultural.

En la segunda parte del seminario, fue el turno de Juan “Cana” San Martín quien compartió sus conocimientos sobre reconocimiento de voz e inteligencia artificial. Cana hizo un repaso exhaustivo de los modelos acústicos y de los modelos de lenguaje más utilizados en estas disciplinas. También explicó el papel crucial de las API en la integración de capacidades avanzadas de reconocimiento de voz en diversas aplicaciones. Posteriormente, profundizó en las Redes Neuronales y la Optimización Estocástica del Gradiente (SGD), destacando la capacidad para manejar grandes volúmenes de datos de manera eficiente. Explicó cómo la SGD permite que estos modelos aprendan y mejoren, proporcionando las capacidades que vemos en aplicaciones de reconocimiento de voz, como asistentes virtuales y sistemas de transcripción automática.

Además, se discutió la importancia de la prosodia y sus componentes esenciales para mejorar la precisión, naturalidad y efectividad de estos sistemas de IA y reconocimiento de voz.

Luego de tres horas intensas y tras los agradecimientos de rigor, concluimos un evento que invita a ser revivido.

Aquellos interesados en verlo por primera vez (o nuevamente) los invitamos a visitar este link https://www.youtube.com/watch?v=aQy7nOhsn-4&t=5588s&pp=ygUNYWVzIGFyZ2VudGluYQ%3D%3D