16/11, 14:40–15:10 (America/La_Paz), Auditorio
Únete a nosotros en un viaje exploratorio detrás de las cámaras de “DeepSignBridge”, un sistema pionero que traduce la lengua de señas peruana a texto en tiempo real. Esta charla te llevará desde los cimientos de nuestro proyecto, comenzando con la exploración de arquitecturas de NLP como LSTM y GRU, pasando por las innovadoras CNN 1-D, hasta culminar en la elección de los Transformers, que revolucionaron nuestro enfoque.
Profundizaremos en los desafíos y las soluciones innovadoras en la detección de poses, destacando el uso de herramientas vanguardistas como MediaPipe y YOLO Pose, que nos permitieron capturar con precisión los gestos complejos del lenguaje de señas. Además, compartiremos nuestras experiencias comparando modelos de vanguardia como ViT y ConvNeXt, y cómo finalmente nos decidimos por MaxViT debido a su excepcional rendimiento y precisión. Además, aprenderemos como el API de ChatGPT nos puede ayudar a mejorar la traducción haciéndola más natural.
DeepSignBridge: Traduciendo el Lenguaje de Señas Peruano
El proyecto se centra en el desarrollo de DeepSignBridge, un sistema innovador que busca traducir el lenguaje de señas peruano (LSP) a texto en tiempo real, utilizando técnicas de visión artificial y modelos de procesamiento de lenguaje natural. DeepSignBridge se creó para mejorar la inclusión y comunicación entre personas con discapacidades auditivas y oyentes en Perú, buscando trascender las barreras lingüísticas.
El sistema utiliza dos modelos:
- Modelo 1: Basado en un transformer que procesa las coordenadas de los puntos clave del cuerpo extraídas de videos mediante MediaPipe, identificando patrones para comprender las señas.
- Modelo 2: Combina MaxViT, una CNN con atención, y un transformer puro. Este modelo analiza imágenes de 'esqueletos' generadas a partir de los videos, extrayendo características locales y globales para una mejor comprensión de la secuencia de gestos.
La interfaz gráfica de usuario (GUI), desarrollada con PyQt6, permite al usuario ver su imagen mientras realiza las señas y observar la traducción generada en tiempo real. Además, integra la API de ChatGPT para mejorar la coherencia del texto traducido, añadiendo conjugaciones, conectores y artículos para una lectura más natural.
Ambos modelos mostraron resultados satisfactorios, con una tasa de acierto superior al 80% en condiciones controladas. Sin embargo, el modelo 2 demostró ser más robusto ante variaciones en la posición del usuario, aunque más lento que el modelo 1.
Este trabajo sienta las bases para futuras investigaciones y desarrollos en la traducción automática del LSP, buscando la ampliación del vocabulario, la mejora de algoritmos para un reconocimiento más flexible de gestos y la adaptación a dispositivos móviles.
-
Introducción del proyecto (4 min):
- Motivación
- Problemática -
Estado del arte (5 min):
- Selección de modelos
- Evaluación de posibles arquitecturas -
Desarrollo del proyecto (7 min):
- Construcción del dataset
- Desarrollo de los modelos
- Implementación de ChatGPT API -
Resultados (5 min):
- Evaluación de los modelos
- Comparativa y métricas de los modelos -
Video demostrativo (2 min)
-
Conclusiones (4 min)
-
Próximos pasos (3 min)
Hola, soy Ingeniero Mecatrónico por la Universidad Peruana de Ciencias Aplicadas, donde me desempeño como investigador en el fascinante mundo de los satélites y la Visión por Computadora. Poseo una Maestría en Inteligencia Artificial en la Universidad de Buenos Aires, ampliando mis horizontes en esta revolucionaria área.
Para combinar mi pasión por enseñar y mi experiencia en el campo tecnológico, durante los últimos 4 años he sido docente de programación en Python enfocado al Machine Learning y al Procesamiento Digital de Señales. Además, en los últimos 3 años he trabajado como Data Scientist y AI Engineer en una empresa multinacional, roles que me han permitido diseñar e implementar soluciones innovadoras en la industria.
Mi compromiso con la divulgación tecnológica me ha llevado a compartir mis experiencias en diversos eventos académicos y profesionales, incluyendo charlas en congresos de IEEE en Perú, México y Colombia, ponencias en eventos empresariales para la industria tecnológica y participaciones destacadas para la comunidad de Python como speaker en Python Meetups Perú, PyDay Perú 2023, Pycon Colombia 2024 y en la Pycon Latam 2024 en México.