DeepSignBridge: Traductor de Lengua de Señas en Tiempo Real Basado en Transformers y Visión Artificial
16/11, 14:40–15:10 (America/La_Paz), Auditorio

Únete a nosotros en un viaje exploratorio detrás de las cámaras de “DeepSignBridge”, un sistema pionero que traduce la lengua de señas peruana a texto en tiempo real. Esta charla te llevará desde los cimientos de nuestro proyecto, comenzando con la exploración de arquitecturas de NLP como LSTM y GRU, pasando por las innovadoras CNN 1-D, hasta culminar en la elección de los Transformers, que revolucionaron nuestro enfoque.

Profundizaremos en los desafíos y las soluciones innovadoras en la detección de poses, destacando el uso de herramientas vanguardistas como MediaPipe y YOLO Pose, que nos permitieron capturar con precisión los gestos complejos del lenguaje de señas. Además, compartiremos nuestras experiencias comparando modelos de vanguardia como ViT y ConvNeXt, y cómo finalmente nos decidimos por MaxViT debido a su excepcional rendimiento y precisión. Además, aprenderemos como el API de ChatGPT nos puede ayudar a mejorar la traducción haciéndola más natural.


DeepSignBridge: Traduciendo el Lenguaje de Señas Peruano

El proyecto se centra en el desarrollo de DeepSignBridge, un sistema innovador que busca traducir el lenguaje de señas peruano (LSP) a texto en tiempo real, utilizando técnicas de visión artificial y modelos de procesamiento de lenguaje natural. DeepSignBridge se creó para mejorar la inclusión y comunicación entre personas con discapacidades auditivas y oyentes en Perú, buscando trascender las barreras lingüísticas.

El sistema utiliza dos modelos:

  • Modelo 1: Basado en un transformer que procesa las coordenadas de los puntos clave del cuerpo extraídas de videos mediante MediaPipe, identificando patrones para comprender las señas.
  • Modelo 2: Combina MaxViT, una CNN con atención, y un transformer puro. Este modelo analiza imágenes de 'esqueletos' generadas a partir de los videos, extrayendo características locales y globales para una mejor comprensión de la secuencia de gestos.

La interfaz gráfica de usuario (GUI), desarrollada con PyQt6, permite al usuario ver su imagen mientras realiza las señas y observar la traducción generada en tiempo real. Además, integra la API de ChatGPT para mejorar la coherencia del texto traducido, añadiendo conjugaciones, conectores y artículos para una lectura más natural.

Ambos modelos mostraron resultados satisfactorios, con una tasa de acierto superior al 80% en condiciones controladas. Sin embargo, el modelo 2 demostró ser más robusto ante variaciones en la posición del usuario, aunque más lento que el modelo 1.

Este trabajo sienta las bases para futuras investigaciones y desarrollos en la traducción automática del LSP, buscando la ampliación del vocabulario, la mejora de algoritmos para un reconocimiento más flexible de gestos y la adaptación a dispositivos móviles.

  1. Introducción del proyecto (4 min):
    - Motivación
    - Problemática

  2. Estado del arte (5 min):
    - Selección de modelos
    - Evaluación de posibles arquitecturas

  3. Desarrollo del proyecto (7 min):
    - Construcción del dataset
    - Desarrollo de los modelos
    - Implementación de ChatGPT API

  4. Resultados (5 min):
    - Evaluación de los modelos
    - Comparativa y métricas de los modelos

  5. Video demostrativo (2 min)

  6. Conclusiones (4 min)

  7. Próximos pasos (3 min)

Hola, soy Ingeniero Mecatrónico por la Universidad Peruana de Ciencias Aplicadas, donde me desempeño como investigador en el fascinante mundo de los satélites y la Visión por Computadora. Poseo una Maestría en Inteligencia Artificial en la Universidad de Buenos Aires, ampliando mis horizontes en esta revolucionaria área.

Para combinar mi pasión por enseñar y mi experiencia en el campo tecnológico, durante los últimos 4 años he sido docente de programación en Python enfocado al Machine Learning y al Procesamiento Digital de Señales. Además, en los últimos 3 años he trabajado como Data Scientist y AI Engineer en una empresa multinacional, roles que me han permitido diseñar e implementar soluciones innovadoras en la industria.

Mi compromiso con la divulgación tecnológica me ha llevado a compartir mis experiencias en diversos eventos académicos y profesionales, incluyendo charlas en congresos de IEEE en Perú, México y Colombia, ponencias en eventos empresariales para la industria tecnológica y participaciones destacadas para la comunidad de Python como speaker en Python Meetups Perú, PyDay Perú 2023, Pycon Colombia 2024 y en la Pycon Latam 2024 en México.