16/11, 10:55–11:25 (America/La_Paz), Auditorio
En esta charla exploraremos cómo PySpark, la interfaz de Python para Apache Spark, se convierte en una herramienta esencial para procesar grandes volúmenes de datos en entornos distribuidos. A lo largo de la sesión, los asistentes aprenderán cómo utilizar PySpark para trabajar con Big Data de manera eficiente, descubriendo sus principales componentes, como DataFrames y Spark SQL. Además, se presentarán ejemplos prácticos que demuestran la capacidad de PySpark para manejar datos masivos, ofreciendo una solución escalable y accesible para analistas de datos y desarrolladores que desean dar el siguiente paso después de Pandas.
En esta charla de 30 minutos, nos enfocaremos en PySpark, la interfaz de Python para Apache Spark, como una solución eficiente para procesar grandes volúmenes de datos. La sesión está diseñada para aquellos que ya han trabajado con Python y Pandas, y se encuentran en una etapa inicial de su exploración de herramientas más avanzadas para Big Data. A través de ejemplos prácticos y explicaciones claras, los asistentes descubrirán cómo PySpark ofrece un enfoque escalable para manejar datos masivos, superando las limitaciones de Pandas en términos de rendimiento y capacidad.
La charla se estructurará de la siguiente manera:
1. Introducción al Big Data (5 min):
Definiremos qué es Big Data y sus características clave (volumen, variedad y velocidad), explicando por qué las herramientas tradicionales como Pandas no son suficientes para manejar grandes volúmenes de datos.
2. PySpark: Contexto y ventajas (5 min):
Presentaremos PySpark y cómo se integra dentro del ecosistema de Apache Spark. Explicaremos por qué es la opción ideal para quienes buscan una alternativa más poderosa que Pandas cuando se trata de procesamiento de datos a gran escala.
3. PySpark en acción y demostración en vivo (20 min):
En esta sección, trabajaremos directamente con un cuaderno Jupyter (IPYNB) para explicar y demostrar los conceptos clave de PySpark. Comenzaremos desde lo más básico, mostrando cómo PySpark maneja grandes volúmenes de datos a través de DataFrames y cómo estos se comparan con los de Pandas en términos de eficiencia y escalabilidad. A medida que avanzamos, integraremos Spark SQL, explicando cómo se puede usar para realizar consultas sobre grandes conjuntos de datos de forma distribuida.
Los asistentes seguirán el proceso paso a paso, viendo cómo cada componente de PySpark, desde la creación de DataFrames hasta las consultas SQL, puede mejorar sus flujos de trabajo actuales en comparación con Pandas. Esta demostración permitirá a los asistentes experimentar de forma práctica cómo PySpark optimiza el procesamiento de datos masivos y ofrece una solución escalable para análisis de datos avanzados.
4. Conclusión y cierre (3 min):
Recapitularemos los puntos clave de la charla, destacando por qué PySpark es una herramienta esencial para quienes necesitan manejar grandes volúmenes de datos de manera eficiente. Ofreceremos recursos adicionales para seguir aprendiendo y explorando PySpark.
Soy informático apasionado por el análisis de datos con experiencia en la gestión, limpieza y optimización de grandes volúmenes de datos. Domino SQL y Python, incluyendo bibliotecas como Pandas, NumPy y Matplotlib, lo que me permite transformar datos complejos en información clara y accionable. He desarrollado paneles interactivos y reportes automatizados que facilitan la comprensión de datos para diversas audiencias. Además, he trabajado en equipos ágiles utilizando metodologías Scrum, contribuyendo
a soluciones innovadoras y eficientes. Poseo habilidades en capacitación y soporte técnico, promoviendo el aprendizaje y la colaboración. Apasionado por la tecnología, me mantengo actualizado en las últimas tendencias de ciencia de datos para mejorar procesos y aportar valor a través de soluciones avanzadas.