- PyCon US 2024

Charlas: Apache Arrow - El format columnar! Lo cualo?

Friday - May 17th, 2024 11:45 a.m.-12:15 p.m. in Room 310/311

Presented by:

Raúl Cumplido

Description

Escuchamos que Apache Arrow se ha convertido en un estándar de facto para la representación eficiente de datos columnares en memoria.

¡¿Pero, qué significa esto realmente?!

Basado en la documentación de Apache Arrow: - es una plataforma de desarrollo para análisis en memoria - permite que los sistemas de big data procesen y muevan datos rápidamente - especifica un formato de memoria en columnas estandarizado e independiente del idioma para datos planos y jerárquicos.

Hay un poco más de información ahí, pero todavía no es fácil de digerir, ¿verdad?

En esta charla pretendemos arrojar algo de luz sobre los conceptos básicos de Apache Arrow como formato de columnas. Revisaremos los diferentes diseños de memoria física y los tipos lógicos, profundizando en ellos.

Esta charla también cubrirá los conceptos básicos de serialización y comunicación entre procesos (IPC), junto con los tipos de extensión canónica y otras estructuras de datos como matrices multidimensionales tensoriales.

La charla pretende ser un ejercicio para comprender la representación física de los datos. Proporcionará ejemplos y mostrará cómo se representan realmente los buffers en la memoria.