Esta Skill proporciona una canalización de datos programable y configurable, centrada en CSV, para tareas de ETL, limpieza y preprocesado. Soporta ejecució…
Esta Skill proporciona una canalización de datos programable y configurable, centrada en CSV, para tareas de ETL, limpieza y preprocesado. Soporta ejecución desde CLI usando configuraciones de canalización en YAML con flags para sobrescribir rutas de entrada/salida y un modo de validación --dry-run, además de una API en Python (PipelineConfig y DataPipeline) para flujos de trabajo embebidos. Las características principales incluyen validación de esquema (columnas requeridas y no nulas), transformaciones comunes (filter, sort, fill_nulls), procesamiento por lotes de directorios mediante Path.glob y un diseño modular de lector/transformador/exportador. Los exportadores pueden producir múltiples formatos (CSV, JSON, Parquet) y las ejecuciones de la canalización devuelven metadatos (por ejemplo, recuentos de filas procesadas). Casos de uso: limpieza de datos antes de análisis o ML, importaciones por lotes programadas, ejecuciones de canalización reproducibles e integración sencilla en sistemas de automatización o CI más amplios. Ventajas: reproducibilidad, extensibilidad y clara separación de la E/S, la validación y la lógica de transformación.
Esta página forma parte del hub OpenClaw Skills con guías de instalación, categorías y enlaces prácticos.