document-rag-pipeline-step-1-database-schema | detalle de la skill | OpenClaw Study

Esta Skill implementa los pasos centrales de una canalización de ingestión para documentos RAG (retrieval-augmented generation): crear un esquema SQLite lo…

Esta Skill implementa los pasos centrales de una canalización de ingestión para documentos RAG (retrieval-augmented generation): crear un esquema SQLite local para almacenar documentos, fragmentos y embeddings; extraer texto de PDFs digitales usando PyMuPDF; realizar OCR en PDFs escaneados usando Tesseract + PyMuPDF + PIL; dividir documentos largos en fragmentos de texto solapados para una recuperación adecuada al tamaño de la ventana de contexto; generar embeddings vectoriales con SentenceTransformers (por defecto all-MiniLM-L6-v2) incluyendo procesamiento por lotes y salvaguardas para entornos solo CPU; y realizar búsquedas semánticas por similitud de coseno con top_k y controles de muestreo configurables. Casos de uso incluyen construir bases de conocimiento locales, búsqueda de documentos empresariales, asistentes de preguntas y respuestas sobre documentos y preprocesado de corpus para augmentaciones con LLM. Las ventajas principales son herramientas modulares y de código abierto, soporte robusto para PDFs escaneados y digitales, opciones de embeddings eficientes para entornos de producción y CPU, y un modelo de almacenamiento sencillo respaldado por SQLite que facilita el autoalojamiento y la depuración.

Esta página forma parte del hub OpenClaw Skills con guías de instalación, categorías y enlaces prácticos.

English 简体中文 繁體中文 日本語 Português