document-rag-pipeline-build-knowledge-base | detalle de la skill | OpenClaw Study

Esta habilidad proporciona una canalización de línea de comandos para ingerir documentos, extraer texto (OCR opcional), calcular embeddings y construir una…

Esta habilidad proporciona una canalización de línea de comandos para ingerir documentos, extraer texto (OCR opcional), calcular embeddings y construir una base de conocimiento buscable para generación aumentada por recuperación (RAG). Las características clave incluyen una invocación de canalización completa que realiza OCR y generación de embeddings, un conmutador --no-ocr para un procesamiento más rápido de PDFs de texto, un modo solo inventario y búsqueda semántica incorporada con los controles --search y --top-k. Un script bash quick-search incluido demuestra la puntuación de similitud local usando un modelo SentenceTransformer y un inventario SQLite, devolviendo los fragmentos de documentos superiores y los nombres de archivo. Casos de uso incluyen indexar informes de ingeniería, manuales técnicos o documentos empresariales para búsqueda semántica, QA y aumento RAG. Las principales ventajas son la ejecución local (sin dependencia de APIs externas), rendimiento configurable (omitir OCR, selección de GPU vía variables de entorno) e integración sencilla en canalizaciones de documentos.

Esta página forma parte del hub OpenClaw Skills con guías de instalación, categorías y enlaces prácticos.

English 简体中文 繁體中文 日本語 Português