Esta sub-habilidad proporciona utilidades robustas para la extracción de texto de PDFs que manejan archivos encriptados, escaneados y de gran tamaño. Auten…
Esta sub-habilidad proporciona utilidades robustas para la extracción de texto de PDFs que manejan archivos encriptados, escaneados y de gran tamaño. Autentica PDFs protegidos por contraseña usando PyMuPDF (fitz), devolviendo errores claros cuando falta la contraseña o es inválida y permitiendo un procesamiento automatizado seguro. Para imágenes escaneadas integra OCR mediante pytesseract y Pillow para extraer texto de páginas rasterizadas. Para documentos grandes admite extracción en streaming y con eficiencia de memoria, con límites de páginas opcionales y procesamiento por página para evitar un alto uso de memoria. Los casos de uso típicos incluyen pipelines de ingestión automática, procesamiento de documentos legales y financieros, indexación de contenido, digitalización de archivos y conversiones por lotes. Las ventajas principales son el manejo seguro de archivos protegidos, la recuperación automática mediante OCR para PDFs sin texto y patrones de extracción escalables que se integran fácilmente en flujos de trabajo más amplios de pdf-text-extractor.
Esta página forma parte del hub OpenClaw Skills con guías de instalación, categorías y enlaces prácticos.