miércoles, 20 de junio de 2012

Extraer texto e imágenes de un PDF

Probablemente alguna vez hayas querido extraer un texto o una imagen de un PDF, ya sea para utilizarlos en otro documento o simplemente porque el resto del PDF te es innecesario.
Pues bien, en GNU existen herramientas que facilitan esta extracción. La forma de hacerlo es la siguiente. Instalamos el paquete poppler-utils:

En Debian/ubuntu: $ sudo apt-get install poppler-utils En Fedora: $ sudo yum install poppler-utils En ArchLinux no tenemos poppler-utils, pero podemos instalar poppler a tal efecto: # pacman -S poppler Una vez instalado el paquete utilizaremos los siguientes comandos:

Para extraer las imágenes: $ pdfimages -j archivo.pdf imagenespdf/ Para extraer el texto: $ pdftotext archivo.pdf donde archivo.pdf es nuestro archivo en PDF e imagenespdf es una carpeta, que debe existir, en la que se guardarán las imágenes del archivo

No hay comentarios:

Publicar un comentario