Pues bien, en GNU existen herramientas que facilitan esta extracción. La forma de hacerlo es la siguiente. Instalamos el paquete poppler-utils:
En Debian/ubuntu:
$ sudo apt-get install poppler-utils
En Fedora:
$ sudo yum install poppler-utils
En ArchLinux no tenemos poppler-utils, pero podemos instalar poppler a tal efecto:
# pacman -S poppler
Una vez instalado el paquete utilizaremos los siguientes comandos:Para extraer las imágenes:
$ pdfimages -j archivo.pdf imagenespdf/
Para extraer el texto:
$ pdftotext archivo.pdf
donde archivo.pdf es nuestro archivo en PDF e imagenespdf es una carpeta, que debe existir, en la que se guardarán las imágenes del archivo
No hay comentarios:
Publicar un comentario