Midilibre.fr
Tous les blogs | Alerter le modérateur| Envoyer à un ami | Créer un Blog

19/11/2008

[PDF] - extraire les images d'un PDF et diverses bricoles...

pdf_icon_large.jpgPrenons un PDF au hasard  avec des images dedans si possible. Parfois on souhaite récupérer les images qui se trouve dedans, avec leur résolution native, la solution "sous le coude" est l'utilisation d'impr écran. Mais lorsque vous avez plusieurs centaines d'images a récupérer la manipulation peut vite devenir douloureuse (et longue...). Heureusement notre pingouin, ami des solutions rapide et propre, nous propose une solution on ne peut plus simple : pdfimages.

Que nous dit le manpage : pdfimages [options] PDF-file image-root

Le format d'extraction sera donc : pdfimages les_options le_fichier le_nom_racine_de_l_image

ainsi si vous avez un pdf qui s'appelle toto.pdf et que vous voulez extraire toutes les images sous le nom 'images' il vous suffira de taper :

pdfimages -j toto.pdf images

le -j permet si le pdf contient des images au format jpg de conserver ce format.


Et puis comme je suis un peu curieux, j'ai regarder le manpage, qui en fin de page mentionne les programmes liés, il mentionne pdffonts qui permet de lister les polices utiliser dans un pdf.

Mieux pdftotext, permet d'extraire le texte brut (ou de générer un pseudo html, imbriqué dans un PRE)

Décidement, notre os regorge de bien des outils qui facilite bien des choses (sous ma debian lenny tout était installé par défaut je n'ai pas été obligé de rajouté des paquets, sinon l'ensemble se trouve dans xpdf-utils)