PDF

Tout d'abord, se souvernir que PDF sur internet a une et une seule fonction: proposer un format de document imprimable, quelque soit la plateforme (windows, mac, *nix etc.). Toute autre utilisation de PDF est abusive! Donc, dans la mesure du possible, préférer des formats plus simples et ne proposer le PDF que pour l'impression.

Note: souvent on croit que le fait de “pdfiser” un document le rend intransformable, et on l'utilise donc pour des documents qu'on ne veut pas voir éditer par d'autres. C'est faux. Il est très aisé de modifier un document pdf, donc gare gare!

Openoffice, gratuit et excellent ersatz pour word, excel, access, propose un générateur pdf, efficace et générant des documents beaucoups plus légers que l'infernal couple word + adobe distiller; et comme openoffice sait ouvrir des documents word (et excel)…

http://fr.openoffice.org/

FPDF est une classe PHP qui permet de générer des fichiers PDF en pur PHP, c'est-à-dire sans utiliser la librairie PDFlib. Le F de FPDF signifie Free : vous êtes libre de l'utiliser et de la modifier comme vous le souhaitez.

http://www.fpdf.org/

concaténation d'exemples d'utilisation de fpdf

on peut aussi utiliser Gimp (équivalent de photoshop, http://www.gimp.org/) pour éditer un pdf, il fabrique autant d'images qu'il y a de pages et vogue la galère… Il faut ensuite ré-exporter en PDF, p. ex. avec Gimp

Gimp est aussi disponible pour windows: http://gimp-win.sourceforge.net/stable.html

Si le document PDF est destiné au web, dans la mesure du possible, il est souhaitable de mettre sur le serveur (p. ex. dans le même répertoire) systématiquement à côté du PDF la version originale (p. ex. le .doc word), très utile si plus tard on doit corriger quelque chose (p. ex. une faute de frappe).

Si on a pas ce fichier d'origine, il reste poppler-utils ou xpdf et xpdf-utils qui comprennent tous deux plusieurs utilitaires bien pratiques, je cite (poppler-utils):

“This package contains pdftops (PDF to PostScript converter), pdfinfo (PDF document information extractor), pdfimages (PDF image extractor), pdftohtml (PDF to HTML converter), pdftotext (PDF to text converter), and pdffonts (PDF font analyzer).”

Ensuite il suffit de faire en ligne de commande un

pdftotext votreFichier.pdf

et vous aurez un votreFichier.txt éditable…

si vous voulez de l'html, rien de plus simple:

pdftohtml votreFichier.pdf

créera les fichier votreFichierA-Z.html avec un fichier par page

par contre s'il y a des images il faudra utiliser gimp (cf. supra) pour les récupérer et les intégrer

Convertir des PDF en grand nombre vers du txt

Vous avez plusieurs (dizaines, centaines, milliers…) documents en pdf et vous voulez avoir une version texte, mais vous ne voulez pas vous faire une épicondylite avec X millions de click de souris?

après un petit

sudo apt-get poppler-utils

find . -name "*.pdf"  | while read i
do
  pdftotext $i
done

et c'est tout!

Attention à l'astuce sur linux d'imprimer le fichier dans un fichier PDF: la compatibilité sur le mondes windows n'est pas assurée, donc il faut tester avant de mettre en ligne, et utiliser de préférence le générateur pdf d'openoffice

concaténer les deux fichiers test.pdf et test1.pdf dans out.pdf

gs -q -sPAPERSIZE=letter -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -sOutputFile=out.pdf test.pdf test1.pdf 

pdfmerge

pdfmerge : merges PDF documents into a single document / pour concaténer des fichiers pdf

pdfsam

Split and merge pdf documents, it's free, open source and platform independent.

http://www.pdfsam.org/

note Fred: avec un GUI, marche nickel

pdf2html

Convertir des PDF en HTML

jodconverter pour convertir en série (shell) des fichiers word ou odt en pdf (ou tout autre format)

sam2p pour convertir des jpg (ou autres fichiers images) en ps / pdf

 gs -dBATCH -dNOPAUSE -q -sDEVICE=pdfwrite -sOutputFile=output.pdf input.pdf 
 

ou

 ps2pfd input.pdf output.pdf.

source: http://blog.kmelia.net/news/reduire-le-poids-dun-fichier-pdf-rapidement-avec-ghostscript/757

outil capable de gérer les tableaux PDF, en général la génération de texte fait un monstrueux désordre, le logiciel étant incapable de comprendre la logique ligne / colonnes: à ma connaissance le seul est pstotext

sudo apt-get install pstotext

puis

pstotext -bboxes test.pdf

zathura, lecteur ultra-rapide

xournal, un outil très pratique pour la prise de notes qui permet aussi de travailler directement sur du pdfl

http://en.wikipedia.org/wiki/List_of_PDF_software

pour moi ça marche pas du tout

à tester outils java

http://en.wikipedia.org/wiki/IText

http://en.wikipedia.org/wiki/PDF_Clown plutôt pour générer du PDF, semble intéressant

  • info/pdf.txt
  • Dernière modification: 2018/11/13 14:25
  • par radeff