Comme certains le savent peut-être, je suis élue brestoise d'opposition (oui, oh, ça va, rigolez pas) de gauche face au PS/EELV/PC dans un groupe composé de moi et euuuh...hum, voilà. On reçoit le budget et toutes ses variantes annuelles en... pdf. Je l'ai demandé en format tableur, je l'ai reçu en format arbre mort. Donc je me fais CHIER LA BITE (pardon) à tout remettre en tableur, ce qui prend un temps fou. Mais... je me dis qu'il existe peut-être un super outil pour faire ça automatiquement ?
@Julie_Le_Goic si ton pdf est pas image, tu peux faire un copier-coller dans un tableur, normalement
@pasqal ok ! j'essaye !
@pasqal bon, ça marche pas terrible, parce que le pdf il est *en plus* sur un Ipad. Le copié-collé donne un truc tout compact, il ne reconnaît pas les colonnes... mais déjà, ça me permet de sortir les données de l'appli fermée (KBox, une horreur), c'est top ! Merci !
@Julie_Le_Goic dans un libreoffice, si tu as une seule colonne, il suffit de la selectionné, menu données et texte vers colonne, choisir le bon séparateur et hop, ton unique colonne devient plein de colonnes rangées. Bon + facile sur pc avec un libreoffice que sur Ipud, c'est sûr.
@Julie_Le_Goic http://tabula.technology/ (logiciel libre)
@milvus ça m'a l'air parfait !!! faut juste que j'arrive à sortir le pdf de l'application Ipad ... 🤐
@milvus @Julie_Le_Goic salut j'ai la même problématique. je suis élu dans un village de la Sarthe et malgré tout mes efforts je n'ai reçu qu'une année au format pdf. du coup j'ai lancé une procédure auprès de la CADA. j'ai les compétences pour transformer tout document pdf en tableur. que ce soit du pdf texte ou pdf images. on en parle?
@galileo avec quel outil pour du PDF image ?
@milvus tesseract sous Linux en ligne de commande
@galileo
OK, merci pour l'info
@milvus rho ça m'a l'air de marcher !!!! <3 merci.
@Julie_Le_Goic Cool, tant mieux...
@Julie_Le_Goic
Attention, c’est un peu technique, et c’est pas une solution miracle mais tu peux utiliser *pdftotext* avec l’option layout (https://askubuntu.com/a/307789) qui sort un .txt en conservant plus ou moins la structure du document pdf.
À partir de là il faut soit faire se débrouiller à la main, mais le mieux est d’essayer de convertir le résultat sous forme d’un csv avec l’outil de son choix (python, awk, _) ça dépend beaucoup de la tête du pdf initial.
@Julie_Le_Goic On apprend habituellement aux informaticiens que retrouver le document source d'un document PDF c'est à peu près comme essayer de reconstituer le cochon à parti du saucisson.
Cela dit, il existe apparemment des convertisseurs - que je n'ai jamais testé, perso. Chercher "pdf to csv" voire "pdf to excel" sur Google. Sans garantie...
@ppeccatte oui j'ai constaté que les solutions proposées ne sont pas parfaites. Mais elles sont déjà vrailent pas mal pour commencer. :)
@Julie_Le_Goic Je pense qu'il faut les prendre comme les logiciels reconnaissance de texte par OCR, pas parfaits mais utiles pour ne pas tout ressaisir
@Julie_Le_Goic Chaque pdf est différent donc faut quasiment chaque fois écrire un outil sur mesure.
@Julie_Le_Goic
Il y a ce logiciel libre d'OCR : https://github.com/manisandro/gImageReader
Sinon il y a la plupart du temps un logiciel d'OCR pour Windows inclus dans les logiciels fournis avec un scanner.
@bauvens je l'essaye il ne reconnaît pas très bien les caractères... Le résultat est marrant, on dirait de l'espéranto mal encodé... 😁
@Julie_Le_Goic la fondation Mozilla collabore à différents projets sur l'impact du numérique sur le journalisme, dans le cadre desquels ils ont développé des outils d'extraction de données. http://tabula.technology/ pourrait répondre à ton besoin (je ne l'ai jamais utilisé)
@clochix @Julie_Le_Goic
Hésite pas à me poueter à ce sujet semaine prochaine !
@clochix j'ai essayé, c'est vraiment top, bon, ça demande quand même pas mal d'heures pour remettre en forme mais rien à voir avec le fait de tout retaper !!!
@Julie_Le_Goic n'hésite pas à partager un retour d'expérience, tu n'es sans doute pas la seule à avoir ce genre de besoins, et cet outil semble peu connu (me souvenais en avoir entendu parler il y a quelques années, mais j'ai eu du mal à le retrouver).
@clochix oui, dès que je trouve du temps !! 🦉
@Julie_Le_Goic Dans un PDF, s'il n'est pas une image, ton tableau est en texte. Donc tu peux sélectionner puis copier-coller ton texte. Le problème, c'est que dans un PDF on perds toute notion de logique de colonne, texte fluide d'une zone à l'autre, etc (fonctions qui sont dans les logiciels de mise en page par exemple). En gros, tu as du texte (et des images, des dessins, etc) posés au bon endroit dans ton document.
@Julie_Le_Goic
Mais avec un peu de chance, si tu copies-colles ton texte du PDF au tableur, tu auras déjà récupéré ton texte mais aussi les colonnes et lignes si le texte a été copié dans le bon ordre. Par contre si ton tableau est un peu compliqué, c'est raté. (mais au moins tu n'auras pas à recopier ton texte).
@Julie_Le_Goic
Autre solution, essayer avec un logiciel d'OCR (reconnaissance des caractères). D'habitude on utilise ça pour reconnaître les textes dans des images, mais en plus ça reconstitue les colonnes et lignes des tableaux. Tout ça est un peu laborieux, il faut voir avec quelle solution tu passes le moins de temps.
@Julie_Le_Goic on peut extraire le texte d'un pdf, puis le formater en csv, puis tableur.
Serait-il possible d'avoir un échantillon de fichier ?
@ignorantcowboy ça donne ça (là c'est une capture d'écran, je ne sais pas envoyer des fichiers avec Mastodon...) https://mastodon.social/media/Thzwy0LeH3xEdkYZP5w
@Julie_Le_Goic je pense à des outils unix pour extraire le texte d'un pdf en format HTML, après c'est pas trop compliqué de le transformer en format tableur. je ne connais rien déjà prêt, mais ça a l'air simple à faire. Si ça peut attendre quelques jours, je peux faire une maquette.
@ignorantcowboy hello ! Les mastonautes m'ont fait découvrir Tabula qui marche nickel, merci !!!
@Julie_Le_Goic Amazon Mechanical Turk ?
@nododot huhu, je viens de voir ce que c'était... je vais plutôt exploiter les copains ! 😊
(hein @antonydbzh @alexandre_lhomme ...)
@Julie_Le_Goic tu peux voir avec @RegardsCitoyens, c'est le genre de choses qu'ils font encore de temps en temps cc @njoyard