OCR pdf Tesseract Comptes Détaillés

Besoin : Numériser les comptes détaillés des sociétés (voir liasses fiscales) et récupérer les données sous formats exploitables Excel (Txt, Csv,…)

Problématique générale => Saisie de données de formulaires scannés => Format Image (jpeg, png, gif…) ou pdf
Problématique de formulaire => reconnaissance de formulaire

Idée : utiliser PHP / OCR => Composant Tesseract (Logiciel Open Source de référence)
- https://github.com/thiagoalessio/tesseract-ocr-for-php
- https://fr.wikipedia.org/wiki/Tesseract_(logiciel)
Pour la reconnaissance des pages => Régler le sujet en transformant un doc PDF en un seul fichier image en longueur (concaténation image/pages en un seul fichier image).
Pour la reconnaissance des blocs => Utiliser un réseau Neurones ?
- https://www.php.net/manual/en/book.fann.php
- Tesseract 4.0 utilise aussi LSTM NNetwork
Pour un probléme equivalent => Solutions :
- https://stackoverflow.com/questions/5041038/is-there-an-ocr-library-that-outputs-coordinates-of-words-found-within-an-image

Blue-Bears