- Besoin : Numériser les comptes détaillés des sociétés (voir liasses fiscales) et récupérer les données sous formats exploitables Excel (Txt, Csv,…)
- Problématique générale => Saisie de données de formulaires scannés => Format Image (jpeg, png, gif…) ou pdf
- Problématique de formulaire => reconnaissance de formulaire
- Idée : utiliser PHP / OCR => Composant Tesseract (Logiciel Open Source de référence)
- Pour la reconnaissance des pages => Régler le sujet en transformant un doc PDF en un seul fichier image en longueur (concaténation image/pages en un seul fichier image).
- Pour la reconnaissance des blocs => Utiliser un réseau Neurones ?
- https://www.php.net/manual/en/book.fann.php
- Tesseract 4.0 utilise aussi LSTM NNetwork
- Pour un probléme equivalent => Solutions :