Sommaire

  1. Pré-requis
  2. Installation
  3. Configuration
  4. Utilisation
  5. Problèmes connus
  6. Liens utiles
  7. Contribuer et financer
  8. Alternatives libres

1. Pré-requis

  • Disposer d'un ordinateur équipé du système d'exploitation GNU/Linux.
  • Disposer d'une connexion Internet, uniquement pour l'installation du logiciel.
  • Disposer d'un scanner, uniquement pour traiter un document papier.

2. Installation

Le traitement du document est assuré par un moteur de ROC. Ce moteur utilise des fichiers de langues pour pouvoir reconnaître les mots d'une langue donnée. L'application de ROC permet de sélectionner un moteur de ROC (si plusieurs sont utilisés) et de gérer les opérations.

Vous devez donc installer, l'application de ROC, le moteur de ROC et le ou les fichiers de langues.

Depuis votre logithèque, installez

  1. l'application OCRFeeder, le moteur tesseract-ocr sera automatiquement installé avec, ainsi que l'utilitaire de nettoyage unpaper ;
  2. le ou les fichiers de langue pour ce moteur (pour le français : tesseract-ocr-fra).

Si à l'usage vous n'êtes pas satisfait des résultats produits par le moteur tesseract-ocr, vous pouvez en installer d'autres, tels que ocropus, gorc, cuneiform ou ocrad.

3. Configuration

Si besoin, menu Édition > Préférences.

4. Utilisation

Étape 1 : importer le document à traiter

Document déjà numérisé (tout format d'image ou PDF)

Ouvrir un ou plusieurs documents : bouton "+" (images uniquement) ou menu Fichier > Ajouter une image | Importer un PDF.

Plusieurs documents peuvent être ouverts simultanément : les ajouter les uns après les autres, ou ajouter le contenu d'un dossier.

Document papier

Numérisation du document : menu Fichier > Importer la page à partir du scanner.
(Pas de possibilité de faire une rotation du texte : le mettre dans le bon sens sur la vitre du scanner.)

Si la page contient des impuretés ou manque de contraste, appliquer un filtre : menu Outils > Unpaper.

Étape 2 : reconnaître le document

Bouton (pour l'ensemble du document) ou menu Document > Reconnaître...

Pour définir des zones à reconnaître : sélection par clic-glisser.
Cliquer sur une zone (rectangle bleu) pour la sélectionner.

Après l'aboutissement du processus, une nouvelle zone apparaît à droite. En haut un aperçu zoomé de la sélection ("Extrait"), et en bas le texte détecté (pour la zone sélectionnée). Vous pouvez comparer les deux zones pour vérifier le résultat.

Vous pouvez corriger le texte dans la zone "Texte".

Étape 3 : exporter le résultat

Bouton export vers ODT ou menu Fichier > Exporter (choisir un format parmi ODT, HTML, PDF, texte brut).

Si la mise en forme obtenue ne vous convient pas, le simple est d'exporter en texte brut (sans mise en forme).

5. Problèmes connus

La reconnaissance d'un texte manuscrit n'a de chance d'aboutir que si le texte à été écrit avec un très grand soin, les lettres séparées les uns des autres et de préférence en majuscules...

La mise en page, notamment des tableaux ne sera pas reproduite correctement.

Un document importé via le scanner (numérisation) ne peut être tourné. S'il n'est pas dans le bon sens, vous devez le retourner manuellement sur la vitre et recommencer l'import.

6. Liens utiles

7. Contribuer et financer

Voir le site officiel (en anglais) : https://wiki.gnome.org/Apps/OCRFeeder

8. Alternatives libres

Voir la page OCR de la documentation ubuntu-fr.org