technique:pratique:tesseract

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
technique:pratique:tesseract [2023/09/22 17:39] – update Alpinux - Cedric A5Ltechnique:pratique:tesseract [2023/09/22 18:00] (Version actuelle) – add Alpinux - Cedric A5L
Ligne 8: Ligne 8:
  
 {{ :technique:pratique:pasted:20230922-173926.png }} {{ :technique:pratique:pasted:20230922-173926.png }}
 +
 +Le programme effectue la reconnaissance de caractères (OCR) à partir de fichiers images populaires : pif, png, jpeg, tiff, bmp, gif, pgm, ppm, ico, xbm et xwd.
 +
 +
 +===== Installer Tesseract =====
 +**Tesseract OCR** n'est pas installé par défaut. Il faut l'installer soit en ligne de commande :
 +
 +<code>
 +sudo apt install tesseract-ocr-fra tesseract-ocr
 +</code>
 +  
 +soit à partir de la logithèque :
 +
 +{{ :technique:pratique:pasted:20230922-174300.png }}
 +
 +===== Utilisation =====
 +
 +Nous allons étudier le fonctionnement de Tesseract OCR en ligne de commande.
 +
 +Dans notre premier exemple nous effectuerons la reconnaissance de caractères (OCR) sur un fichier image JPG en utilisant la langue française :
 +<code>
 +tesseract -l fra mon-fichier.jpg mon-fichier-texte
 +</code>
 +
 +La commande exécute **Tesseract OCR** sur le fichier image JPG "mon-fichier.jpg", en utilisant le modèle de langue française, et extrait le texte reconnu, qu'il enregistre dans un nouveau fichier nommé "mon-fichier-texte.txt". Vous obtiendrez ainsi une version textuelle du contenu du fichier image JPG.
 +
 +Dans notre second exemple, nous effecturons la reconnaissance optique de caractères (OCR) sur plusieurs fichiers JPEG (avec l'extension .jpg) dans le répertoire courant.
 +
 +Le texte généré est stocké dans des fichiers texte (.txt) portant le même nom que les fichiers ".jpg" d'origine. Par exemple, si vous avez un fichier "image1.jpg", cette commande créera un fichier "image1.jpg.txt" contenant le texte extrait de "image1.jpg".
 +
 +<code>
 +for i in *.jpg ; do tesseract -l fra $i $i;  done;
 +</code>
  
  
  • technique/pratique/tesseract.1695397189.txt.gz
  • Dernière modification : 2023/09/22 17:39
  • de Alpinux - Cedric A5L