Différences
Ci-dessous, les différences entre deux révisions de la page.
Prochaine révision | Révision précédente | ||
technique:pratique:tesseract [2023/09/22 17:34] – créée Alpinux - Cedric A5L | technique:pratique:tesseract [2023/09/22 18:00] (Version actuelle) – add Alpinux - Cedric A5L | ||
---|---|---|---|
Ligne 1: | Ligne 1: | ||
====== Tesseract OCR ====== | ====== Tesseract OCR ====== | ||
- | **Tesseract OCR** est un moteur de reconnaissance de caractères. Il peut être utilisé soit en ligne de commande, soit par l' | + | **Tesseract OCR** est un moteur de reconnaissance de caractères. Il peut être utilisé soit en ligne de commande, soit par l' |
+ | |||
+ | {{ : | ||
+ | |||
+ | ou **OCRfeeder** | ||
+ | |||
+ | {{ : | ||
+ | |||
+ | Le programme effectue la reconnaissance de caractères (OCR) à partir de fichiers images populaires : pif, png, jpeg, tiff, bmp, gif, pgm, ppm, ico, xbm et xwd. | ||
+ | |||
+ | |||
+ | ===== Installer Tesseract ===== | ||
+ | **Tesseract OCR** n'est pas installé par défaut. Il faut l' | ||
+ | |||
+ | < | ||
+ | sudo apt install tesseract-ocr-fra tesseract-ocr | ||
+ | </ | ||
+ | |||
+ | soit à partir de la logithèque : | ||
+ | |||
+ | {{ : | ||
+ | |||
+ | ===== Utilisation ===== | ||
+ | |||
+ | Nous allons étudier le fonctionnement de Tesseract OCR en ligne de commande. | ||
+ | |||
+ | Dans notre premier exemple nous effectuerons la reconnaissance de caractères (OCR) sur un fichier image JPG en utilisant la langue française : | ||
+ | < | ||
+ | tesseract -l fra mon-fichier.jpg mon-fichier-texte | ||
+ | </ | ||
+ | |||
+ | La commande exécute **Tesseract OCR** sur le fichier image JPG " | ||
+ | |||
+ | Dans notre second exemple, nous effecturons la reconnaissance optique de caractères (OCR) sur plusieurs fichiers JPEG (avec l' | ||
+ | |||
+ | Le texte généré est stocké dans des fichiers texte (.txt) portant le même nom que les fichiers " | ||
+ | |||
+ | < | ||
+ | for i in *.jpg ; do tesseract -l fra $i $i; done; | ||
+ | </ | ||