Comment trouver les paramètres pris en charge dans le fichier de configuration OCR de Tesseract

je veux savoir quels paramètres le fichier de configuration utilisé par Tesseract OCR accepte, comment écrire un fichier de configuration, etc.

je ne trouve pas de documentation à ce sujet sur leur site. Comment puis-je déterminer quels paramètres sont pris en charge, et ce qu'ils signifient?

11
demandé sur Mogsdad 2012-10-22 12:05:25

3 réponses

j'ai trouvé ces instructions dans le lien ci-dessous. Ils concernent l'écriture du fichier de configuration et son emplacement:

le fichier de configuration est un simple fichier texte sans BOM et avec la marque de fin de ligne Unix (sur Windows vous pouvez utiliser un éditeur de texte avancé par exemple Notepad++ pour réaliser ceci).

Si vous utiliser tesseract exécutable c'est la seule façon comment changer tesseract paramètres.

le fichier de configuration doit être situé dans votre répertoire tessdata/configs. Jeter un coup d'oeil pour voir quelques exemples.

il y a un liste de toutes les variables plus les descriptions de chacun dans http://www.sk-spell.sk.cx/tesseract-ocr-parameters-in-302-version. Notez que C'est pour Tesseract 3.02, les choses peuvent être différentes dans d'autres versions.

Edit: ajout d'un lien pastebin dans le cas où le lien ci-dessus devient mort.

15
répondu sashoalm 2015-11-09 08:02:04

ce n'est qu'un simple fichier texte contenant des combinaisons clé/valeur délimitées par l'espace pour les variables de configuration de Tesseract, chacune sur une ligne séparée; par exemple:

interactive_display_mode T
tessedit_display_outwords T

il existe plusieurs fichiers de configuration standard -- tels que des chiffres, hocr -- sous Tesseract tessdata / configs dossier.

8
répondu nguyenq 2012-10-26 21:40:52

Tesseract v3.04 offre maintenant l'option de ligne de commande --print-parameters, de sorte que vous pouvez appeler tesseract --print-parameters pour obtenir une liste des 678 (!) paramètres configurables, leurs valeurs par défaut, et une courte description:

Tesseract parameters:
editor_image_xpos   590 Editor image X Pos
editor_image_ypos   10  Editor image Y Pos
editor_image_menuheight 50  Add to image height for menu bar
editor_image_word_bb_color  7   Word bounding box colour
editor_image_blob_bb_color  4   Blob bounding box colour
editor_image_text_color 2   Correct text colour
...and many, many more
6
répondu chbrown 2016-04-12 22:02:49