Améliorer les résultats OCR de Tesseract avec un texte flou

je travaille sur la reconnaissance OCR du texte imprimé. En particulier, je me concentre sur l'étape de prétraitement pour améliorer les résultats de l' Tesseract moteur. J'ai déjà obtenu de bons résultats avec le battage adaptatif, l'élimination du bruit, Le text deskew, etc... Mais toujours Tesseract semble échouer lorsque d'autres produits commerciaux retourner des résultats décents.

j'ai utilisé l'image de test suivante Et voici les résultats obtenus avec Tesseract 3.04 comparé à deux OCR commerciaux API. Tous les 3 services ont été fournis avec la même image binaire qui contient du texte légèrement flou.

Text image used to compared the 3 OCR products

Tesseract

Careers in Technology Consulting

Networking Lunch
21 m 2014, 11:00 - 14:30

Definingthecorporatellstmtegy, Wammmwdngdeal, creating
uniquebwinessisighnwilgbigdam-doesflismflxemmyouafioy?

Findoutmoreabanhowitfeektomkasatedlflogymbyjoiningour

for further mm please visit mAeloittexom/weers

ABBYYFine Reader Online

Careers in Technology Consulting
Networking Lunch
21 November 2014,1140-14:30
Defining the corporate IT strategy, planning a multHnKon <Mar outsourcing deal, creating unique business insights using big data-doesthis sound Ifce something you enjoy?
Find out more about hour it feels to work as a technology consultant by joining our exclusive networking lunch,
For further information please visit wrwMuleloittexom/carcert

en Ligne OCR

Careers in Technology Consulting Networking Lunch 21 November 2014, 11;00 —14:30 
Defining the corporate IT strategy, planning a muiti-indlimi dollar outsourcing deal, creating unique business insights using big data—does this sound like something you enjoy? 
Find out more about how it feels to work as a tedmology consultant by joining our exclusive networking lunch, 
For further information' please visit wwwdeloitte,com/careers 

maintenant je me demande si le grand écart entre Tesseract et les deux autres produits est dû à un moteur différent (pour sûr ABBYY utilise son propre moteur, pas sûr du service web ROC) ou il ya d'autres étapes de prétraitement qui peuvent être faites avant d'exécuter Tesseract. Avez-vous des suggestions?

11
demandé sur Marco 2014-12-28 00:56:35

1 réponses

Voici une suggestion pour un prétraitement OCR "magique". Afin d'expliquer le principe de l'idée de prétraitement proposée, considérons un extrait de l'image texte fournie sur laquelle tous les OCR testés ont échoué :

original image

et lui appliquer une certaine "prétraitement-sagesse". D'abord l'habitude de seuillage:

thresholded image

et puis un peu de "magie" en tirant des lignes verticales à travers mots-éléments, détection max. 2 pixels de haut "des barres" et les couper à leurs bords avec couper l'élément de mot jusqu'à sa ligne de fond:

after extracting "i"s

maintenant, passant des lignes de tir à travers les mots-éléments de cette image des verticales aux horizontales afin de détecter de très larges "barres" et les couper verticales au milieu de leur largeur:

after splitting grown-together characters

Cela devrait aider toute OCR-moteur pour fournir de meilleurs résultats sur cette image particulière. Je peux imaginer que certains moteurs OCR commerciaux utilisent déjà cette approche et qu'ils sont en mesure de fournir une meilleure reconnaissance que ceux qui ont été testés.

dans ce contexte, permettez-moi de mentionner un autre OCR-moteurs disponibles gratuitement dans les dépôts Ubuntu (comparable avec tesseract). Les tester les uns par rapport aux autres vous pouvez vous demander encore plus comment il vient qu'ils fournissent des résultats différents et puis regarder dans leur code source pour savoir:) et déduire de cette expérience quelque chose sur les commerciaux.

sudo apt-get install cuneiform gocr ocrad
2
répondu Claudio 2017-03-29 10:21:23