Format Tesseract et tiff-spp Non défini (1,3)}
en essayant d'exécuter cette commande:
tesseract bond111.tif bond111 batch.nochop makebox
j'obtiens l'erreur suivante
Error in pixReadFromTiffStream: spp not in set {1,3}
Error in pixReadStreamTiff: pix not read
Error in pixReadTiff: pix not read
en Supposant que spp not in set
est l'erreur principale ici, qu'est-ce que cela signifie?
Au début, il avait des problèmes parce que le bpp était supérieur à 24 donc je l'ai réduit en utilisant Gimp mais cela n'a pas résolu le problème.
3 réponses
cela signifie probablement que votre image TIFF a un canal alpha et donc la bibliothèque Leptonica sous-jacente utilisée par Tesseract ne le supporte pas. Si vous utilisez Imagemagick alors soyez conscient que les opérations telles que -draw
peut provoquer l'ajout de canaux alpha. Si vous utilisez convert
dans votre flux de travail et que vous voulez supprimer le canal à nouveau immédiatement, aplatissez l'image avant d'écrire en ajoutant -background white -flatten +matte
avant le nom du fichier de sortie, par exemple:
convert input.tiff -fill white -draw 'rectangle 10,10 20,20' -background white -flatten +matte output.tiff
Tesseract (bien, Leptonica) accepte les png de nos jours et est moins pointilleux à leur sujet, il pourrait donc être plus facile de migrer votre flux de travail vers PNG de toute façon.
Sources: magick-utilisateurs affichage de la liste de diffusion; tesseract-ocr liste de diffusion de l'affichage
Merci pour votre Post ZakW, vous m'avez indiqué la bonne direction. Quoi qu'il en soit, j'avais aussi besoin de mettre '-depth 8'. La qualité n'était pas assez bonne pour la ROC, quoi que j'aie essayé.
ce qui a fonctionné pour moi est cette solution:
ghostscript -o document.tiff -sDEVICE=tiffgray -r720x720 -g6120x7920 -sCompression=lzw document.pdf
tesseract document.tiff document -l deu
vim document.txt
de cette façon j'ai eu le texte parfait avec Umlauts en allemand.
Vous pouvez essayer d'utiliser la commande 'tiffinfo' fournie par libtiff_tools pour vérifier le format TIFF de votre image src. Il existe un certain nombre de formats TIFF, avec des valeurs différentes pour les Bits par pixel (bpp) et les échantillons par pixel (spp).
Error in pixReadFromTiffStream: spp not in set {1,3,4}
une valeur ' spp ' de 2 n'est pas valable pour TIFF.
j'ai résolu le problème en enregistrant directement au format TIFF de Gimp, au lieu de convertir de .les png .tif utilisant le "convert" D'ImageMagick.
Voir aussi: format TIFF