Format Tesseract et tiff-spp Non défini (1,3)}

en essayant d'exécuter cette commande:

tesseract bond111.tif bond111 batch.nochop makebox

j'obtiens l'erreur suivante

Error in pixReadFromTiffStream: spp not in set {1,3}
Error in pixReadStreamTiff: pix not read
Error in pixReadTiff: pix not read

en Supposant que spp not in set est l'erreur principale ici, qu'est-ce que cela signifie? Au début, il avait des problèmes parce que le bpp était supérieur à 24 donc je l'ai réduit en utilisant Gimp mais cela n'a pas résolu le problème.

33
demandé sur Michael Ohlrogge 2011-02-22 23:22:51

3 réponses

cela signifie probablement que votre image TIFF a un canal alpha et donc la bibliothèque Leptonica sous-jacente utilisée par Tesseract ne le supporte pas. Si vous utilisez Imagemagick alors soyez conscient que les opérations telles que -draw peut provoquer l'ajout de canaux alpha. Si vous utilisez convert dans votre flux de travail et que vous voulez supprimer le canal à nouveau immédiatement, aplatissez l'image avant d'écrire en ajoutant -background white -flatten +matte avant le nom du fichier de sortie, par exemple:

convert input.tiff -fill white -draw 'rectangle 10,10 20,20' -background white -flatten +matte output.tiff

Tesseract (bien, Leptonica) accepte les png de nos jours et est moins pointilleux à leur sujet, il pourrait donc être plus facile de migrer votre flux de travail vers PNG de toute façon.

Sources: magick-utilisateurs affichage de la liste de diffusion; tesseract-ocr liste de diffusion de l'affichage

38
répondu ZakW 2012-04-18 12:33:25

Merci pour votre Post ZakW, vous m'avez indiqué la bonne direction. Quoi qu'il en soit, j'avais aussi besoin de mettre '-depth 8'. La qualité n'était pas assez bonne pour la ROC, quoi que j'aie essayé.

ce qui a fonctionné pour moi est cette solution:

ghostscript -o document.tiff -sDEVICE=tiffgray -r720x720 -g6120x7920 -sCompression=lzw document.pdf
tesseract document.tiff document -l deu
vim document.txt

de cette façon j'ai eu le texte parfait avec Umlauts en allemand.

15
répondu Florian Lagg 2018-03-31 01:56:14

Vous pouvez essayer d'utiliser la commande 'tiffinfo' fournie par libtiff_tools pour vérifier le format TIFF de votre image src. Il existe un certain nombre de formats TIFF, avec des valeurs différentes pour les Bits par pixel (bpp) et les échantillons par pixel (spp).

Error in pixReadFromTiffStream: spp not in set {1,3,4}

une valeur ' spp ' de 2 n'est pas valable pour TIFF.

j'ai résolu le problème en enregistrant directement au format TIFF de Gimp, au lieu de convertir de .les png .tif utilisant le "convert" D'ImageMagick.

Voir aussi: format TIFF

4
répondu asl_marc 2012-02-19 15:29:03