1. DC
  2. Forum
  3. Weitere Geräte
  4. Scanner
  5. Unterschiede bei CCD-Scannern beim Scannen von Frakturschrift?

Unterschiede bei CCD-Scannern beim Scannen von Frakturschrift?

von
Hallo,

experimentiere seit einiger Zeit mit dem Scannen von Frakturschrift. Ich benutze dazu einen Epson V37 (CCD). Im Gegensatz zu einem Buchscanner scheint die Fehlerquote deutlich geringer zu sein.

Mein Vorgehen:

1. Scannen mit Abbyy Finereader 12
2. Speichern als TIFF
3. Bearbeitung mit ScanTailor
4. Erkennung mit Tesseract (gimagereader)

Jetzt ist der V37 ja ein älteres Einsteigermodell von Epson. Denkt ihr, ein teureres Modell (von Epson oder einem anderen Anbieter) mit CCD würde mir hier helfen, die Fehlerquote zu senken?

Dankeschön!

Vergnuegt
von
Wie scannst du denn die ganze Sache ein? (Bitrate, Modus Farbe oder S/W, Dpi) Die meisten Texterkennungsprogramme müssen unbekannte Schriftarten erst "lernen" das heisst mit der Zeit wird die Erkennung besser. Besonders hohe Anforderungen werden nicht an die Scanner gestellt. Was Probleme bereiten kann sind schräge Zeilen u.ä. die gerne durch den Buchrücken entstehen, da haben reine Buchscanner häufig bessere Filter. Aber das muss man in der Software sehen.
von
Hallo,

scannst du plane Blätter ein, oder Bücher?

Bei einem "einfachen" S/W-Scan, kann ich mir kaum vorstellen, dass ein anderer Scanner riesige Fortschritte mit sich bringt. Der V37 hat ja auch schon 4.800 dpi optisch, selbst wenn da nur ein Viertel übrig bleibt wäre das mehr als ausreichend - außer die Schrift ist extrem klein.

Gruß,

Ronny Budzinske
www.druckerchannel.de
von
Hallo zusammen,

danke für Eure Antworten.

Ich scanne Heftnachdrucke aus den 20ern ein. Diese sind mit Klammern gebunden, lassen sich also gut auf das Scannerglas auflegen. Allerdings ist die Qualität der Nachdrucke unterschiedlich: manche sind sehr gut, manche weniger, manche haben vergibltes Papier, manche weißes, ...

Ich scanne mit 300 dpi Graustufen ein. Zur Verfügung hätte ich neben Finereader auch Vuescan bzw. andere Bildbearbeitungsprogramme. Da es aber eine Menge an Heften sind, habe ich gedacht, dass Finereader vielleicht hier schon einige gute Voreinstellungen leistet. Außerdem kann man Finereader so einstellen, dass er automatisch alle X Sekunden einen Scan durchführt. Ich lasse aber nicht die Texterkennung von Finereader drüberlaufen, sondern speichere das Ganze als Graustufen-TIFFs ab, um die TIFFs mit Scantailor zu säubern, auszurichten und mit 600 dpi auszugeben.

Diese Ausgabe-TIFFs von Scantailor (600dpi, sw) lese ich dann in gimagereader ein. Gimagereader ist ein Frontend für Tesseract, so dass ich den Text danach rauskopieren kann.

Da die Schrift normal groß ist, müßte 300 dpi für OCR ausreichen. 1200dpi bringt nach meinen Tests gar nichts. Es ist die Frage, ob es sinnvoller ist, die Hefte s/w anstatt in Graustufen einzuscannen? Oder ob eine andere Art von Vorverarbeitung hier mehr bringt? Allerdings fürchte ich auch, dass Tesseract nicht immer die beste Lösung bietet - wobei der Recognition Server von Abbyy für Frakturschriften kostenpflichtig ist.

Im Vergleich zwischen gimagereader und FreeOCR sehe ich auch noch einige Unterschiede, so dass nicht alles an Tesseract hängen muss.

Bin über Eure Tips sehr dankbar! Wenn es Fragen gibt, die ich zum Frakturscannen beantworten kann - jederzeit gerne.

vergnuegt
Beitrag wurde am 22.10.16, 09:47 vom Autor geändert.
von
Hmm...

Ich frage mich gerade, ob es sinnvoll ist mit 300 dpi reinzugehen und dann über eine Bearbeitung wieder auf 600 dpi hochzurechnen, auch wenn es als Ziel von 8 bit auf 1 bit geht und das halbwegs klappen könnte ...

Ich kenne die Programme eigentlich alle nicht, es ist schön möglich, dass Scantailor hier etwas besser ist, als die Epson-Routine. Aber hast du mal probiert vom Scan direkt mit 600 dpi (oder auch etwas höher) 1 bit zu scnnen? Die Papierfarbe wird ja nicht soo dunkel sein, dass hier kein ordentlicher Schwellenwert einstellbar ist.

Gruß,

Ronny Budzinske
www.druckerchannel.de
von
300dpi sollte reichen beim Scannen, wenn es nicht gerade sehr kleine Schrift ist, Upscaling auf 600dpi liefert keine neuen Informationen. Hilfreich wäre es, wenn das OCR-Modul eine Lernfunktion hätte, was bei seltenen Schriften hilfreich sein kann, aber Finereader bietet das m.W. nicht. Hilfreich sind Grafikfunktionen wie lokale Kontrastanhebung und Smoothing , um kleine Lücken auszugleichen, die häufig die Erkennung beeinträchtigen, aber auch das habe ich nur bei kommerziellen Dokumentmanagementprogrammen gesehen. Und sonst das Übliche wie Spot Removal und weitere 'Putz'-Funktionen. Manchmal helfen auch andere Tricks , wenn man farbig scannt, und dann nur z.B. den Blaukanal weiterverwendet, wenn Papier stark vergilbt ist, das hängt von der Vorlage ab, und der Software, die zur Verfügung steht.
Beitrag wurde am 22.10.16, 12:05 vom Autor geändert.
von
Danke!

ScanTailor verbessert das Bild deutlich, da es die Möglichkeit gibt, die Seiten aufzuteilen, Kontraste besser herauszuarbeiten, schief gescannte Seiten gerade auszurichten, Schmutz zu entfernen, etc. Ich glaube, dass die native Epson-Software hier nicht mithalten kann.

Finereader hat eine Lernfunktion: das ist auch ein Weg, den einige mit Frakturscans gehen. Andere tippen die Sachen ab. Ist halt sehr aufwendig und da einige Frakturzeichen (z. B. s und f) sich sehr ähnlich sehen, hängt es immer stark von der Vorlage ab. Mein Ziel ist es, ein halbwegs gutes Ergebnis zu erhalten - muss nicht perfekt sein, sollte aber auch nicht im Buchstabensalat enden :-)

Ich werde es mal mit 300dpi bei ScanTailor ausprobieren, mal sehen, ob es was bringt.

Hat jemand noch eine Idee, ob es eine bessere GUI für Tesseract als gimagereader (für Win) gibt? Oder gibt es hier für Linux bessere Lösungen?

Danke.

vergnuegt
von
ich würde auf jeden Fall Graustufen verwenden stat S/W. Hierbei ist die Fehlerrate geringer, da eine genauere Abstuffung zwischen Schwarz und Weiss erfolgt.

Haripon
Bilder einfügen
Klicken Sie auf das Plus-Symbol um Bilder zu diesem Beitrag hochzuladen. Sie bestätigen mit Absendes des Beitrags, dass Sie im Besitz der Rechte für die Verwendung der hochgeladenen Bilder sind. Eingefügte Bilder können mit einem Klick an- und abgewählt werden.
Optionen

Dieses Thema ist bereits seit mehr als 30 Tage nicht mehr aktiv. Bitte Antworten Sie nur dann, wenn Sie Wesentliches zum Sachverhalt beitragen können.

DC-Benutzer Sie können sich im nächsten Schritt mit Ihrem Benutzernamen anmelden oder als neuen DC-Benutzer kostenfrei registrieren.
1
Alle Angaben ohne Gewähr. Die gelisteten Angebote sind keine verbindlichen Werbeaussagen der Anbieter! Preise in Euro inkl. Mehrwertsteuer zzgl. Verpackungs- und Versandkosten. Bitte beachten Sie die Lieferbedingungen und Versandspesen bei Online-Bestellungen. Weiß hinterlegte Preise gelten für ein baugleiches Modell.
Forum Aktuell
00:22
23:04
22:14
22:13
21:27
Advertorial
Online Shops
Artikel
05.12. Canon Pixma TS205 und TS305: Billige Pixma-​Drucker mit Schachbrett statt Scanner
22.11. Canon Tintendrucker Cashback: Geld zurück für Canon Pixma-​ und Maxify-​Drucker
07.11. HP Color Laserjet Pro M254-​Serie, MFP M280nw und M281-​Serie: Neue Einstiegs-​Farblaser von HP mit reduzierten Folgekosten
25.10. Epson Readyink im Kurztest: Epsons Tintenbestellservice
23.10. Brother DCP-​J772DW/J774DW sowie MFC-​J890DW/J895DW: Brother-​Drucker gibt's jetzt in Schwarz und Weiß mit teurer Tinte
29.09. HP Envy Photo 6230, 7130 und 7830: Teure aber einfache "Fotodrucker" von HP
19.09. Xerox' "lebenslange" Garantie: Teures Versprechen
18.09. Avision AM3021A S/W-​LED-​Multifunktionsgerät: Erstes Multifunktionsgerät von Avision
05.09. Brother und Epson: Neuheiten von Brother und Epson-​Nachzügler
05.09. Epson Tintendrucker-​Cashback 09-​11/2017: Geld zurück für Epson-​Ecotank sowie Workforce und Expression mit Multipack
01.09. Epson Expression-​, Workforce-​ & Ecotank-​Kollektion: 13faches Tintendrucker-​Feuerwerk bei Epson
01.09. Epson Expression Premium XP-​6000, Photo XP-​8500: Kleiner, hübscher, teure Tinte
Themen des Tages
Newsletter
Beliebte Drucker
Neu ab 60,89 €1 Canon Pixma TS305

Drucker (Tinte)

Neu ab 1.997,00 €1 Kyocera Ecosys M8124cidn

Multifunktionsdrucker, A3 (Laser/LED)

Neu ab 2.409,00 €1 Kyocera Ecosys M8130cidn

Multifunktionsdrucker, A3 (Laser/LED)

Neu ab 46,89 €1 Canon Pixma TS205

Drucker (Tinte)

ab 218,00 €1 Epson Workforce Pro WF-5620DWF

Multifunktionsdrucker (Pigmenttinte)

ab 242,90 €1 Epson Workforce Pro WF-4740DTWF

Multifunktionsdrucker (Pigmenttinte)

ab 248,98 €1 HP Officejet Pro 8730

Multifunktionsdrucker (Pigmenttinte)

ab 159,89 €1 Canon Maxify MB5150

Multifunktionsdrucker (Pigmenttinte)

ab 117,49 €1 Canon Pixma MX925

Multifunktionsdrucker (Tinte)

ab 143,40 €1 Epson Workforce Pro WF-4720DWF

Multifunktionsdrucker (Pigmenttinte)

Merkliste

×
Drucker vergleichen