DC › Forum › Weitere Geräte › Scanner

Unterschiede bei CCD-Scannern beim Scannen von Frakturschrift?

Antwortenletzte Antwort #7

Themavon vergnuegt021.10.2016, 19:55 Uhr
Hallo,

experimentiere seit einiger Zeit mit dem Scannen von Frakturschrift. Ich benutze dazu einen Epson V37 (CCD). Im Gegensatz zu einem Buchscanner scheint die Fehlerquote deutlich geringer zu sein.

Mein Vorgehen:

1. Scannen mit Abbyy Finereader 12
2. Speichern als TIFF
3. Bearbeitung mit ScanTailor
4. Erkennung mit Tesseract (gimagereader)

Jetzt ist der V37 ja ein älteres Einsteigermodell von Epson. Denkt ihr, ein teureres Modell (von Epson oder einem anderen Anbieter) mit CCD würde mir hier helfen, die Fehlerquote zu senken?

Dankeschön!

Vergnuegt
#1von hjk724Redakteur22.10.2016, 09:05 Uhr
Wie scannst du denn die ganze Sache ein? (Bitrate, Modus Farbe oder S/W, Dpi) Die meisten Texterkennungsprogramme müssen unbekannte Schriftarten erst "lernen" das heisst mit der Zeit wird die Erkennung besser. Besonders hohe Anforderungen werden nicht an die Scanner gestellt. Was Probleme bereiten kann sind schräge Zeilen u.ä. die gerne durch den Buchrücken entstehen, da haben reine Buchscanner häufig bessere Filter. Aber das muss man in der Software sehen.
#2von budze290Administrator22.10.2016, 09:20 Uhr
Hallo,

scannst du plane Blätter ein, oder Bücher?

Bei einem "einfachen" S/W-Scan, kann ich mir kaum vorstellen, dass ein anderer Scanner riesige Fortschritte mit sich bringt. Der V37 hat ja auch schon 4.800 dpi optisch, selbst wenn da nur ein Viertel übrig bleibt wäre das mehr als ausreichend - außer die Schrift ist extrem klein.

Gruß,

Ronny Budzinske
www.druckerchannel.de
#3von vergnuegt022.10.2016, 09:45 Uhr
Hallo zusammen,

danke für Eure Antworten.

Ich scanne Heftnachdrucke aus den 20ern ein. Diese sind mit Klammern gebunden, lassen sich also gut auf das Scannerglas auflegen. Allerdings ist die Qualität der Nachdrucke unterschiedlich: manche sind sehr gut, manche weniger, manche haben vergibltes Papier, manche weißes, ...

Ich scanne mit 300 dpi Graustufen ein. Zur Verfügung hätte ich neben Finereader auch Vuescan bzw. andere Bildbearbeitungsprogramme. Da es aber eine Menge an Heften sind, habe ich gedacht, dass Finereader vielleicht hier schon einige gute Voreinstellungen leistet. Außerdem kann man Finereader so einstellen, dass er automatisch alle X Sekunden einen Scan durchführt. Ich lasse aber nicht die Texterkennung von Finereader drüberlaufen, sondern speichere das Ganze als Graustufen-TIFFs ab, um die TIFFs mit Scantailor zu säubern, auszurichten und mit 600 dpi auszugeben.

Diese Ausgabe-TIFFs von Scantailor (600dpi, sw) lese ich dann in gimagereader ein. Gimagereader ist ein Frontend für Tesseract, so dass ich den Text danach rauskopieren kann.

Da die Schrift normal groß ist, müßte 300 dpi für OCR ausreichen. 1200dpi bringt nach meinen Tests gar nichts. Es ist die Frage, ob es sinnvoller ist, die Hefte s/w anstatt in Graustufen einzuscannen? Oder ob eine andere Art von Vorverarbeitung hier mehr bringt? Allerdings fürchte ich auch, dass Tesseract nicht immer die beste Lösung bietet - wobei der Recognition Server von Abbyy für Frakturschriften kostenpflichtig ist.

Im Vergleich zwischen gimagereader und FreeOCR sehe ich auch noch einige Unterschiede, so dass nicht alles an Tesseract hängen muss.

Bin über Eure Tips sehr dankbar! Wenn es Fragen gibt, die ich zum Frakturscannen beantworten kann - jederzeit gerne.

vergnuegt
Beitrag wurde am 22.10.16, 09:47 vom Autor geändert.
#4von budze290Administrator22.10.2016, 10:19 Uhr
Hmm...

Ich frage mich gerade, ob es sinnvoll ist mit 300 dpi reinzugehen und dann über eine Bearbeitung wieder auf 600 dpi hochzurechnen, auch wenn es als Ziel von 8 bit auf 1 bit geht und das halbwegs klappen könnte ...

Ich kenne die Programme eigentlich alle nicht, es ist schön möglich, dass Scantailor hier etwas besser ist, als die Epson-Routine. Aber hast du mal probiert vom Scan direkt mit 600 dpi (oder auch etwas höher) 1 bit zu scnnen? Die Papierfarbe wird ja nicht soo dunkel sein, dass hier kein ordentlicher Schwellenwert einstellbar ist.

Gruß,

Ronny Budzinske
www.druckerchannel.de
#5von Ede-Lingen51622.10.2016, 11:59 Uhr
300dpi sollte reichen beim Scannen, wenn es nicht gerade sehr kleine Schrift ist, Upscaling auf 600dpi liefert keine neuen Informationen. Hilfreich wäre es, wenn das OCR-Modul eine Lernfunktion hätte, was bei seltenen Schriften hilfreich sein kann, aber Finereader bietet das m.W. nicht. Hilfreich sind Grafikfunktionen wie lokale Kontrastanhebung und Smoothing , um kleine Lücken auszugleichen, die häufig die Erkennung beeinträchtigen, aber auch das habe ich nur bei kommerziellen Dokumentmanagementprogrammen gesehen. Und sonst das Übliche wie Spot Removal und weitere 'Putz'-Funktionen. Manchmal helfen auch andere Tricks , wenn man farbig scannt, und dann nur z.B. den Blaukanal weiterverwendet, wenn Papier stark vergilbt ist, das hängt von der Vorlage ab, und der Software, die zur Verfügung steht.
Beitrag wurde am 22.10.16, 12:05 vom Autor geändert.
#6von vergnuegt022.10.2016, 12:34 Uhr
Danke!

ScanTailor verbessert das Bild deutlich, da es die Möglichkeit gibt, die Seiten aufzuteilen, Kontraste besser herauszuarbeiten, schief gescannte Seiten gerade auszurichten, Schmutz zu entfernen, etc. Ich glaube, dass die native Epson-Software hier nicht mithalten kann.

Finereader hat eine Lernfunktion: das ist auch ein Weg, den einige mit Frakturscans gehen. Andere tippen die Sachen ab. Ist halt sehr aufwendig und da einige Frakturzeichen (z. B. s und f) sich sehr ähnlich sehen, hängt es immer stark von der Vorlage ab. Mein Ziel ist es, ein halbwegs gutes Ergebnis zu erhalten - muss nicht perfekt sein, sollte aber auch nicht im Buchstabensalat enden :-)

Ich werde es mal mit 300dpi bei ScanTailor ausprobieren, mal sehen, ob es was bringt.

Hat jemand noch eine Idee, ob es eine bessere GUI für Tesseract als gimagereader (für Win) gibt? Oder gibt es hier für Linux bessere Lösungen?

Danke.

vergnuegt
#7von Haripon606.01.2017, 13:40 Uhr
ich würde auf jeden Fall Graustufen verwenden stat S/W. Hierbei ist die Fehlerrate geringer, da eine genauere Abstuffung zwischen Schwarz und Weiss erfolgt.

Haripon
Bilder einfügen
Ich bestätige mit Absendes des Beitrags, dass ich im Besitz der Rechte für die Verwendung der hochgeladenen Bilder bin. Eingefügte Bilder können mit einem Klick an- und abgewählt werden.
Optionen

Dieses Thema ist bereits seit mehr als 30 Tage nicht mehr aktiv. Bitte Antworten Sie nur dann, wenn Sie Wesentliches zum Sachverhalt beitragen können.

DC-Benutzer Sie können sich im nächsten Schritt mit Ihrem Benutzernamen anmelden oder als neuen DC-Benutzer kostenfrei registrieren.
1
Alle Angaben ohne Gewähr. Die gelisteten Angebote sind keine verbindlichen Werbeaussagen der Anbieter! Preise in Euro inkl. Mehrwertsteuer zzgl. Verpackungs- und Versandkosten. Bitte beachten Sie die Lieferbedingungen und Versandspesen bei Online-Bestellungen. Weiß hinterlegte Preise gelten für ein baugleiches Modell.
Forum Aktuell
Advertorial
Online Shops
Artikel
Themen des Tages
Newsletter
Beliebte Drucker
Neu   Canon Pixma G4500

Multifunktionsdrucker (Tinte)

Neu   Canon Pixma G1500

Drucker (Tinte)

Neu   Canon Pixma G2500

Multifunktionsdrucker (Tinte)

Neu   Canon Pixma G3500

Multifunktionsdrucker (Tinte)

ab 201,90 €1 Epson Workforce Pro WF-5620DWF

Multifunktionsdrucker (Pigmenttinte)

ab 369,00 €1 HP Color Laserjet Pro MFP M477fdn

Multifunktionsdrucker (Laser)

ab 117,99 €1 Epson Workforce WF-3620DWF

Multifunktionsdrucker (Pigmenttinte)

ab 351,09 €1 Canon Maxify MB5350

Multifunktionsdrucker (Pigmenttinte)

ab 164,58 €1 Canon Maxify MB5150

Multifunktionsdrucker (Pigmenttinte)

ab 127,99 €1 Canon Pixma MX925

Multifunktionsdrucker (Tinte)

Mitgliedschaften

IVWAGOF

Sponsor-Partner

HPKyocera Document SolutionsMondiRicohSamsung

Anzeigen-PreislisteDatenschutzImpressum

© 1998-2017 Druckerchannel.de - Alle Angaben ohne Gewähr.

Merkliste

×
Drucker vergleichen