Hat schon jemand mit OCR gearbeitet?

Übergeordnete Themen zum gesamten Paket passend
Antworten
satmax
Senior Member
Beiträge: 312
Registriert: 24. September 2015, 10:05
Wohnort: Biberbach, Austria
Kontaktdaten:

Hat schon jemand mit OCR gearbeitet?

Beitrag von satmax »

Hallo,

generelle Frage, hat schon jemand OCR in einem Projekt verwendet? Ich möchte aus PDFs Kundenaufträge in mein Programm importieren. Das geht sicher nicht ganz vollautomatisch, aber zumindest teilautomatisiert möchte ich es hinbekommen.

Tipps&Tricks worauf ich achten muss?

Gruß
Markus

Herbert
Site Admin
Beiträge: 529
Registriert: 23. Februar 2010, 08:06
Wohnort: Langenthal, Schweiz
Kontaktdaten:

Re: Hat schon jemand mit OCR gearbeitet?

Beitrag von Herbert »

Kommt drauf an, was du willst.
Wir verwenden das bei der automatischen Zuordnung von Kunden aufgrund bestehender Dokumente (finden der Adresse und je nach dem finden einer Kundennummer).
Es gibt ganz gute Beispiele auch vonPC-Soft, die ich aber noch suchen muss.
Wichtig ist, dass die PDF auch OCR-Fähig sind. Wir stellen fest, dass die meisten Scanner falsch eingewstellt sind.

Ganz automatisch läuft das bei uns nicht. Das Dokument vom Scanner her (in einem Ordner) wird mit einem Klick umgewandelt, erkannt und dem Kunden zugeordnet. Vorgängig haben wir Masken definiert, welche mittteilen, wo was (Kundennummer, Datum, Adresse, ev. Versichertennummer) zu finden ist.

Abgelegt wird das Ganze in einer SQL-Tabelle, umgeben von Informationen (dazu verknüpfte Tabelle). Man wil ja das Dokument später wieder finden und auch beim Aufrufen der Adresse gleich anezeigen können (vorerst alle Dokumente in einem Baum). Wir haben in der Schwiz im Sozialbereich mittlerweile Vorschrift, die Dokumente digital ablegen zu müssen, was ganz toll ist.

satmax
Senior Member
Beiträge: 312
Registriert: 24. September 2015, 10:05
Wohnort: Biberbach, Austria
Kontaktdaten:

Re: Hat schon jemand mit OCR gearbeitet?

Beitrag von satmax »

>> dass die PDF auch OCR-Fähig sind.
Das verstehe ich nicht ganz. Im Prinzip liest Windev den Text ja aus eine Bitmap aus , da ist kein lesbarer Text enthalten.

Code: Alles auswählen

// Displays the image (PDF File) in the image control
IMG_OCR					= sFileName  
...
// Runs the OCR and displays the results in the Edit control
EDT_Results			= OCRExtractText(IMG_OCR)
Die meisten PDFs die ich zum einlesen habe werden per Mail übermittelt und nicht eingescannt.

Den Rest habe ich mir so ähnlich wie von dir beschrieben vorgestellt. Praktisch pro Kunde eine Art "Template" hinterlegen. Bei mir geht es nicht um Rechnungen, sondern um Ladeaufträge. Die haben jeweils eine total unterschiedliche Form und Aufbau... Aber daraus soll ich immer jeweils einen Auftrag erstellen...

Herbert
Site Admin
Beiträge: 529
Registriert: 23. Februar 2010, 08:06
Wohnort: Langenthal, Schweiz
Kontaktdaten:

Re: Hat schon jemand mit OCR gearbeitet?

Beitrag von Herbert »

Das .PDF muss ja jemand erstellen. Das kommt entweder aus einem Scanner oder einem Generator.
OCRextracttext verwende ich bewusst nicht, da die Qualität des Dokumentes oft nicht genügt. Kleines Beispiel ist das erhaschen eines Datums. Das kann in alles Formaten daher kommen 1.2.22, 01.02.22 usw. oder 1. Februar 2022 usw. bei einem 10. kann das OCR ein O (oh) anstatt einer 0 (Null) erkennen usw.
Man kann das aber. Musst aber all die Copyright-Dinger berücksichtigen.
Weiter müssen wir bei uns die Dinger ablegen und verlangen daher eigentlich PDF/A. Da ist OCR-Fähigkeit gegeben und gefordert. Momentan verwenden wir aber "normale" .pdf.

Bei uns ist nicht eine Rechnung, sondern eine Verfügung Basis. Diese schaut immer (bei verschiedene Verfügungstypen) mit gleichem Aufbau aus.

Hast du nichts Eindeutiges dabei, wie eine Kundennummer oder ein Text aus einem Logo? So könntest pro Kunde ein Template aufbauen, was aber aufwändig wird.

Antworten