ECM: Capture - Teil I

DruckversionAls E-Mail versendenZum Magazin-Forum

Kapitel:



Dokumentenmanagement- oder Enterprise-Content-Management-Systeme (folgend: ECM) ganz gleich welcher "Qulör" ziehen ihren Nutzen immer aus den bereitgestellten Informationen. Aber bevor diese genutzt werden können, müssen sie den entsprechenden Systemen auch zugeführt werden. Deswegen ist die erste und wichtigste Stufe eines ECM-Systems diese Funktionalität. Man verwendet hierbei den Begriff "Capture". Hierunter versteht man alle im Zusammenhang mit der Erfassung, Erkennung und Klassifizierung von Dokumenten oder besser Objekten durchzuführenden Tätigkeiten.

"Capture" hat sich zwischenzeitlich zu einem eigenständigen Bereich entwickelt, der sowohl ECM-Systeme und Archive als auch operative Systeme (z.B. ERP-Anwendungen) mit Daten beliefert. Die Erfassung der im ECM zu verwaltenden Daten ist ein wichtiger Bestandteil beim Dokumenten-Management. Da hierbei zu einem wesentlichen Teil die späteren Nutzungsmöglichkeiten bestimmt werden, sollte man der Erfassung sowohl der Planung als auch später der Durchführung und der Kontrolle entsprechende Aufmerksamkeit widmen. Die unterschiedlichen Dokumentenquellen - Papier, COLD, E-Mail, Office-Dokumente usw. - erfordern in der Regel auch unterschiedliche Erfassungs-, Attributierungs-/ Klassifizierungs- und Prüfschritte. Teilweise kommen bei der Erfassung zusätzliche rechtliche Anforderungen hinzu - etwa bei eingehenden elektronischen Rechnungen oder Belegen im Sozialversicherungsbereich.

Das Spektrum der Erfassungsverfahren ist entsprechend groß. Die verschiedenen Verfahren verlangen teilweise nach recht unterschiedlichen Techniken. In vielen Unternehmen kommen dabei mehrere Erfassungsverfahren parallel zum Einsatz, um dem Anspruch des Enterprise-Dokument-Management-Anspruchs zu genügen und alle für das Unternehmen relevanten Dokumente möglichst integriert und weitgehend vollständig elektronisch zu erfassen und zu verwalten.


Einordnung in das ECM-Modell: Überblick über die Komponenten von "Capture"

Die AIIM (Association for Image and Information Management), eine US-amerikanische Anwender- und Anbietervereinigung, hat bereits vor vielen Jahren ein ECM-Model vorgestellt, welches sehr transparent und anschaulich die Teile einer DMS/ECM-Anwendung darstellt.



Die Kategorie "Capture" beinhaltet Funktionalität und Komponenten zur Erstellung, Erfassung, Aufbereitung und Verarbeitung von analogen und elektronischen Informationen. Es werden mehrere Stufen und Techniken unterschieden - von der einfachen Erfassung der Information bis zur komplexen Aufbereitung durch eine automatische Klassifikation. Die Capture-Komponenten werden auch häufig als "Input"-Komponenten zusammengefasst und als "Input-Management" bezeichnet.

Generell kann unterschieden werden zwischen Indexing, Input Designs und Categorization.

Anders als im Deutschen beschränkt sich im Angloamerikanischen der Begriff "Indexing" auf die manuelle Vergabe von Indexattributen, die in der Datenbank einer "Manage"-Komponente für Verwaltung und Zugriff auf die Informationen benutzt wird. Im Deutschen werden hier auch Begriffe wie "Indizieren", "Attributieren" oder "Verschlagworten" benutzt.

Sowohl die automatische als auch die manuelle Indizierung kann durch hinterlegte Input Designs (Profile) erleichtert und verbessert werden. Solche Profile können z.B. Dokumentenklassen beschreiben, die die Anzahl der möglichen Indexwerte beschränken oder bestimmte Kriterien automatisch vergeben. Input Designs schließt auch die Eingabemasken und deren Logik bei der manuellen Indizierung ein.

"Categorization" beschreibt den Prozess der automatischen Klassifikation oder Kategorisierung auf Basis der in den elektronischen Informationsobjekten enthaltenen Informationen (z.B. OCR-gewandelte Faksimiles, Office-Dateien oder Ausgabedateien). Hierbei können Programme zur automatischen Klassifikation selbstständig Index-, Zuordnungs- und Weiterleitungsdaten extrahieren. Solche Systeme können auf Basis vordefinierter Kriterien - oder selbstlernend - Informationen auswerten.

Der Flaschenhals der digitalen Informationsverarbeitung ist vor allem die schnelle Erfassung der Informationen. Sie gilt im besonderen Maße für existierendes Schriftgut, das mittels Scannertechnologie in ein elektronisches Informationssystem überführt werden soll. Dazu zählen Posteingang, sonstige Papierdokumente, eingehende Vordrucke etc. Ein weiteres Problem liegt darin, diese NCI-Dokumente (NCI - Non Coded Information) mit Zugriffsinformationen zu versehen. Dies kann manuell beim Scannen, durch automatisches Erkennen von Text oder Barcode und durch Ergänzung fehlender Informationen aus bestehenden DV-Systemen geschehen. Für die automatische Extraktion von Zugriffsinformationen, der sogenannten Indexinformation, sind Techniken wie OCR (Optical Character Recognition), ICR (Intelligent Character Recognition), HCR (Handprint Character Recognition), OMR (Optical Mark Recognition), Barcode u.ä. erforderlich. Diese können nur unter bestimmten qualitativen Voraussetzungen der Dokumentenvorlagen sicher gewonnen werden. In diesem Rahmen ist auch "Schriftgut" zu sehen, das gar nicht mehr in Papierform erzeugt wird.

Elektronische Dokumente erlauben eine einfache automatische Indizierung und gewinnen bei der Speicherung von eigen erstellten Dokumenten (z.B. Ausgangsrechnungen, Office-Dokumenten, E-Mails) oder elektronischen, eingehenden Informationsobjekten (z.B. E-Mails, EDI-Dokumente etc.) immer mehr an Bedeutung. Die automatische Übernahme von Daten erfolgt in der Regel im sogenannten COLD-Verfahren. Um die generelle Lesbarkeit eingescannter Informationen und die Basis für eine optimale Erkennbarkeit für die eingesetzten Extraktions-Techniken sicher zu stellen, ist es ratsam, entsprechende Bildbearbeitungs- und Bildverbesserungstechniken einzusetzen. Eine zusätzliche Optimierung des Erfassungsprozesses lässt sich durch die Verarbeitung von Formularen und Vordrucken erreichen. Hierbei werden industriell oder individuell gedruckte Vordrucke beim Scannen erfasst. Zusätzlich kommen anschließend häufig Erkennungstechniken zum Einsatz, da gut gestaltete Vordrucke eine weitgehend automatische Verarbeitung ermöglichen.

Bei der Verarbeitung elektronischer Formulare (E-Forms / Web-Forms) ist eine automatische Erfassung möglich, wenn Layout, Struktur, Logik und Inhalte dem Erfassungssystem bekannt sind. Hierbei sollten Vordrucke, unabhängig vom Medium Papier oder Elektronik, gemäß ihrem Inhalt gleichbehandelt werden.


Manuelle Erfassung: Scannen, Import von Office- und anderen Dateien, Indizieren, Fehlervermeidung beim Indizieren

Die Erfassung von papiergebundenen Dokumenten bezeichnet man als Scannen.Die Begriffe "Scanner" und "Scannen" leiten sich von dem englischen Begriff für "Abtasten" ab. Scannen ist ein Zusammenspiel der Komponenten Scan-Eingabe, Verarbeitung und Ausgabe.



Die Entscheidung, welche Form des Scannens gewählt wird, ist abhängig von den Anforderungen an die Qualität und den Prozess der Erfassung.

Die Einrichtung einer eigenen zentralen Scanstelle (z.B. in der Poststelle) kann dann in Betracht kommen, wenn relativ große Mengen an Dokumenten eingehen und diese taggleich elektronisch am betreffenden Sachbearbeiterplatz zur Verfügung gestellt werden sollen.

Scannen direkt am Arbeitsplatz oder abteilungsweises Scannen wird häufig in Anwendungsfällen mit kleinerem Volumen oder verteilt anfallendem Schriftguteingang eingesetzt. Als Sonderfall ist in diese Kategorie das dezentrale Scannen an entfernten Arbeitsplätzen und anschließende Übertragen der Daten per Leitung (z.B. von Baustellen) zuzuordnen, wobei diese Variante zusätzlich die vorgenannten noch ergänzen kann.

In vielen Fällen kann bei großen Belegmengen oder spezialisierten Aufgabenstellungen (z.B. bei der Indizierung und Klassifizierung) die exklusive oder zusätzliche Inanspruchnahme von Scan-Dienstleistungen (Outsourcing) bei einem entsprechenden Dienstleistungsunternehmen stattfinden.

Es gibt zwei allgemeine Varianten beim manuellen Indizieren: die Erfassung vom Beleg, das sog. Einzelblatt-Scannen oder die Erfassung vom Bildschirm, das sog. Stapelscannen mit anschließendem Indizieren. Im ersten Fall werden die zu erfassenden Indexkriterien vom Beleg entnommen und in einer Erfassungsmaske eingegeben. Erst danach wird der Beleg gescannt und mit den erfassten Daten archiviert. Beim zweiten Fall werden die Belege stapelweise eingescannt und dann ebenfalls in einer Erfassungsmaske sukzessive verschlagwortet.

Die folgenden Varianten finden sich in anwendungsspezifischen Abläufen wider. Beim Scannen nach der Bearbeitung werden die Geschäftsvorfälle vom Papierbeleg bearbeitet. Je nach Anforderung wird das Dokument danach
  • als Papier archiviert,

  • nach Abschluss des Vorgangs gescannt, archiviert und vernichtet oder zusätzlich als Original archiviert,

  • nach Erstbearbeitung gescannt und vernichtet oder zusätzlich als Original archiviert,

  • nach Bearbeitung im Original zurückgesendet und als Kopie archiviert.
Bei Scannen nach der Erstbearbeitung erfolgt die weitere Bearbeitung ausschließlich am Bildschirm.

Beim Scannen vor der Bearbeitung werden die Belege des Geschäftsvorfalls am Bildschirm bearbeitet. Die Indizierung erfolgt entweder vor dem Scannen am Papier oder nach dem Scannen am Image auf dem Bildschirm. In den meisten Fällen nimmt die Indizierung beim Scan-Prozess nur eine erste Klassifizierung vor, die über die weitere Verarbeitung entscheidet. Während der Bearbeitung wird die endgültige Indexzuordnung ergänzt. Die Dokumente werden nach dem Scannen vernichtet oder zusätzlich im Original archiviert.

Das manuelle Indizieren kann auf Grund von Eingabefehlern des Erfassungspersonals ohne entsprechende Maßnahmen und technische Hilfsmittel zu einer mangelhaften Archivierung führen. Deswegen sollte immer dann wenn es möglich ist, ein entsprechendes Verfahren oder eine Kombination davon zum Einsatz kommen.

Vorbelegte Auswahl-Menues zwingen zur Erfassung einzelner Felder von nur voreingestellten Inhalten. Bestimmte Feldtypen erlauben die automatische Befüllung durch die Erfassungssoftware (z.B. Erfassungsdatum = Systemdatum). Mit Hilfe von Prüfziffern können Eingabefehler erkannt werden. Bei Verwendung der Ziffern 0-9 tritt eine zufällige Übereinstimmung auch bei ungültigen Zahlen mit ca. 10°% Wahrscheinlichkeit auf. Bei Verwendung von zwei Prüfziffern liegt diese Fehlerwahrscheinlichkeit nur noch bei ca. 1 %. Die Prüfung von Plausibilitäten trägt ebenso erheblich zur Vermeidung von Erfassungsfehlern bei. So darf z.B. ein Rechnungsdatum nicht nach dem Erfassungsdatum (Systemdatum) liegen. Als besonders sichere Methode ist in diesem Zusammenhang der Abgleich der erfassten Attribute mit bestehenden Datenbank-Inhalten zu nennen. Über die eigentliche Prüfung hinaus kann damit eine automatische Ergänzung weiterer Attribute erfolgen.

Eine wichtige Anforderung innerhalb des Scan-Vorgangs ist die revisionssichere Protokollierung. Diese ist erforderlich, um z.B. die Nachvollziehbarkeit im Sinne der GoBS zu wahren. Die revisionssichere Protokollierung führt in Verbindung mit der Verfahrensdokumentation zu einem sogenannten "elektronischen Dokument hoher Qualität". Protokollsätze sollen die Angaben von Benutzer, Signaturcode, Datum/Uhrzeit, Unique Identifier des Informationsobjekts, etc. enthalten.

Die Archivierung von Office- und anderen Dateien lässt sich natürlich in vielen Fällen automatisch durchführen. Diese Vorgehensweise wird an anderer Stelle behandelt. Oftmals geschieht das aber auch am Arbeitsplatz des Sachbearbeiters, der diese Dokumente erstellt und entscheidet, welche archiviert werden sollen. Hierzu werden meistens Drittanwendungen in die Office-Anwendungen eingeklinkt, die die erstellten Dokumente zusätzlich zum Ausdruck an einen "Virtuellen Printer" schicken. Dabei werden die Indexkriterien automatisch nach bestimmten Vorgaben ausgelesen, das Dokument TIFF (S/W) oder JPEG (Farbe) konvertiert und gleichzeitig archiviert.


Lesen Sie das nächste Kapitel

weiter
 1: Scanner-Technologien und Leistungen

07/2008, Wolfgang Koch





Wolfgang Koch ist Seniorberater der PROJECT CONSULT. Er verfügt über profunde Kenntnisse der Informationstechnologien und berät Unternehmen bei Strategie, Konzeption, Einführung, Ausbau, Migration und Dokumentation von IM-Lösungen.

Mehr Informationen zu Project Consult


Kommentare zu diesem Beitrag 


Schreiben Sie einen Kommentar zu diesem Beitrag

Newsletter abonnieren

Verpassen Sie nichts und bleiben Sie informiert mit unserem Newsletter.
Ihre E-Mail Adresse:  
RSS-Feed: Alle News aktuellUnsere News auf Ihrer Website

Weitere Beiträge zu diesem Thema

ECM: Capture - Teil II
Die Speicherung der zu verwaltenden Objekte innerhalb eines ECM-Systems ist ein sehr bedeutender Komplex, da das Format letztendlich die Verwendbarkeit und Darstellung des betreffenden Objekts bestimmt...
E-Mail-Management – Last oder Chance?
Systeme für E-Mail-Management bieten die Möglichkeit, effizient und gesetzeskonform mit E-Mails umzugehen. Die Verwaltung der elektronischen Post kann dadurch deutlich erleichtert werden...
Zukunft der RFID-Technologie – Teil II
In einer Vielzahl von Forschungsprojekten werden aktuell neue oder bessere Methoden der RFID Nutzung entwickelt...
Anforderungen bestimmen die ECM-Strategie
Häufig scheitert die Einführung von Enterprise-Content-Management(ECM)-Systemen, weil am Bedarf vorbei beschafft wurde – zu komplexe Lösungen oder fehlende Aufgabenunterstützung vernichten die Systemakzeptanz bei den Anwendern und die Projektrendite...
Zukunft der RFID-Technologie – Teil I
Enterprise Content Management Systeme (ECM) können eine Vielzahl von Informationsobjekten erfassen, managen, archivieren und reproduzieren...

Beiträge aus anderen Themenbereichen

Praxis: Sicherstellung der Qualität im gesamten Herstellungsprozess
Im Jahre 2005 hat sich das Naturawerk für die ERP-Lösung Semiramis von Comarch (vormals SoftM) entschieden. Das System wird in nahezu allen Unternehmensbereichen eingesetzt...
Kollaborativ generierte Inhalte managen - Content-Plattformen in der Web 2.0-Welt
Modernes Content Management sieht sich vor neuen Herausforderungen. Mit den Veränderungen in den Nutzungsgewohnheiten des Internets sind auch die Anforderungen an Content Management Systeme gewachsen...
VOICE Days plus: Deutschlands Servicewelt im Fokus
Im Interview spricht der Schirmherr der Initiative Prof. Dieter Spath über "Das Konstruktionsbüro für Dienstleistungen" und vieles mehr. Am 12. Oktober eröffnet Prof. Dieter Spath den VOICE Days plus Kongress...

Sponsored Links

Männer Kontaktanzeigen
Das Content Management PortalDas Dokumenten Management PortalDas IT-Security PortalDas Customer Relationship Management PortalDas E-Commerce PortalDas Enterprise Resource Planning PortalPortal für VoIP und mobile KommunikationDas Magazin für IT im KrankenhausDas Verzeichnis für IT-Profis
homeimpressumerklärung zum datenschutz - privacy policykontaktwerbung

Schnellsuche