Papierloses Büro

Papierlos arbeiten – der ultimative Traum eines jeden Technikjunkies. Kein aufwendiges wegsortieren von Dokumenten und sortieren in Aktenordnern.

Zu Beginn der Recherche wird man mit sehr vielen Kommerziellen Dokumentenmanagementsystemen (DMS) konfrontiert, mit den dementsprechenden Businesspreis. Für den privaten Bereich existieren zwar auch teilweise Freeware/Demoversionen der Programme, sind aber einerseits zu beschnitten was die Automatisierung angeht, andereseits zu komplex aufgebaut und nicht mobil nutzbar.

Schritt 1 – Digitalisierung

Um die Daten/Dokumente dann weiterverarbeiten zu können müssen sie natürlich erst digitalisiert werden. Da ich Blockweise scannen möchte um nicht jeden eintreffenden Brief einzeln scannen zu müssen war mein Hauptkriterium ein Scanner mit automatischen Einzug. Auch da kann man wieder zu Businessmodellen greifen – diese sind aber für den privaten Zweck auch viel zu kostspielig. Mein Epson WF-2760 Multifunktionsdrucker hat einen kleinen automatischen Einzug und ist per WLAN an mein Google Drive eingebunden. Eingescannte Dokumente legt der Drucker als einfache PDF in einem Ordner namens „ScanInput“ ab.

Es gibt auch Scanner die bereits eine Texterkennung durchführen und die PDF direkt mit dem erkannten Text versehen, dann kann Schritt 2 übersprungen werden.

Schritt 2 – Texterkennung / OCR

Die Briefe/Dokumente sind jetzt digital als PDF vorhanden. Der enthaltene Text ist aber nicht als solcher erkannt, das Dokument ist quasi als Bild gespeichert innerhalb des PDF.

Meine Prämissen für die OCR:

  • Automatisches Abarbeiten neuer Dokumente in einem Überwachten Ordner
  • Nach dem Erkennen löschen alter PDF, neue PDF in anderem Ordner ablegen
  • Synchronisierung mit Google Drive
  • Kostenlos
  • Nicht wieder mehrere Linuxscripte…

Für Linux gibt es viele Lösungen, unter anderem Tesseract , was der Grundstock hinter einigen Freewares ist. Scheidet in meinem Fall aus da fast alle Lösungen keinen Komfort bieten automatisch Ordner abzuarbeiten ohne wieder mit irgendwelchen handgebauten Scripts zu arbeiten.

Die einzige Alternative für mich war am Ende die Software DropOCR , ein Teilmodul von OCRServer. DropOCR ist kostenlos und direkt unter Windows installierbar, ist schnell eingerichtet und überwacht Ordner auf neue Dateien.