GT-PDF-Transform
GT-PDF-Transform ist eine Open Source Desktop JavaFX Applikation, die es ermöglicht, eine Vielzahl von PDF Dateien zu transformieren und mit der nachfolgenden Option einer Anonymisierung. Sie können beispielsweise rekursiv alle PDF-Dateien einer Verzeichnisstruktur einlesen. Danach können in einer Massenverarbeitung die nicht für den Import relevanten Textzeilen entfernt werden. Falls Ihre Wertpapiertransaktion mehrheitlich als PDF-Dateien vorliegen, können Sie diese mit GT-PDF-Transform verarbeiten und danach in GT importieren.
GT-PDF-Transform installieren
Im GitHub Repository gt-pdf-transform befinden sich die Information zur Installation und zur Erstellung von GT-PDF-Transform.
Transformieren für Transaktionsimport
GT-PDF-Transform ist für den initialen Import besonders geeignet, siehe dazu Transaktionsimport und Import von Wertpapiertransaktion als PDF.
Datenschutz der GT-Instanz
Der Transaktionsimport wird vorwiegend im Back-End verarbeitet. Die Transformation ist ausreichend, falls Sie keine Bendenken bezüglich des Datenschutzes Ihrer genutzter GT-Instanz haben. Andernfalls muss zusätzlich noch eine Anonymisierung bzw. Pseudonymisierung statt finden.
Anonymisieren und pseudonymisieren
Beim anonymisieren werden die meisten personenbezogenen Zeilen mach der Transformation aus dem Dokument entfernt, da diese für den erfolgreichen Transaktionsimport irrelevant sind. Diese Zeilen befinden sich meistens am Anfang und Ende eines PDF-Dokumentes. Die Zeilen mit personenbezogenen Texte die sich innerhalb des auslesbaren Bereiches befinden, sollten nur mit vorsicht gelöscht werden. Diese Daten sollten vorsichtshalber pseudonymisiert werden.
Pseudonymisierung für das GT-Projekt
Mit GT-PDF-Transform können transformiert und pseudonymisierte PDF-Dokumente der Versionsverwaltung Import transaction template des GT-Projekt auf GitHub zur Verfügung gestellt werden. Dabei sollten in den transformierten PDF-Dokumente die Zeilen nicht gelöscht sondern mit anonymisierten Werten ersetzt werden, somit ist das Dokument pseudonymisiert. Bitte beachten Sie dazu die Instruktionen auf Import transaction template.
Das Video Datenschutz und Pseudonymisierung:
Unterteilung Benutzeroberfläche
Nebst der Menüleiste unterteilt sich die Benutzeroberfläche in drei Bereiche, Dateien, Ersetzung und PDF.
- Dateien: Die importierten PDF-Dokumente sind in einer Tabelle aufgelistet. Pro Tabellenzeile ein PDF-Dokument.
- Ersetzung: Textersetzung sind in dieser Tabelle angezeigt. Die einzelnen Tabellenzellen können bearbeitet werden.
- PDF: Hier wird das transformierte PDF-Dokument gemäss der Selektion von Dateien angezeigt. Das rechte Textfeld zeigt das transformierte PDF mit Ersetzung.
Allgemeine Funktionsweise
- Starten von GT-PDF-Transform
- Importieren von PDF-Dokumenten mit Menüleiste -> Datei -> “Neuer PDF Import”.
- Es können einzelne PDF-Dateien oder wahlweise rekursiv alle PDF-Dateien einer Verzeichnisstruktur importiert werden.
- Verzeichnis importieren: Es gibt zusätzliche Eingabefelder falls dieser Auswahlkasten markiert ist, andernfalls können mehrere selektierte Dateien importiert werden.
- Dateinamensmuster ausschliessen: Dabei kann ein regulärar Ausdruck für den Ausschluss von Dateinamen angegeben werden. Beispielsweise werden mit dem regulären Ausdruck “(ver|kauf)” alle Dateien die im Namen “ver” oder “kauf” enthalten nicht importiert.
- Unterverzeichnisse einbinden: Mit dieser Option werden die PDF-Dokumenten rekursiv aus allen Unterverzeichnisse importiert.
- Die Ausführungen in diesem Schritt sind abhängig vom Ziel des Exportes. Er ist für das anonymisieren und pseudonymisieren gedacht.
- Die zu exportierenden Dateien im Dateien-Bereich markieren.
- Exportieren der markierten PDF-Dateien als Text über die Menüleiste -> Datei -> “Export marikerte PDF als Text”
Das Grundlagenvideo:
Schritt 3: Anonymisieren und pseudonymisieren
Wie oben erwähnt, sollten bei bestimmten Konstellationen eine Anonymisierung bzw. Pseudonymisierung angewendet werden. Im linken Textfeld des Bereichs PDF kann mittels dem Kontextmenü die Funktion “Entferne Text” auf einem markierten Text ausgeführt werden. Dabei entsteht ein neuer Eintrag im Bereich Ersetzung. Im rechten Textfeld kann umgehend das Resultat dieser Ersetzung betrachtet werden. Die Ersetzungen werden auf jedes einzelne Dokument angewendet.
Ersetzung bearbeiten
Die Tabellenzeilen des Bereichs Ersetzung können editiert werden. Mit einem Einfach-Klick auf die entsprechende Zelle ändert sich der Wert der Zelle beim Auswahlkasten bzw. der Editiermodus bei einem Texteingabefeld wird aktiviert. Die Eingabetaste wird für den Zeilenumbruch genutzt, daher wird Shift + Eingabetaste der Zellenwert übernommen und das editieren beendet. Die Benutzung von regülären Ausdrücken ist möglich.
Info
Für den Kenner der Programmiersprache Java, für die Ersetzung kommt die Methode replaceFirst zur Anwendung.
Ersetzung speichern
Der Inhalt des Bereichs Ersetzung kann für eine weitere Sitzung gespeichert werden. Die Funktionen für das Speichern und Laden der Ersetzung befinden sich unter Menüleiste -> Datei.