Schlagwort-Archive: CSV

Daten aus einem PDF in eine Excel-Tabelle übertragen

Leider kommt es recht häufig vor, dass Daten in einem PDF geliefert werden. Es ist leider kaum möglich, diese Daten einfach in eine Tabelle zu übertragen, um sauber mit ihnen arbeiten zu können. PDF ist eigentlich ein Format für den Druck und enthält deshalb kaum Strukturinformationen.

Ein recht einfacher Weg ist, die Daten in ein CSV-Format zu übertragen. Das klappt beispielsweise recht gut, wenn nach jedem Datum ein Zeilenumbruch vorhanden ist und jeder Datenabschnitt durch zwei Zeilenumbrüche gekennzeichnet ist. Zum Beispiel

Name: Mustermann
Vorname: Max
Telefon: 0221 000000

Name: Mustermann
Vorname: Erika
Telefon: 02106 00000

Um herauszufinden, ob das bei eurem Dokument der Fall ist, speichert ihr das PDF-Dokument über euer Leseprogramm im reinen Textformat txt. Der oben beschriebene Weg klappt auch, wenn statt einem Zeilenumbruch immer doppelte Leerzeichen oder etwas in der Art vorhanden ist.

In jeder Textverarbeitung kann man gezielt nach Absätzen oder ähnlichen Textformatierungen suchen. Über die Suchen-und-Ersetzen-Funktion kann man diese Absätze gezielt suchen und durch ein Semikolon ersetzen lassen.

Wichtig ist dabei, eventuell vorhandene Semikola vor dieser Aktion zu entfernen, damit diese nicht als Markierung einer Tabellenzelle gewertet werden. Sind die Semikola wichtig, müssen sie vorher maskiert werden.

Zunächst sollten wir nach doppelten Absätzen suchen und diese durch doppelte Semikola ersetzen. Dadurch vermeiden wir fehlerhafte Ersetzungen. Haben wir alle doppelten Zeilenumbrüche entfernt, suchen wir nach einfachen Zeilenumbrüchen und ersetzen diese jeweils durch ein Semikolon.

Das Resultat sollte so aussehen:

Name: Mustermann;Vorname: Max;Telefon: 0221 000000;;Name:Mustermann;Vorname: Erika;Telefon: 02106 00000

Ich empfehle hier das reine Textformat und kein RTF- oder sonstige Dateiformate zu verwenden, weil es da Probleme mit der Zeichencodierung oder sonstigen Sonderzeichen geben kann. Wir schließen also das Textdokument und ändern das Dateiformat von .txt. in .csv.

Wir könnten an dieser Stelle schon hingegen und die überflüssigen Inhalte aus den Zellen entfernen, um sie als Spaltennamen zu verwenden. Das kann aber auch in der Tabellenkalkulation erledigt werden. Das geschieht ebenfalls durch die Suchen-und-Ersetzen-Funktion, diesmal suchen wir zum Beispiel nach der exakten Zeichenkette „Vorname: “. Um Nacharbeiten zu vermeiden, solltet ihr darauf achten, in einem Schritt mit dem überflüssigen begriff auch die Leer- und Satzzeichen zu entfernen. Ansonsten kann es zu Problemen kommen, wenn ihr zum Beispiel eine Spalte nach Postleitzahlen oder Anfangsbuchstaben sortieren wollt. Achtet darauf, dass auch leere Werte in die Tabelle übernommen werden, ansonsten rutschen euch sämtliche Werte durcheinander und die Tabelle ist praktisch unbrauchbar.

Da die meisten PDF-Dateien nicht sauber strukturiert sind, werden hier einige Nacharbeiten nötig sein, dennoch hoffe ich, dass ihr durch die oben beschriebenen Schritte ein wenig Zeit spart. Viel Erfolg.