Schlagwort-Archive: Daten

Daten aus einem PDF in eine Excel-Tabelle übertragen

Leider kommt es recht häufig vor, dass Daten in einem PDF geliefert werden. Es ist leider kaum möglich, diese Daten einfach in eine Tabelle zu übertragen, um sauber mit ihnen arbeiten zu können. PDF ist eigentlich ein Format für den Druck und enthält deshalb kaum Strukturinformationen.

Ein recht einfacher Weg ist, die Daten in ein CSV-Format zu übertragen. Das klappt beispielsweise recht gut, wenn nach jedem Datum ein Zeilenumbruch vorhanden ist und jeder Datenabschnitt durch zwei Zeilenumbrüche gekennzeichnet ist. Zum Beispiel

Name: Mustermann
Vorname: Max
Telefon: 0221 000000

Name: Mustermann
Vorname: Erika
Telefon: 02106 00000

Um herauszufinden, ob das bei eurem Dokument der Fall ist, speichert ihr das PDF-Dokument über euer Leseprogramm im reinen Textformat txt. Der oben beschriebene Weg klappt auch, wenn statt einem Zeilenumbruch immer doppelte Leerzeichen oder etwas in der Art vorhanden ist.

In jeder Textverarbeitung kann man gezielt nach Absätzen oder ähnlichen Textformatierungen suchen. Über die Suchen-und-Ersetzen-Funktion kann man diese Absätze gezielt suchen und durch ein Semikolon ersetzen lassen.

Wichtig ist dabei, eventuell vorhandene Semikola vor dieser Aktion zu entfernen, damit diese nicht als Markierung einer Tabellenzelle gewertet werden. Sind die Semikola wichtig, müssen sie vorher maskiert werden.

Zunächst sollten wir nach doppelten Absätzen suchen und diese durch doppelte Semikola ersetzen. Dadurch vermeiden wir fehlerhafte Ersetzungen. Haben wir alle doppelten Zeilenumbrüche entfernt, suchen wir nach einfachen Zeilenumbrüchen und ersetzen diese jeweils durch ein Semikolon.

Das Resultat sollte so aussehen:

Name: Mustermann;Vorname: Max;Telefon: 0221 000000;;Name:Mustermann;Vorname: Erika;Telefon: 02106 00000

Ich empfehle hier das reine Textformat und kein RTF- oder sonstige Dateiformate zu verwenden, weil es da Probleme mit der Zeichencodierung oder sonstigen Sonderzeichen geben kann. Wir schließen also das Textdokument und ändern das Dateiformat von .txt. in .csv.

Wir könnten an dieser Stelle schon hingegen und die überflüssigen Inhalte aus den Zellen entfernen, um sie als Spaltennamen zu verwenden. Das kann aber auch in der Tabellenkalkulation erledigt werden. Das geschieht ebenfalls durch die Suchen-und-Ersetzen-Funktion, diesmal suchen wir zum Beispiel nach der exakten Zeichenkette „Vorname: “. Um Nacharbeiten zu vermeiden, solltet ihr darauf achten, in einem Schritt mit dem überflüssigen begriff auch die Leer- und Satzzeichen zu entfernen. Ansonsten kann es zu Problemen kommen, wenn ihr zum Beispiel eine Spalte nach Postleitzahlen oder Anfangsbuchstaben sortieren wollt. Achtet darauf, dass auch leere Werte in die Tabelle übernommen werden, ansonsten rutschen euch sämtliche Werte durcheinander und die Tabelle ist praktisch unbrauchbar.

Da die meisten PDF-Dateien nicht sauber strukturiert sind, werden hier einige Nacharbeiten nötig sein, dennoch hoffe ich, dass ihr durch die oben beschriebenen Schritte ein wenig Zeit spart. Viel Erfolg.

Das Rätsel Social Web

Heute Morgen erhielt ich von StayFriends eine Mail, sie wollten mehr von mir wissen. Dieses edle Anliegen muss ich leider ablehnen, da mir StayFriends nicht die Daten seiner Mitarbeiter herausgeben mag. Wenn ich über Oliver und Co. alles weiß, was sie von mir wissen möchten, denke ich darüber nach, ob ich ihnen das Meine auch verraten möchte.

Was uns zu einem der größten Rätsel des Social Web führt: Wieso verraten viele Leute in ihren Profilen mehr, als sie selbs ihren Eltern oder entfernten Bekannten preis geben würden? Gnerell lassen sich dafür drei Gründe ausmachen:

1. Sie glauben, das Web sei so groß, dass ihre Daten hier ohnehin untergehen.
2. Sie glauben, kein Mensch interessiere sich für ihre Informationen, abgesehen von ihren Freunden oder Bekannten.
3. Sie wissen, dass es um so leichter ist, neue Kontakte zu gewinnen, je mehr sie von sich freigeben.

Auf Kontaktbörsen, die Urformen des Social Web, kommt man schließlich nicht darum herum, alles Mögliche von sich zu verraten, da sich Beziehungen fast nur über Gemeinsamkeiten aufbauen lassen.

In Zukunft werden wir lernen müssen, insgesamt sparsamer mit unseren Daten umzugehen. Die Marketingbranche setzt gerade erst dazu an, unsere Daten systematisch zu sammeln. Die Branche ist noch nicht so innovativ und technikaffin, dass sie die Daten einsammeln und auswerten kann, aber es ist nur eine Frage der Zeit, bis sie das hinbekommt. Entsprechende Programme existieren bereits.