Schlagwort-Archive: PDF

Ist PDF barrierefrei?

Am 10.6. war ich in Köln auf einem Seminar der PDF Association zu barrierefreiem PDF. Es war sehr spannend zu sehen, was es mittlerweile an Möglichkeiten zum Testen und Reparieren von getaggten Dokumenten gibt. Dennoch können wir mit der jetzigen Situation nicht zufrieden sein.

Barrierefreies PDF ist nicht barrierefrei

Barrierefreiheit sollte nicht nur für den Behinderten gut sein, sie sollte auch für den Macher barrierefrei sein. Es gibt keinen Grund, sie besonders kompliziert oder kostspielig zu gestalten oder eine Art Geheimkunst daraus zu machen.
Jeder Webentwickler kann sich mit ein wenig Mühe in die Web Accessibility einarbeiten. Barrierefreie PDFs zu erstellen ist jedoch mit den Profi-Tools eine Wissenschaft für sich, die selbst gestandene Desktop-Publisher vor Herausforderungen stellt.
Persönlich ärgert mich Adobes Politik. Im Augenblick braucht man offenbar einen ganzen Pool an Tools, um UA-konforme Dokumente zu erstellen. Im Grunde sollte es doch reichen, entweder den Acrobat oder InDesign zu haben, was ja schon ordentlich ins Geld geht. Stattdessen benötigt man weitere Tools, die noch einmal eine Stange Geld kosten, um die Sachen zu fixen, die Adobe verbockt hat oder sich nur kompliziert in den Adobe-Tools fixen lassen. Das sieht mir nicht nach einer Firma aus, die die Barrierefreiheit wirklich ernst nimmt. Viele Tools fürs barrierefreie Internet hingegen sind Standard-Werkzeuge, die man in der Regel kostenlos oder zu annehmbaren Preisen erwerben kann und die schlicht ausgereift sind.

Der Adobe Reader ist Mist

Niemand nutzt den Adobe Reader, wenn er nicht muss. Ich benutze das Programm sicherlich schon seit der Version 6 und kann nicht behaupten, dass ich sehnsüchtig auf das nächste Update oder Pseudo-Features wie das Speichern in der Cloud warten würde. Wenn ich nicht ab und zu PDFs testen müsste, würde ich einfach alle Texte in Plaintext umwandeln und mit dem Texteditor lesen.
Und zwar auch die Getaggten. Der Grund ist die teils hohe Latenz, die der Reader erzeugt. Egal ob getaggt oder nicht, der Reader legt bei jedem umfangreicheren Dokument eine Denkpause ein, die je nach Hardware-Performanz gerne mal ein paar Minuten dauern kann. Ich habe in meinem Leben sicher schon Hunderte von Programmen ausprobiert, aber keines davon stürzt so oft ab wie der Adobe Reader.
Es ist weder in Sicht, dass Adobe sein Programm aufräumen wird noch das es performante Alternativen für getaggte Dokumente geben wird.

Die Überbetonung technischer Faktoren

Als Redakteur störe ich mich auch an der Überbetonung technischer Faktoren bei barrierefreiem PDF. Die Standards werden vor allem von Entwicklern und Grafikern entwickelt. Witzigerweise ist für diese Menschen PDF nicht ein Container für Inhalte, ihr Thema ist das PDF und der Inhalt spielt nur am Rande eine Rolle.
Beim Seminar fiel mir zum Beispiel auf, dass kein Wort darüber gesagt wurde, wie man einen ordentlichen Alternativtext formuliert. Typografische Aspekte wie die Textgestaltung für eine bessere Lesbarkeit spielten keine Rolle.
Es gibt meines Wissens keine eingebaute Mehrsprachigkeit im PDF. Ich kann zum Beispiel nicht ein Dokument basteln, dass auf Knopfdruck zwischen Alltagssprache und Leichter Sprache wechselt. HTML kann das schon lange.
Es gibt meines Wissens auch nicht die Möglichkeit, den Text in unterschiedlichen Schriften anzuzeigen. So gibt es Schriften speziell für Dyslektiker oder Sehbehinderte. Schon seit dem ollen Internet Explorer 6 kann man die Website dazu zwingen, eine bestimmte Schriftart zu verwenden. Wenn der Konsument aber die Helvetica im PDF nicht lesen kann, hat er eben Pech gehabt.

PDF hinkt hinterher

PDF ist von Natur aus weder responsiv noch crossmedia-fähig. Ich kann relativ unfallfrei ein getaggtes PDF aus HTML oder ePub erzeugen aber versucht mal, aus einem getaggten PDF ein barrierefreies ePub zu erzeugen.
Wenn man sich anschaut, was HTML5 und CSS3 zu bieten haben muss man sagen, dass PDF den technischen Entwicklungen hinterher hinkt. Das gilt im Übrigen auch für die Barrierefreiheit. Zwar bietet PDF die Basics wie Alternativtexte, barrierefreie Formulare und so weiter, aber auch nicht wesentlich mehr. Da sind wir im Web doch ein ganzes Stück weiter.

Adobe ist an der Reihe

Es ist zwar begrüßenswert, dass es mit UA einen Standard für Barrierefreies PDF gibt. Allerdings muss Adobe die Erstellung barrierefreier Dokumente deutlich erleichtern. Ein erfahrener Web-Entwickler kann entwickeln und zugleich Aspekte der Barrierefreiheit berücksichtigen. Aktuell ist die Erstellung einer PDF-Broschüre und ihre Barriere-Befreiung ein vollkommen voneinander unabhängiger Prozess.
Und vielleicht sollten wir uns von dem Gedanken verabschieden, dass wir einen Standard voll erfüllen müssen. Die Experten mögen viel Kritik an den fehlerhaften getaggten Dokumenten äußern, die von MS Office oder Open Office exportiert werden. Aber diese Tools sind idiotensicher und solange Adobe es teuer und aufwendig macht, seine Tools zu verwenden, kann ich mich mit den Fehlern arrangieren.

Daten aus einem PDF in eine Excel-Tabelle übertragen

Leider kommt es recht häufig vor, dass Daten in einem PDF geliefert werden. Es ist leider kaum möglich, diese Daten einfach in eine Tabelle zu übertragen, um sauber mit ihnen arbeiten zu können. PDF ist eigentlich ein Format für den Druck und enthält deshalb kaum Strukturinformationen.

Ein recht einfacher Weg ist, die Daten in ein CSV-Format zu übertragen. Das klappt beispielsweise recht gut, wenn nach jedem Datum ein Zeilenumbruch vorhanden ist und jeder Datenabschnitt durch zwei Zeilenumbrüche gekennzeichnet ist. Zum Beispiel

Name: Mustermann
Vorname: Max
Telefon: 0221 000000

Name: Mustermann
Vorname: Erika
Telefon: 02106 00000

Um herauszufinden, ob das bei eurem Dokument der Fall ist, speichert ihr das PDF-Dokument über euer Leseprogramm im reinen Textformat txt. Der oben beschriebene Weg klappt auch, wenn statt einem Zeilenumbruch immer doppelte Leerzeichen oder etwas in der Art vorhanden ist.

In jeder Textverarbeitung kann man gezielt nach Absätzen oder ähnlichen Textformatierungen suchen. Über die Suchen-und-Ersetzen-Funktion kann man diese Absätze gezielt suchen und durch ein Semikolon ersetzen lassen.

Wichtig ist dabei, eventuell vorhandene Semikola vor dieser Aktion zu entfernen, damit diese nicht als Markierung einer Tabellenzelle gewertet werden. Sind die Semikola wichtig, müssen sie vorher maskiert werden.

Zunächst sollten wir nach doppelten Absätzen suchen und diese durch doppelte Semikola ersetzen. Dadurch vermeiden wir fehlerhafte Ersetzungen. Haben wir alle doppelten Zeilenumbrüche entfernt, suchen wir nach einfachen Zeilenumbrüchen und ersetzen diese jeweils durch ein Semikolon.

Das Resultat sollte so aussehen:

Name: Mustermann;Vorname: Max;Telefon: 0221 000000;;Name:Mustermann;Vorname: Erika;Telefon: 02106 00000

Ich empfehle hier das reine Textformat und kein RTF- oder sonstige Dateiformate zu verwenden, weil es da Probleme mit der Zeichencodierung oder sonstigen Sonderzeichen geben kann. Wir schließen also das Textdokument und ändern das Dateiformat von .txt. in .csv.

Wir könnten an dieser Stelle schon hingegen und die überflüssigen Inhalte aus den Zellen entfernen, um sie als Spaltennamen zu verwenden. Das kann aber auch in der Tabellenkalkulation erledigt werden. Das geschieht ebenfalls durch die Suchen-und-Ersetzen-Funktion, diesmal suchen wir zum Beispiel nach der exakten Zeichenkette „Vorname: “. Um Nacharbeiten zu vermeiden, solltet ihr darauf achten, in einem Schritt mit dem überflüssigen begriff auch die Leer- und Satzzeichen zu entfernen. Ansonsten kann es zu Problemen kommen, wenn ihr zum Beispiel eine Spalte nach Postleitzahlen oder Anfangsbuchstaben sortieren wollt. Achtet darauf, dass auch leere Werte in die Tabelle übernommen werden, ansonsten rutschen euch sämtliche Werte durcheinander und die Tabelle ist praktisch unbrauchbar.

Da die meisten PDF-Dateien nicht sauber strukturiert sind, werden hier einige Nacharbeiten nötig sein, dennoch hoffe ich, dass ihr durch die oben beschriebenen Schritte ein wenig Zeit spart. Viel Erfolg.

Multimedia im Web – optimiert für Suchmaschinen und Menschen

Obwohl wir schon seit Jahren von Benutzerfreundlichkeit reben und jeder Webdesigner sich selbiges auf die Fahnen geschrieben hat, werden jeden Tag neue oft schicke und benutzerunfreundliche Websites online gestellt.
Ungeliebtes Stiefkind der USability-Gilde sind Dateien. Ich kann mich nicht erinnern, wann jemand das letzte Mal einen Beitrag zu benutzerfreundlicher Multiemedia geschrieben hat. Hier also die Basics:
– alle Dateien zum Herunterladen sollten einen sprechenden Namen haben. Eine Datei namens 1322xayserer5.pdf klingt ungefähr so spannend wie der Wetterbericht von 1990.
– Jede Datei sollte in einer angemessenen Qualität ausgeliefert werden. Ein 10 MB großes PDF, welches zu 90 Prozent aus Luft und Liebe besteht ist ebenso wenig hilfreich wie ein verrauschtes MP3.
– Auch nach 15 Jahren MP3 scheint sich der Sinn von ID3 noch nicht herumgesprochen zu haben. Da stehen Meta-Daten drin, die bei vielen MP3-Playern statt des Dateinamens angezeigt werden. Eigentlich schon seltsam, da investiert jemand mehrere Stunden, um einen schönen Podcast zu produzieren, spart aber 30 Sekunden ein, weil er seiner Datei keinen sprechenden Namen und keine ID3-Tags verpasst. Dabei kann er hier wunderbar Daten wie Autorennamen, Titel, Erstelldatum und Herkunftsort ablegen.
Und wozu das alles? Ganz einfach, bei der Flut an Daten gehen Dateien ohne sprechenden Namen oder Meta-Daten gnadenlos unter. Bestenfalls landen sie in einem Archiv, wo sie dann auf nimmer Wiedersehen verschwinden. Selbst bei einer gezielten Recherche könnte der Archivar sie kaum wiederfinden, denn die Datei besitzt ja weder Meta-Daten noch einen sprechenden Dateinamen.

Wer von den Webworkern noch nicht endgültig überzeugt ist, für den kommt jetzt das Totschlagargument: Suchmaschinen-Optimierung. Google und andere orientieren sich maßgeblich am Datei- bzw. Linknamen. Ob Suchmaschinenbots die Metad-Daten auslesen, ist mir nicht bekannt, es spricht aber auch nichts dagegen, auch diese Daten einzutragen.
Im Sinne der Benutzerfreundlichkeit ist es auch wichtig, Informationen als normale Website anzubieten, statt sie in ein PDF zu packen. PDFs verbessern vielleicht das Ranking, vor allem im wissenschaftlichen Bereich. Ob da aber mehr als die ersten Absätze tatsächlich ausgewertet werden, kann eher bezweifelt werden. Man sollte auch an die Nutzer mobiler Endgeräte denken, die es lieber vermeiden, weitere Anwendungen zu starten. Der Titel von PDF-Dokumenten wird auch als Titel in Suchmaschinen angezeigt, sollte also sprechend sein. Da die Formatierungen in PDF-Dateien wie Überschriften rein optisch sind, tragen sie in keinem Fall zum Ranking bei.

Sprechende Dateinamen sollten keine Leerzeichen oder Sonderzeichen enthalten. Die einzelnen Begriffe werden mit Bindestrichen getrennt, d. h. zum Beispiel: Benutzerfreundlichkeit-in-Multimedia-Dateien.
Für die Suchmaschine sind mangels weitere Informationen der Text rund um die Datei sowie der Linkname ausschlaggebend für die Indizierung. Allerdings ist es auch sinnvoll, in Links das title-Attribut einzusetzen, indem auch Details zur Datei eingetragen werden können.
Das Thema RSS wird sträflich vernachlässigt. Der Webworker sollte einmal einen kritischen Blick auf seine Feeds werfen und sich folgende Fragen stellen:
1. Erfahre ich aus der Überschrift, worum es geht?
2. Reizt die Überschrift einen Anderen, diesen Beitrag aufzurufen?
Wer nicht im Datenstrom untergehen möchte, sollte eine dieser Fragen mit Ja beantworten, besser beide.
Das sind alles keine Sonderleistungen, sondern Basisanforderungen benutzerfreundlicher Inhalte.

PDF für Alle – Prüftool für barrierefreie PDFs

Die Schweizer Stiftung Zugang für alle bietet ein kostenloses Tool zur Überprüfung der Barrierefreiheit von PDF-Dateien. PDF-Dateien sind der Liebling jedes blinden Masochisten, wie ich öfter schon schreiben durfte. Hier also meine eigenen Links zum Erstellen und Spaßhaben von und mit PDF.
Abenteuer PDF – warum Blinde ein offenes Dokumentenformat brauchen
Barrierefreie PDF-Dokumente in OpenOffice
Die bevorzugte Alternative zu PDF sollte immer darin bestehen, Inhalte in einfachem HTML anzubieten, dass ist nicht nur barrierefrei, sondern schlichtweg ein Service für Menschen, die keinen PDF-Reader installiert haben.