Sitzung: Jeden Freitag in der Vorlesungszeit ab 16 Uhr c. t. im MAR 0.005. In der vorlesungsfreien Zeit unregelmäßig (Jemensch da?). Macht mit!

Springer: eBook-Download

Version vom 18. August 2007, 11:28 Uhr von Felix (Diskussion) (eBook-Parser)
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)

Der Springer-Verlag bietet neben wissenschaftlichen Journalen auch komplette Bücher zum Download an. Über die UB bekommt man Zugang zu Büchern ab 2005 in den Bereichen Informatik und Technik.

Leider kann man die meisten Bücher nicht am Stück bequem herunterladen, sondern muss jedes Kapitel einzeln anklicken. Zudem haben die Dateien dann alle den Namen 'fulltext.pdf'. Daher habe ich (Felix Schwarz) in einem schnellen Hack ein kleines Python-Skript geschrieben, dass mit Hilfe einer Springer-URL alle Kapitel sucht, die entsprechenden PDF-Dateien in ein neues Verzeichnis mit dem Namensschema "<Titel> - <Untertitel>" herunterlädt und die PDF-Datei entsprechend dem Kapitelnamen benennt.

Derzeit ist dieses Skript wirklich sehr primitiv:

  • Es enthält keine Fehlerbehandlung.
  • Das Parsen der HTML-Seiten geschieht mit regulären Ausdrücken, da Springer z.T. sehr kruden "HTML"-Code verwendet, der keinesfalls HTML-konform ist - geschweige denn gültiges HTML, womit dann XLST einfach einsetzbar wäre.
  • Das Parsing ist natürlich abhängig vom Seitenlayout. Derzeit (August 2007) funktioniert mein Skript bei den meisten Büchern, aber das kann sich natürlich jederzeit ändern, wenn Springer sein Layout ändert.

Download: www.freitagsrunde.org/~felix/springer_book_download.py