Zitat:
Zitat von Scheppertreiber
PDF ist ein ASCII-Format, es ist kein Problem, den Text da herauszulesen und als Textdatei irgendwo abzulegen.
|
Na ganz so einfach ist es aber nicht. In vielen PDF-Dateien ist der Text gepackt und nicht als Klartext lesbar. Die Textblöcke zu suchen, entpacken und auszulesen ist zwar nicht extrem schwer aber auch nicht ganz einfach. Richtig mistig wird es, wenn man mit OOo erstellte PDFs hat, die haben gar keinen zusammenhängenden Text mehr, da dort (vermutlich wegen dem Kernig) jeder Buchstabe einzeln abgelegt ist.
Mario