zurück zur Startseite
  


Zurück XHTMLforum > Webentwicklung (außer XHTML und CSS) > Serveradministration und serverseitige Scripte
Seite neu laden pdftotext - hat jemand eine ahnung?

Antwort
 
LinkBack Themen-Optionen Ansicht
  #1 (permalink)  
Alt 29.07.2008, 17:44
Neuer Benutzer
neuer user
Thread-Ersteller
 
Registriert seit: 06.06.2008
Beiträge: 18
ludoergosum befindet sich auf einem aufstrebenden Ast
Standard pdftotext - hat jemand eine ahnung?

hallo zusammen!

ich habe eine phpdig suche auf meinen server geladen und wollte nun anstellen, dass die suche auch pdf files lesen kann.

dazu soll ich nach dem tutorial (PhpDig.net - FAQ) ein pdftotext file installieren.

habe aber keine ahnung wo man dieses file findet, wie es heisst und wie man dieses installiert.

ich hoffe ihr könnt mir weiterhelfen.

vielen dank!
Mit Zitat antworten
Sponsored Links
  #2 (permalink)  
Alt 29.07.2008, 17:49
Benutzerbild von fox
fox fox ist offline
Erfahrener Benutzer
XHTMLforum-Kenner
 
Registriert seit: 11.09.2006
Beiträge: 1.011
fox sorgt für eine eindrucksvolle Atmosphärefox sorgt für eine eindrucksvolle Atmosphäre
Standard

Zitat:
At FooLabs is a mirror to PlanetMirror where you can find compiled versions of pdftotext for various operating systems.

Go to PlanetMirror and download xpdf-3.00-linux.tar.gz or a later version (assumes linux is your operating system).
..........
Mit Zitat antworten
Sponsored Links
  #3 (permalink)  
Alt 29.07.2008, 18:17
Neuer Benutzer
neuer user
Thread-Ersteller
 
Registriert seit: 06.06.2008
Beiträge: 18
ludoergosum befindet sich auf einem aufstrebenden Ast
Standard

ich habs gelesen.

habs heruntergeladen. darin befindet sich aber kein "pdfttotext" file sondern höchstens ein pdftotext.cat oder pdftotext.1 file.

sind das die richtigen und was soll ich damit?

vielen dank für eure nützlichen tipps
Mit Zitat antworten
  #4 (permalink)  
Alt 29.07.2008, 18:26
Benutzerbild von fox
fox fox ist offline
Erfahrener Benutzer
XHTMLforum-Kenner
 
Registriert seit: 11.09.2006
Beiträge: 1.011
fox sorgt für eine eindrucksvolle Atmosphärefox sorgt für eine eindrucksvolle Atmosphäre
Standard

Genau lesen, du brauchst diese Datei:

ftp://ftp.foolabs.com/pub/xpdf/xpdf-...2-linux.tar.gz
Mit Zitat antworten
  #5 (permalink)  
Alt 29.07.2008, 18:35
Neuer Benutzer
neuer user
Thread-Ersteller
 
Registriert seit: 06.06.2008
Beiträge: 18
ludoergosum befindet sich auf einem aufstrebenden Ast
Standard

okay danke!

was muss ich nun mit der datei anstellen damit phpdig pds durchsuchen kann?
Mit Zitat antworten
  #6 (permalink)  
Alt 29.07.2008, 18:49
Benutzerbild von Praktikant
Semantikbremse.
XHTMLforum-Kenner
 
Registriert seit: 22.04.2008
Beiträge: 4.989
Praktikant kann auf vieles stolz seinPraktikant kann auf vieles stolz seinPraktikant kann auf vieles stolz seinPraktikant kann auf vieles stolz seinPraktikant kann auf vieles stolz seinPraktikant kann auf vieles stolz seinPraktikant kann auf vieles stolz seinPraktikant kann auf vieles stolz seinPraktikant kann auf vieles stolz sein
Standard

Zitat:
Zitat von ludoergosum Beitrag anzeigen
okay danke!

was muss ich nun mit der datei anstellen damit phpdig pds durchsuchen kann?
Zitat:
FTP just the pdftotext file in binary mode to your account (your cgi-bin directory should allow this file to run).

Once the file is over, change its permission to rwxr-xr-x (755 permission) if applicable for your operating system.

Now in the PhpDig config file, set the following:

define('PHPDIG_INDEX_PDF',true); // set to true
define('PHPDIG_PARSE_PDF','/full/path/to/cgi-bin/pdftotext'); // assuming linux
define('PHPDIG_OPTION_PDF',''); // two single quotes, no space inbetween

Also be sure to set the following in the PhpDig config file too:

define('PHPDIG_PDF_EXTENSION','.txt'); // don't forget the period in .txt

Give PhpDig a whirl and see if it indexes PDF files.
Und wenn du nen Problem hast... dann da hin gehen: PhpDig.net - README before posting
__________________
Rettet die Erde.... sie ist der einzige Planet mit Schokolade!
Mit Zitat antworten
  #7 (permalink)  
Alt 30.07.2008, 00:34
Neuer Benutzer
neuer user
Thread-Ersteller
 
Registriert seit: 06.06.2008
Beiträge: 18
ludoergosum befindet sich auf einem aufstrebenden Ast
Standard

dankeschön.

ich habe leider ein problem, welches nicht auf der seite behandelt wird:

der spider fängt nun an zu indexieren, jedoch ist die seite auf einmal fertig geladen, obwohl weiter oben noch steht "spider arbeitet....". ich habe relativ lange gewartet, doch nichts ist passiert.

ist das irgend ein timeout?
Mit Zitat antworten
  #8 (permalink)  
Alt 30.07.2008, 00:47
Benutzerbild von Scheppertreiber
Chaot und Nonkonformist.
XHTMLforum-Kenner
 
Registriert seit: 13.03.2007
Ort: Steinmark im Spessart
Beiträge: 7.457
Scheppertreiber ist ein LichtblickScheppertreiber ist ein LichtblickScheppertreiber ist ein LichtblickScheppertreiber ist ein LichtblickScheppertreiber ist ein Lichtblick
Standard

Kann's mir nicht verbeißen ...

PDF ist ein ASCII-Format, es ist kein Problem, den Text da herauszulesen und
als Textdatei irgendwo abzulegen. Die Textdatei kann man dann für eine Suche
indexieren (immer vorrausgesetzt, das PDF enthält auch Text - das steht aber
drinnen).

Bei Interesse kann ich gerne die PDF-Doku mal wieder Online stellen, die gibt es
aber auch bei Adobe.
__________________
Grüße aus dem Spessart, Joe

{ table-layout: biertischistbesser; }
Der Mausinator
Mit Zitat antworten
  #9 (permalink)  
Alt 30.07.2008, 11:29
Benutzerbild von netspy
Erfahrener Benutzer
XHTMLforum-Kenner
 
Registriert seit: 13.08.2004
Ort: Leipzig
Beiträge: 1.956
netspy sorgt für eine eindrucksvolle Atmosphärenetspy sorgt für eine eindrucksvolle Atmosphäre
Standard

Zitat:
Zitat von Scheppertreiber Beitrag anzeigen
PDF ist ein ASCII-Format, es ist kein Problem, den Text da herauszulesen und als Textdatei irgendwo abzulegen.
Na ganz so einfach ist es aber nicht. In vielen PDF-Dateien ist der Text gepackt und nicht als Klartext lesbar. Die Textblöcke zu suchen, entpacken und auszulesen ist zwar nicht extrem schwer aber auch nicht ganz einfach. Richtig mistig wird es, wenn man mit OOo erstellte PDFs hat, die haben gar keinen zusammenhängenden Text mehr, da dort (vermutlich wegen dem Kernig) jeder Buchstabe einzeln abgelegt ist.

Mario
__________________
AppDev Blog · AppDev Forum
Mit Zitat antworten
Sponsored Links
  #10 (permalink)  
Alt 30.07.2008, 11:34
Benutzerbild von Scheppertreiber
Chaot und Nonkonformist.
XHTMLforum-Kenner
 
Registriert seit: 13.03.2007
Ort: Steinmark im Spessart
Beiträge: 7.457
Scheppertreiber ist ein LichtblickScheppertreiber ist ein LichtblickScheppertreiber ist ein LichtblickScheppertreiber ist ein LichtblickScheppertreiber ist ein Lichtblick
Standard

Das ist hinterhältig ...

Ich erzeuge die hauptsächlich, mit dem Zerpflücken solcher Monstar habe ich
es noch nicht zu tun gehabt. Prinzipiell müßte man sich, nach isolieren der
Text-Objekte, die einzelnen Buchstaben mit den jeweiligen Koordinaten merken,
die geeignet sortieren und zu Textbändern zusammenfassen.

Oder sich eine der OS-Libs mal genauer ansehen wie die das machen.

Da kommen aber Sciptsprachen wie PHP an ihre Grenzen
__________________
Grüße aus dem Spessart, Joe

{ table-layout: biertischistbesser; }
Der Mausinator
Mit Zitat antworten
Sponsored Links
Antwort

Themen-Optionen
Ansicht

Forumregeln
Es ist Ihnen nicht erlaubt, neue Themen zu verfassen.
Es ist Ihnen nicht erlaubt, auf Beiträge zu antworten.
Es ist Ihnen nicht erlaubt, Anhänge hochzuladen.
Es ist Ihnen nicht erlaubt, Ihre Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are aus


Ähnliche Themen
Thema Autor Forum Antworten Letzter Beitrag
IE6 versteht css-deklaration nicht! Keine Ahnung... A-Rex CSS 9 15.05.2008 00:00
Design Problem, und keine Ahnung wieso nacho Site- und Layoutcheck 48 19.01.2007 13:20


Alle Zeitangaben in WEZ +2. Es ist jetzt 08:00 Uhr.