PDF to Text Converter

Dieser Adapter liest ein PDF-Dokument (auch passwortgeschützt) ein, extrahiert die Textinhalte eines bestimmten Seitenbereichs oder des gesamten Dokuments und gibt die extrahierten Zeichenketten in einem XML- oder Textdokument mit einer frei wählbaren Zeichenkodierung aus.

Eigenschaften (Properties)

Operation

Bestimmt, welche Operation der Adapter durchführt

Mögliche Werte: Extract: Text aus dem Input-PDF-Dokument extrahieren

Parameter

Adapter	Hauptklasse des Adapters (nicht verändern!) Mögliche Werte: `de.softproject.integration.adapter.pdf.PDF2Text`: Hauptklasse (Standard)
password	Passwort (bei einem geschützten PDF-Dokument) Mögliche Werte: Beliebige Zeichenkette
startPage	Erste Seitenzahl, ab der die Texte extrahiert werden sollen Mögliche Werte: Beliebige positive ganze Zahl oder `0` `0`: Ab der ersten Seite beginnen (Standard)
endPage	Letzte Seitenzahl, bis zu der die Textextraktion durchgeführt werden soll Mögliche Werte: Beliebige ganze Zahl oder `0` `0`: Bis zur letzten Seite Text extrahieren (Standard)
encoding	Zeichenkodierung des Ergebnisdokuments Mögliche Werte: Beliebige gültige Zeichenkodierung (z.B. `UTF-8`)
force	Auch auf ungültigen PDF-Seiten versuchen, Text zu extrahieren Mögliche Werte: `ja`: Ungültige PDF-Seiten verarbeiten `nein`: Ungültige PDF-Seiten ignorieren (Standard)
toXML	Textinhalte in einem XML-Dokument ausgeben Mögliche Werte: `ja`: XML-Dokument ausgeben `nein`: Textdokument ausgeben (Standard)

Statuswerte

`-1`	Die Operation wurde erfolgreich ausgeführt.
`1`	Die Operation ist aufgrund eines technischen Fehlers fehlgeschlagen.