PDF to Text Converter
Dieser Adapter liest ein PDF-Dokument (auch passwortgeschützt) ein, extrahiert die Textinhalte eines bestimmten Seitenbereichs oder des gesamten Dokuments und gibt die extrahierten Zeichenketten in einem XML- oder Textdokument mit einer frei wählbaren Zeichenkodierung aus.
Eigenschaften (Properties)
Operation | Bestimmt, welche Operation der Adapter durchführt Mögliche Werte: |
Parameter
Adapter | Hauptklasse des Adapters (nicht verändern!) Mögliche Werte: |
password | Passwort (bei einem geschützten PDF-Dokument) Mögliche Werte: Beliebige Zeichenkette |
startPage | Erste Seitenzahl, ab der die Texte extrahiert werden sollen Mögliche Werte:
|
endPage | Letzte Seitenzahl, bis zu der die Textextraktion durchgeführt werden soll Mögliche Werte:
|
encoding | Zeichenkodierung des Ergebnisdokuments Mögliche Werte: Beliebige gültige Zeichenkodierung (z.B. |
force | Auch auf ungültigen PDF-Seiten versuchen, Text zu extrahieren Mögliche Werte:
|
toXML | Textinhalte in einem XML-Dokument ausgeben Mögliche Werte:
|
Statuswerte
-1 | Die Operation wurde erfolgreich ausgeführt. |
1 | Die Operation ist aufgrund eines technischen Fehlers fehlgeschlagen. |