Dieser Adapter liest ein PDF-Dokument (auch passwortgeschützt) ein, extrahiert die Textinhalte eines bestimmten Seitenbereichs oder des gesamten Dokuments und gibt die extrahierten Zeichenketten in einem XML- oder Textdokument mit einer frei wählbaren Zeichenkodierung aus.
Eigenschaften (Properties)
|
Operation |
Bestimmt, welche Operation der Adapter durchführt Mögliche Werte: |
Parameter
|
Adapter |
Hauptklasse des Adapters (nicht verändern!) Mögliche Werte: |
|
password |
Passwort (bei einem geschützten PDF-Dokument) Mögliche Werte: Beliebige Zeichenkette |
|
startPage |
Erste Seitenzahl, ab der die Texte extrahiert werden sollen Mögliche Werte:
|
|
endPage |
Letzte Seitenzahl, bis zu der die Textextraktion durchgeführt werden soll Mögliche Werte:
|
|
encoding |
Zeichenkodierung des Ergebnisdokuments Mögliche Werte: Beliebige gültige Zeichenkodierung (z.B. |
|
force |
Auch auf ungültigen PDF-Seiten versuchen, Text zu extrahieren Mögliche Werte:
|
|
toXML |
Textinhalte in einem XML-Dokument ausgeben Mögliche Werte:
|
Statuswerte
|
|
Die Operation wurde erfolgreich ausgeführt. |
|
|
Die Operation ist aufgrund eines technischen Fehlers fehlgeschlagen. |