PDF to Text Converter
Dieser Adapter liest ein PDF-Dokument (auch passwortgeschützt) ein, extrahiert die Textinhalte eines bestimmten Seitenbereichs oder des gesamten Dokuments und gibt die extrahierten Zeichenketten in einem XML- oder Textdokument mit einer frei wählbaren Zeichenkodierung aus.
Eigenschaften (Properties)
| Operation | Bestimmt, welche Operation der Adapter durchführt Mögliche Werte: |
Parameter
| Adapter | Hauptklasse des Adapters (nicht verändern!) Mögliche Werte: |
| password | Passwort (bei einem geschützten PDF-Dokument) Mögliche Werte: Beliebige Zeichenkette |
| startPage | Erste Seitenzahl, ab der die Texte extrahiert werden sollen Mögliche Werte:
|
| endPage | Letzte Seitenzahl, bis zu der die Textextraktion durchgeführt werden soll Mögliche Werte:
|
| encoding | Zeichenkodierung des Ergebnisdokuments Mögliche Werte: Beliebige gültige Zeichenkodierung (z.B. |
| force | Auch auf ungültigen PDF-Seiten versuchen, Text zu extrahieren Mögliche Werte:
|
| toXML | Textinhalte in einem XML-Dokument ausgeben Mögliche Werte:
|
Statuswerte
-1 | Die Operation wurde erfolgreich ausgeführt. |
1 | Die Operation ist aufgrund eines technischen Fehlers fehlgeschlagen. |