X4 Produktdokumentation

PDF to Text Converter

Dieser Adapter liest ein PDF-Dokument (auch passwortgeschützt) ein, extrahiert die Textinhalte eines bestimmten Seitenbereichs oder des gesamten Dokuments und gibt die extrahierten Zeichenketten in einem XML- oder Textdokument mit einer frei wählbaren Zeichenkodierung aus.

Eigenschaften (Properties)

Operation

Bestimmt, welche Operation der Adapter durchführt

Mögliche Werte: Extract: Text aus dem Input-PDF-Dokument extrahieren

Parameter

password

Passwort (bei einem geschützten PDF-Dokument)

Mögliche Werte: Beliebige Zeichenkette

startPage

Erste Seitenzahl, ab der die Texte extrahiert werden sollen

Mögliche Werte:

  • Beliebige positive ganze Zahl oder 0

  • 0: Ab der ersten Seite beginnen (Standard)

endPage

Letzte Seitenzahl, bis zu der die Textextraktion durchgeführt werden soll

Mögliche Werte:

  • Beliebige ganze Zahl oder 0

  • 0: Bis zur letzten Seite Text extrahieren (Standard)

encoding

Zeichenkodierung des Ergebnisdokuments

Mögliche Werte: Beliebige gültige Zeichenkodierung (z.B. UTF-8)

force

Auch auf ungültigen PDF-Seiten versuchen, Text zu extrahieren

Mögliche Werte:

  • ja: Ungültige PDF-Seiten verarbeiten

  • nein: Ungültige PDF-Seiten ignorieren (Standard)

toXML

Textinhalte in einem XML-Dokument ausgeben

Mögliche Werte:

  • ja: XML-Dokument ausgeben

  • nein: Textdokument ausgeben (Standard)

Statuswerte

-1

Die Operation wurde erfolgreich ausgeführt.

1

Die Operation ist aufgrund eines technischen Fehlers fehlgeschlagen.