Skip to main content
Skip table of contents

PDF to Text Converter

Dieser Adapter liest ein PDF-Dokument (auch passwortgeschützt) ein, extrahiert die Textinhalte eines bestimmten Seitenbereichs oder des gesamten Dokuments und gibt die extrahierten Zeichenketten in einem XML- oder Textdokument mit einer frei wählbaren Zeichenkodierung aus.

Eigenschaften (Properties)

Operation

Bestimmt, welche Operation der Adapter durchführt

Mögliche Werte: Extract: Text aus dem Input-PDF-Dokument extrahieren

Parameter

Adapter

Hauptklasse des Adapters (nicht verändern!)

Mögliche Werte: de.softproject.integration.adapter.pdf.PDF2Text: Hauptklasse (Standard)

password

Passwort (bei einem geschützten PDF-Dokument)

Mögliche Werte: Beliebige Zeichenkette

startPage

Erste Seitenzahl, ab der die Texte extrahiert werden sollen

Mögliche Werte:

  • Beliebige positive ganze Zahl oder 0

  • 0: Ab der ersten Seite beginnen (Standard)

endPage

Letzte Seitenzahl, bis zu der die Textextraktion durchgeführt werden soll

Mögliche Werte:

  • Beliebige ganze Zahl oder 0

  • 0: Bis zur letzten Seite Text extrahieren (Standard)

encoding

Zeichenkodierung des Ergebnisdokuments

Mögliche Werte: Beliebige gültige Zeichenkodierung (z.B. UTF-8)

force

Auch auf ungültigen PDF-Seiten versuchen, Text zu extrahieren

Mögliche Werte:

  • ja: Ungültige PDF-Seiten verarbeiten

  • nein: Ungültige PDF-Seiten ignorieren (Standard)

toXML

Textinhalte in einem XML-Dokument ausgeben

Mögliche Werte:

  • ja: XML-Dokument ausgeben

  • nein: Textdokument ausgeben (Standard)

Statuswerte

-1Die Operation wurde erfolgreich ausgeführt.
1Die Operation ist aufgrund eines technischen Fehlers fehlgeschlagen.
JavaScript errors detected

Please note, these errors can depend on your browser setup.

If this problem persists, please contact our support.