PDF-Indexing

Diese Erweiterung ermöglicht es, den textuellen Inhalt von PDF-Dokumenten in ein Nodeset zu konvertieren. Dadurch ist der Inhalt eines PDF-Dokuments beispielsweise für die Ausgabe auf deer Website verwendbar. Der wohlhäufigste Anwendungsfall ist die Indizierung der PDF-Inhalte für die normale Volltextsuche einer Website.

Damit die Methoden zur Textextraktion aus .pdf-Dateien zur Verfügung stehen, muss das Modul wie folgt in der web.config der Render Engine konfiguriert werden:

Namensraum: http://www.getit.de/2008/indexing/pdf

Name	Argumente	Rückgabetyp	Beschreibung
parsePdf	xlink:xlink [fromDataSource:boolean]	nodeset	Gibt den textuellen Inhalt einer PDF-Datei als NodeSet zurück.

applyGlossary parsePdf