Java ist auch eine Insel – 13.7 HTML-Dokumenten mit JTidy und cyberneko einlesen

Java ist auch eine Insel von Christian Ullenboom
Programmieren für die Java 2-Plattform in der Version 5 (Tiger-Release)

Kapitel 13 Die eXtensible Markup Language (XML)
	13.1 Auszeichnungssprachen
		13.1.1 Die Standard Generalized Markup Language (SGML)
		13.1.2 Extensible Markup Language (XML)
	13.2 Eigenschaften von XML-Dokumenten
		13.2.1 Elemente und Attribute
		13.2.2 Beschreibungssprache für den Aufbau von XML-Dokumenten
		13.2.3 Schema – eine Alternative zu DTD
		13.2.4 Namensraum (Namespace)
		13.2.5 XML-Applikationen
	13.3 Die Java-APIs für XML
		13.3.1 Das Document Object Model (DOM)
		13.3.2 Simple API for XML Parsing (SAX)
		13.3.3 Java Document Object Model (JDOM)
	13.4 XML-Dateien mit JDOM verarbeiten
		13.4.1 JDOM beziehen
		13.4.2 Paketübersicht
		13.4.3 Die Document-Klasse
		13.4.4 Eingaben aus der Datei lesen
		13.4.5 Das Dokument als XML-Datei ausgeben
		13.4.6 Der Dokumenttyp
		13.4.7 Elemente
		13.4.8 Zugriff auf Elementinhalte
		13.4.9 Liste mit Unterelementen erzeugen
		13.4.10 Neue Elemente einfügen und ändern
		13.4.11 Attributinhalte lesen und ändern
		13.4.12 Kurzeinführung in XPath
	13.5 JAXP als Java-Schnittstelle zu XML
		13.5.1 Einführung in XSLT
		13.5.2 Umwandlung von XML-Dateien mit JDOM und JAXP
	13.6 Serielle Verarbeitung von XML mit SAX
		13.6.1 Schnittstellen von SAX
		13.6.2 SAX-Parser erzeugen
		13.6.3 Wichtigsten Methoden der Schnittstelle ContentHandler
	13.7 HTML-Dokumenten mit JTidy und cyberneko einlesen

13.7 HTML-Dokumenten mit JTidy und cyberneko einlesen

Liegt ein HTML-Dokument als DOM-Baum vor, so hätte das den Vorteil, dass man das HTML-Dokument einfach untersuchen kann – etwa mit XPath – oder leicht konvertieren könnte. Das Problem dabei ist nur, dass HTML-Dokumente oft nicht XML-konform sind, also Fehler enthalten. Beim Einlesen würde der strenge XML-Parser Fehler melden und abbrechen.

Für HTML-Dokumente, die nicht ganz XML-rein sind, gibt es mit JTidy (http://jtidy.sourceforge.net/), eine freie Bibliothek, die HTML-Dokumente einliest, Fehler intern (soweit möglich) korrigiert und als ordentlichen DOM-Baum repräsentiert. Die Benutzung ist einfach:


Tidy tidy = new Tidy();
// tidy.setMakeClean( true );   // Ohne Störungen
// tidy.setXmlTags( true );     // Eingabe als XML behandeln
org.w3c.dom.Document node = tidy.parseDOM( in, null );

in steht für einen InputStream, der die Daten bereitstellt. Neben parseDOM(), was ein org.w3c.dom.Document liefert, gibt es auch parse(), was das Wurzelelement als org.w3c.tidy.Node liefert. Der zweite Parameter – hier mit null belegt – steht für ein Ausgabe-Objekt. Wird auf dem Tidy-Objekt die Methode parseXXX(in, out) aufgerufen, so schreibt JTidy einen korrekten XML-Strom in das gegebene OutputStream-Objekt. Online ist die API-Dokumentation unter http://jtidy.sourceforge.net/apidocs/index.html verfügbar.

Die Lizenz von JTidy ist zwar keine übliche, wie GPL oder Apache, aber trotzdem lässt sich die Bibliothek frei verwenden. Die Seite http://jtidy.sourceforge.net/license.html erklärt das genauer.

cyberneko

In einigen Fällen zickt auch JTidy, und bricht mit vielen Meldungen ab. Für diesen Fall bietet sich eine Alternative an: Der HTML-Parser von cyberneko (http://www.apache.org/~andyc/neko/doc/html/index.html).


InputStream in = new FileInputStream( path );
org.cyberneko.html.parsers.DOMParser parser = new 
org.cyberneko.html.parsers.DOMParser();
parser.parse( new InputSource(in) );

Um das XML-Dokument als JDOM-Document weiterzuverarbeiten, nutzen wir einen DOMBuilder:


DOMBuilder builder = new DOMBuilder();
org.jdom.Document document = builder.build( parser.getDocument() );

<< zurück

<top>

vor >>