HTML Parsing

dereulenspiegel · 2009-08-17T19:27:57+0200

Ich habe gerade erst mit der Enwticklung von Androidanwendungen angefangen. Da ich bereits ein erfahrener Java-Enwtickler bin war nicht allzu viel Eingewöhnung nötig. Allerdings veruche ich im Moment eine HTML-Seite zu parsen. In den Androidlibs direkt gibt es nur nen XML-Parser. Leider ist die Seite die ich parsen möchte nicht in XHTML sondern normalen (unsauberen) HTML geschrieben. Hat jemand schon Erfahrungen mit brauchbaren Libs für dieses Problem? Ich habe bisher NekoHTML ausprobiert, aber das läuft leider nicht unter Android und scheint eine Portierung zu benötigen. Aber vielleicht hat ja jemand von euch schon eine brauchbare Lib in Benutzung?
Bin mittlerweile recht verzweifelt was das angeht :rolleyes:

Danke im Voraus

MichaelS · 2009-08-17T19:29:24+0200

wieso nimmst du nicht einfach Regex um deine Infos aus der Seite zu ziehen?

dereulenspiegel · 2009-08-17T19:58:39+0200

An sowas habe ich auch schon gedacht, allerdings möchte ich schon recht viel daraus ziehen und eine vernünftige Lib zum Parsen von HTML genauso wie bei XML wäre schon schöner und besser zu handeln.
Zur Not parse ich die Seite natürlich manuell auch per RegEx aber ist halt nicht die schönste Variante. Gibt ja sicher noch mehr Leute die schon HTML-Seiten für ihre Anwendung geparst haben. Kann mir nicht direkt Vorstellen, dass alle das mit RegEx gemacht haben.

MichaelS · 2009-08-17T20:14:16+0200

also das parsen von html in alle elemente verbraucht aufjedenfall viel viel mehr power also das parsen mit regex... Regex ist ultra schnell und damit wirst du alles bekommen was du willst

Die Logik dahinter ist wirklich sehr geil =) ich persönlich arbeite sehr viel mit regex, da man einfach schnell viel bewirken kann =) Ansonsten abwarten bis jemand was schreibt

dereulenspiegel · 2009-08-17T20:21:41+0200

Ok, hast mich überzeugt. RegEx habe ich bisher immer vermieden weil es mich doch stark an Perl erinnert. Ich weiß zwar, dass ein guter Entwickler keine persönlichen Abneigungen gegen Sprachen haben sollte, aber mit Perl bin ich nie warm geworden. Kannst du mir vielleicht ein kleines Code Beispiel geben wie ich Regex einsetze um an einzelne Nodes inkl Subnodes in einem HTML-File zu kommen?

MichaelS · 2009-08-17T20:23:46+0200

Regex hat nichts mit Perl zu tun

such einfach mal bei google nach regex... glaub der erste treffer ist schon perfekt für den einstieg =) (für die faulen: Regular-Expressions.info - Regex Tutorial, Examples and Reference - Regexp Patterns)

dereulenspiegel · 2009-08-17T20:31:47+0200

Naja, Perl macht schon recht exzessiven Gebrauch von Regular Expressions und geht auch dabei über das was in POSIX definiert ist hinaus. Für mich hat daher RegEx schon recht viel mit Perl zu tun und weckt immer wieder negative Erinnerungen. Aber ist ja auch egal.
Wie man Regular Expressions aussehen ist mir bekannt, aber wie benutze ich die in Java? In Perl gehören die ja zur Syntax. Ist das bei Java auch so?

MichaelS · 2009-08-17T20:33:45+0200

hm du bist net so der freund von google was?

naja hier nochmal

Java Regular Expressions

dereulenspiegel · 2009-08-17T20:41:54+0200

Sorry, heute scheint nicht so mein Tag zu sein. An google hatte ich gerade gar nicht gedacht. Hatte in der String Klasse was passendes gesucht und habe nicht an andere Klassen wie Matcher gedacht. Werde dann mal mein Glück über diesen Weg versuchen. Aber falls jemand noch ne brauchbare HTML-Lib findet, immer Bescheid sagen.

dereulenspiegel · 2009-08-20T08:06:28+0200

Sorry für den Doppelpost, aber ich wollte nur kurz vermelden, dass mein Problem gelöst ist. Ich verwende jetzt TagSoup um HTML zu parsen. Die Lib ist recht klein und sehr angenehm zu benutzen. Leider etwas dürftig dokumentiert. Aber dafür ist auch alles recht selbsterklärend.

Quick results: Click search for more Results…

HTML Parsing

dereulenspiegel

Fortgeschrittenes Mitglied

MichaelS

Erfahrenes Mitglied

dereulenspiegel

Fortgeschrittenes Mitglied

MichaelS

Erfahrenes Mitglied

dereulenspiegel

Fortgeschrittenes Mitglied

MichaelS

Erfahrenes Mitglied

dereulenspiegel

Fortgeschrittenes Mitglied

MichaelS

Erfahrenes Mitglied

dereulenspiegel

Fortgeschrittenes Mitglied

dereulenspiegel

Fortgeschrittenes Mitglied

Ähnliche Themen