HTML Parsing

D

dereulenspiegel

Fortgeschrittenes Mitglied
4
Ich habe gerade erst mit der Enwticklung von Androidanwendungen angefangen. Da ich bereits ein erfahrener Java-Enwtickler bin war nicht allzu viel Eingewöhnung nötig. Allerdings veruche ich im Moment eine HTML-Seite zu parsen. In den Androidlibs direkt gibt es nur nen XML-Parser. Leider ist die Seite die ich parsen möchte nicht in XHTML sondern normalen (unsauberen) HTML geschrieben. Hat jemand schon Erfahrungen mit brauchbaren Libs für dieses Problem? Ich habe bisher NekoHTML ausprobiert, aber das läuft leider nicht unter Android und scheint eine Portierung zu benötigen. Aber vielleicht hat ja jemand von euch schon eine brauchbare Lib in Benutzung?
Bin mittlerweile recht verzweifelt was das angeht :rolleyes:
Danke im Voraus
 
wieso nimmst du nicht einfach Regex um deine Infos aus der Seite zu ziehen? ;)
 
An sowas habe ich auch schon gedacht, allerdings möchte ich schon recht viel daraus ziehen und eine vernünftige Lib zum Parsen von HTML genauso wie bei XML wäre schon schöner und besser zu handeln.
Zur Not parse ich die Seite natürlich manuell auch per RegEx aber ist halt nicht die schönste Variante. Gibt ja sicher noch mehr Leute die schon HTML-Seiten für ihre Anwendung geparst haben. Kann mir nicht direkt Vorstellen, dass alle das mit RegEx gemacht haben.
 
also das parsen von html in alle elemente verbraucht aufjedenfall viel viel mehr power also das parsen mit regex... Regex ist ultra schnell und damit wirst du alles bekommen was du willst ;) Die Logik dahinter ist wirklich sehr geil =) ich persönlich arbeite sehr viel mit regex, da man einfach schnell viel bewirken kann =) Ansonsten abwarten bis jemand was schreibt ;)
 
Ok, hast mich überzeugt. RegEx habe ich bisher immer vermieden weil es mich doch stark an Perl erinnert. Ich weiß zwar, dass ein guter Entwickler keine persönlichen Abneigungen gegen Sprachen haben sollte, aber mit Perl bin ich nie warm geworden. Kannst du mir vielleicht ein kleines Code Beispiel geben wie ich Regex einsetze um an einzelne Nodes inkl Subnodes in einem HTML-File zu kommen?
 
Naja, Perl macht schon recht exzessiven Gebrauch von Regular Expressions und geht auch dabei über das was in POSIX definiert ist hinaus. Für mich hat daher RegEx schon recht viel mit Perl zu tun und weckt immer wieder negative Erinnerungen. Aber ist ja auch egal.
Wie man Regular Expressions aussehen ist mir bekannt, aber wie benutze ich die in Java? In Perl gehören die ja zur Syntax. Ist das bei Java auch so?
 
Sorry, heute scheint nicht so mein Tag zu sein. An google hatte ich gerade gar nicht gedacht. Hatte in der String Klasse was passendes gesucht und habe nicht an andere Klassen wie Matcher gedacht. Werde dann mal mein Glück über diesen Weg versuchen. Aber falls jemand noch ne brauchbare HTML-Lib findet, immer Bescheid sagen.
 
Sorry für den Doppelpost, aber ich wollte nur kurz vermelden, dass mein Problem gelöst ist. Ich verwende jetzt TagSoup um HTML zu parsen. Die Lib ist recht klein und sehr angenehm zu benutzen. Leider etwas dürftig dokumentiert. Aber dafür ist auch alles recht selbsterklärend.
 

Ähnliche Themen

S
Antworten
9
Aufrufe
1.477
jogimuc
J
E
Antworten
5
Aufrufe
1.018
enrem
E
A
Antworten
10
Aufrufe
1.491
andymcnab
A
Zurück
Oben Unten