1. Nimm jetzt an unserem Uhans - 3. ADVENT - Gewinnspiel teil - Alle Informationen findest Du hier!

HTML Parsing

Dieses Thema im Forum "Android App Entwicklung" wurde erstellt von dereulenspiegel, 17.08.2009.

  1. dereulenspiegel, 17.08.2009 #1
    dereulenspiegel

    dereulenspiegel Threadstarter Android-Hilfe.de Mitglied

    Beiträge:
    105
    Erhaltene Danke:
    4
    Registriert seit:
    16.08.2009
    Ich habe gerade erst mit der Enwticklung von Androidanwendungen angefangen. Da ich bereits ein erfahrener Java-Enwtickler bin war nicht allzu viel Eingewöhnung nötig. Allerdings veruche ich im Moment eine HTML-Seite zu parsen. In den Androidlibs direkt gibt es nur nen XML-Parser. Leider ist die Seite die ich parsen möchte nicht in XHTML sondern normalen (unsauberen) HTML geschrieben. Hat jemand schon Erfahrungen mit brauchbaren Libs für dieses Problem? Ich habe bisher NekoHTML ausprobiert, aber das läuft leider nicht unter Android und scheint eine Portierung zu benötigen. Aber vielleicht hat ja jemand von euch schon eine brauchbare Lib in Benutzung?
    Bin mittlerweile recht verzweifelt was das angeht :rolleyes:
    Danke im Voraus
     
  2. MichaelS, 17.08.2009 #2
    MichaelS

    MichaelS Fortgeschrittenes Mitglied

    Beiträge:
    370
    Erhaltene Danke:
    51
    Registriert seit:
    14.08.2009
    wieso nimmst du nicht einfach Regex um deine Infos aus der Seite zu ziehen? ;)
     
  3. dereulenspiegel, 17.08.2009 #3
    dereulenspiegel

    dereulenspiegel Threadstarter Android-Hilfe.de Mitglied

    Beiträge:
    105
    Erhaltene Danke:
    4
    Registriert seit:
    16.08.2009
    An sowas habe ich auch schon gedacht, allerdings möchte ich schon recht viel daraus ziehen und eine vernünftige Lib zum Parsen von HTML genauso wie bei XML wäre schon schöner und besser zu handeln.
    Zur Not parse ich die Seite natürlich manuell auch per RegEx aber ist halt nicht die schönste Variante. Gibt ja sicher noch mehr Leute die schon HTML-Seiten für ihre Anwendung geparst haben. Kann mir nicht direkt Vorstellen, dass alle das mit RegEx gemacht haben.
     
  4. MichaelS, 17.08.2009 #4
    MichaelS

    MichaelS Fortgeschrittenes Mitglied

    Beiträge:
    370
    Erhaltene Danke:
    51
    Registriert seit:
    14.08.2009
    also das parsen von html in alle elemente verbraucht aufjedenfall viel viel mehr power also das parsen mit regex... Regex ist ultra schnell und damit wirst du alles bekommen was du willst ;) Die Logik dahinter ist wirklich sehr geil =) ich persönlich arbeite sehr viel mit regex, da man einfach schnell viel bewirken kann =) Ansonsten abwarten bis jemand was schreibt ;)
     
  5. dereulenspiegel, 17.08.2009 #5
    dereulenspiegel

    dereulenspiegel Threadstarter Android-Hilfe.de Mitglied

    Beiträge:
    105
    Erhaltene Danke:
    4
    Registriert seit:
    16.08.2009
    Ok, hast mich überzeugt. RegEx habe ich bisher immer vermieden weil es mich doch stark an Perl erinnert. Ich weiß zwar, dass ein guter Entwickler keine persönlichen Abneigungen gegen Sprachen haben sollte, aber mit Perl bin ich nie warm geworden. Kannst du mir vielleicht ein kleines Code Beispiel geben wie ich Regex einsetze um an einzelne Nodes inkl Subnodes in einem HTML-File zu kommen?
     
  6. MichaelS, 17.08.2009 #6
    MichaelS

    MichaelS Fortgeschrittenes Mitglied

    Beiträge:
    370
    Erhaltene Danke:
    51
    Registriert seit:
    14.08.2009
  7. dereulenspiegel, 17.08.2009 #7
    dereulenspiegel

    dereulenspiegel Threadstarter Android-Hilfe.de Mitglied

    Beiträge:
    105
    Erhaltene Danke:
    4
    Registriert seit:
    16.08.2009
    Naja, Perl macht schon recht exzessiven Gebrauch von Regular Expressions und geht auch dabei über das was in POSIX definiert ist hinaus. Für mich hat daher RegEx schon recht viel mit Perl zu tun und weckt immer wieder negative Erinnerungen. Aber ist ja auch egal.
    Wie man Regular Expressions aussehen ist mir bekannt, aber wie benutze ich die in Java? In Perl gehören die ja zur Syntax. Ist das bei Java auch so?
     
  8. MichaelS, 17.08.2009 #8
    MichaelS

    MichaelS Fortgeschrittenes Mitglied

    Beiträge:
    370
    Erhaltene Danke:
    51
    Registriert seit:
    14.08.2009
  9. dereulenspiegel, 17.08.2009 #9
    dereulenspiegel

    dereulenspiegel Threadstarter Android-Hilfe.de Mitglied

    Beiträge:
    105
    Erhaltene Danke:
    4
    Registriert seit:
    16.08.2009
    Sorry, heute scheint nicht so mein Tag zu sein. An google hatte ich gerade gar nicht gedacht. Hatte in der String Klasse was passendes gesucht und habe nicht an andere Klassen wie Matcher gedacht. Werde dann mal mein Glück über diesen Weg versuchen. Aber falls jemand noch ne brauchbare HTML-Lib findet, immer Bescheid sagen.
     
  10. dereulenspiegel, 20.08.2009 #10
    dereulenspiegel

    dereulenspiegel Threadstarter Android-Hilfe.de Mitglied

    Beiträge:
    105
    Erhaltene Danke:
    4
    Registriert seit:
    16.08.2009
    Sorry für den Doppelpost, aber ich wollte nur kurz vermelden, dass mein Problem gelöst ist. Ich verwende jetzt TagSoup um HTML zu parsen. Die Lib ist recht klein und sehr angenehm zu benutzen. Leider etwas dürftig dokumentiert. Aber dafür ist auch alles recht selbsterklärend.
     

Diese Seite empfehlen