2006年02月22日

HTMLParserでうまくいかない

先日から少しずついろいろ試しながらあるアプリケーションを開発してるが、
HTMLParserってどうなの?

いろいろなのあるが、いまいちわからん。

HttpUnitTidyRhinoを組み合わせて使ってるけど、どうも解釈できないHTML構造になっているとエラーとなる。
今回JavaScriptの部分でエラーが出るのだが、どうすりゃいいんだろう。

というわけで、別にごりごりHTML解析を行うわけでもなく、
めんどくさくなったので正規表現で必要な箇所をとってこようかなと。。。
Pattern pattern = Pattern.compile("/]*>(.*?)");
Matcher matcher = pattern.matcher(htmlStr);


これで対象のTAGの部分が取得できるのでそこの部分を取り出すってので代用しようかと。
パーサ自体もこんな風に実装されてるのかな??
posted by oasis at 22:42 | 東京 ☁ | Comment(0) | TrackBack(0) | Java(J2SE/J2EE/J2ME)
この記事へのコメント
コメントを書く
お名前:

メールアドレス:

ホームページアドレス:

コメント:

この記事へのトラックバック
×

この広告は1年以上新しい記事の投稿がないブログに表示されております。