tSeiya's blog

行動結果のアウトプット場

2011-04-10から1日間の記事一覧

JavaによるHTML文章の解析手法

一般的な検索システムの構成は以下のようになっている。 この内、インデクサの中は「HTML文章の解析」→「テキストの分析」→「画像の分析」→「検索用データ生成」となっている。今回は「HTML文章の解析」を行う。 そもそもHTML文章とは? ウェブページを記述…