ブログのデータをいじってあれこれ遊ぶ

一度書いたら、消えた・・・orz

今日いろいろいじくってたやつの中で、まぁまぁ役立ちそうなのを・・・


たとえば、"ビール"というようなありふれたキーワードでキーワード抽出→形態素解析→品詞頻出単語を分析した場合、一気に5000語/日くらいきて処理がやばくなる・・・。一日ならいいのだが、これを何日分もデータを相手にするとなかなかうんざりです。
それ以上に、ボッドブログ?だったかな、広告ばっかのブログがたくさん引っかかって邪魔なわけですよ。

そこで、抽出した感情語(形容詞)をAND検索に用いて、少しは純度?が高いのが得られないかなとやってみます。

方法:
キーワード抽出(前から2000エントリのみサンプリング)→形態素解析→"形容詞-自立"の頻出語リストを作成→
トップ5をキーワードの後ろにつける→繰り返す(全データ)

はじめのキーワード
qeuryStr :: ビール

terms analysis ends...
entru size : 4162

※下の頻出後は前1000エントリの中からの結果

美味しい 324 形容詞-自立
おいしい 220 形容詞-自立
楽しい 174 形容詞-自立
多い 145 形容詞-自立
早い 137 形容詞-自立
うまい 125 形容詞-自立
悪い 105 形容詞-自立
暑い 104 形容詞-自立
すごい 95 形容詞-自立
嬉しい 87 形容詞-自立


これの上位5つを自動でキーワードに追加→もう一度分析

qeuryStr :: ビール AND (美味しい OR おいしい OR 楽しい OR 多い OR 早い)

一般名詞の頻出語:
terms analysis ends...
entry size : 1871
ビール 2958 名詞-一般
円 2399 名詞-一般
人 1617 名詞-一般
月 1476 名詞-一般
さん 1235 名詞-一般
酒 1045 名詞-一般
自分 971 名詞-一般
年 906 名詞-一般
本 660 名詞-一般
情報 657 名詞-一般
感じ 597 名詞-一般
美容 585 名詞-一般
人気 553 名詞-一般


形容詞の頻出語:
terms analysis ends...
entry size : 1871
ない 4012 形容詞-自立
美味しい 928 形容詞-自立
多い 774 形容詞-自立
楽しい 750 形容詞-自立
おいしい 580 形容詞-自立
早い 573 形容詞-自立
くらい 358 形容詞-自立
すごい 334 形容詞-自立
悪い 300 形容詞-自立
高い 292 形容詞-自立



結果は・・・、まぁ、エントリの数が4000から2000弱に半減してくれたことやら、広告もだいぶ落ちたような気がする。中身はもう少し見たほうがいいかも。。。
あと、2回目の分析で、形容詞の"ない"がたくさん出てきたけど、これは何だ?
名詞も、モルツとか一番絞りとかブランド名が出てくればいいけど、それはフィルターを考える必要ありか?

考えれば考えるほど深みにはまる世界かもですねww

(参考文献?)
http://cl.aist-nara.ac.jp/kura/papers/2001/r_toku-SLUD0103.pdf
http://www.ieice.org/~de/DEWS/proc/2004/paper/I-7/I-7-02.pdf
使ったかはわからないけど、マイニングを知るために

あと、感情語の表現はJASI&JSISのある研究より(出展はまたあとで書きます)


でも、一日たってもなかなか進まないなぁ。。。
マイニングの方法、目的をもっと具体的に考える必要がある(宿題)
http://svrrd2.niad.ac.jp/faculty/nozawa/Research/memo/2003-0703.TextMiningGlossary.html