ブログのデータをいじってあれこれ遊ぶ
一度書いたら、消えた・・・orz
今日いろいろいじくってたやつの中で、まぁまぁ役立ちそうなのを・・・
たとえば、"ビール"というようなありふれたキーワードでキーワード抽出→形態素解析→品詞頻出単語を分析した場合、一気に5000語/日くらいきて処理がやばくなる・・・。一日ならいいのだが、これを何日分もデータを相手にするとなかなかうんざりです。
それ以上に、ボッドブログ?だったかな、広告ばっかのブログがたくさん引っかかって邪魔なわけですよ。
そこで、抽出した感情語(形容詞)をAND検索に用いて、少しは純度?が高いのが得られないかなとやってみます。
方法:
キーワード抽出(前から2000エントリのみサンプリング)→形態素解析→"形容詞-自立"の頻出語リストを作成→
トップ5をキーワードの後ろにつける→繰り返す(全データ)
はじめのキーワード
qeuryStr :: ビール
terms analysis ends...
entru size : 4162
※下の頻出後は前1000エントリの中からの結果
美味しい 324 形容詞-自立
おいしい 220 形容詞-自立
楽しい 174 形容詞-自立
多い 145 形容詞-自立
早い 137 形容詞-自立
うまい 125 形容詞-自立
悪い 105 形容詞-自立
暑い 104 形容詞-自立
すごい 95 形容詞-自立
嬉しい 87 形容詞-自立
・
・
・
これの上位5つを自動でキーワードに追加→もう一度分析
qeuryStr :: ビール AND (美味しい OR おいしい OR 楽しい OR 多い OR 早い)
一般名詞の頻出語:
terms analysis ends...
entry size : 1871
ビール 2958 名詞-一般
円 2399 名詞-一般
人 1617 名詞-一般
月 1476 名詞-一般
さん 1235 名詞-一般
酒 1045 名詞-一般
自分 971 名詞-一般
年 906 名詞-一般
本 660 名詞-一般
情報 657 名詞-一般
感じ 597 名詞-一般
美容 585 名詞-一般
人気 553 名詞-一般
・
・
・
形容詞の頻出語:
terms analysis ends...
entry size : 1871
ない 4012 形容詞-自立
美味しい 928 形容詞-自立
多い 774 形容詞-自立
楽しい 750 形容詞-自立
おいしい 580 形容詞-自立
早い 573 形容詞-自立
くらい 358 形容詞-自立
すごい 334 形容詞-自立
悪い 300 形容詞-自立
高い 292 形容詞-自立
・
・
・
結果は・・・、まぁ、エントリの数が4000から2000弱に半減してくれたことやら、広告もだいぶ落ちたような気がする。中身はもう少し見たほうがいいかも。。。
あと、2回目の分析で、形容詞の"ない"がたくさん出てきたけど、これは何だ?
名詞も、モルツとか一番絞りとかブランド名が出てくればいいけど、それはフィルターを考える必要ありか?
考えれば考えるほど深みにはまる世界かもですねww
(参考文献?)
http://cl.aist-nara.ac.jp/kura/papers/2001/r_toku-SLUD0103.pdf
http://www.ieice.org/~de/DEWS/proc/2004/paper/I-7/I-7-02.pdf
使ったかはわからないけど、マイニングを知るために
あと、感情語の表現はJASI&JSISのある研究より(出展はまたあとで書きます)
でも、一日たってもなかなか進まないなぁ。。。
マイニングの方法、目的をもっと具体的に考える必要がある(宿題)
http://svrrd2.niad.ac.jp/faculty/nozawa/Research/memo/2003-0703.TextMiningGlossary.html