やっと何やっているのかわかりはじめた。

先輩がクロールしたブログデータよりキーワード抽出&頻出語カウント
予定より1ヶ月遅れて、やっと動いた。学習コストと暑さは、累進的にやる気をそいでくれたようです。正直、作業の効率とか中身とか、時間の使い方とか猛省すべき。

ここからが本番。何のキーワードを抽出したらいいのか。邪魔な記事をどう処理するか。
自分としては、先日のJASI&JSISの発表より「感情語」のキーワードを含むエントリが内容を表しているところに注目したい。(オントロジーとかも生かせるのか?)
今、集中講義で受けているデータマイニングと絡めて統計的に出せれば面白いような気がするけど、なんだかまだ、糠(ぬか)に手を突っ込んでいるというようなつかみきれていない感じ。

それよりも、220件だからまだ出るもの、500件以上エントリ抽出すると、メモリがオーバーします><
データ構造を考え直すとは、なんてCSちっくな・・・。