作曲家総選挙2016
というものをtwitterでやっていて
言語処理のお勉強のために、作曲家名の情報を知らないとして抽出できないか試してみた。
word2vecとクラスタリングとかもやってみたけどあまりうまく行かず、良かったのはtf-idfで重み付けして、ソートした最上位の単語を抽出。 前処理は ・Mecabで分かち書き ・ストップワード除去 ・1文字の単語除去 ・記号,URLを除去
くらい。 変な文字が多いからか、pythonの文字コード関係でちょっと虐められました。 あと、最後の結果からひらがな・漢字を含む単語は除去。作曲家名はカタカナなので卑怯だが、なくてもまずまずの結果だった。
選挙なので、抽出した単語集計した結果(n>=3)
敬愛するモーリス・ラヴェル先生が一位!(主催者らしいが!) クヴァンツとか私も知らない作曲家も抽出できてるし、まずまずなのかなと。 フォロワ作曲弦楽四重奏 D-mollとか・・・無いですね。