作曲家総選挙2016

というものをtwitterでやっていて

twitter.com

言語処理のお勉強のために、作曲家名の情報を知らないとして抽出できないか試してみた。

word2vecとクラスタリングとかもやってみたけどあまりうまく行かず、良かったのはtf-idfで重み付けして、ソートした最上位の単語を抽出。 前処理は ・Mecab分かち書きストップワード除去 ・1文字の単語除去 ・記号,URLを除去

くらい。 変な文字が多いからか、python文字コード関係でちょっと虐められました。 あと、最後の結果からひらがな・漢字を含む単語は除去。作曲家名はカタカナなので卑怯だが、なくてもまずまずの結果だった。

選挙なので、抽出した単語集計した結果(n>=3) f:id:biones:20160819192225p:plain

敬愛するモーリス・ラヴェル先生が一位!(主催者らしいが!) クヴァンツとか私も知らない作曲家も抽出できてるし、まずまずなのかなと。 フォロワ作曲弦楽四重奏 D-mollとか・・・無いですね。