本ページは,『楽曲動画への印象評価データセット構築とその特性の評価』[1]を通して構築した,評価用データセットの配布を目的としたページです.本データセットには,500件の楽曲動画に対して,楽曲のサビ区間30秒で切り出された「音声」「映像」,「音声+映像」という3つのメディアに対して少なくとも3名の評価者による印象評価値の平均が含まれています.本データセットは,楽曲の印象理解技術,およびそれに基づく楽曲検索技術の実現を目的とした研究用データセットです.
2015年3月〜2015年5月
大学生20名,大学教員1名の計21名
動画共有サービス「ニコニコ動画」に投稿された楽曲動画のうち,「VOCALOID」タグの付与された,2012年8月時点で再生数の多い楽曲動画かつ,2015年3月時点で公開中の動画上位500件が評価対象動画です.具体的な個々の動画の情報については,データセット内の動画IDからニコニコ動画の当該ページにアクセスください.
評価者は,楽曲動画の,サビ開始5秒前から30秒間の区間によって切り出された,「楽曲動画の音声のみ」,「楽曲動画の映像のみ」,「楽曲動画の音声と映像」という3種類のメディアに対して印象評価を行った.
評価者は,右図に示すWebインタフェースを用いて評価を行った.評価者はまず,与えられたコンテンツを視聴し,その後,8つの印象カテゴリについて,それぞれの評価値をアノテーションした.各印象カテゴリを評価にあたり,評価者は下記の表に示した印象を表す形容詞・形容同士語群をみながら,コンテンツが指定された印象に当てはまる度合いを5段階で評価した.このとき,印象カテゴリC1〜C6については,1から5の5段階,ValenceとArousalについては,-2から2の5段階のリッカート尺度で回答を行った.なお,楽曲あるいは映像を試聴せずに評価してしまうことがないように,30秒のコンテンツを全て視聴し終えるまで,評価ボタンは押下できないようにした.
1件の楽曲動画あたり,最低3名の評価者が評価を行い,その平均値を,その楽曲動画の印象を表す評価値をして用いた.
印象クラス | 印象を表す形容詞・形容動詞 |
---|---|
C1(堂々) | 堂々とした,どっしりとした,心躍る,にぎやかな |
C2(元気が出る) | 元気が出る,楽しい気持ちにさせる,陽気な,心地よい |
C3(切ない) | 切ない,悲痛な,ほろ苦い,気が滅入る,哀愁の |
C4(激しい) | アグレッシブな,激しい,興奮させる, 熱情的な,感情あらわな |
C5(滑稽) | 滑稽な,ユーモラスな,面白げな,奇抜な, 気まぐれな,いたずらっぽい |
C6(可愛い) | 可愛らしい,愛くるしげ,愛おしい,かわいい |
Valence | 明るい気持ちになる,楽しい,暗い気持ちになる,悲しい |
Arousal | 激しい,積極的な,強気な,穏やか,消極的な,弱気な |
より詳細なデータ収集方法については,文献 [1] を参照ください.
Zipファイルを解凍すると,NicoNicoVideoMoodDataset500ChorusAudio.tsv,NicoNicoVideoMoodDataset500ChorusVisual.tsv,NicoNicoVideoMoodDataset500ChorusMovie.tsvという3種類のtsvファイルがあります.前者からそれぞれ,「音声のみ」,「映像のみ」,「音声+映像」のコンテンツに対する評価値をまとめたファイルとなっています.各TSVファイルの各カラムの意味は以下の通りです.
本データセットを使用した論文を執筆される際には,下記文献 [1] を引用ください.
[1] 大野 直紀, 中村 聡史, 山本 岳洋, 後藤 真孝: 音楽動画への印象評価データセット構築とその特性の調査, 情報処理学会 研究報告音楽情報科学(MUS),2015-MUS-108(7),1-9 (2015-08-24) , 2188-8752.