楽曲動画印象データセット配布サイト

サビ区間印象評価データセット

概要

本ページは,『楽曲動画への印象評価データセット構築とその特性の評価』[1]を通して構築した,評価用データセットの配布を目的としたページです.本データセットには,500件の楽曲動画に対して,楽曲のサビ区間30秒で切り出された「音声」「映像」,「音声+映像」という3つのメディアに対して少なくとも3名の評価者による印象評価値の平均が含まれています.本データセットは,楽曲の印象理解技術,およびそれに基づく楽曲検索技術の実現を目的とした研究用データセットです.

データ収集方法

収集期間

2015年3月〜2015年5月

評価者

大学生20名,大学教員1名の計21名

対象楽曲動画

動画共有サービス「ニコニコ動画」に投稿された楽曲動画のうち,「VOCALOID」タグの付与された,2012年8月時点で再生数の多い楽曲動画かつ,2015年3月時点で公開中の動画上位500件が評価対象動画です.具体的な個々の動画の情報については,データセット内の動画IDからニコニコ動画の当該ページにアクセスください.

収集方法

評価者は,楽曲動画の,サビ開始5秒前から30秒間の区間によって切り出された,「楽曲動画の音声のみ」,「楽曲動画の映像のみ」,「楽曲動画の音声と映像」という3種類のメディアに対して印象評価を行った. 評価者は,右図に示すWebインタフェースを用いて評価を行った.評価者はまず,与えられたコンテンツを視聴し,その後,8つの印象カテゴリについて,それぞれの評価値をアノテーションした.各印象カテゴリを評価にあたり,評価者は下記の表に示した印象を表す形容詞・形容同士語群をみながら,コンテンツが指定された印象に当てはまる度合いを5段階で評価した.このとき,印象カテゴリC1〜C6については,1から5の5段階,ValenceとArousalについては,-2から2の5段階のリッカート尺度で回答を行った.なお,楽曲あるいは映像を試聴せずに評価してしまうことがないように,30秒のコンテンツを全て視聴し終えるまで,評価ボタンは押下できないようにした.
1件の楽曲動画あたり,最低3名の評価者が評価を行い,その平均値を,その楽曲動画の印象を表す評価値をして用いた.

印象クラス印象を表す形容詞・形容動詞
C1(堂々)堂々とした,どっしりとした,心躍る,にぎやかな
C2(元気が出る)元気が出る,楽しい気持ちにさせる,陽気な,心地よい
C3(切ない)切ない,悲痛な,ほろ苦い,気が滅入る,哀愁の
C4(激しい)アグレッシブな,激しい,興奮させる,
熱情的な,感情あらわな
C5(滑稽)滑稽な,ユーモラスな,面白げな,奇抜な,
気まぐれな,いたずらっぽい
C6(可愛い)可愛らしい,愛くるしげ,愛おしい,かわいい
Valence明るい気持ちになる,楽しい,暗い気持ちになる,悲しい
Arousal激しい,積極的な,強気な,穏やか,消極的な,弱気な

より詳細なデータ収集方法については,文献 [1] を参照ください.

ダウンロード

Zipファイルを解凍すると,NicoNicoVideoMoodDataset500ChorusAudio.tsv,NicoNicoVideoMoodDataset500ChorusVisual.tsv,NicoNicoVideoMoodDataset500ChorusMovie.tsvという3種類のtsvファイルがあります.前者からそれぞれ,「音声のみ」,「映像のみ」,「音声+映像」のコンテンツに対する評価値をまとめたファイルとなっています.各TSVファイルの各カラムの意味は以下の通りです.

文献

本データセットを使用した論文を執筆される際には,下記文献 [1] を引用ください.

[1] 大野 直紀, 中村 聡史, 山本 岳洋, 後藤 真孝: 音楽動画への印象評価データセット構築とその特性の調査, 情報処理学会 研究報告音楽情報科学(MUS),2015-MUS-108(7),1-9 (2015-08-24) , 2188-8752.