AIでサウンドトラックからジャンルを予測する

AIでサウンドトラックからジャンルを予測するテクノロジー

USC Viterbi School of Engineering1南カリフォルニア大学工学部のShrikanth Narayanan教授らの研究グループは、映画における音楽の役割を計算機的に検証し、観客のジャンル認識に音楽がどのように影響するかを調べました。

音楽は映画に欠かせない要素です。雰囲気やムードを作り、観客の感情的な反応を促し、ストーリーに対する観客の解釈に大きな影響を与えます。

このたびPLOS Oneに掲載された論文では、Shrikanth Narayanan教授率いるUSC工学部の研究チームが、音楽が映画のジャンルに与える影響を客観的に検証しました。

彼らの研究は、AIを使った技術によって、サウンドトラックだけで映画のジャンルを予測できるかどうかを調べることを目的としています。

「音楽が視聴者の映画に対する認識にどのような影響を与えるかをより深く理解することで、映画制作者がより魅力的な方法で視聴者にアプローチする方法についての洞察を得ることができます。」と、電気・コンピュータ工学およびコンピュータサイエンスの大学教授であり、USC 工学部の信号解析・解釈研究所(SAIL)所長であるNarayanan氏は述べています。

映画のジャンルによって、サウンドトラックに使用される音楽要素が異なるという考え方は、直感的に理解できるものです。例えば、軽快なロマンス映画であれば、豊かなストリングスのパッセージや叙情的なメロディーが使用されるかもしれませんし、ホラー映画であれば、不穏で突き刺すような周波数や不気味な不協和音が使用されるかもしれません。

しかし、これまでの研究では、映画のジャンルによって音楽的な慣習が異なることが定性的2質的な側面。比喩的に、質的。属性的。に示されていたが、Narayanan氏らは、映画のサウンドトラックの要素が映画のジャンルを特徴づけるのに利用できるという定量的3物事を数値や数量で表す。な証拠を見つけようとしました。

Narayananらの研究は、映画で使用されている音楽に深層学習モデルを適用して、コンピュータがサウンドトラックだけで映画のジャンルを予測できるかどうかを調べた初めての研究でした。

その結果、これらのモデルは、機械学習を用いて映画のジャンルを正確に分類することができ、音楽の特徴は、私たちがさまざまな映画をどのように認識するかについて、強力な指標となりうるという考えを裏付けるものでした。

今回の研究でNarayananと共同研究を行ったUSC工学部コンピュータサイエンス学科の博士課程学生Timothy Greer氏によると、今回の研究はメディア企業やクリエイターにとって、音楽が他の形態のメディアをどのように向上させるかを理解する上で、貴重なアプリケーションとなる可能性があります。

テレビ、映画、広告、ドキュメンタリーなどで、視聴者の特定の感情を引き出すために、どのように音楽を制作し、配置すればよいか、制作会社や音楽担当者の理解を深めることができます。

研究チームには、Narayanan氏とGreer氏のほか、電気・コンピュータ工学科の博士課程に在籍するDillon Knox氏と、2021年にUSCを卒業し、コンピュータサイエンスの学士号、コンピュータサイエンスの修士号、音楽制作の副専攻を取得したBenjamin Ma氏が参加しました。

サウンドトラックからジャンルを予測

研究では、グループは2014年から2019年に公開された110本の人気映画のデータセットを調べました。

彼らは、インターネット・ムービー・データベース(IMDb)に掲載されているジャンル分類を用いて、各映画をアクション、コメディ、ドラマ、ホラー、ロマンス、サイエンス・フィクションのいずれかに分類し、多くの映画がこれらのジャンルの複数にまたがっていました。

次に、深層学習ネットワークを適用して、各映画の音楽やスコアから、音色、ハーモニー、メロディ、リズム、トーンなどの聴覚情報を抽出しました。このネットワークは、機械学習を用いてこれらの音楽の特徴を分析し、これらの特徴だけで各映画のジャンルを正確に分類できることを証明しました。

また、これらのモデルを解釈して、どのような音楽的特徴がジャンル間の違いを最もよく表しているかを判断しました。

このモデルでは、どのような音や楽器が各ジャンルに関連しているかを具体的に示すことはできませんでしたが、音調と音色の特徴が映画のジャンルを予測する上で最も重要であることを立証することができました。

「映画の中で音楽がどのように使われているかについて、より正確な質問ができるようになったので、このような基礎を築くことは非常にエキサイティングです。映画の全体的な体験は非常に複雑で、その影響や構成に関わる選択や傾向を計算機で分析できるのは非常に素晴らしいことです。」とKnox氏は言います。

今後の方向性

Narayananらのチームは、音声フィンガープリント4元となるデジタル音源から音声波形の特徴を電子的に抽出し、元音源よりも小さなデータ(フィンガープリント)として扱うデジタル音声信号処理技術。参照用フィンガープリントをマスターと照合することにより、コンテンツ特定を行う。と呼ばれる技術を用いて各映画の聴覚情報を調査しました。この技術は、Shazam5街やラジオ、TVなどで流れている音楽を音声認識することで、その楽曲名やアーティスト名、歌詞などを表示してくれるアプリ。のようなサービスが、効果音やその他のバックグラウンドノイズが存在する場合でも、録音を聞くことでデータベースから曲を特定できるのと同じ技術です。この技術により、映画のどこで、どのくらいの時間、音楽のキューが発生するかを調べることができました。

「これまでの映画音楽研究では、映画のサウンドトラックアルバム全体を調べるだけで、そのアルバムに収録されている曲がいつ映画に登場するのかを知ることができなかったのですが、音声フィンガープリントを使って、映画のすべての音声を聴くことで、その限界を克服することができました。」とMa氏は語ります。

将来的には、この機能を利用して、映画の特定の場面で音楽がどのように使用されているか、また、音楽的な合図が映画のストーリー展開をどのように左右するかを研究したいと考えています。

「映画や音楽へのアクセスがますます増えている今、これらのメディアが私たちにどのような影響を与えるのかを定量的に研究することは、かつてないほど重要になっています。音楽が他のメディアとどのように連動しているのかを理解することは、より良い視聴体験を考案するのに役立ちます。」

Published by University of Southern California. Benjamin Ma et al, A computational lens into how music characterizes genre in film, PLOS ONE (2021). DOI: 10.1371/journal.pone.0249957
タイトルとURLをコピーしました