マイクロソフトの新しい特許は、ビデオや PowerPoint プレゼンテーションに付随する音楽を作成するための Copilot を公開しました
レドモンドに本社を置くテクノロジー大手のマイクロソフトは最近、ユーザーエクスペリエンスを向上させる洗練された新しいインターフェースで Copilot ツールのアップデートを開始しました。しかし、同社はこの AI 駆動型アシスタントに関してさらに野心的な計画を用意しています。
マイクロソフトは、新たに公開された特許で、オーディオスコアを作成するための人工知能モデルの開発を発表しました。この革新的なテクノロジーは、ビデオ、テキスト、PowerPointプレゼンテーション、バーチャルリアリティ、さらには現在制作段階にあるビデオゲームなど、さまざまな形式のメディアに合わせた音楽やサウンドを作成することを目指しています。
「オーディオスコアを作成するための人工知能モデル」という興味深いタイトルが付けられたこの特許は、この高度な Copilot ツールが音楽を生成する方法を探求しています。
このプロセスでは、まず、視覚要素と音声要素の両方を含む多様なオーディオビジュアル データセットから大量のトレーニング データを蓄積します。
これらのデータセットは、さまざまな特徴を抽出するために徹底的に分析されます。これには、色、形、動き、シーンなどのビデオの視覚的特徴の調査が含まれます。さらに、字幕や画面上のテキストなど、ビデオ内に存在するテキスト要素も収集されます。このツールは、ビデオ自体内の既存のオーディオ機能も分析し、楽譜と区別します。
データが抽出されると、Copilot はこれらの特徴を評価して相関関係を確立します。たとえば、夕焼けなどの特定のシーンは、落ち着いたメロディーなどの特定の種類の音楽とよく対応していることが特定される場合があります。
これらの機能のトレーニングにより、AI モデルは相関システムを利用して、新しいビデオ コンテンツの視覚的属性とテキスト属性に一致する適切なオーディオ スコアを生成します。
この画期的な技術により、次のような数多くの潜在的な用途が開かれます。
- 映画およびビデオ制作: 長編映画、テレビシリーズ、またはオンライン ビデオ コンテンツのバックグラウンド スコアを自動的に作成します。
- マーケティング:広告のトーンやメッセージにぴったり合う音楽を作曲します。
- ゲーム: ゲームのビジュアルとプレイヤーのアクションに応じて変化する適応型サウンドトラックを作成します。
- バーチャル リアリティ: 視覚環境に合わせて変化するオーディオを通じて、没入感を高めます。
Copilot は音楽を生成する機能を備えているため、オーディオ スコアの作成プロセスを自動化することでサウンドトラックがビジュアル コンテンツをシームレスに補完し、オーディオ制作に必要な時間を大幅に短縮できます。
AI モデルは現在、今年初めにリリースされた SUNO プラグインを通じて基本的な音楽作曲機能を提供していることに留意することが重要です。
それでも、そのプラグインの機能強化は有益であり、クリエイターがプロの音楽作曲家に提示する前に音楽作曲のビジョンを確立できるようになります。
人間の作曲家に取って代わる可能性についての懸念はもっともですが、Copilot に作曲権限を与えることで、長期的には生産性が向上することが第一です。この革新的な開発についてどうお考えですか?
特許はここで読むことができます。
コメントを残す