ど~も yanacii です。今回は社内の新規プロダクトのアイディアとして、自分の音声をつかってAIに歌唱させることでカラオケの参考にできるものが作れないか試したお話です。
概要
昨今AIを使って歌唱させたり、喋らせる技術が革新的に進歩しているのですが、それらの動画を視聴していたところコメントにその技術を自分の声で試したいという書き込みを見かけました。 AIを使って、自分の声で歌唱させることで歌唱の参考にできるようなものが作れないかなと思い、RVC(Retrieval-based-Voice-Conversion)を使って自分の声で歌唱させて実験してみました。
利用したツール
RVC WebUI 楽曲から抽出したボーカルのみの音声で学習させて、自分の音声データでそれを変換させるために利用
UVR5 楽曲からボーカルと伴奏の分離をAIでやってくれるソフト 楽曲からボーカルのみのデータを作成するのに利用
CUBASE Steinberg社が販売している作曲ソフト 自分の声を録音したり、UVR5で抽出したボーカルのみのデータを加工するのに利用
作業の流れ
UVR5 で楽曲から伴奏とボーカルを分離
Cubase でボーカル音源の加工
Cubase で自分の声を録音
RVC WebUI で自分の声を学習
RVC WebUI で自分の声を学習させたデータを使って、アーティストのボーカル音源を変換
ためしてみたこと1 : ナレーション音声の変換
AI歌唱を試す前に、まず自分の声を学習させて、その学習データを使ってフリーのナレーション音声を自分の声に変換させてみました。 この段階で懸念として、録音した自分の音声は自分がしゃべっているときに聞こえている音と違うことに気づきました。 またナレーション音声はかなりハキハキと喋り、自分の喋り方と全く違うこともあり、自分の声で変換したナレーション音声を聴いても自分が話している感じが全く得られませんでした。
- 学習させるのに使った自分の音声
- 利用したナレーション音声
こちらのダウンロード無料のナレーション音声サンプルを利用させて頂きました。
- 自分の音声で変換したナレーション音声
ためしてみたこと2 : AI で歌唱させてみた
AI で歌唱させるために用意する学習データとして、通常の話し声の音声のパターンや、歌唱している音声のパターンがあるのですが、今回は用意が大変だったので通常の話し声の音声データをそのまま利用して変換しました。
自分の音声以外でも色々ためしたのですが、AIに歌唱させる場合、用意するデータは歌唱している音声データの方がより良い結果が得られることが分かりました。
細かいパラメータややり方については時間があるときに別途記事にできたら良いなと思います。
結果わかったこと
ナレーション音声のときに懸念していましたが、自分の歌を自分で聞くという体験をしたことがなかったので、できたものが自分の歌声に似ているかどうかが判断できませんでした。
ただ特定の歌い方(ミックスボイスなど)が出来ない人に対して、その発声方法をしたときの自分の声がどうなるのかという参考になるかもしれないと思いました。 その点においては、正しい声の出し方のトレーニングの参考に使える可能性があるんじゃないかなと思います。
また予測ですが、自分の歌声を自分で聞く行為を普段からしている人(自分の歌唱をアップロードしているクリエイターなど)だと違和感が少ないので参考にできるかもしれないと思いました。
最後に
今回はコンセプトの想定と違ってしまったため、断念することにしました。
ですが、普段から自分の声を聴いているようなクリエイターの方たちには、比較するために利用できるかもしれないなと思いました。
AI歌唱を試してみたいなと思ったり、興味があるかたは k.yanashima@covelline.com までご連絡ください。