社内の新規プロダクトの案として、自分の音声でAIに歌唱させてカラオケの練習などに使えないか試した話

ど～も yanacii です。今回は社内の新規プロダクトのアイディアとして、自分の音声をつかってAIに歌唱させることでカラオケの参考にできるものが作れないか試したお話です。

概要
利用したツール
作業の流れ
ためしてみたこと1 : ナレーション音声の変換
ためしてみたこと2 : AI で歌唱させてみた
結果わかったこと
最後に

概要

昨今AIを使って歌唱させたり、喋らせる技術が革新的に進歩しているのですが、それらの動画を視聴していたところコメントにその技術を自分の声で試したいという書き込みを見かけました。 AIを使って、自分の声で歌唱させることで歌唱の参考にできるようなものが作れないかなと思い、RVC（Retrieval-based-Voice-Conversion）を使って自分の声で歌唱させて実験してみました。

利用したツール

RVC WebUI 楽曲から抽出したボーカルのみの音声で学習させて、自分の音声データでそれを変換させるために利用
- https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/blob/main/docs/jp/README.ja.md
UVR5 楽曲からボーカルと伴奏の分離をAIでやってくれるソフト楽曲からボーカルのみのデータを作成するのに利用
- https://ultimatevocalremover.com/
CUBASE Steinberg社が販売している作曲ソフト自分の声を録音したり、UVR5で抽出したボーカルのみのデータを加工するのに利用

作業の流れ

UVR5 で楽曲から伴奏とボーカルを分離
Cubase でボーカル音源の加工
Cubase で自分の声を録音
RVC WebUI で自分の声を学習
RVC WebUI で自分の声を学習させたデータを使って、アーティストのボーカル音源を変換

ためしてみたこと1 : ナレーション音声の変換

AI歌唱を試す前に、まず自分の声を学習させて、その学習データを使ってフリーのナレーション音声を自分の声に変換させてみました。この段階で懸念として、録音した自分の音声は自分がしゃべっているときに聞こえている音と違うことに気づきました。またナレーション音声はかなりハキハキと喋り、自分の喋り方と全く違うこともあり、自分の声で変換したナレーション音声を聴いても自分が話している感じが全く得られませんでした。