入力されたテキストの内容をもとに感情豊かな音声を生成する。TTS。
感情や発話スタイルを制御できる。
日本語では性能がいいらしい。(というか日本語しか基本使えない)
声と喋り方を別々にマージできる。つよい。
ずんだもん読み上げに感情を与える(Bert-VITS2のkey別マージ)
男性は声の大きさで抑揚をつける傾向にあって、女性は声の高さで抑揚をつける傾向がある、みたいな理論が通説なのよね
差分マージという能力だけ取り出したマージが使える。
差分のことをヌルモデルという。単体で音声合成が出来ないので共有が気軽。
ボイスドラマログ。
Style-Bert-Vits2でボイスドラマを作ってみた感想|liruk
学習。
【Style-BERT-VITS2】感情豊かな音声合成と音声学習を試してみた|カズヤ弟@ゲーム実況&生成AI
使用メモ
プリセットの他、音声ファイルを入力することでもスタイルを指定することができる。
ただし音声ファイルは似た声音、性別でないとうまくいかないらしい。
モデル
飛びぬけて精度のいいボイス。
kaunistaの方はそれを元にしたAIVTuberが存在する。
kaunista/kaunista-style-bert-vits2-models · Hugging Face
黄琴まひろ Style-Bert-VITS2 - 出張れぷりかどーる 音声合成支店 - BOOTH
小春音アミ。
litagin/sbv2_koharune_ami · Hugging Face
852話。
「fix_pitch_00」 Style-Bert-VITS2無料モデル (支援版あり) - 852話 - BOOTH
モデルの配布に一癖ある。
3つのファイルを共有しないとモデルとして使用できない。
男声が全然存在しないのが難点。唯一あるのが素人大学生セットについてくる奴というレベル。
Mofa-Xingche/girl-style-bert-vits2-JPExtra-models · Hugging Face
たまに事前学習モデルが出てくる。
これは追加で何か学習させないと使えないモデル。
ayousanz/style-bert-vits2-pretrained-model-ver2 · Hugging Face