投稿者 スレッド: たった3秒の日本語音声から人の声を再現可能なAI音声モデル「VALL-E-X」  (参照数 183 回)

admin

  • Administrator
  • Hero Member
  • *****
  • 投稿: 59023
    • プロフィールを見る
たった3秒の日本語音声から人の声を再現可能なAI音声モデル「VALL-E-X」
https://3yokohama.hatenablog.jp/entry/2023/09/08/190742

音声を失った人が自分の声と似たような音声を復元するには1時間以上の本人
の音声データが残っているとかなり正確な音声を復元出来るようなツールも出
来ているが、このAI音声モデル「VALL-E-X」はたった3秒の音声データがあれ
ば再現してくれる。
無料でGit(git lfs)からダウンロード出来る。がそれなりの環境を構築しない
といけない。またパソコンも高級なマシンが必要です。
VALL-E-Xを動かす(環境構築)
Python(当方3.10.7で動作確認済)
(GPUを使うならCUDA関連)
Git(git lfs)

今回でもサイトを見つけたので試してみました。自分の音声を30秒程度をアッ
プローしたら長すぎるという事で、旨く動作してくれない。そこで注意書きに
あった15秒以内に短くしてみた。一応受け付けてくれたが、どうも長い文章は
旨くいかない。生成を繰り返すと、旨く似たような音が出るときと出ないとき
がある。
そこで別の音声データ、音声合成したものを使ってみた。結構旨くいく。どう
も音声レベルが低く、見本の発音も良くないのが原因らしい。(自分が悪い?
)そこで録音レベルをアップするサイトでMP3の音量を上げてみた(3dB、6dB
)。これで大分良くなったが、まだ良いときと悪い時がある。このソフトウェ
アはマイクロソフトが提供しているので、今後を期待したい。

音声を失った人のようなに使うのはいいけれど、なりすまし等の悪意を持った
使い方をするひとも出てくるでしょう。AIが進んでくると偽物、本物の判断が
益々難しくなってきます。技術は常に使う人間世界でコントーロールして行か
ないといけないですね。

革新的!音声モデル「VALL-E-X」WebUIをWindowsで動かす方法解説 実演付き
| 経済的生活日誌
https://economylife.net/vall-e-x-install-windows/
日本語・英語・中国語でたった3秒の音声から人の声を再現可能なMicrosoftの
「VALL-E-X」を独自にトレーニングしたゼロショットモデルが公開中 - GIGAZ
INE
https://gigazine.net/news/20230828-plachtaa-vall-e-x/
VALL EX - ハグフェイススペース by Plachta
https://huggingface.co/spaces/Plachta/VALL-E-X
MP3音量増加オンライン, オンラインでMP3の音量を上げる, MP3音量増加, MP3
 Louder
https://www.mp3louder.com/jp/

3秒の日本語音声から人の声を再現可能なAI/ChatGPTの機能を増強するChrome
拡張機能/テキストから一瞬で漫画を作れるAI - YouTube
https://www.youtube.com/watch?v=fQ_wbDb4nDI