今回の音声は録音ではなく、テキスト打ちです。話しているのが日本語じゃない理由は、ElevenLabsで生成したProfessional Voice Cloneの「自分の声のフィルター」が最新バージョンの「Eleven V3」ではなく「V2」でのみ使用できる仕様になってしまっているからです。「V3」はテキスト打ちでも日本語のイントネーションがほぼ完璧なのですが、「V2」のテキスト打ちだとまだやはり所々イントネーションが怪しくなるのと、あとなによりも(声が同じとはいえ)「三宅隆太の話し方(抑揚や間合いがクセ強めw)」とは、かけ離れてしまい、相当な「違和感」が生じてしまったからです。一方で英語だとあまり気にならないんですよね。これは恐らく、普段私が英語を話すことがないので「抑揚や間合い」の違いが「違和感」に繋がらない(比較する「記憶」がない)ためなのだろうと思います。
#utamaru
#aivideo
#ai動画
#ai
#elevenlabs
#heygen