試してみた。
日本語読解精度がかなり向上。また文章を踏まえてなのか抑揚表現も自然な感じ。あとブレス音が人間っぽい感じをかなり醸し出している。
サンプルとして宮崎吐夢さんの「ペリーのお願い」をTTSしてみた😅
1)インストラクションを何も設定しないでやったパターン
Tozaki turucameさんによるペリーの お願い2)インストラクションを設定したパターン
Tozaki turucameさんによるペリーの お願い#調整版当然御本人には叶わないレベルではあるけれど、これで応答速度(生成スピード)が上がったら色々なビジネスに影響ありそう。
Voice数が多くって選択に迷うところはある。しかし将来はVoiceもペルソナ設定で生成されるようになりそう・・・。
しかしこれ、サービス側のリソースすごい消費するのだろうな・・・。これが最近のメモリ、HDDの値段高騰に繋がっているのかと思うと色々と考えさせられるものがある。
ローカル端末のリソースを分配利用するような仕組みが今後でてくるのかもねえ・・・。
📌追記
女性Voiceにしたらよりエモーショナルになった😅
3)女性版
Tozaki turucameさんによるペリーの お願い#女性版