【AIきりたん】と【AI謡子】のWORLD版とNSF版を比較してみた

【NEUTRINO】ver.0.200βがリリースされ、今までオンライン版でしか試せなかったNSFがローカルPCで試せるようになったので、従来のWORLDとの比較をやってみました。

NSFとはなんぞや？

国立情報学研究所が開発した高品質な音声を高速に合成する手法であるニューラル・ソースフィルター・モデル（以下、NSF法）・・・だそうです。
https://www.nii.ac.jp/news/release/2018/1225.html

NIIのサイトを読んでも正直分かりませんが、WORLDと比べてワンランク上の肉声に近い音声が高速に生成できるとのことなので期待は高まります。

NEUTRINO Version.0.200βをDLしてみる

今までもオンラインでGoogleのColabなどを使ってNSF合成することはできたのですが、今回のバージョンアップで限定的にオフラインでもNSF合成ができるようになったので早速試してみます。

ローカルでNSF合成を行うにはWindows環境でNVIDIA製のGPUが必要なようです。　

ディープラーニングの処理などにNVIDIA製GPUのCUDAが利用されることが多いためだそうです。

β版ということもあってか、Googleドライブ経由での配布になっています。

NSF版が出力されたハズなのに・・・？

サンプル1を出力してみると以下の2種類のWAVが出力されます。

smaple1_syn.wav
sample1_nsf.wav

_synというのが従来通りのWORLD版の出力で_nsfというのがNSF版の出力のようです。

聴いてみるとWORLD版は正常に出力されていますが、NSF版のほうは無音で出力されています。

エラーで止まったりしていないのでまず、環境を疑ってみます。
私の環境は・・・

OS：Windows 10 Home 64bit
GPU：nVIDIA GTX-1050Ti 4GB

SHACHIさんのTwitterによるとGPUメモリが2GBだと動作しない可能性があるとのことですが、4GBなので一応スペックは満たしています。

念のため、GPUのドライバーを最新の445.75というやつにアップデートしておきます。

・・・が、結果は同じく無音で出力されます。

むむむ～

分からないのでログを出力してみると、どうもNSFで変換するところでコケているみたいです。

    Linguistic feature (duration)       : 2 [msec]
    Linguistic feature (acoustic)       : 151 [msec]
    Separate feature                    : 157 [msec]
    Synthesis (NSF)                     : 202 [msec]
    Write wav                           : 609 [msec]
    Error: input wav file not found.
    Error: input wav file not found.
    Error: input wav file not found.
    Error: input wav file not found.
    Error: input wav file not found.
    Error: input wav file not found.
    Error: input wav file not found.
    Error: input wav file not found.
    Finish                              : 648 [msec]
    Generation rate                     : 66.6667 [gen/sec]

Linguistic feature (duration) : 2 [msec]

Linguistic feature (acoustic) : 151 [msec]

Separate feature : 157 [msec]

Synthesis (NSF) : 202 [msec]

Write wav : 609 [msec]

Error: input wav file not found.

Finish : 648 [msec]

Generation rate : 66.6667 [gen/sec]

なんかWAVファイルが見つからない的なエラーが出てるけど最終的なWAVファイルは無音で出力された、という状態だったみたいです。

パスが通ってないみたいなことなのかな～と推定して、ProgramFilesの直下に置いていたアプリのフォルダをダメ元でCドライブの直下に移動してみます。

出力してみるとNSFのほうも音声が出力されていて正常に動いたみたいです。

ヨカッタ～。

WORLDとNSFを比較してみる

まず、NSF版の容量がWORLD版に比べて半分なので失敗したのかと思ったのですがエラーではなく仕様みたいです。

WORLD＝48khz 16bit mono
NSF＝24khz 16bit mono

出力周波数が48khzの半分の24khzなので容量も半分とういうことです。

聴いた感じでは肉声に近いというよりも一部の発声で滑舌が良くなったような印象を受けます。

特にラリルレロとか、サシスセソが良くなった気がしますが高音域ではWORLDのほうがキレイに出てる感じだと思います。

謡子さんも試してみた

実は今回初めて謡子のライブラリも試してみたのですが、第1印象としては「何を歌わせても阿佐ヶ谷姉妹みたいになっちゃう」と思いました（笑）

ただ、適度にきれいなビブラートが掛かったりして面白いのでバックでコーラスさせるとかで活用できるんじゃないかな~と思います。

NSF版はきりたんよりも高音域でのかすれが強い感じで、動画を見てもらえれば分かりますがF#4のあたりから苦しそうです。

結局NSFはどうなの？

PitchShiftやFormantShiftが無効になっているため、WORLD版きりたんの「高い声ほど強く歌う」特性を生かした、いわゆるキーを下げてピッチを上げることで「高音域を弱く歌わせる」とかキーを上げてピッチを下げることで「低音域を強く歌わせる」など、バリエーションが作れないということになります。

あとNSFは高音域の”かすれ”なんかはブレスを適切に入れても起きるときは起きるみたいなので、高音域を連続で歌わせるみたいなアレンジは避けたほうが良いのかもしれません。

オリジナル曲であればアレンジで何とかすれば良いと思うのですが、カバー曲だと難しいんじゃないでしょうか。

しかし、 WORLDよりも滑舌が良くなった気がするので使いどころはあるんじゃないかと思います。