情報量

にほんごであそぼ」で流れる「ぴっとんへべへべるってんしゃんらか」という歌、今まで全くヒアリングできてなかったことが判明した。音の継る確率が標準的な日本語のマルコフ過程の遷移確率と全く違うから。もしかしたらヒアリングの時には聞き取れなかった前の音節をベイズ統計で無意識に最尤推定とかしてるのかもしれない。
この予測を定量的に裏付けるにはどうすればよいか。まずどっかからひらがなONLY の日本語単語リストの大きい奴を拾って来る。これを使い、各文字 i ごとに次に来る文字 j の確率 P_{ij}の統計を取り、各文字の平均エントロピーS_i = -\sum_j P_{ij} \log P_{ij}を計算する。次にぴっとんへべへべの全ての隣接する文字 i,j のペアについて標準のエントロピーとの差 -\log P_{ij} - S_iを計算し各ペアについて平均する。これが正の大きな値であれば定量的に裏付けられたことになる。応用として、二つの言語それぞれの遷移確率 P_{ij}^a, P_{ij}^b を測定し、それから一方のネイティブスピーカーが他方の言語をヒアリングする困難さを-\sum_{ij}P^b_{ij}\log P^a_{ij} -S_i^a定量化できるかもしれない。対応する音節がなかったりすると Pij=0 になるんでそこは工夫が必要。結局そういう音節の数で大部分決まるのかも。
追記:パスワードzip のクラックに使っているかなり大きな辞書ファイルで「べへ」を検索したがなかった。i=べ, j=へ の時 Pij=0 になって log(0)はエラーになるんで動かない。作るまでもないな。そういう組合せがいっぱいあるということ。「へべ」は「へべれけ」があるけど、これはギリシャ神話だったかのヘーベという女神が由来だとテレビで聞いた気がする。正確にはこれも日本語じゃない。