エリスン祭り

通勤電車でエリスンの "I have no mouth, and I must scream" 朗読を聞く。細かいところで聞き取れない部分はあるけど、だいたい話は分かった。感想は後日。

聞き取れない部分を、音声認識ソフトでテキストに出来ないかと試してみた。 Wave to Text というソフトのお試しが無料でできたので使ってみた。ダウンロードはこちら http://www.research-lab.com/prod3.htm

素材として、Harlan Ellison Webderlandで公開されている、"Paladin of the Lost Hour" の朗読を読みこませてテキストに変換し、同じ場所で公開されているテキスト版と比較してみた。 ttp://harlanellison.com/iwrite/index.htm (ちなみに作品の感想はこちら → id:ita:20010716#p3)

正解
Paladin of the Lost Hour
THIS WAS AN OLD MAN. Not an incredibly old man; obsolete, spavined; not as worn as the sway-backed stone steps ascending the Pyramid of the Sun to an ancient temple; not yet a relic. But even so, a very old man, this old man perched on an antique shooting stick, its handles open to form a seat, its spike thrust at an angle into the soft ground and trimmed grass of the cemetery.


WAVE2TEXT result
Colin of lost our
is no an incredibly obsolete as and not as warns the swede acts doomsday since ending .\period send in each and really been so very is all courage and cheating stake it handles see its current Preston and so ground green grass some very

結論:ダメダコリャ。いちおう怪しい単語をクリックして編集ボタンを押すとその部分を読み上げて侯補の単語リストを表示してくれるけど。
メモ:wav ファイルは22050Hzモノラル限定。LINUX なら sox in.wav -c 1 -r 22050 out.wav などとして変換。ランチャから WAVE to TEXT を押し、"Add.." でwav ファイルを撰択、"Open files" で変換開始、終ったら "Write to file" でデータ書き出して終了。今度はランチャから "Edit Conversion" を撰択、さっき選んだ wav ファイルを open で選ぶと変換結果が表示される。単語を指定して "Start Edit" を押すとその単語を読み上げながらリストを表示。