すごいと噂の自動音声翻訳ソフト「マイクロソフト・トランスレーター(MST)」。どれくらい使えるか、日本語の話し言葉を英訳させてみた。その結果、六つのことが分かった。1、日本語は英語より断然苦手。2、接尾語が聞き取れない。3、主語を「私は」として訳してしまう。今回は4と5を。

4)疑問形を聞き取れない。

 苦手なもののもう一つが疑問形だ。試しに「少しは慣れた?」と聞いてみた。ゆっくりしゃべったせいか、私のしゃべりにコルタナが慣れてきたのか、今回は音声は聞き取れたのだが、テキストは「少しは慣れた。」と肯定文だ。よって、英語も「I got used to it a little.」。うーん。疑問文なんだってば。しかも、また主語を勝手に「私」に変えてる。「あなたは、少しは慣れましたか?」っていう疑問を呈しているんだってば。

 そこで、コルタナが苦手な主語をつけてあげる。「君は人格があるのね?」と疑問文で聞いてみるが、それでも「君は人格があるのね。」と肯定文になってしまった。当然、英訳は「You have a personality.」。いや、そこは、「Do you have a personality? 」または、付加疑問文で「You have a personality, aren’t you?」といった英語を期待したのだが。あ、もしかしたら、私のこの英訳の理解の方が間違っているのだろうか。ネイティブはこういう場合は単純に肯定文で話すのが一般的、ということなのだろうか。

 

5)周囲の雑音を勝手に拾ってしまう。

 雑音の中から、マイクに向かって語り掛けた発話者の声だけを拾う技術が進歩した、とMS社は胸を張っている。が、現実にはまだまだ。特に、自宅の部屋で、ラジオやテレビを後ろでつけながらだと、発話者の話し声が止まった後に、離れたところから聞こえるラジオやテレビの音を拾ってしまう。結果、コルタナによる聞き取りテキストが訳の分からない日本語になる。コルタナはなんとか理解しようとして、自分で文章を勝手に変え始める。こうなるとお手上げだ。

 現状では、コルタナに向かって話しかける時は、テレビやラジオは消さないといけないようだ。

 ただしこれは、いずれ、技術の進歩によって、問題が解決に向かうに違いない。画像認識技術で、映像に写っているオブジェクトが何かを切り分けて認識できる技術(シマンテック・セグメンテーション)が発達したように、音声を聞き分ける技術の発達で、音声の海の中から、どれがノイズ(背景)で、どれが発話者の声(メーンの人)で、どれが背景音(その他大勢)なのか、といった音声の切り分けも、いずれできるようになるだろう。

(この項、4に続く)

(2017・8・3、元沢賀南子執筆)