10の言語で100人まで会話が可能、翻訳ソフト

マイクロソフトの演題

マイクロソフトの演題は「AI・IoT最新テクノロジー」だった

 人の生活を豊かにしたい--パーキンソン病の人の作業を助ける腕時計型端末「エマ」を作ったマイクロソフト(MS)。複数人が同時に複数の言語で会話ができるソフト「マイクロソフト・トランスレーター」や、「うちのペット」の写真を見分けられる画像検索など、さまざまなクラウド経由のサービスを、無料枠つきのAPIとして提供していくという。音声や画像の認識技術の進歩と、AI(人工知能)が可能にしたものだ。

 「ソフトバンクワールド2017」の中で21日、講演をした日本マイクロソフトの榊原彰執行役員が紹介した。無料枠がある従量課金制なので、「安価に始められ、嫌ならやめられる」として、手軽に試してほしいと話す。

 通訳・翻訳ソフト「トランスレーター」は、すでにアンドロイドでもiOSでもウィンモバイルでも使える。リアルタイムで翻訳・通訳できるライブ機能を持っており、100人までが同時に多言語で会話ができる。これを使うと、例えば観光ガイドが、日本語で話したのを、周囲にいる外国人がそれぞれのスマホで、自分の言語の文章で見られる。会話モードでは100人までが、10言語(英、仏、独、西、伊、中(北京語)、露、日、ポルトガル、アラビア)で話せる。(ただし、実際に試したところ、聞き取りは不得意で、翻訳も不正確だった。AIによる学習が進めば賢くなるのかもしれない)

文章に対応するテキストモードなら、60言語から選んで翻訳が可能だ。スライド全翻訳も可能なので、例えばパワポでプレゼン資料を作る時、今までのように英語版、中国語版などを作らなくて済む。日本語版さえあれば、AIがテキスト部分だけを指定した言語に翻訳してくれる。

「うちのタマ」覚えて認識、画像検索ソフト

 画像検索では、グーグルやアマゾンなどライバル社との違いが、カスタマイズ機能だという。例えば写真に写っている被写体が、犬か猫か男性か女性か高齢者か若者か程度に見分ける機能はすでに一般的だ。さらに「我が家の」を学習させることが可能という。「うちのタマ」の写真をいくつかアップロードして名前をタグ付けすると、システムが特徴をつかんで何が「うちのタマ」かを学習する。プログラミングを書く必要がない。カスタマイズするシステムを組み込んでいるAPIなのだ。

 画像認識の精度では、正確性を競う年1度のコンペで、MS社は6分野中5分野で1位だった(2015年)。この時点で誤認識率は3.5%、現在はもっと下がっているという。100枚の写真を見たら平均3~4枚しか間違わないのは驚異的だという。音声の誤認識率も5.8%という。

 他にも、静止画や動画で、そこに写っているものが何か、物体ごとに分けて認識する「Semantic Segmentation(シマンティック・セグメンテーション、意味ある分割)」の技術も進んでいるという。例えば、牧場に牛がいる写真を、後ろに山があり、真ん中に芝生があり、手前に牛がいる、といったオブジェクト(モノ)ごとに、画像を切り分けて認識し、さらに「山」「芝生」「牛」といったモノの名前をテキストで画像上に表示する。映像の場面の解析が、文章で生成できるのだ。

 MS社が可能な3つのAI・IoT技術――①コルタナ(エージェント)②MSグラフ(アプリ)③サービス――のうち、これらは③サービスだ。①、②に関しては次に紹介する。

(元沢賀南子執筆、この項続く)