マルチモーダルAIとは　AIが「五感」を手に入れる日何が起きる？

私たちはいつも、五感を使って様々な情報を得ています。

視覚や聴覚で周囲に何があるかを知り、さらに嗅覚や味覚情報も組み合わせて、例えば食べ物の味や、食べても大丈夫なものかどうかの判断をする、といった具合です。
それぞれの感覚から得られる情報の組み合わせで状況を判断するようにできています。

AIは今のところ、テキスト、画像、音声…といった具合に、それぞれ単独の種類のデータ、人間で言えば感覚を扱うことに特化したものが多いのですが、例えばテキストと画像と音声といった複数の「感覚」から得られる情報を統合して状況を判断できるようになったら？

「マルチモーダルAI」という新しい形がいま注目されています。

AIのデータ処理の世界と「マルチモーダル」

AIはテキスト、音声、画像、センサーから受け取った情報など、多岐にわたるデータを処理の対象にしています。これらの単独のデータの種類を「モーダル」といいます。*1
そして1種類のデータを扱うAIを「シングルモーダルAI」と呼びます。

それに対して「マルチモーダルAI」とは、複数のデータを扱うAIのことです。

シングルモーダルAIとマルチモーダルAIの違い
(出所：産業技術総合研究所「”マルチモーダルAI”とは？」)
https://www.aist.go.jp/aist_j/magazine/20231129.html

例えば初期のChatGPTの場合は「入力されたテキストデータを分析し、テキストデータで演算結果を出力する」という形で、テキストという1種類のデータのみを処理の対象としていました。

しかしGPT-4では画像とテキストの両方を入力して、2種類のデータを使った演算結果を出力することができるようになっています。

例えば下のようなプロンプトと回答結果です。

GPT-4でのプロンプト入力と解答例
(出所：OpenAI「GPT-4」)
https://openai.com/index/gpt-4-research/

スマホの充電に使えるジョークガジェットの写真を添付した上で「この画像の面白いところは何ですか？写真の順序ごとに説明してください」と質問しています。

皆さんはこの充電ケーブルにはどんなジョークが含まれていると思いますか？
「視覚」を手に入れたGPT-4はこのように回答しています。

3枚の写真からこれがライトニングケーブルだとわかる、とした上でそれぞれの画像について、

1枚目：VGAコネクター(大きい、青い、15ピンの、一般的にモニターに使用されるもの)が充電口に刺さったスマートフォンの画像である
2枚目：VGAコネクターの画像の上に「ライトニングケーブル」アダプターだと書かれた商品の包装である
3枚目：VGAコネクターの先端にライトニングコネクター(iPhoneや他のAoole製品の充電に使用するもの)がついているものの拡大

と説明しています。画像情報をテキスト情報に変換する、という統合ができているのです。

そして、

時代遅れの大きなVGAコネクターが小さくて近代的なスマートフォンの充電口に刺しているというユーモアを示している

という結論を出しています。

また、Googleは「Googleレンズ」アプリをリリースしています。

画像とテキストの両方を入力して検索ができる機能を持っています。例えば自宅にある観葉植物の手入れの方法を知りたいけれど植物の名前がわからない。そんなときに、植物の画像と「手入れ　方法」などといったテキストデータを両方入力して情報を検索できるというものです。

マルチモーダルAIが社会でできること

他にもマルチモーダルAIで可能になることの事例として、監視カメラの情報分析があります。

ビルなどのセキュリティの一つとして監視カメラの画像を室内のモニターでチェックするというのはよく見る光景ですが、見た目の情報だけでは何が起きているのか正確にはわからないというのもまた事実です。

たとえば人が会話している時、それは穏やかに日常会話をしているのか、困った人が他人に声をかけているのか、言い争いをしているのか。見た目だけでは判断できません。
しかし視覚と聴覚といった2つのデータを統合できるAIならば、事情は変わります。

シングルモーダルAIで検出できることとマルチモーダルAIで検出できること
(出所：NTTデータ「マルチモーダルAIとは？身近な事例で解説します！」)
https://www.nttdata.com/jp/ja/trends/data-insight/2021/1101/

ひとつのカメラから得られる情報が増え、かつ複数のデータを統合した分析ができれば、状況をより正確に把握できるのです。
テキスト情報も同時に処理できれば、何が起きているのかをテキストで説明してくれることも可能になるでしょう。

また、医療現場での活躍も期待されています。画像診断の効率化です。
一般的な画像診断は下のような流れで行われます。

一般的な画像診断の流れ
(出所：NTTデータ「事例医師の診断を効率化する画像診断AIへの期待と狙い」)
https://www.nttdata.com/jp/ja/trends/data-insight/2021/0827/

撮影後に放射線科医が行う業務として、まず読影、次にレポート作成がありますが、読影は、検査によって得られる大量の医用画像データを1スライスずつ隅々まで丁寧に確認して所見を抽出するという膨大な作業です。*2

ここに視覚とテキストデータの両方を処理できるマルチモーダルAIを導入することで、疾患の見落とし防止や読影精度の向上だけではなく、読影時間の削減などの業務効率化も期待されています。

お好み料理の味を勝手に再現してくれる日がくる？

そしてなんと、AIが「味覚」を手に入れる日も近いかもしれません。
というのは、現実に「味覚をデータ化する」という研究が進んでいるのです。

2023年にイグ・ノーベル賞を受賞した明治大学の宮下芳明教授らの研究が「電気味覚」です。*3

宮下教授らの研究では、味覚に関するデータから味の基本となる五味（甘味、酸味、塩味、苦味、うま味）を「味覚の標準液」を用いて再現するという試みが進められています。*4

具体的には、伝えたい味をセンシングデバイスで分析・数値化したものと、共有する相手の味覚の感じ方を、約25項目のデータをもとに独自アルゴリズムを用いて推定するというものです。

「あの時あの店で食べた料理が美味しかったんだけど、こんな感じの味だった」。
味覚は言葉で伝えることも難しいものです。それをデータ化し再現しようというのです。

こうしたデータまでもがAI分析の対象になった時、写真やテキストデータも統合して分析し、レシピまで提示してくれる、そんな時代も来るかもしれません。

データの種類が増えれば増えるほど、人間では膨大な時間がかかりそうなことをAIが手助けしてくれる時代になっています。

注釈

*1 日経クロステック「AI分野で注目、多種類のデータをまとめて扱う「マルチモーダル」」https://xtech.nikkei.com/atcl/nxt/column/18/01679/020700153/
*2 NTTデータ「事例医師の診断を効率化する画像診断AIへの期待と狙い」)https://www.nttdata.com/jp/ja/trends/data-insight/2021/0827/
*3 日経クロステック「2023年のイグ・ノーベル賞は「電気味覚」に栄冠、口臭心配なしのニンニク味にも発展」https://xtech.nikkei.com/atcl/nxt/column/18/00001/08484/
*4 明治大学「世界初！6G時代の新しい価値を提供する「人間拡張基盤」に味覚を共有する技術を開発～ことばでは伝えられない味を人間拡張基盤で共有可能に～　明治大学宮下芳明研究室、NTTドコモ、H2Lの共同研究で」https://www.meiji.ac.jp/koho/press/2023/mkmht000000w2ict.html

清水沙矢香

2002年京都大学理学部卒業後、TBSに主に報道記者として勤務。社会部記者として事件・事故、テクノロジー、経済部記者として各種市場・産業など幅広く取材、その後フリー。
取材経験や各種統計の分析を元に多数メディアに寄稿中。

マルチモーダルAIとは AIが「五感」を手に入れる日 何が起きる？

AIのデータ処理の世界と「マルチモーダル」

マルチモーダルAIが社会でできること

お好み料理の味を勝手に再現してくれる日がくる？

注釈

マルチモーダルAIとは　AIが「五感」を手に入れる日何が起きる？