非公式・AI自動要約ニュースサイト(各AI企業の公式とは無関係)
AAI News JP / www.ai-news.jp
基礎

マルチモーダル

テキストだけでなく画像・音声・動画も入出力できる AI モデルのこと。

詳しい解説

従来の LLM はテキストのみを扱ったが、近年のフロンティアモデル(GPT-4o / Claude 3.5+ / Gemini 等)は画像入力、音声入出力、動画解析など複数モダリティに対応する。OCR、図表理解、UI 操作、画像からのコード生成などのユースケースを開く。

別表記

マルチモーダルmultimodal

関連用語

← 用語集一覧へ