基礎

マルチモーダル

テキストだけでなく画像・音声・動画も入出力できる AI モデルのこと。

詳しい解説

従来の LLM はテキストのみを扱ったが、近年のフロンティアモデル（GPT-4o / Claude 3.5+ / Gemini 等）は画像入力、音声入出力、動画解析など複数モダリティに対応する。OCR、図表理解、UI 操作、画像からのコード生成などのユースケースを開く。

マルチモーダルmultimodal