基礎
マルチモーダル
テキストだけでなく画像・音声・動画も入出力できる AI モデルのこと。
詳しい解説
従来の LLM はテキストのみを扱ったが、近年のフロンティアモデル(GPT-4o / Claude 3.5+ / Gemini 等)は画像入力、音声入出力、動画解析など複数モダリティに対応する。OCR、図表理解、UI 操作、画像からのコード生成などのユースケースを開く。
別表記
マルチモーダルmultimodal
テキストだけでなく画像・音声・動画も入出力できる AI モデルのこと。
従来の LLM はテキストのみを扱ったが、近年のフロンティアモデル(GPT-4o / Claude 3.5+ / Gemini 等)は画像入力、音声入出力、動画解析など複数モダリティに対応する。OCR、図表理解、UI 操作、画像からのコード生成などのユースケースを開く。