基礎
トークン
LLM が文章を扱うときの最小単位。英語なら 1 単語 ≒ 1 トークン、日本語は 1 文字 ≒ 2-3 トークン。
詳しい解説
LLM への入力・出力は文字列ではなく「トークン」と呼ばれる ID 列に変換される。料金もトークン数で課金されるのが一般的。英語 1 単語 ≒ 1.3 トークン、日本語 1 文字 ≒ 2-3 トークン程度(モデルにより差がある)。長い文章ほどトークン数が増え、コンテキストウィンドウの上限に達するとそれ以上入力できない。
別表記
トークンtokentokens