みなさん、こんにちわ!研究所です。
現代の生成AI(LLM)は、人間と自然な会話を成立させたり、大量の文章データを理解・要約したりといった高度なコミュニケーション能力を備えています。しかし、このような能力を実現するには、AIが「今どの文脈を参照すれば正しい応答ができるか」を継続的に判断する必要があります。
具体的には:
- 会話の途中で前に言ったことを覚えていない……
例えば、質問のやり取りが長引くと、AIが先ほどの発言や前後関係を忘れてしまい、不自然な応答になることがあります。 - 長いドキュメントを一気に要約するのは難しい……
書籍や契約書など膨大な情報を一度に読み込ませて分析させたい場合、AIにはどこまで「前後の情報」を覚えておけるのかが重要になります。
このような「どこまで記憶し続けられるか」の限界を把握し、それを超えないように入力や対話を扱うための基準として必要なのが、コンテキストウィンドウという概念です
目次
Table of Contents
コンテキストウィンドウとは?
「コンテキストウィンドウ」とは、「モデルが一度に処理・参照できるテキスト情報(トークン数)の上限」を意味します。特に、入力プロンプト+生成出力を合わせたトークン数の制限として定義されます。
- トークンは「単語」「語の一部」「句読点」などの単位で、英語では1.5単語程度、日本語では1文字=約1〜2トークン程度でカウントされます 。
- つまり、モデルにとっての「作業机」の広さに例えられ、情報量が多いほど長文でも一貫性を保って処理できるわけです。一般には「モデルのワーキングメモリ」として説明されます。

主なモデルのコンテキストウィンドウサイズ比較
このようなモデルが一度に処理できるトークン量を指す「コンテキストウィンドウ」ですが、
主要な生成モデルのコンテキストウィンドウサイズを見ていきましょう。
モデル名 | 最大コンテキスト長(トークン数) |
---|---|
GPT‑3 | 約 2,048(旧モデル) (ウィキペディア) |
GPT‑4(通常版) | 約 8,192〜32,768 (ウィキペディア) |
GPT‑4 Turbo / GPT‑4o | 約 128,000 (サイエンスZenn) |
Anthropic Claude 3 系列 | 約 200,000 (Zennウィキペディア) |
Google Gemini 1.5/2.0 | 最大約 1,000,000 (Zennウィキペディア) |
その他(o1, StableLM等) | 100,000〜200,000 note(ノート)Zenn |
GPTとの関係:何に活用され、どんな影響があるのか?
利点
- 長文ドキュメント(数万文字)や複雑な対話、コードサンプル、要約生成などを切れ目なく処理できる。
- 文脈継続力が向上し、整合性の高い出力が可能に。
- 多くの情報を踏まえた理にかなった推論や生成が期待できる。
トレードオフ
- ウィンドウが大きいほど計算負荷やコストが増大になる。
- 特にセキュリティ上、広過ぎる文脈範囲が攻撃のリスクになる可能性もあります。
活用用途と実際の使われ方
- 長文の書類や論文をそのまま読み込んで要約・質問応答する用途に最適。
- 複数のドキュメントを統合・比較した詳細分析や複雑なプロジェクトのレビューにも利用できる。
- RAG(Retrieval-Augmented Generation)との組み合わせで大量データを参照しながら、文脈の全体を把握する運用も可能に Zenn。
ただし、ChatGPTのUIではアップロードドキュメントが直接処理可能に見えても、実は内部ではRAGによるチャンク分割+類似検索方式で処理されており、実際のコンテキストウィンドウにすべての情報が入っている訳ではない場合もあります。
まとめ
- コンテキストウィンドウとは 「LLMが一度に「理解・記憶」できるトークン量」のこと。
- サイズはモデルによって大きく異なり、現行では数十万~百万トークン級の非常に大きなウィンドウを持つモデルも登場しています。
- GPT(ChatGPT)においても、モデルの種類(GPT-4, GPT-4 Turbo, GPT‑4oなど)に応じて処理可能な情報量が異なります。
- 長文処理や複雑な文脈を維持するためには大きなコンテキストウィンドウが不可欠であり、特定分野やドキュメント解析において威力を発揮します。