非公式・AI自動要約ニュースサイト(各AI企業の公式とは無関係)
AI News JP / www.ai-news.jp
📰 ニュース Anthropic 🟠 重要 LLMコーディング · 出典: Anthropic News

新モデルClaude Opus 4.8、コーディング性能が大幅向上!

Claude Opus 4.8の導入

原題: Introducing Claude Opus 4.8

重要度の根拠: 新しいモデルのリリースで、多くのユーザーに影響を与える。

要約

Anthropicは新しいモデルClaude Opus 4.8を発表しました。このモデルはコーディングやエージェンティックなタスクにおいてより強力なパフォーマンスを提供し、長時間の作業にも対応できる一貫性があります。Opus 4.8は、前バージョンのOpus 4.7からの性能向上があり、ユーザーがタスクへの取り組みの程度を制御できる新機能も搭載。テスト結果によると、Opus 4.8は前モデルに比べてエラーを報告する可能性が約4倍低く、誠実さが向上しています。今後もさらなるモデルの開発が予定されています。

要点

  • Opus 4.8はコーディング性能が向上
  • ダイナミックワークフロー機能を搭載
  • エラー報告の可能性が約4倍低下
  • デフォルトは高努力レベル
  • 今後のモデル開発も予定
開発者向け技術解説(API・実装詳細・破壊的変更)を見る

Claude Opus 4.8は、コーディング、エージェンティックスキル、推論、実務知識のタスクにおいて改善された性能を提供します。デフォルトで高い努力レベルを設定し、ユーザーは追加の努力レベルを選択可能です。新機能”ダイナミックワークフロー”により、大規模な問題に取り組むことができます。Opus 4.8の価格は以前と変わらず、また高速モードは従来のモデルよりも安価です。さらに、Opus 4.8は誠実さやプロソーシャル特性が向上しており、誤った情報の報告が減少しています。

本文の日本語訳(全文)を見る

私たちの最新モデル、Claude Opus 4.8は、コーディング、エージェンティックタスク、専門的な作業において強化された性能を持ち、長時間の作業を扱うための一貫性を提供します。

Claude Opusの新バージョン、Claude Opus 4.8を発表します。本モデルは、Opus 4.7を基にしたもので、ベンチマーク全体での改善があり、より効果的なコラボレーターとなっています。価格は従来と同じです。

Opus 4.8は、いくつかの新機能とともにリリースされます。claude.aiのユーザーは、Claudeがタスクに投入する努力の量を制御できるようになります。Claude Codeには新しい「ダイナミックワークフロー」機能が追加され、非常に大規模な問題に取り組むことが可能になります。また、Opus 4.8の高速モードは、以前のモデルよりも3倍安価で、2.5倍のスピードで作業を進めることができます。

以下の表は、Opus 4.8が前モデルおよび他のモデルと比較した際のコーディング、エージェンティックスキル、推論、実務知識のタスクにおけるテスト結果を示しています。より詳細な情報や、幅広い能力評価はClaude Opus 4.8システムカードで提供されています。

早期のテスターは、Claude Opus 4.8がエージェンティックタスクを実行する際に、より信頼性があり、判断が鋭いと報告しています。以下は、これらのテスターからの引用です。

Opus 4.8の最も顕著な改善の1つは、その誠実さです。私たちはすべてのモデルに誠実さを持たせるように教育しています。たとえば、支えられない主張を避けることです。しかし、AIモデルの一般的な問題は、時折結論に飛びつき、進捗を自信を持って主張することです。早期のテスターは、Opus 4.8が自らの作業に対する不確実性を指摘し、根拠のない主張をする可能性が低いと報告しています。この評価は、Opus 4.8が前モデルに比べて約4倍も、書いたコードの欠陥を見逃さないことを示しています。

私たちは、リリース前にモデルに対して詳細なアライメント評価を行いました。ポジティブな特性の観点から、アライメントチームはOpus 4.8が「ユーザーの自律性を支持し、ユーザーの最善の利益に行動するという、私たちのポジティブ特性の指標で新たな高みを達成した」と結論付けました。この評価では、Opus 4.8の誤った行動率(欺瞞や悪用に対する協力など)が、Opus 4.7よりも大幅に低く、私たちの最高のアライメントモデルであるClaude Mythos Previewに似ていることも示されました。フルアライメント評価は、事前展開安全テストのスイートとともに、Claude Opus 4.8システムカードに報告されています。

Claude Opus 4.8に加えて、以下の更新も行っています。

Opus 4.8は高い努力をデフォルトとし、これが品質とユーザー体験の最適なバランスであると判断しています。コーディングタスクにおいて、この努力レベルはOpus 4.7のデフォルトと同じトークン数を消費しますが、パフォーマンスは向上しています。ユーザーは「追加」(Claude Codeでは「xhigh」)または「最大」を選択でき、モデルはより良い結果を得るために多くのトークンを消費します。難しいタスクや長時間の非同期ワークフローには「追加」を使用することを推奨します。高い努力レベルのトークン使用量に対応するために、Claude Codeのレート制限を増加させました。ユーザーはそれぞれのプロジェクトに適したものを選択できます。

Opus 4.8は、その前のバージョンに対して控えめながらも顕著な改善をもたらすでしょう。まだやるべきことがあり、Opusと同様の多くの機能を、より低コストで提供するモデルの開発とリリースに取り組んでいます。

さらに、私たちはOpusよりも高い知能を持つ新しいモデルクラスをリリースする計画です。Project Glasswingの一環として、少数の組織が現在Claude Mythos Previewをサイバーセキュリティ作業に使用しています。この能力レベルのモデルは、一般にリリースする前により強力なサイバーセーフガードが必要です。これらの安全措置の開発を迅速に進めており、数週間内にすべての顧客にMythosクラスのモデルを提供できる見込みです。

モデル新機能対象: 一般ユーザー対象: 開発者

出典: https://www.anthropic.com/news/claude-opus-4-8

媒体: Anthropic News

※本記事は Anthropic / OpenAI / Google / Meta / Mistral / DeepSeek / Sakana 等各社の公開情報を基に AI (OpenAI GPT-4o-mini) が日本語で要約・分類した二次的著作物です。著作権法第32条の引用要件に基づき出典 URL を必ず併記しています。要約は AI 生成のため誤訳・誤解釈を含む可能性があります。詳細・正確な情報は必ず出典元の原文をご確認ください。