AnthropicがClaude Fable 5を公開、強力なサイバー能力に安全対策を導入

Anthropicは2026年6月9日、同社が一般提供してきた中で最も高性能とするAIモデル「Claude Fable 5」を公開しました。同じ基盤モデルを使用しながら、一部の安全制御を解除した「Claude Mythos 5」も、審査済みのサイバー防御組織などへ限定提供されます。高度な脆弱性発見能力と、その悪用を抑える安全設計が注目されています。
The Hacker News：Anthropic Releases Claude Fable 5, Its Most Powerful AI Yet, With Cyber Safeguards

この記事のポイント

影響のあるシステム

2026年6月9日から一般提供されたClaude Fable 5
Claude APIで使用するモデルID「claude-fable-5」
ClaudeのPro、Max、Team、座席単位のEnterpriseプラン
Project Glasswingの審査済み参加者へ限定提供されるClaude Mythos 5
Claude Fable 5またはClaude Mythos 5へ機密情報、ソースコード、脆弱性情報を送信する組織
AIによる脆弱性発見の高速化により、修正対応の迅速化が求められるインターネット公開システムやオープンソースソフトウェア
CVE-2026-4747の影響を受けるFreeBSDのRPCSEC_GSSおよびNFS関連環境

推奨される対策

Claude Fable 5へ入力する情報を分類し、認証情報、顧客情報、未公開の脆弱性情報などの送信可否を明確にする
30日間のデータ保持要件を確認し、自社の機密情報管理方針や契約上の義務と整合するかを評価する
AIが生成した脆弱性報告をそのまま採用せず、技術者による再現、影響評価、優先順位付けを行う
インターネットへ公開しているシステムでは、重大な脆弱性の検証と更新プログラムの展開期間を短縮する
自動更新が利用できる製品では、その有効化や適用状況を確認する
多要素認証、ネットワークの安全な初期設定、包括的なログ取得を継続する
サイバーセキュリティ業務で安全機能の解除が必要な場合は、AnthropicのCyber Verification Programなど正規の制度を利用する

上記の対策は、元記事の事実に基づき日本の読者向けに整理したものです。

この記事に出てくる専門用語

Claude Fable 5：Anthropicが2026年6月9日に一般提供を開始したMythosクラスのAIモデルです。特定分野の危険な利用を抑える安全機能が組み込まれています。
Claude Mythos 5：Fable 5と同じ基盤モデルを使用しつつ、審査済みの利用者に対して一部のサイバーセキュリティ制御を解除したモデルです。
安全分類器：利用者の依頼が悪用や安全機能の回避に関連する可能性を、メインのAIモデルとは別に判定するAIシステムです。
フォールバック：安全分類器が特定の依頼を検知した際に、Fable 5ではなくClaude Opus 4.8へ処理を引き継ぐ仕組みです。
ジェイルブレイク：AIに設定された安全制御を回避し、本来制限されている回答や処理を実行させようとする手法です。
モデル蒸留：高性能なAIモデルの出力などを利用し、別のモデルへ能力を移転または模倣させる技術です。
Project Glasswing：高度なAIをサイバー防御へ活用し、重要なソフトウェアの脆弱性を発見、検証、修正するAnthropicの取り組みです。
ゼロデイ脆弱性：開発元や利用者が十分に対策できていない段階で発見または公開される脆弱性です。
Nデイ脆弱性：脆弱性の情報や修正プログラムが公開された後も、未更新のシステムに残っている既知の脆弱性です。
CVE-2026-4747：FreeBSDのRPCSEC_GSS実装に関するスタックベースのバッファオーバーフローの脆弱性です。

同じ基盤モデルを安全機能の有無で分けて提供

Claude Fable 5とClaude Mythos 5は、能力の異なる二つのモデルではなく、同じ基盤モデルに異なる安全制御を適用した製品です。一般利用者向けのFable 5には、サイバーセキュリティ、生物学・化学、モデル蒸留に関係する依頼を監視する安全分類器が導入されています。分類器が対象となる依頼を検知した場合、Fable 5が回答を拒否するのではなく、処理をClaude Opus 4.8へ引き継ぎ、その事実が利用者へ通知されます。

一方、Mythos 5では、審査を受けたProject Glasswingの参加者などに対し、サイバーセキュリティ分野の安全制御が解除されています。Anthropicは、Mythos 5を世界で最も強力なサイバーセキュリティ能力を持つAIモデルと説明しています。ただし、これはAnthropicによる評価であり、一般利用者へ無制限に公開されているわけではありません。対象となるのは、サイバー防御組織や重要インフラの運用事業者など、所定の審査を通過した利用者です。

Fable 5はClaude APIなどで一般提供され、料金は入力100万トークン当たり10ドル、出力100万トークン当たり50ドルとされています。Pro、Max、Team、座席単位のEnterpriseプランでは、2026年6月22日まで追加料金なしで提供され、6月23日以降は使用量クレジットが必要になる予定です。企業が導入を検討する際は、性能だけでなく、利用できるプラン、安全分類器による処理の切り替え、料金体系を含めて評価する必要があります。

分類器は危険な依頼を検知しOpus 4.8へ切り替える

Anthropicが導入した安全分類器は、単純な攻撃コードの生成だけを対象にしているわけではありません。脆弱なシステムの偵察、情報収集、内部での横展開、検知回避など、実際のサイバー攻撃を構成する一連の作業も広く判定対象に含まれています。高度なAIが複数の手順を自律的に進められるようになると、個別のコード生成を制限するだけでは、悪用を十分に抑えられない可能性があるためです。

Anthropicの内部評価では、Fable 5が回答を別モデルへ引き継ぐのではなく、対象依頼を遮断する設定で検証したところ、攻撃関連のタスクを進行できなかったと報告されています。また、外部パートナーによる評価では、サイバー攻撃の計画、エクスプロイト開発、防御回避に関する有害な単発依頼に応じず、30種類の公開済みジェイルブレイク手法を使用した場合にも結果が維持されたとされています。

外部のバグバウンティでは1,000時間を超える検証が行われ、安全制御を全面的に解除できる汎用的なジェイルブレイクは確認されなかったと報告されています。ただし、英国のAI Security Instituteは、短い初期検証期間の中で汎用的な回避手法に向けて一定の進展を見せたとされています。Anthropicも、あらゆるジェイルブレイクを完全に防ぐことは難しい可能性があると認めています。

安全分類器は慎重に調整されているため、正当な依頼を誤って検知する可能性もあります。Anthropicによると、別モデルへの切り替えが発生しないセッションは全体の95％を超えています。ただし、残りの5％未満という数値には、正しく検知された危険な依頼も含まれています。そのため、この数字をそのまま誤検知率として扱うことはできません。

AIが脆弱性を発見し攻撃コードを作るまでの時間を短縮

Anthropicが慎重な提供方法を採用した背景には、Mythosクラスのモデルが持つ脆弱性調査能力があります。同社のレッドチームによる検証では、Mythos Previewが主要なOSやWebブラウザからゼロデイ脆弱性を特定し、利用者の指示に基づいて悪用方法を構築したと報告されています。OpenBSDでは27年前から存在していた問題を発見し、FreeBSDのNFS関連機能では17年前から存在していた脆弱性に対するリモートコード実行の検証コードを自律的に作成したとされています。

このFreeBSDの問題にはCVE-2026-4747が割り当てられています。ただし、影響条件の説明には注意が必要です。Anthropicは、インターネット上の認証されていない攻撃者によるroot権限取得として説明していますが、NVDでは、kgssapi.koが読み込まれたカーネルのNFSサーバーへパケットを送信できる攻撃者によるカーネルコード実行の可能性が記載されています。利用組織は、強い表現だけを基に判断せず、FreeBSDの公式アドバイザリなどで自社環境の構成と影響条件を確認する必要があります。

Project Glasswingでは、Anthropicと約50の初期パートナーがMythos Previewを利用し、重要なソフトウェアから1万件を超えるHighまたはCritical相当の脆弱性を発見したと報告されています。Cloudflareでは2,000件の問題が見つかり、そのうち400件がHighまたはCritical相当とされました。MozillaではFirefox 150から271件の脆弱性を発見して修正したと報告されています。

一方で、発見された内容を再現し、誤検知を除外し、影響を評価して修正する作業は、依然として人間の時間を必要とします。脆弱性の発見速度だけが上がれば、開発者やオープンソースの保守担当者が大量の報告を処理できなくなる可能性があります。AIの導入効果は発見件数だけで評価せず、検証、修正、展開までを含む運用全体で判断することが重要です。

企業はパッチ対応とAIへのデータ送信方針を見直す必要

高度なAIによって脆弱性の発見と攻撃コード作成が高速化すると、脆弱性の公開から実際の攻撃が可能になるまでの猶予も短くなる可能性があります。元記事では、Mythos Previewが公開済みのCVEと修正パッチだけを手掛かりに、Linuxの権限昇格用エクスプロイトを1日未満で作成した実験結果が紹介されています。企業は、重大なCVEが公開されてから数週間の猶予があるという前提ではなく、数時間から数日で悪用方法が作られる可能性を考慮する必要があります。

特にインターネットへ公開しているサーバー、VPN、認証基盤、リモート管理製品などでは、更新プログラムの検証と展開にかかる期間を見直すことが重要です。自動更新を安全に利用できる製品では適用状況を確認し、依存ライブラリの更新にCVE修正が含まれる場合は、通常の開発バックログとは分けて対応する必要があります。また、多要素認証、ネットワークの安全な初期設定、包括的なログ取得を組み合わせ、単一の更新漏れだけで組織全体が侵害されない構成を目指すことが求められます。

Claude Fable 5などを業務で利用する企業は、セキュリティ能力だけでなくデータ保持条件も確認しなければなりません。元記事によると、AnthropicはFable 5、Mythos 5、および同等の能力を持つ将来のモデルについて、原則として通信データを30日間保持する方針です。同社は、このデータを新しいClaudeモデルの学習や安全性以外の目的には使用せず、人間によるアクセスを記録し、原則30日後に削除すると説明しています。ただし、安全性調査や法的義務によって、より長く保持される場合があります。

機密性の高いソースコード、未公開の脆弱性、顧客データ、認証情報などをAIへ入力する可能性がある組織は、この保持期間が社内規程、秘密保持契約、顧客との契約、業界固有の要件と矛盾しないかを確認してください。AIの性能向上は防御側にも大きな利点をもたらしますが、利用範囲、入力可能な情報、出力の検証責任を定めないまま導入すると、新たな情報管理上のリスクにつながる可能性があります。

参考文献・記事一覧

投稿者プロフィール

CyberCrew（サイバークルー）: CyberCrew（サイバークルー）は、企業の情報セキュリティをトータルで支援する専門チームです。高度なスキルを持つホワイトハッカーが在籍し、サイバー攻撃の監視・検知から初動対応、リスク診断や従業員向けのセキュリティ教育まで、幅広いサービスを提供。企業のニーズに応じた柔軟な対応で、安心・安全なIT環境の実現をサポートします。

■ 情報セキュリティサービス台帳登録事業者

■ セキュリティコンテスト受賞歴
CTF国際大会世界No.1
CEH Master Leaderboard 世界No.1
Hack The Box Rank TOP10

■ 保有セキュリティ資格
GIAC GXPN、Cisco Cybersecurity Specialist、CEH Master、CEH Practical、
Cyber Security Professional Certificate、OSCP、OSCP+、CPENT、OSWP、
eCPPT、eMAPT、CRTS、SOC-100、PEN-100、
HTB Offshore Penetration Tester（Level 3）