AWS DevOps Agent が GA ― AIが24時間インシデント調査・解決・予防を行うフロンティアエージェントの全体像
AWS DevOps Agent が正式にGA(一般提供)になりました(2026年3月31日 AWS What’s New)。2025年12月の re:Invent でプレビューとして発表されていた機能が、約4ヶ月で正式リリースに至っています。
DevOps Agent は、AWSが「フロンティアエージェント」と呼ぶカテゴリの新サービスです。AIが24時間365日オンコールエンジニアとして機能し、インシデントの調査・解決・予防を自律的に行います。AWS環境だけでなく、Azure やオンプレミス環境にも対応しています。
自分が特に面白いと思ったのは、このサービスが単なる「アラートの要約ツール」ではなく、テレメトリ・コード・デプロイデータを横断的に分析して根本原因を特定し、具体的な緩和策まで提示する点です。しかもカスタムスキルやMCPサーバーで拡張可能という設計になっています。
DevOps Agent の3つの柱
DevOps Agent の機能は大きく3つに分類されます。
1. インシデント自動調査・解決
アラートやチケットが発生した瞬間に、エージェントが自律的に調査を開始します。
公式の説明によると、エージェントは以下のように動作します(AWS Documentation)。
Autonomously triages incidents and guides teams to rapid resolution, reducing mean time to resolution (MTTR) from hours to minutes, while analyzing patterns across historical incidents to deliver actionable recommendations that prevent future outages.
具体的には以下を行います。
- テレメトリ・コード・デプロイデータの横断分析: システム変更、入力の異常、リソース制限、コンポーネント障害、依存関係の問題を特定
- 関連アラームの相関分析: 複数のアラームが同一イベントに起因するケースをまとめてトリアージし、ノイズを削減
- 詳細な緩和プラン: 具体的な解決手順、成功確認の方法、ロールバック手順を含むプランを生成
- コミュニケーションツールへの自動連携: Slack、ServiceNow、PagerDuty に調査結果と対応手順を配信
2. プロアクティブなインシデント予防
過去のインシデントパターンを分析し、4つの領域で改善提案を行います。
| 領域 | 提案例 |
|---|---|
| 可観測性 | モニタリングのギャップ検出、アラーム閾値の最適化 |
| インフラ最適化 | オートスケーリング設定の調整、キャパシティチューニング |
| デプロイパイプライン | テスト・バリデーションの強化 |
| アプリケーションレジリエンス | 障害耐性の向上策 |
提案にはエージェントが実装できる仕様(agent-ready specs)も含まれており、他の自動化ツールに引き渡して自動実装するフローも想定されています。
3. オンデマンドSREタスク(チャット)
自然言語でインフラの状態を質問できます。「このDynamoDBテーブルに接続しているLambda関数を教えて」のような質問に、実際のインフラ構成を基に回答します。
カスタムチャートやレポートの作成・保存・共有も可能で、日常的なオペレーション業務のアシスタントとしても機能します。
アーキテクチャ:Agent Space とトポロジ
Agent Space
DevOps Agent は Agent Space という論理的なコンテナ単位で管理されます(AWS Documentation)。
Agent Space には以下が含まれます。
- AWSアカウント設定(プライマリ + セカンダリアカウント)
- サードパーティツールとの統合設定
- アクセス権限
管理はデュアルコンソール構成になっています。
| コンソール | 用途 |
|---|---|
| AWS マネジメントコンソール | Agent Space の作成・管理、統合設定、アクセス制御 |
| DevOps Agent Web App | 日常のインシデント対応、調査、チャット |
トポロジグラフ
DevOps Agent はAWSアカウントを自動的にスキャンし、リソースとその依存関係をトポロジグラフとして構築します(AWS Documentation)。
トポロジは4つのプロセスで構築されます。
- リソースディスカバリ: CloudFormation スタックやResource Explorerを通じてコンピュート、ストレージ、ネットワーク、データベースを検出
- リレーションシップ検出: 設定データ、CloudFormation スタック、リソースタグから依存関係を分析
- コード/デプロイマッピング: CI/CDパイプラインと接続し、インフラリソースをデプロイプロセスや変更されたコードに紐付け
- オブザーバビリティ行動マッピング: CloudWatch Application Signals や Dynatrace 等の観測データからリソース間の実行時の関係を特定
トポロジは以下の粒度で表示できます。
| ビュー | 内容 |
|---|---|
| Learned | エージェントが学習した論理的なサービス構成とリクエストパス |
| System | アカウント・リージョン境界 |
| Container | デプロイスタック(CloudFormation等)と関連リソース |
| Components | コンテナ内の個別コンポーネントとその依存関係 |
| All Resources | 検出されたすべてのリソースとリレーション |
インシデント調査時には、このトポロジをもとに影響範囲(ブラストレディウス)の特定、依存チェーンの追跡、ダウンストリームサービスへの影響評価が行われます。
カスタムスキル ― 組織固有の知見を教え込む
GA で追加された注目機能の一つがカスタムスキルです(AWS Documentation)。
カスタムスキルは、組織固有の調査手順やベストプラクティスをMarkdownファイルとしてエージェントに教え込む仕組みです。オープンスタンダードの Agent Skills specification に準拠しています。
スキルの構造
rds-performance-investigation/
├── SKILL.md # 必須:メインの指示書
├── references/ # 任意:参考ドキュメント
└── assets/ # 任意:画像、図、データファイル
SKILL.md の例を見てみます。
---
name: rds-performance-investigation
description: Investigation procedures for RDS performance issues including
connection exhaustion, slow queries, replication lag, and storage capacity.
Use this skill when investigating database latency, connection errors, or
read/write performance degradation.
---
# RDS Performance Investigation
## Step 1: Check alarm status
Query CloudWatch for active alarms on the affected RDS instance. Look for:
- `DatabaseConnections` exceeding 80% of max_connections
- `ReadLatency` or `WriteLatency` above 20ms
- `FreeStorageSpace` below 20% of total storage
## Step 2: Analyze connection metrics
Retrieve `DatabaseConnections` over the past hour. If connections are near
the max_connections limit, check for connection pool misconfiguration.
## Step 3: Identify slow queries
Use Performance Insights to retrieve top SQL statements by average active
sessions.
エージェントタイプの指定
スキルは特定のエージェントタイプに限定して適用できます。
| エージェントタイプ | 用途 |
|---|---|
| Generic(デフォルト) | すべてのタイプに適用 |
| On-demand | チャットでの質問応答 |
| Incident Triage | インシデントの初期評価 |
| Incident RCA | 根本原因分析 |
| Incident Mitigation | 自動緩和 |
| Evaluation | プロアクティブな評価・提案 |
タイプを限定することで、関連性の低いスキルがコンテキストを消費するのを防ぎ、調査の精度を上げられます。
zipファイルでのアップロードにも対応しており、最大 6MB まで。ただし実行可能なスクリプトは含められません(ドキュメントのみ)。
統合先の充実度
DevOps Agent の統合先は幅広いです。
| カテゴリ | サービス |
|---|---|
| 可観測性 | Amazon CloudWatch, Dynatrace, Datadog, Grafana, New Relic, Splunk |
| コード/CI/CD | GitHub, GitLab, Azure DevOps |
| コミュニケーション | Slack, ServiceNow, PagerDuty |
| カスタム | MCPサーバー接続 |
MCPサーバー対応はここは注意が必要ですね。自社のプロプライエタリなツールやドキュメントにエージェントを接続できるということは、調査の際に社内のランブックや設定管理DBを参照させることが可能になります。拡張性の面でかなり大きなポイントだと思います。
料金
DevOps Agent の料金はエージェントの稼働時間に対する従量課金です(AWS DevOps Agent Pricing)。
| 項目 | 料金 |
|---|---|
| エージェント稼働時間 | $0.0083/秒(約 $29.88/時間) |
すべてのアクティビティタイプ(調査、評価、チャット)が同一レートです。エージェントがアイドル状態のときは課金されません。
無料トライアル
新規ユーザーは 2ヶ月間の無料トライアルが利用可能です。
- Agent Space: 最大10
- 調査: 20時間
- 評価: 15時間
- オンデマンドSREタスク: 20時間
AWS Support クレジット
AWS Supportプランの契約者には、前月のSupport費用に基づくクレジットが毎月付与されます。
| プラン | クレジット率 |
|---|---|
| Unified Operations | 100% |
| Enterprise Support | 75% |
| Business Support+ | 30% |
Enterprise Support 契約者であれば、Support費用の75%がDevOps Agentのクレジットとして使えるため、実質的なコスト負担がかなり軽減されます。
コスト感
$29.88/時間は一見高く感じるかもしれませんが、インシデント1件あたりの調査時間が仮に30分だとすると約$15です。人間のSREが深夜2時にオンコールで対応するコストと比較すれば、かなり妥当な価格設定だと思います。実際に Western Governors University は MTTR を2時間から28分に短縮(77%削減)しており、Zenchef も調査時間を約75%削減したと報告されています(AWS DevOps Agent 製品ページ)。
利用可能なリージョン
GA時点で以下のリージョンで利用可能です。
- US East (N. Virginia)
- US West (Oregon)
- Europe (Frankfurt)
- Europe (Ireland)
- Asia Pacific (Sydney)
- Asia Pacific (Tokyo)
東京リージョンに対応しているので、国内のワークロードでもすぐに試せます。
まとめ
AWS DevOps Agent は「AIエージェントが本当に運用で使えるのか?」という問いに対する、AWSの一つの回答だと感じています。
特に注目しているのは以下の点です。
- フロンティアエージェントという位置付け: 単なるツールではなく、テレメトリ・コード・デプロイを横断的に分析して自律的に行動するエージェントです。トポロジグラフの自動構築やカスタムスキルの仕組みを見ると、汎用的なAIチャットボットとは明確に異なるアプローチだと思います
- MCPサーバー対応: これが地味に大きいです。社内ツールとの統合が容易になるため、「AWSの情報は見られるけど社内のコンテキストが分からない」という問題が解消されます
- カスタムスキル: SKILL.md にMarkdownで手順を書くだけで、エージェントの調査能力を拡張できます。チームの暗黙知をエージェントに移植するイメージで、ナレッジマネジメントの観点でも面白いアプローチです
- 料金モデル: $0.0083/秒の従量課金は分かりやすく、AWS Supportプランのクレジットと組み合わせれば実質無料〜低コストで使えるケースも多いと思います
AIエージェントが運用の現場にどこまで入り込めるか、これからの導入事例が楽しみです。まずは無料トライアルでAgent Space を作って、自分のアカウントのトポロジがどう見えるか確認してみるところから始めてみたいと思います。