次世代SIEMによるSOCの変革
次世代SIEMによるSOCの変革
インフラストラクチャモニタリングとは
現代のソフトウェアアプリケーションは、世界中のクライアントのニーズを満たすために、信頼性と回復力を備えている必要があります。2020年のAmazonの1秒あたりの売上は平均10,000ドルであり、30秒のダウンタイムでも数十万ドルを失っていたでしょう。
ソフトウェアが需要に遅れずについていくには、インフラストラクチャモニタリングが不可欠です。これにより、チームはシステムから運用データとパフォーマンスデータを収集して、それらを診断、修正、改善することができます。チームは、このデータをさまざまなダッシュボードやチャートに組み合わせて、インフラストラクチャの可視性をさらに向上させることができます。
モニタリングには、多くの場合、物理サーバー、仮想マシン、データベース、ネットワークインフラストラクチャ、IoTデバイスなどが含まれます。フル機能のモニタリングシステムは、インフラストラクチャに問題が発生したときにアラートを通知することもできます。
この記事では、インフラストラクチャモニタリングの包括的な調査を行い、次の問題に取り組みます。
- インフラストラクチャモニタリングが重要である理由
- インフラストラクチャモニタリングの仕組み
- モニタリングが必要なインフラストラクチャの部分
- インフラストラクチャモニタリングプラットフォームで重要な要素
それでは始めましょう。
インフラストラクチャモニタリングが重要である理由
システムにダウンタイムが発生したり、使用できなくなったりすると、ビジネスに具体的な影響があります。ユーザーの信頼を失うと、ユーザー数が減少し、最終的には収益が減少します。システム全体の準備状況が重要であるため、システムインフラストラクチャを常に可視化して、その現在の正常性を把握する必要があります。インフラストラクチャモニタリングにより、必要なレベルの可視性が提供されます。
インフラストラクチャモニタリングを行うと、管理チームはシステムのパフォーマンスに関するライブ情報を確認できます。使用可能なメトリックには、次のようなものがあります。
- ディスクIOPs
- ネットワークスループット
- メモリ使用率
- CPU使用率
- 現在のデータベース接続数
メトリックを収集することで、ビジネスチームはシステム容量計画を改善するためにシステムの傾向を分析できます。システムメトリックを使用すると、インフラストラクチャチームは自動化されたシステムスケーリングを推進できます。例えば、CPU使用量が特定のしきい値を超えた場合に、自動スケーリングして、コンピューティングリソースを追加するようにシステムを設定できます。
最終的に、インフラストラクチャモニタリングにより取得されるデータは、企業がクライアントからの需要に備えて計画を立てたり、サービスレベル契約 (SLA) 要件を満たしたり、クライアントの期待に応えたりするために役立ちます。
インフラストラクチャモニタリングの具体的なユースケースはいくつかありますが、特にトラブルシューティング、コスト削減、ベンチマークに焦点を当てましょう。
トラブルシューティング
使用量が多い状況や可用性が低い状況の発生を受けて、テレメトリデータがそれらのメトリックやログを提供できます。このデータがトリガーとなって、ロードバランシングシステムがクラスター内で使用可能な他のサーバーに負荷を分散させます。この負荷が高い期間が経過した後、このデータを分析して増加の原因をより適切に特定できます。
コスト削減
例えば、データベースメトリックにより、ビジネスチームはシステムのサブスクリプション要件に関するインサイトを取得できます。データベースをモニタリングすることにより、負荷のピーク時間を特定したり、コストを削減できる可能性があるソリューションを発見したりすることができます。データベースが1年のうち3か月のみ高負荷状態にあることがわかった場合、管理者は、残りの9か月間、データベースを安価なホスティングオプションに移行できます。
ベンチマーク
インフラストラクチャモニタリングを長期間実施すると、アプリケーションパフォーマンスの傾向の履歴を作成できます。パフォーマンスプロファイルには、クライアント接続数の合計、負荷のピーク時間、ネットワークレイテンシーなどの大量の情報を含めることができます。週次または月次のメトリックでは、アプリケーションの使用状況における大きな偏りが特定され、ビジネスチームは消費者の振る舞いの潜在的変化をさらに調査するよう促されます。
インフラストラクチャモニタリングの仕組み
インフラストラクチャモニタリングは、ターゲットシステムからのテレメトリデータを利用します。テレメトリデータにはさまざまな種類がありますが、一般的なソースは、システムのログ、メトリック、イベント、トレースです。これらのすべてのデータを合わせると、システムオブザーバビリティが提供される可能性があります。
テレメトリデータの活用例
エンジニアは、ログからのイベントベースの情報を使用して、サーバーのディスク容量不足などの障害の根本原因を特定できます。
1秒あたりのI/O、ネットワークスループット、使用可能なディスク容量などのメトリックは、さまざまなチームのモニタリングの目的に合わせて定期的に報告されます。ユースケースに適したメトリックを選択することが非常に重要です。例えば、ディスク容量メトリックを持つデータベースは、データベースの容量が不足しそうになると管理者に警告できます。
トレースは、システムのさまざまな部分をたどるエンドツーエンドのトランザクションに関連するデータを提供します。例えば、トレースを使用して、クライアントからの単一のAPIコールが後続のAPIコールまたはサービスコール、関数の実行、データベーストランザクションにどのようにつながったかを特定できます。
このライブ情報はすべてアクティブに解析およびインデックス付けされ、ビジネスチームがアクセスできるモニタリングソリューションに保存されます。ユーザーは情報をクエリしたり、ダッシュボードに集約して把握しやすいシステムステータスを報告したりできます。
テレメトリデータの収集
モニタリングソリューションが機能するには、システムに関するデータを受信する必要があります。通常、データの収集は次の2つの形式のいずれかで行われます。
データ収集の1つのアプローチでは、各ターゲットシステムにインストールされたエージェントを使用します。エージェントは、システムの状態に関する関連テレメトリデータの収集に使用される、軽量のソフトウェアレイヤーです。エージェントを使用することで、強力で安全なアプローチが可能になります。ただし、エージェントは各システムで管理およびインストールする必要があり、一部のクラウド環境には適さない場合があります。これらのエージェントの更新プロセスを、可能であればCI/CDパイプラインを介して自動化することをお勧めします。
データ収集のもう1つのアプローチはエージェントレスです。通常、このアプローチでは、システムがデータをモニタリングソリューションに送信するか、モニタリングソリューションがこのデータをシステムからプル/スクレイピングする必要があります。エージェントレスアプローチはサーバーに適し、各システムでエージェントを保持する必要がなくなります。ただし、このモニタリングアプローチで収集されたシステム詳細は、包括性に欠ける傾向があります。
エージェントを使用するアプローチとエージェントを使用しないアプローチを組み合わせることが理想的です。ただし、正確な設定はユースケースによって異なります。
インフラストラクチャのどの部分に対するモニタリングが必要か
インフラストラクチャのどの部分をモニタリングするかは、SLA要件、システムの場所、複雑さなどの要因に応じて特定します。Googleには4つのゴールデンシグナルがあり、チームが重要なメトリックを絞り込むのに役立ちます。ほとんどのオンプレミスシステムは簡単にモニタリングできます。ただし、クラウドプロバイダーは、モニタリングできるホストシステムを制限できます。ほとんどのプロバイダーは、システムメトリック、ログ、イベントへのアクセスを許可します。それ以外のものにはアクセスできない場合があります。インフラストラクチャの次のような部分をモニタリングします。
- サーバーとそのコンポーネント
- ネットワークレイヤーとデバイス
- ファイアウォールとAPIゲートウェイ
- ロードバランサー
- ブロックストレージシステムまたはオブジェクトストレージシステム
- データベースインスタンス
- コンテナとコンテナオーケストレータ
一般的なシステムモニタリングメトリックには次のものがあります。
- メモリ不足
- ディスク容量不足
- 高CPU使用率に関する警告
- 過剰な接続リクエスト
- 遅いトランザクション
- 高いネットワークレイテンシー
- 過剰な失敗リクエスト
- ドロップまたは失われたネットワークパケット
- タイムアウト警告
- クラスター環境でスケジュールされた過剰なコンテナ
- サーバーとデータベースのバックアップステータス
各システムのこのメトリックリストは、すべてを網羅しているわけではありません。インフラストラクチャのさまざまな部分について、ビジネス要件と期待を判断する必要があります。これらのベースラインは、モニタリングが必要なメトリックを把握し、アラートしきい値の設定ガイドラインを確立するために役立ちます。
インフラストラクチャモニタリングプラットフォームで重要な要素
効果的で信頼性の高いインフラストラクチャモニタリングソリューションには、一般的に次のような共通の特徴があります。1つずつ見ていきましょう。
インストールと管理の容易さ
SaaSソリューションを使用すると、モニタリングプラットフォームのセットアップ、セキュリティ、メンテナンスをベンダーに任せることができます。これにより、ビジネスチームはシステム自体に重点的に取り組むことができます。軽量のモニタリングと正確なシステムデータをタイムリーに提供するには、システムコンポーネントとの緊密な統合が非常に重要です。データプライバシーも重要な懸念事項となり、多くの組織では機密情報を受信時にサニタイズできるプラットフォームが要求されます。
高パフォーマンス
システムを包括的にモニタリングすると、大量のデータを迅速に収集およびエクスポートできます。そのため、モニタリングプラットフォームで大量データを高速に取り込んで処理できる必要があります。このレベルのパフォーマンスがなければ、インシデント対応チームにシステムに関する最新の関連情報を提供できません。このパフォーマンスをアラートなどの機能と組み合わせることで、システム異常の兆候を迅速に検出して対応できます。
高度なデータ分析ツール
堅牢なインフラストラクチャモニタリングソリューションには、ビジネスチームがデータの操作をカスタマイズできるツールを含める必要があります。フィルタリング、検索、相関付け、集約機能により、データ内の関係が検出され、潜在的な問題が特定されます。これらの機能をダッシュボードと傾向分析に統合すると、チームはシステムの正常性を把握するために必要な情報を入手できます。
次世代SIEMおよびログ管理のための世界をリードするAIネイティブプラットフォームをお試しください
SIEMとログ管理のための最高水準のAIネイティブプラットフォーム、CrowdStrike Falcon®プラットフォームでサイバーセキュリティを強化しましょう。ペタバイト規模でのセキュリティログを体験してみてください。クラウドネイティブ型または自己ホスト型での展開が可能です。ボトルネックの生じない、強力でインデックスフリーのアーキテクチャを利用してデータをロギングすれば、1日あたり1PB以上のデータを取り込んで脅威ハンティングに役立てることができます。リアルタイムの検索機能により攻撃者をしのぐスピードで対策を実施できます。複雑なクエリを実行しても、そのレイテンシーは1秒未満です。360度の可視性によりデータを統合してサイロ化を解消し、セキュリティ、IT、DevOpsチームがシームレスに脅威のハンティング、パフォーマンスのモニタリング、コンプライアンスの確保を行うことができます。30億件ものイベントにわたる作業でも1秒未満で実施できます。