- 目次
- 内容紹介
- A’s Review
内容紹介
Betsy Beyer 著、Chris Jones 著、Jennifer Peto 著、Niall Murphy 著、澤田 武男 監訳、関根 達夫 監訳、細川 一茂 監訳、矢吹 大輔 監訳、Sky株式会社 玉川 竜司 訳
サイトリライアビリティエンジニアリング(SRE)とは、Googleで培われたシステム管理とサービス運用の方法論です。
GoogleのSREチームの主要メンバーによって書かれた本書は、ソフトウェアのライフサイクル全体にコミットすることで世界最大規模のソフトウェアシステムがどのように構築、導入、監視、維持されているのかを解説します。
はじめにリスク管理やサービスレベル目標、リリースエンジニアリングなどSREの行動の基礎となる原則について解説し、次にインシデント管理や障害の根本原因分析、SRE内でのソフトウェア開発など大規模分散コンピューティングシステムを構築し運用するSREの実践について詳述します。
さらにSREのトレーニングやコミュニケーションなどの管理について紹介します。
A’s Review
Googleが開発したサイトの信頼性を担保するための手法であるSRE(Site Reliability Engineering)の指南書で、サイトリライアビリティ、エラーバジェット、監視、インシデント管理、ツール開発など、SREチームが日々取り組む問題について詳しく解説されています。これらの解説は、同社の開発チームが実際に運用してきたシステムの設計と運用に関する経験やベストプラクティスに基づいています。
本書の良い点は、SREの本質を明確に理解できることです。SREは、システムの信頼性を高め、サービスの高可用性を維持することが主な役割であり、本書はそのための方法や手法を明確に示しています。また、Googleのような大規模なシステムにおいて、SREがどのように機能するかについての具体的な例も提供しています。
さらに、本書はSREと開発チームの協力関係についても詳しく説明しています。SREと開発チームが密接に連携し、品質の高いサービスを提供するためのベストプラクティスも解説されています。
本書の欠点を挙げるとすると、SREについて学ぶ上で必要な基礎知識が書かれていないため、初心者には少し難解に感じる可能性があることです。また、内容がGoogleでのSREの実践に特化しているため、他の企業や組織には直接適用できないという点もあります。(この点を補完したい場合は、同出版社の「SREの探求」という書籍が参考になります。様々な企業や組織がSREをどのように実践しているかが記載されています)
私はこの本を読んで、部門内でのSREチーム発足の準備に大いに役立てることができました。SREという役割について理解を深め、システムの信頼性を高めるために必要な手法や方法論を学ぶことができました。
SREの特に重要な業務である「自動化」について得られた気づきがあります。それは「自動化を過信しない」ということです。
自動化は非常に有用なツールであり、適切に活用することで人的ミスの削減や効率化を実現することができますが、完全に自動化されたシステムは存在しない点に気を付けなければなりません。また、システムが複雑化することでトラブルの発生率が上がるという問題もあります。そのため、SREチームとしては自動化と複雑化をバランスよく扱い、必要に応じて手動での操作や監視を行うことも必要だと感じました。
全体として、この本はSREの手法や考え方について学ぶ上で非常に役立ちます。Googleが信頼性の高いサイトを提供するために採用している手法が分かりやすく説明されており、SREに興味のある人には必読の書であると言えるでしょう。
ただし、初心者には難しい部分もあるため、SREの基礎知識を理解しながら、ゆっくりと読み進めることをおすすめします。
連載一覧
筆者紹介

●システム管理者の会 推進メンバー
システム管理者の会の企画・運営をする推進メンバ―が、会員の皆様にお奨めする本をご紹介してまいります。
この本を読んだことがある方、読まれた方のご感想もお待ちしております!(⇒ぜひ、コメント欄にコメントをお寄せください☆)
コメント
投稿にはログインしてください