
もう一度読むSRE #125 / SREをはじめよう 1章
SREをはじめよう 1章 はじめに
Radio and PodcastLive Radio & PodcastsOpening Radio and Podcast...

Radio and PodcastLive Radio & PodcastsFetching podcast shows and categories...
Radio and PodcastLive Radio & PodcastsFetching podcast episodes...

「もう一度読むSRE」は、株式会社Topotal(トポタル)の高村と菱田がディスカッション形式で「SRE サイトリライアビリティエンジニアリング」を読み進めるポッドキャストです。 SRE を今から知りたい方はもちろん、SRE の基礎を改めて学びたい方もぜひ視聴ください。Twitter のハッシュタグは #もう一度読むSRE です。

SREをはじめよう 1章 はじめに

34章 まとめ

33章 他の業界からの教訓

32章 進化する SREのエンゲージメントモデル ~ 32.7 まとめ

31.4 SRE外でのコラボレーションから 31.6 まとめまで

31.3 SRE内でのコラボレーションのケーススタディ:Viceroy ~ 31.3.3 推奨事項まで

31章SREにおけるコミュニケーションとコラボレーションから31.2.2 効率的な作業のための手法まで

30章 SREの投入による運用過負荷からのリカバリから30.4 まとめ

29.3.3 真剣な解決策から29.3.4.2 顧客と共に自分も尊重することまで

29 章 割り込みへの対処から29.3.2.2 時間の二極化まで

28.3 優れたリバースエンジニアリングと柔軟な思考の育成から28.6 まとめまで

第4部管理 28章 SREの成長を加速する方法:新人からオンコール担当、そしてその先へ 〜 28.2.2 単純作業ではなく、目的のはっきりしたプロジェクトの作業を受け持ってもらうこと まで

27.5 LCEの発展から27.6 まとめまで

27.2.2 収束と単純化の推進 から 27.4.4 過負荷時の挙動とロードテスト まで

27 章 大規模なプロダクトのローンチにおける信頼性 から 27.2 ローンチプロセスのセットアップ まで

26.4.2 Google Music - 2012年3月:暴走した削除の検出から26.6 まとめまで

26-3-6第3のレイヤーから26-3-6-2通常の処理外でのデータ検証まで

26.3.6 第3のレイヤー:早期の検出から26.4.1 Gmail - 2011年2月:GTapeからのリストアまで

26.3.3 第2のレイヤー:バックアップと関連するリカバリの方法 から 26.3.5 テラバイト対エクサバイト:大きい「だけ」ではなくなるバックアップ

26.3 データ完全性の課題へのGoogle SREの対処 から 26.3.2 第1のレイヤー:論理削除 まで

26.2.3 データの損失につながる障害の種類から26.2.4.2 リテンションまで

26.1.3 大局的な視点から見たクラウド環境の要件 から 26.2.2 バックアップシステムよりもリカバリのシステムを提供しよう

26章 データの完全性から26.1.2 バックアップとアーカイブまで

25.5.1 定期パイプラインにおけるモニタリングの問題 から 25.6.1 Model-View-ControllerパターンとしてのWorkflow まで

もう一度読むSRE #101で話した雑談回です。

25.3 定期的なパイプラインパターンでの課題 から 25.5 分散環境における定期パイプラインの欠点 まで

24.4.5 大規模な cron の実行 から 25.2 シンプルなパイプラインパターンでのビッグデータの 初期の効果 まで

24.4.3.3 部分的な障害の解決 から 24.4.4 状態の保存

24.4.3 リーダーとフォロワーの役割〜24.4.3.2 フォロワーまで

24.3.2 拡張された要求から24.4.2 Paxosの利用まで

24 章 cronによる分散定期スケジューリング から 24.3.1 拡張されたインフラストラクチャ まで

23.5.3.1 クォーラムの編成 〜 23.7 まとめ

23.5.3 キャパシティとロードバランシング

23.5.2 レプリカの配置

23.5 分散合意ベースのシステムのデプロイ〜 23.5.1 レプリカ数

23.4.8 ディスクアクセス

23.4.5 パフォーマンスに関する考察:Fast Paxos から 23.4.7 バッチ処理 まで

23.4.2 読み取り負荷が大きいワークロードのスケーリングから23.4.4 分散合意のパフォーマンスとネットワークのレイテンシまで

23.4.1 Multi-Paxos:詳細なメッセージフロー

23.3.5 信頼性を持つ分散キュー及びメッセージング から 23.4 分散合意のパフォーマンス まで

23.3.3 リーダー選出を利用する高可用性を持つ処理 から 23.3.4 分散協調及びロックサービス まで

23.3 分散合意のためのシステムアーキテクチャパターン から 23.3.2 信頼性を持つ複製データストア及び設定ストアまで

23.2 分散合意の動作 から 23.2.1 Paxosの概要: サンプルプロトコル まで

23.1 合意を利用する目的:分散システムの協調障害 から 23.1.3 ケーススタディ 3:問題のあるグループメンバーシップアルゴリズム まで

23章 クリティカルな状態の管理: 信頼性のための分散合意

SRE NEXT 2023 Chair ぐりもおさん をゲストに迎え、SRENEXTのことをお聞きしました。

22.6 カスケード障害に対応するためにすぐに行うべき手順 から 22.7まとめまで

22.4 カスケード障害を引き起こす条件 から 22.5.3 重要度の低いバックエンドのテスト まで

22.3 起動直後の低パフォーマンスとコールドキャッシュ から 22.3.1 スタックは常に下っていくようにすること まで

22.2.4 レイテンシとタイムアウト から 22.2.4.4 二峰性のレイテンシ まで