【智能运维】从 0 搭建大规模分布式 AIOps 系统

大数据时代如何做好运维?基础设施平台化 + 集群管理自动化 + 运维决策智能化。


更新历史

  • 2022.11.26:完成初稿

读后感

这本书属于快速扫盲和科普,串讲了一遍技术侧的内容,总体来说参考价值有限,因为技术迭代速度太快了。

读书笔记

运维现状

SLA 的衡量指标:

  1. 平均故障间隔时间 MTBF,产品可靠性指标
  2. 平均修复时间 MTTR
  3. 可用性 Availabilty = MTBF / (MTBF + MTTR)

运维涉及的常见技术和框架

  • 操作系统: CentOS, Ubuntu 等
  • Web Server:Nginx,Apache 等
  • 网络工具:tcpcopy, curl 等
  • 监控和报警系统:Grafana, Zabbix 等
  • 自动部署:Ansible, sshpt, salt, Jenkins 等
  • 配置管理及服务发现:Puppet, Consul, Zookeeper 等
  • 负载均衡:LVS, HAProxy, Nginx 等
  • 传输工具:Scribe, Flume 等
  • 集群管理工具:Zookeeper 等
  • 数据库:MySQL, Oracle, SQL Server 等
  • 缓存技术:Redis, Memcache 等
  • 消息队列:Kafka, ZeroMQ 等
  • 大数据平台:HDFS, MapReduce, Spark, Storm, Hive 等
  • 大数据存储:HBase, Cassandra, MongoDB, LevelDB 等
  • 时序数据(OLAP 平台):Druid, OpenTSDB 等
  • 容器:Docker, K8s
  • 虚拟化:OpenStack, Xen, KVM 等

运维发展历史

  1. 人工阶段
  2. 工具和自动化阶段
  3. 平台化阶段
    1. 监控系统:ELK, Grafana, OpenTSDB
    2. 报警系统:Zabbix
    3. 自动化平台:Gitlab, Jenkins, Ansible, sshpt, salt, Docker
  4. 智能运维阶段

关键模块

  1. 开源数据采集技术
    1. 工具:Flume, Filebeat(golang), Logstash, Scribe
  2. 分布式消息队列技术
    1. 消息中间件;ZeroMQ, ActiveMQ, RocketMQ, Kafka
  3. 大数据存储技术
    1. HDFS
    2. 数据仓库:Buffer / ODS / DWD / DWS / DM
  4. 大规模数据离线计算分析
  5. 实时计算框架
    1. 框架:Spark Streaming, Flink
  6. 时序数据分析框架
    1. 时序数据库:Graphite, InfluxDB, OpenTSDB, Prometheus, Druid, Elasticsearch, ClickHouse
  7. 机器学习框架

智能运维技术

关键技术

  1. 数据聚合与关联技术
  2. 数据异常点检测技术
  3. 故障诊断和分析策略
  4. 趋势预测算法