【智能运维】从 0 搭建大规模分布式 AIOps 系统
大数据时代如何做好运维?基础设施平台化 + 集群管理自动化 + 运维决策智能化。
更新历史
- 2022.11.26:完成初稿
读后感
这本书属于快速扫盲和科普,串讲了一遍技术侧的内容,总体来说参考价值有限,因为技术迭代速度太快了。
读书笔记
运维现状
SLA 的衡量指标:
- 平均故障间隔时间 MTBF,产品可靠性指标
- 平均修复时间 MTTR
- 可用性 Availabilty = MTBF / (MTBF + MTTR)
运维涉及的常见技术和框架
- 操作系统: CentOS, Ubuntu 等
- Web Server:Nginx,Apache 等
- 网络工具:tcpcopy, curl 等
- 监控和报警系统:Grafana, Zabbix 等
- 自动部署:Ansible, sshpt, salt, Jenkins 等
- 配置管理及服务发现:Puppet, Consul, Zookeeper 等
- 负载均衡:LVS, HAProxy, Nginx 等
- 传输工具:Scribe, Flume 等
- 集群管理工具:Zookeeper 等
- 数据库:MySQL, Oracle, SQL Server 等
- 缓存技术:Redis, Memcache 等
- 消息队列:Kafka, ZeroMQ 等
- 大数据平台:HDFS, MapReduce, Spark, Storm, Hive 等
- 大数据存储:HBase, Cassandra, MongoDB, LevelDB 等
- 时序数据(OLAP 平台):Druid, OpenTSDB 等
- 容器:Docker, K8s
- 虚拟化:OpenStack, Xen, KVM 等
运维发展历史
- 人工阶段
- 工具和自动化阶段
- 平台化阶段
- 监控系统:ELK, Grafana, OpenTSDB
- 报警系统:Zabbix
- 自动化平台:Gitlab, Jenkins, Ansible, sshpt, salt, Docker
- 智能运维阶段
关键模块
- 开源数据采集技术
- 工具:Flume, Filebeat(golang), Logstash, Scribe
- 分布式消息队列技术
- 消息中间件;ZeroMQ, ActiveMQ, RocketMQ, Kafka
- 大数据存储技术
- HDFS
- 数据仓库:Buffer / ODS / DWD / DWS / DM
- 大规模数据离线计算分析
- 实时计算框架
- 框架:Spark Streaming, Flink
- 时序数据分析框架
- 时序数据库:Graphite, InfluxDB, OpenTSDB, Prometheus, Druid, Elasticsearch, ClickHouse
- 机器学习框架
智能运维技术
关键技术
- 数据聚合与关联技术
- 数据异常点检测技术
- 故障诊断和分析策略
- 趋势预测算法