加入收藏 | 设为首页 | 会员中心 | 我要投稿 拼字网 - 核心网 (https://www.hexinwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长学院 > MySql教程 > 正文

京东数据库智能运维平台建设之路

发布时间:2018-09-05 08:18:39 所属栏目:MySql教程 来源:京东商城技术架构
导读:运维自动化来源于工作中的痛点,京东数据库团队面对的是商城成千上万的研发工程师,这种压力推动我们不断变革,然而变革不是一蹴而就,也经历过从手工到脚本化、自动化、平台化、智能化的艰难转变,所以说是需求在驱动运维体系的建设,而运维自动化的真谛
副标题[/!--empirenews.page--]

运维自动化来源于工作中的痛点,京东数据库团队面对的是商城成千上万的研发工程师,这种压力推动我们不断变革,然而变革不是一蹴而就,也经历过从手工到脚本化、自动化、平台化、智能化的艰难转变,所以说是需求在驱动运维体系的建设,而运维自动化的真谛在于解放运维人员,促进人率提升,减少人为故障,要学会培养自己“懒”这个好习惯。

京东的自动化运维体系建设始于2012年,下面从两个方面进行介绍:

一、京东数据库智能运维平台

京东业务每年都在以爆发的形式在增长,数据库服务器的数量众多,产品线也多达上千条,要支持如此庞大的业务体系,需要一套完善的运维自动化管理平台。目前京东MySQL数据库管理平台简称DBS,主要涵盖以下内容:完善的资产管理系统、数据库流程管理系统、数据库监控系统、数据库故障管理系统、数据库报表系统、弹性数据库系统以及数据库辅助运维工具,涉及DBA运维的方方面面,实现了DBA对MySQL的自动化、自助化、可视化、智能化、服务化管理,避免DBA因手工操作失误带来的生产事故,保障京东数据库的安全、稳定、高效运行。

这里着重介绍以下部分核心功能组件:

京东数据库智能运维平台建设之路

1、元数据管理

作为自动化运维的基石,它的准确性直接关系到整个数据库管理平台的可靠性。京东数据库管理平台从数据库业务方、DBA的运维习惯等方面出发,涵盖机房、主机、业务、集群、实例、库、表等多个维度:

  • 机房和主机维度:主要记录硬件方面的信息。
  • 业务维度:主要记录业务的名称、等级及业务部门相关信息。
  • 集群维度:主要记录MySQL集群架构信息。
  • 实例维度:主要记录MySQL的相关参数,为后续自动化运维提供保障。
  • 库维度:主要记录数据库名称及业务人员联系信息。

京东数据库智能运维平台建设之路

2、自动化部署

面对繁杂的数据库新增,扩容等运维工作,利用自动安装部署平台可以彻底解放DBA。目前京东的自动化部署系统包含申请服务器、部署数据库实例、同步数据、一致性校验、拆分及切换等操作,整个过程流程化,包含各级业务及DBA的操作审批,最终达到全面的MySQL服务的自动化和流程化部署,如下图:

京东数据库智能运维平台建设之路

主要功能点包含以下内容:

  • 安装部署MySQL实例,架构搭建,域名申请。分配规则要求同一集群主从实例不能在同一机柜,硬件性能好的主机优先为主库。
  • 监控部署,备份部署,资产注册。
  • MySQL服务采用镜像的形式创建,镜像依赖于K8S的镜像仓库。
  • 应用账号是应用方通过自动化上线系统申请创建的。
  • 主从数据一致性校验,通常会选择夜间业务低峰期定时执行。

3、智能分析与诊断

京东的智能分析与诊断涵盖4部分重要的内容,数据库监控指标采集、诊断分析、故障自愈、趋势分析:

京东数据库智能运维平台建设之路

(1)监控系统

监控系统为数据库管理提供了精准的数据依据,能够让运维人员对生产服务系统运行情况了如指掌,核心的监控指标包含:OS负载、MySQL核心指标、数据库日志等。通过分析获得的监控信息,判断被监控数据库的运行状态,对可能出现的问题进行预测,并给出优化方案,保证整个系统稳定、高效。

京东的分布式监控系统采用被动模式,server端和proxy端均做高可用,防止单点故障。以下是整体架构和流程图:

京东数据库智能运维平台建设之路

(2)监控性能分析

京东数据库智能运维平台建设之路  

数据库性能智能分析,主要是对数据库监控数据的二次分析,排除安全隐患。在实际的生产中,有些隐患没有达到设置的报警阈值,处于一个报警的临界点,其实这种情况是最危险的,随时可能爆发,为解决这些隐患,我们通过对监控数据的环比、同比、TOP指标等方面进行分组汇总分析,提前发现隐患。

慢SQL分析:

京东数据库智能运维平台建设之路

索引分析:

京东数据库智能运维平台建设之路

空间分析及预测:

京东数据库智能运维平台建设之路

锁分析:

京东数据库智能运维平台建设之路

(3)故障自愈

京东数据库智能运维平台建设之路

故障出现的形态千奇百怪,而最核心的内容依赖于监控的辅助分析,如何提供最为精准的信息,所做内容如下:

  • 告警过滤:将告警中不重要的告警以及重复告警过滤掉 
  • 生成派生告警:根据关联关系生成各类派生告警 
  • 告警关联:同一个时间窗内不同类型派生告警是否存在关联 
  • 权重计算:根据预先设置的各类告警的权重,计算成为根源告警的可能性 
  • 生成根源告警:将权重最大的派生告警标记为根源告警 
  • 根源告警合并:若多类告警计算出的根源告警相同,则将其合并 

4、智能切换系统 

(编辑:拼字网 - 核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!