软件开发架构师

85年制造业老兵——丹佛斯的运维监控逻辑-InfoQ

运维 31 2019-11-08 13:10

丹佛斯是一家成立于 1933 年、拥有 85 年发展历史的老牌制造业公司,1994 年,先后成立丹佛斯香港有限公司和北京办公室,正式进军中国市场。据相关报道,2018 年全年丹佛斯集团销售额为 60.98 亿欧元(约合人民币 474.65 亿元)。2019 年第一季度,丹佛斯集团销售额达到 15.63 亿欧元(约合人民币 121.66 亿元)。

相信很多人都很好奇,这样一家老牌企业的运维监控逻辑是怎样的?本文我们采访了丹佛斯的 IT 监控经理陈春起,他为我们详细介绍了丹佛斯的运维团队情况、监控体系的技术架构以及他们的运维监控逻辑。

85年制造业老兵——丹佛斯的运维监控逻辑-InfoQ-1

丹佛斯 IT 监控经理陈春起

运维团队的情况

据了解,目前丹佛斯在全球有 600 多名内部 IT 员工,同时在全球各地项目中还有近 300 名外部 IT 员工,总共加起来有 1000 名左右的 IT 员工。而在中国,丹佛斯共有 100 多位 IT 员工,主要以运维团队为主。

与大部分公司一样,丹佛斯的 IT 运维团队也是根据业务形态去划分的,既包括支持销售链的虚线,也包括支持当地业务的实线。例如,根据业务的不同,会有 CRM、ERP 等等系统的管理,同时为了便于管理员工,每个区域还会有 HR 经理进行实质管理。

前文,我们提到了丹佛斯是个发展历史较为悠久的跨国公司,但是奇特的是,它的运维部门全部集中在中国。据陈春起介绍:“很多跨国企业在中国可能只有支持部门,但是我们运维部门是具有职能权力的部门,可以自主决定使用哪些工具、构建哪些项目。同时,丹佛斯也一直在推广全球的系统标准化,例如全球的供应链系统、ERP 系统、销售系统等,这些系统只是语言不同,但使用的系统只有一套。”

哪些系统是监控的核心系统?

丹佛斯的业务类型很丰富、各种系统也很庞杂,那么哪些系统会是运维监控团队重点关注的核心系统呢?

陈春起表示:“要了解监控应该重点关注哪些系统,首先应该看哪些业务对公司来说是最重要的。例如财务,没有钱公司就无法运转。供应链,没有供应链就无法生产。还有销售,生产了产品肯定要销售…其次,要看这些业务都对应哪些 IT 系统,例如财务对应的是财务流程系统,供应链和生产对应的是 ERP 系统,销售对应的是消息系统或者 E-commercial 系统。第三,以上工作都是我们在帮助业务部门做监控,下一步,我们会把这些监控应用打包提供给业务部门,并由业务部门进一步提供给客户。例如,IoT 相关监控其实是由业务部门的研发团队自己组建团队,并与产品部门合作完成的。”

除了了解系统对业务的重要程度,数据的敏感度和安全性也同样需要关注,具体到监控系统层面,就是我们要关注监控系统的可用性、可靠性和安全性。丹佛斯运维团队除了日常运维,还结合监控做了安全的运营中心。

丹佛斯的监控系统

丹佛斯大部分监控系统是在云上的,因此应用端监控应用的是 Dynatrace,是纯云端,而在基础架构方面是采用混合云的方式,丹佛斯不仅使用了微软、AWS、谷歌、阿里巴巴的数据中心,同时也有自己的数据中心,因此本地数据中心的监控以及安全的监控都会放在本地完成。陈春起表示:“我们需要对某些数据具备完全掌握的能力,避免放在云端产生不必要的危险,因为无论是收集数据、传输数据还是存储数据的哪个环节出现问题,对我们来说都是很大的损失。”

在技术选型方面,丹佛斯的监控技术架构平台大部分用的是微软产品,网络监控平台用的是惠普产品,应用级别的监控用的是 Dynatrace,同时在各个层面(例如用户端层、应用端层、技术架构层等等)都会有安全级别的监控。

以 Dynatrace 为例,,目前 Dynatrace 软件智能平台已经应用到了对丹佛斯 50 套至关重要的应用系统的监控,其中包括全球门户网站、全球的 B2B 的销售网站,以及全球产品生命周期管理系统等前沿的系统,在做解密、呈现等方面给予丹佛斯全面支持。从应用成效上看,Dynatrace 软件智能平台帮助丹佛斯减少了人力成本,同时将应用代码变成简单易懂的报表,解决了以往监控中的黑盒问题。

为什么丹佛斯会更倾向于与其它公司合作,而不是自建监控系统呢?陈春起表示:“作为一个工业企业的 IT 团队,首先我们不希望自己变成企业中复杂度的产生者。大家普遍会认为工业企业的变化很慢,但其实我们的业态变化非常快,需要即插即用、需要有弹性,而这些是自研软件无法满足的。并且如果是自研,还需要有足够的人、复杂的流程。另外,技术每天都在更新换代,在业态快速变化的环境下,我们每天都在使用不同的技术,寻找不同的切入点,自研系统同样无法满足这些需求。”

报警是监控系统的重要组成部分。陈春起表示,丹佛斯每天的报警大概会有几十万条,但是这些报警的级别不同,需要处理的报警可能只有几百条。当然,这样操作难免会出现漏报误报的情况,丹佛斯运维团队的做法是先梳理哪些报警会影响关键业务,如果没有影响的话,那么就针对这些报警做后期分析,找出需要改进的部分。同时,他们会将不同层面监控系统获取到的信息都统一放到集中的日志管理系统中,并在该系统中进行一些联动、分析等操作。

制造业的运维思维

制造业企业的运维人员与其它行业相比有哪些不同呢?陈春起表示:“制造行业正全方位向工业 4.0 发展,而作为这些企业 IT 部门的员工,最大的机遇和挑战就是转型,而对于运维人员来说,最大的转型就是要从幕后走到台前。”

如何从幕后走到台前呢?首先,要多和业务部门沟通交流,了解之前发生过什么问题、这些问题是如何解决的,如何能让问题不再重现;其次,要和业务部门合作,运维团队和业务团队各自做自己擅长的工作,然后把二者衔接在一起,变成“运维服务部门”。如何合作呢?例如,业务部门在意的是用户满意度、转化率等等,运维部门可以把相关数据整理成用户行为分析,直接与业务部门、市场部门合作来制定商务策略。

陈春起认为:“我们运维部门的能力永远不是体现在技术能力上,当然这不是说工业企业的 IT 团队没有技术能力,而是技术每天都在变化,但我们没必要始终追着技术更新跑,真正需要关心的是我们如何满足业务需求,了解业务才是运维团队的核心!”

嘉宾介绍:

陈春起,丹佛斯集团 IT 监控经理,在 IT 监控领域 10 年的资深专家,成功的完成丹佛斯的 IT 监控从基础架构监控到应用程序监控的转变,为丹佛斯数字化转型提供保障。

文章评论