软件开发架构师

观点:云大数据服务一定是终极形态吗?

大数据 179 2019-03-26 23:29

企业需要大数据能力,但获取这一能力的途径是否全部来源于云?云计算和大数据都很重要,云大数据服务一定是终极形态吗?

如今,即便是传统企业也应该意识到了云计算和大数据的重要性,云是趋势,但基于云的大数据服务是否就是唯一终极形态呢?过去,国外的技术发展趋势总会在国内得到验证,比如 Hadoop,最早是根据谷歌发表的 MapReduce 和 Google 文件系统的论文实现而成,但最后在中国市场得到了很好应用,这之中也存在很多差异,比如国内企业的数据规模更大,数据类型更加丰富,导致国内市场逐渐衍生出很多其他工具和应用。

就云计算而言,虽然现在可以找到百余种有关定义,但其很明显的一个优势就是强大的计算能力,甚至可以达到每秒 10 万亿次,这个数字也在日后得到不断刷新。看起来,这似乎是大数据运算的优质场所,因此,云大数据服务渐渐兴起,Hadoop 与 Spark、Flink 等流技术的融合开始在云平台发生。

当然,云计算发展至今不止有公有云一种选择。只是,最先起家的 AWS 一直在努力做公有云,其他私有云厂商则长时间被笼罩在一片乌云之下,这片乌云就是 AWS 并不看好这一领域,并多次在公开场合发表相关言论表明这一态度。但是,AWS 最终还是主动推出了 Outposts 混合云产品,这是否意味着对某部分市场的妥协不得而知,但不少媒体倾向于这样认为。总之,云计算的出现让大数据也不止有本地搭建一种模式,但哪种排列组合才可以走到最后呢?

InfoQ 就相关问题展开系列探讨,追踪采访数位行业内云计算和大数据相关方向技术专家,从他们的观点中获取答案。本期采访嘉宾——网易猛犸资深产品经理王文庭。

云大数据,为时尚早

在近期的采访中,业内专家向笔者表示,虽然中国有 84% 的企业表示有上云意愿,但中国依旧处于云计算发展早期。如今,云计算之所以被频繁提起就是因为还不够成熟,各项服务也均处于发展阶段。

环境差异

正如上文所言,很多情况下,一项技术在国内外的应用环境并不相同,这在大数据时代尤为明显。此前,笔者曾针对 Hadoop 的使用情况进行过采访调研,国内外用户对 Hadoop 的使用态度存在明显不同,国内市场普遍对 Hadoop 的未来发展持肯定态度,而国外银行用户对 Hadoop 的部署并不乐观,认为很多企业用户在受到互联网的冲击后,形成了一种“便宜且大而全就是好”的观念,但实际部署 Apache Hadoop 的成本甚至超过商业平台。

这种情况并不仅仅出现在 Hadoop 身上,反观云计算,国内外的应用进度也存在明显不同。王文庭表示,基于云平台的大数据服务在国外具备一定普及基础,但在国内,互联网企业和传统企业面临的企业运营、数据情况和数据体量存在千差万别。因此,网易云认为,未来,中小型互联网企业可能会更多选择基于云平台的大数据服务,但是对于大型及传统企业来说,更倾向于选择私有化部署大数据服务,因为这更加贴近企业需求。

近年来,开发人员经历了多轮技术冲击,当云计算可以应对一些基本诉求后,舆论中的开发人员似乎日子更难了。对企业而言,选择大数据服务本身就是业务体量到达一定阶段才会出现的需求。体量越大,业务种类越多,对大数据服务的要求也就越高,尤其某些对高并发有所要求的企业,王文庭表示,在技术能力方面,企业应该会需要更多大数据架构及开发人员的支持。

存在即合理的多种选择

如今,大数据服务越来越成为企业技术建设的基础设施,所有企业几乎都认识到了数据的重要性。换言之,未来不断推出的新技术应用可能都需要建立在企业具备完整、全面的大数据基础设施之上。对企业来说,大数据建设并不是遥不可及,也有多种选择。

对于大数据平台建设,王文庭认为,企业首要考虑因素可能就是成本,这包括人员、设施、时间等。互联网公司由于普遍具备一定技术能力,因此更倾向于在云平台之上自行搭建。但是,对于传统型企业,比如金融、物流、传媒、农业等,普遍缺乏一定技术能力,因此更倾向于选择供应商搭建,多种选择都没问题,只要是从企业自身实际需求出发,就是合理的方式。

目前,网易云主要是以私有化部署形式提供服务,包括一站式大数据管理和应用开发平台网易猛犸、企业级大数据可视化分析平台网易有数。前者提供数据集成、数据存储、数据计算、数据管理和数据安全等能力,后者提供自助式分析、数据大屏、数据填报、可视化建模和高性能 MPP 等功能。

网易云平均每天有 2500 多中大型客户使用其大数据平台,日均运行作业数超过 14 万。根据了解,用户使用最多的功能是数据质量监控功能(数据质量管控和追溯),以及数据科学工作台(模型训练及调试),这也可以实际反映出目前大数据平台用户的实际诉求。

对于中大型客户而言,这类客户选择大数据服务最关注的可能是安全性,其次是稳定性,这可能包括多重业务考验以及处理大量数据、突发状况的能力等。中大型企业对数据安全尤其看重,采用网易云大数据平台的客户,不乏因为安全性顾虑而从稳定的云大数据服务迁移到私有化部署平台的企业。平台本身的问题解决了,然后才是数据服务的全面性,比如数据治理能力。

基于此,网易大数据服务接下来将努力解决企业最关注的数据质量问题,在数据质量控制、监控、分析及跟踪方面投入精力;其次是数据治理,包括数据资产管理、全链路数据血缘、权限等,最终,网易大数据服务希望能够为数据科学家及分析人员提供数据探索、分析、建模及可视化的整套解决方案。

终极形态

云是趋势,这个毋庸置疑,但是基于云的大数据服务,王文庭认为还处于未普及状态。对于中小型企业,基于云的大数据服务可能会有一些应用,但对绝大多数大型企业而言,云大数据服务尚取代不了本地部署方式。相反,大型企业因为到了数字化转型的重点节点,对本地化大数据服务存在真实需求。

未来,面向大型企业的本地化大数据服务,也会随着新技术的应用,向智能化、统一化的方向发展,例如现在层出不穷的大数据“中台解决方案”,本质是企业需求不断增加的体现。未来很长一段时间内,多种形式的大数据服务可能还是会存在,因为国内的云服务和业务情况多样,云厂商即使占据较大规模市场,主要客户群也受限于中小企业。因此,从网易云的实践经验来看,云大数据服务市场尚未成熟,目前还没有露出终极形态的苗头。

文章评论