一个真实的故事。

某家商业银行为准备国庆长假计划策划大型营销活动,以此来带动老用户消费和挖掘潜客。通常,业务部门通常会与电商、OTA、出行、O2O等平台,甚至保险公司、线下餐饮、影院、购物中心等进行权益合作,为了让营销效果最优,数据分析部门和技术部门需要与业务部门反复沟通需求,去对数据做采集、处理、清洗、打通与匹配,最后通过聚类和统计分析,将客户群进行划分,并给业务部门出相应的数据分析报告,但折腾一个月,业务部门最后发现报告内容可执行性并不强,营销效果差强人意。

这种情况在金融领域比比皆是。作为银行核心业务的营销需要大量的人力、沟通以及时间,数据维度太少,数据打通程度不够,业务部门不能真正把数据价值用起来,缺乏数据闭环,使得业务营销效果不佳。这些现象的背后其实反应出目前绝大部分用户所面临的普遍挑战:数据存不下、流不动、用不好,而根本原因在于数据基础设施上落后,无法有效帮助用户支撑起数字化时代一系列基于数据的业务应用与创新。

强如银行这种科技水平很高的行业在数据基础设施领域都存在着巨大挑战,更何况其他行业。未来,数据基础设施的建设必然会成为所有行业用户在数字化转型过程中需要重点去应对的重要挑战之一。

数据基础设施为何如此重要

近日,中国信息通信研究院和华为技术有限公司共同编写与发布了《数据基础设施白皮书 2019》,这是国内首份针对数据基础设施领域的白皮书。该白皮书对于数据在数字经济时代的角色定位、数据应用的现状、数据基础设施的定义与特征以及未来趋势进行了深度解读。

该白皮书认为数据正在成为数字经济发展最关键的生产资料,随着数字经济的蓬勃发展,正在深刻改变生产与生活方式,数据的有效应用则会成为经济社会发展的强劲驱动力,而5G、云计算、大数据、物联网、人工智能等新技术则持续推动了数据的爆炸性增长。

为什么数据基础设施如此重要,这篇白皮书讲透了


与此同时,在数据爆炸性增长的趋势下,海量数据蕴含着巨大价值的同时,也给用户带来的巨大的挑战,“数据存不下、流不动、用不好”成为最普遍的现象。以数据流不动为例,《数据基础设施白皮书 2019》介绍,数据需要像水一样流动起来,才能打破“数据壁垒”,最大化释放价值,不过目前数据流不动主要面对着应用孤岛、管理孤岛、地理孤岛的数据“三类孤岛”,以及算力墙、网络墙、介质墙的资源“三堵高墙”。

为解决“数据存不下、流不动、用不好”的普遍问题,《数据基础设施白皮书 2019》认为数据基础设施是关键,出色的数据基础设施可以加速实现数据价值的变现。

白皮书认为数据基础设施是由基础设施层和数据管理层组成,其中基础设施层包括存储、计算、网络等硬件设施, 数据管理层由操作系统、数据库系统及大数据系统组成,构成支撑数据存储及数据全生命周期管理的软件设施。

数据基础设施应该涵盖接入、存储、计算、管理和数据使能五个领域,通过汇聚各方数据,提供 “采-存-算-管-用”全生命周期的支撑能力,构建全方位的数据安全体系,打造开放的数据生态环境, 让数据存得了、流得动、用得好,将数据资源转变为数据资产。

《数据基础设施白皮书 2019》认为,数据基础设施应具备以下5个特征:融合、协同、智能、安全、开放,以帮助企业实现存储智能化、 管理简单化和数据价值最大化。比如在融合方面,白皮书认为需要在异构算例融合、存算融合、数据库存储融合、协议融合、格式融合五个层面进行,进而让数据流动起来,数据使能更加便捷。

总体而言,《数据基础设施白皮书 2019》首次对于数据基础设施的重要性、定义、特征以及趋势进行系统性的阐述。该篇白皮书不仅可以让用户对于数据基础设施重要性有充分认识,也对于数据基础设施产业链的发展有着推动作用。

数据基础设施刚起步,生态构建亟需加强

在数据基础设施领域,华为是业界走在最前沿的公司之一。华为在11月19日的全球数据基础设施论坛上正式宣布了其数据基础设施战略。华为数据基础设施包括数据存储、数据处理、数据管理系统以及数据虚拟化引擎(HetuEngine),华为希望通过融合、智能、开放的数据基础设施,对数据的采、存、算、管、用实现端到端的整合和优化。

“华为致力于让数据在全生命周期内好用,让每个比特的数据价值发挥最大,每个比特的数据成本最优,让合作伙伴像使用数据库一样使用大数据。”华为Cloud & AI产品与服务总裁侯金龙表示。

毫无疑问,数据基础设施依然处于早期阶段。由于数据产业涉及到多个细分市场以及众多市场参与者,往往需要数据、产品与服务之间的紧密协同,数据基础设施作为数据产业中的关键支撑环节,同样需要包括硬件、软件、开源等相关产业链上下游企业紧密合作,“平台+生态”将会是数据基础设施未来至关重要的发展方式。

正因为如此,在华为数据基础设施战略中,数据虚拟化引擎--河图(HetuEngine)是华为“平台+生态”的一大创举,河图引擎在整个数据基础设施中犹如核心枢纽一样,不仅可以屏蔽掉数据基础设施底层的复杂性,让开发者无需关注后台抽象的逻辑关系,也不用操心涉及数据存取用的具体细节,只需在更高层服用已有的生态、工具和技能,就可以实现2-10倍的开发效率提升。

为什么数据基础设施如此重要,这篇白皮书讲透了


与目前市场中热门的数据中台不同,华为河图引擎(HetuEngine)是一个让数据基础设施走向平台化的平台,它对下解决数据接入、数据共享的难题,对上有利于应用的数据分析与挖掘,真正浚通企业内部多个孤立的数据源,为企业的数字化转型厘清了数据和业务的逻辑,让数据重复实现了共享和全局应用,并且极大提升了数据资源的全面性、准确性和可用性。

此外,华为河图引擎(HetuEngine)让数据基础设施走向平台化,也将彻底改变过去数据孤立与割裂的局面,让数据的完整性、可靠性以及安全合规等问题得到充分保障。

更加难得的是,华为充分意识到生态在数据基础设施建设中的重要性。因此,华为宣布将于2020年6月份正式对河图引擎开源,将向生态合作伙伴开放北向接口、南向接口以及核心引擎。北向接口组件的开源可以确保多样化应用按需接入,方便应用创新;南向接口组件的开源则让数据接入更加灵活;核心引擎开源则让合作伙伴共同参与到数据基础设施生态建设之中,让合作伙伴自主可控,免去锁定的风险。

华为希望通过河图引擎(HetuEngine),能够真正打造出一个数据平台,并且践行“平台+生态”的策略,让客户和合作伙伴能够像使用数据库一样方便的使用大数据。相比过去我们认为的包罗万象的中台,华为所提供的数据基础设施解决方案,将更有利于创造一个共赢的生态环境。

此外,华为还对数据基础设施的场景进行了归类:生产交易场景、数据湖场景、边缘场景,并针对这三大场景推出了相应的数据基础设施解决方案:面向生产交易场景的OceanData、面向智能数据湖场景的FusionData以及面向边缘场景的FusionCube 2.0,涵盖了从AI芯片、存储、数据库到大数据、智能运维与管理等多种产品。

《数据基础设施白皮书 2019》是数据基础设施产业的一个起点,它标志着数据基础设施已经成为用户界和产业界的共识。虽然目前关于数据基础设施具体定义依然存在着一些差异,但是数据基础设施的价值与作用已经日渐清晰和突出,随着《数据基础设施白皮书 2019》的推出,相信未来会有更多各行各业的用户在数字化转型中加快数据基础设施的建设,也会有更多的产业链伙伴加入到数据基础设施大生态之中。