产品动态 大数据平台如何升级成数据中台(构建数据中台平台)

大数据平台如何升级成数据中台(构建数据中台平台)

随着中台概念的火爆,数据中台成了大数据平台建设中最新、最热的方法论。数据中台能够解决什么问题?为何与众不同?下面滴普科技来跟大家详细聊一聊!
搜狗截图21年09月06日2312_6.jpg

一、大数据平台如何升级成数据中台

什么是数据中台?

中台的定义来自于投资银行,简单说来,投行当中前台是赚钱的、后台是做支持赚钱的,而中台是支持更快赚钱的。而建设大数据中台的本质在于把过去在后台的工作挪到中台,进一步支持前台更高效的做数据分析。

整体说来,数据中台可以分成两种建设模式:广中台和深中台。

广中台:大部分大厂使用这种模式,在IaaS之上有大数据组件组成的PaaS中台,可以帮助各业务团队的研发,快速申请资源、快速研发数据相关应用,满足业务团队用户需求。广中台的用户基本上是各业务部门的技术人员。

深中台:大部分小厂或者创新团队使用这种模式,在IaaS之上,根据数据的“主题域“或者业务领域,分别建立直接给业务人员使用的PaaS,让业务人员可以直接操作数据、进行实时计算、用户分群、用户营销等等。深中台的用户基本上是该业务主题域的业务运营或者产品人员。

用一个不恰当的比喻,广中台有点像当年的数据仓库,以整合计算算力、共享数据资源为目标,需要技术人员再次加工来提供业务应用模型,深中台有点像当年的数据集市+ACRM,以直接驱动业务、业务用户直接使用数据为目标。

为什么要建立大数据中台

数据中台就是企业从传统信息化到数字化演进过程中的必然产物。大数据平台过去几年内非常火爆,几乎所有数字化企业都启动了相关的大数据项目,但是,建设大数据平台时有各种各样的痛点:

大数据项目启动难:大数据平台建设周期长,成本高、人员互联网运营经验不足;

大数据项目效果体现难:大数据如何解决互联网运营问题、大数据系统建设结果是更多的BI报表、大数据建设ROI无法衡量;

大数据项目执行难:数据源纷繁复杂、原有系统涉及到多部门协调沟通、以及数据治理问题;

往往一个大数据平台建设完成后,带来了大量的运维工作,而业务支持能力被业务部门质疑,到底如何衡量大数据的ROI是一个行业的痛点。

在这个背景情况下大数据中台营运而生,数据中台的目标就是:

1、把业务分析还给业务,让业务人员、数据科学家直接使用数据,而不是传统软件提需求出报表的方式;

2、实时数据分析,即时满足运营人员的各种推测和分析需求。

3、数据治理要在业务端进行,而不是在技术端进行梳理。

从大数据平台到数据中台是一次从大数据从技术到业务的飞跃,过去我们只看技术,到中台时期,是从业务端看技术。

如何建设大数据中台

滴普在建设大数据中台过程中,主要从这三个方面来进行:面向业务、开放连接、共享共建。

面向业务

滴普的大数据中台是一个“深中台“模式,也就是中台的目标是定位在直接赋能业务用户使用,减轻大数据人员重复劳动上下功夫。因此,滴普的数据中台产品“方舟”是以智能用户数据中台为目标,定位在于用户数据为中心的相关业务。深入业务用户的使用场景,提供留存、转化等等实际的业务场景,让业务人员使用。同时,根据业务人员反馈的需求、基于开放的用户数据PaaS快速打磨迭代上面的场景和应用。

开放连接

如果要支持上述提到的快速迭代,底层的大数据PaaS就需要非常灵活,开放接入各种组件、支持多种灵活的二次开发方式,还要支持多云,这里滴普采用的是“大数据IOTA”架构的数据PaaS:

大数据IOTA架构

它的基本思路就是把数据计算分布在所有节点上,从数据采集开始就进行边缘计算,这样一来定义数据采集原子口径,将业务口径归还业务部门,更加快速的支持业务调整:

统一格式/口径的数据接入(前后端采集、数据上传)方式

抽象为“主-谓-宾”数据标准化模型数据计算

秒算引擎满足实时多维度多模型数据查询

支持业务系统数据接入,整合企业数据

支持外部系统导出数据,满足更多应用场景

得益于IOTA架构,滴普的用户数据中台,支持4大类、10小类、近百个API,还支持JDBC接口,让业务人员和技术人员都可以快速根据自己的实际情况进行二次开发——授人以鱼不如授人以渔,最了解业务的还是业务用户自己,数据中台就是帮助它实现自主完成相关业务分析和数据驱动的工具。

数据中台还要选择具有联通型的组件,这样可以快速和企业内部的各种组件对接,滴普选取的是Presto,它具有的特性是可以快速链接多种大数据组件的能力,天然支持Mysql,HDFS和Cassandra,而滴普又扩展了它的能力,开源了自主研发的Kudu Connector,Hbase Connector等,让企业可以快速通过滴普的数据中台联通自己的内部大数据组件。

开放性还体现在多云支持上,目前,公有云、私有云多种形态并存,大数据中台组件要适配当前的多种云方式,目前滴普自己的用户数据中台方舟采用了IOTA架构中“计算-存储分离”的模式已经支持了阿里、AWS、腾讯等主流云厂商,这样可以帮助企业顺利使用多云模式。

共享共建

大数据平台组件繁多,如何可以让数据中台与大数据平台有效配合,滴普的思路是从开放API、开放组件到开源布局,下图是滴普免费的用户数据中台Argo和大数据平台生态布局的关系。

免费的用户数据中台Argo与大数据平台的关系

作为免费用户数据中台,Argo帮助初创企业和创新团队建立自己的用户行为中台,完成业务分析部分,但是大的企业有自己的大数据平台,直接如何方便互联互通。这个情况非常复杂,很难通过一家企业来完成所有的生态,滴普的思路是开源,共享共建。大数据平台中的核心ETL调度组件,滴普3月份正式开源了分布式易扩展的可视化DAG工作流任务调度系统Dolphin Scheduler,在众多用户期待和全球技术专家投标的肯定下,8月底正式加入Apache孵化器,成为国内唯一的一家Apache大数据调度引擎,10月底A10峰会上,滴普正式开源了“可视化埋点SDK”,旨在帮助企业解决数据埋点这个痛点。

数据中台作为一个可内聚的产品,周边的组件是要通过开源、共建生态来完成的,无论是甲方的企业还是乙方的专业公司,中台的建设都需要开放心态,共享使用场景、经验,共同打造开源社区,共享行业资源才可以真正做好。

数据中台的未来展望

每一个技术架构的升级,其实背后是管理思路的变革,数据中台将过去数据决策迭代周期从数月到数天乃至数天,是“精益”理论和敏捷开发在数据行业里的具体实现。更多的让业务用户可以直接使用数据、利用数据进行运营、测试,形成精益闭环是未来大势所驱。

技术上,大数据中台的发展,也对大数据平台工程师提出了更高的业务需求,最终会形成一个新的工程师种类——大数据中台工程师,他们是了解业务、懂得数据分析,还会使用大数据技术来实现大数据中台的技术人员。

大数据中台,只是数据从后台走向前台的过渡阶段,最终在IOT、5G、AI的助力下,数据技术会成为一个公司的“前台”业务,最终让数据和人工智能替代前台人员直接为业务变现。

二、构建数据中台平台的价值

1、数据复用

浙江移动已经将2000个基础模型作为所有数据服务开发的基础,这些基础模型做到了“书同文,车同轨”,无论应用的 数据模型有多复杂,总是能溯源到2000张基础表,这奠定了数据核对和认知的基础,最大程度的避免了“重复数据抽取和维护带来的成本浪费。曾经企业的数据抽取就有多份,报表一份,数据仓库一份,地市集市一份,无论是抽取压力、维护难度及数据一致性要求都很高。同时,统一的基础模型将相关业务领域的数据做了很好的汇聚,解决了数据互通的诉求,这点的意义巨大,谁都知道数据1+1>2的意思。

2、沉淀业务模型

在企业内,无论是专题、报表或取数,当前基本是烟囱式数据生产模式或者是项目制建设方式,无法形成标准化统一业务模型,无法沉淀和共享也就无法迭代生长,从而造成模型不能真正成为可重用的组件,无法支撑数据分析的快速响应和创新。只有在迭代生长中的业务模型才能从最初的单一字段,逐渐完善形成为企业最为宝贵的统一模型资产和统一数据资产。

以报表为例,企业报表成千上万的原因往往也是没有沉淀造成的,针对一个业务报表,由于不同的业务人员提出的角度不同,会幻化出成百上千的报表,如果有报表中台的概念,就可以提出一些基准报表的原则,比如一个业务一张报表,已经有的业务报表只允许修改而不允许新增,自然老报表就会由于新的需求而不断完善,从而能演化成企业的基础报表目录,否则就是一堆报表的堆砌,后续的数据一致性问题层出不穷,管理成本急剧增加,人力投入越来越多,这样的事情在每个企业都在发生。

3、数据驱动业务创新

我们都知道,以往的业务决策,大多是凭经验拍脑袋的,现如今,数据的价值和重要性不言而喻。企业的管理者在做决策时,越来越想要先看数据。所以,好的数据基础,是决策和创新的加速器。而现在市场竞争如此激烈的大环境,不但需要企业做出正确的决策,效率和执行力也是关乎存亡的,数据中台即是数据创新效率的保障。研究过机器学习的都知道,没有好的规整数据,数据准备的过程极其冗长,这也是数据仓库模型的一个核心价值所在,比如运营商中要获取3个月的ARPU数据,如果没有融合模型的支撑,得自己从账单一层层汇总及关联,速度可想而知。在如今的互联网时代,企业都在全力谋求转型,转型的关键是要具备跟互联网公司一样的快速创新能力,大数据是其中一个核心驱动力,但拥有大数据还是不够的,数据中台的能力往往最终决定速度,拥有速度意味着试错成本很低,意味着可以再来一次。

4、数据中台孕育新型人才

原来新员工入职要获得成长,一是靠人带,二是找人问,三是自己登陆各种系统去看源代码、了解各系统底层数据结构,这样的学习比较支离破碎,其实很难了解全貌,无法知道什么东西对于企业是最重要的,获得的文档资料也往往也是过了时的。现在有了数据中台,很多成长问题就能解决,有了基础模型,新人可以系统的学习企业有哪些基本数据能力,O域数据的增加更是让其有更广阔的视野,有了融合模型,新人可以知道有哪些主题域,从主题域切入去全局的理解公司的业务概念,有了标签库,新人可以获得前人的所有智慧结晶,有了数据管理平台,新人能清晰的追溯数据、标签和应用的来龙去脉,所有的知识都是在线的,最新的,意味着新人的高起点。更为关键的是,数据中台让新人摆脱了在起步阶段对于导师的过渡依赖,能快速的融入团队,在前人的基础上进行创新。数据中台天然的统一,集成的特性,有可能让新人打破点线的束缚,快速构筑起自己的知识体系,成为企业数据领域的专家。

订阅
及时获得DEEPEXI的最新资讯
订阅
马上开启数字化升级之旅
立即免费试用,或直接与我们的解决方案专家沟通,了解和评估 DEEPEXI 如何帮助您的团队更进一步。
联系我们
专人在线为您服务
联系我们
专属顾问免费为您提供专业服务
建议反馈
您的建议,让我们更进一步
客服微信

客服微信

售前咨询电话

400 8279 010