产品动态 数据集成平台是什么,数据集成服务平台

数据集成平台是什么,数据集成服务平台

数据集成平台是什么?数据集成的定义:数据集成是要将互相关联的分布式异构数据源集成到一起, 使用户能够以透明的方式访问这些数据源。集成是指维护数据源整体上的数据一致性、提高信息共享利用的效率;透明的方式是指用户无需关心如何实现对异构数据源数据的访问,只关心以何种方式访问何种数据。
搜狗截图21年08月25日2334_1.jpg

一、数据集成平台是什么

数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。

数据集成的核心任务是要将互相关联的异构数据源集成到一起,使用户能够以透明的方式访问这些数据资源。

数据集成的目的是指维护数据源整体上的数据一致性,解决企业“信息孤岛”的问题,提高信息共享和利用的效率。

1、点对点数据集成

点多点集成是最早出现的应用集成模式,采用点对点的方式开发接口程序,把需要进行信息交换的系统一对一地集成起来,从而实现整合应用的目标。

点对点的连接方式在连接对象比较少的时候,确实是一种简单和高效的连接方式,具有开发周期短、技术难度低的优势。但其最大的问题是,当连接对象多的时候,连接路径会以指数方式剧增,效率和维护成本是最大的问题。

当需要连接的应用系统越来越多时,点对点集成方式将把整个企业信息系统接口变成无法管理的“混乱的线团”。

点对点的集成架构不能集中管理和监控接口服务,仅支持一对一的数据交换,如果交换协议不一致,开发则非常困难。即,如果沟通的语言、文字、格式、方法等有差异,则每一个连接方都要同时支持和维护多种连接方式。

点对点的集成是紧耦合的,当一个连接变化时,所有与其相关的接口程序都需要重新开发或调试。

基于以上几点,在多点互连的情况下,点对点连接方式成本高,可用性和可维护性低。

显然,这不是一个好的连接方式。

2、总线式数据集成

总线式数据集成是通过在中间件上定义和执行集成规则,其拓扑结构不再是点对点集成形成的无规则网状,而主要是中心辐射型的(Hub型)星型结构或总线结构。

总线结构通过与点对点集成架构相比,采用总线架构可以显著减少编写的专用集成代码量,提升了集成接口的可管理性。不同连接对象如果连接方式有差异,可以通过总线完全屏蔽掉,做到对连接对象透明,无需各个连接对象关心。通过总线结构,把原来复杂的网状结构变成简单的星形结构,极大提高了硬件的可靠性和可用性。

总线式数据集成的一代:电子数据交换系统(EDI)

EDI不是用户之间简单的数据交换,EDI用户需要按照国际通用的消息格式发送信息,接收方也需要按国际统一规定的语法规则,对消息进行处理,并引起其他相关系统的EDI综合处理。标准化得EDI格式转换保证了不同国家、不同地区、不同企业的各种商业文件(如单证、回执、载货清单、验收通知、出口许可证、原产地证等)得以无障碍电子化交换,促进了国际贸易的发展。

总线式数据集成二代:企业服务总线(ESB)

ESB的使用标志着企业的应用集成进入了SOA时代(SOA是一种面向服务的集成架构)。SOA架构的其主要特征是基于一系列Web标准或规范来开发接口程序,包括UDDI、SOAP、WSDL、XML,并采用支持这些规范的中间件产品作为集成平台,从而实现了一种开放而富有弹性的应用集成方式。

ESB是对web服务(WebService)的注册、编排和管理。

WebService是一种跨编程语言、跨操作系统平台的远程调用技术,是web的一种标准。可以理解为:WebService是一个应用程序向外界暴露了一个能通过Web调用的API接口,我们把调用这个WebService的应用程序称作客户端,把提供这个WebService的应用程序称作服务端。客户端进行服务的远程调用前,需要知道服务的地址与服务有什么方法可以调用。

因此,WebService服务端通过一个文件(WSDL)来说明自己家里有啥服务可以对外调用,服务是什么,服务中有哪些方法,方法输入的参数是什么,返回值是什么,服务的网络地址是什么,通过什么方式来调用等。

WSDL是一个基于XML的语言,用于描述WebService及其函数、参数和返回值,它是WebService客户端和服务器端都能理解的标准格式。

3、离线批量数据集成

在传统数据集成的语境下,离线批量数据集成,通常是指基于ETL工具的离线数据集成,ETL即数据的提取(Extract)、转换(Transform)和加载(Load)。

ETL是数据仓库的核心和灵魂,能够按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。

在数据仓库、数据湖、数据资产管理等项目中,ETL都是最核心的内容。ETL通过ETL作业流(任务)从一个或多个数据源中抽取数据,然后将其复制到数据仓库。抽取类型有全量抽取、增量抽取、准实时抽取、文件提取等方式。针对不同的数据提取场景设计不同的数据抽取类型。在数据抽取过程中,需要将不符合规则的数据过滤掉,并按照一定的业务规则或数据颗粒度转换成数据仓库可用的数据,这个过程就是数据的清洗和转换。最后,就是调用数据库的服务将数据装载至数据库中。

ETL的实现有多种方法,常用的有三种:

第一种是借助ETL工具:例如:Informatic、IBM CDC、talend、kettle、Nifi等,借助工具可以快速的建立起ETL工程,屏蔽了复杂的编码任务,提高了速度,降低了难度,但是缺少灵活性。

第二种是SQL编码实现:SQL的方法优点是灵活,提高ETL运行效率,但是编码复杂,对技术要求比较高。

第三种是ETL工具和SQL组合实现:综合了前面二种的优点,会极大地提高ETL的开发速度和效率。

4、流式数据集成

流式数据集成也叫流式数据实时数据处理,通常是采用Flume、Kafka等流式数据处理工具对NoSQL数据库进行实时监控和复制,然后根据业务场景做对应的处理(例如去重、去噪、中间计算等),之后再写入到对应的数据存储中。

这个过程类似传统的ETL,但它是流式的处理方式,而非定时的批处理Job,NoSQL数据库采集工具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。

Kafka 就是一个能够处理实时的流式数据的一个新型ETL解决方案。

Kafka 能够通过 Kafka Connect API 实现流数据管道的构建,也就是 ETL 中的 E和L。Connect API 利用了 Kafka 的可扩展性,kafka connect是围绕kafka构建的一个可伸缩,可靠的数据流通道,通过kafka connect可以快速实现大量数据进出kafka从而和其他源数据源或者目标数据源进行交互构造一个低延迟的数据通道。

流处理和转换可以通过 Kafka Streams API 来实现,也就是构建了ETL中的T,Kafka Streams用于在Kafka上构建高可分布式、拓展性,容错的应用程序。它建立在流处理的一系列重要功能基础之上,比如正确区分事件事件和处理时间,处理迟到数据以及高效的应用程序状态管理。

Kafka Streams包含了ConsumerAPI 和ProducerAPI的功能,增强了对数据流的处理能力。使用 Kafka 作为流处理平台能够消除为每个目标 sink、数据存储或系统创建定制化(很可能是重复的)抽取、转换和加载组件的需求。来自数据源的数据经过抽取后可以作为结构化的事件放到平台中,然后可以通过流处理进行数据的转换。

5、网络数据集成

网络数据集成也叫网络数据采集,指通过网络爬虫或网站公开 API 等方式从网站上获取数据信息的过程。

网页爬虫,即一种按照一定的规则,自动地抓取互联网信息的程序或者脚本,一般分为通用网络爬虫和聚焦网络爬虫两种。网页爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。

聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。

网页爬虫支持文本文件、图片、音频、视频等非结构化数据、半结构化数据从网页中提取出来,存储在本地的存储系统中。

目前网络上有许多网页爬虫,Octoparse、WebCopy、HTTrack、Getleft、Scraper等,并且这些工具都是免费的哦!

当然,你是一个技术大大的话,也可以写自己的爬虫程序。

二、数据集成服务平台

数据集成是滴普云对外提供的高效、可靠、安全的一站式接入多数据源的同步平台。打通数据孤岛,进行跨异构数据存储系统的数据同步、离线搬运服务,对数据源提供全量/增量数据进出通道。

1、数据集成服务平台产品优势

丰富的数据源

支持本地文件、关系型数据库、大数据存储、半结构化存储、NoSQL及消息队列(即将支持)之间的数据同步

数据同步能力可靠

内建高效的数据搬运能力,面向搬运任务分配搬运资源,提供质量可靠的服务

调度策略和监控报警

支持对同步任务周期性的调度功能,监控同步任务运行时的状况并发送通知告警

支持多种同步方式

通过where条件设定时间变量参数配合调度策略实现增量数据同步

2、数据集成服务平台产品功能

支持多种数据源

数据源连接

数据集成原生支持多种常见数据源,可对云上服务、用户本地环境不同数据源进行连接和数据采集,加速数据集成进程。目前支持云存储、云数据库、数据计算服务、SQL Server、Oracle、MySQL、DB2、FTP等服务

数据同步

批量、全量/增量同步

数据集成的数据同步支持从多个本地和云数据源间同步数据,支持用户全量、增量同步等不同的同步策略,可用于企业数据仓库的数据接入工作,对多源数据进行采集

数据分发

可以通过数据同步功能,将数据仓库中加工处理后的数据分发到生产系统支持在线业务,如数据库系统

调度&监控告警

周期任务调度

数据集成支持定时任务处理、多时间维度(月、周、天、小时、分钟)的离线任务定时调度

报警设置

对任务运行结果通过预定义好的方式告知用户,用户可以按照自身的需求来配置告警规则

整库迁移

整库迁移是数据集成提供的批量创建同步任务的快捷方式,可以快速完成将Mysql库内所有的表一并上传到数据计算服务中,大幅提升搬运能力。

3、数据集成平台的应用场景

云数据仓库的数据接入

利用数据集成服务,企业可以快速、低成本地实施面向云数据库、对象存储、标准数据接口服务(JDBC适配的数据库/FTP服务等)的数据同步任务,通过调度任务的管理,企业可轻松实现数据仓库对不同数据来源的周期性数据接入。

本地数据迁移上云

数据集成提供了便捷的工具(Client客户端、SDK),方便用户在本地环境基于命令行/SDK方式将本地文件、本地数据库(mysql、oracle、sql server、DB2等)数据上传至云数据仓库(数据计算服务),也可利用该工具下载云数据仓库数据到本地的操作,大大降低企业本地数据上云的门槛。

订阅
及时获得DEEPEXI的最新资讯
订阅
马上开启数字化升级之旅
立即免费试用,或直接与我们的解决方案专家沟通,了解和评估 DEEPEXI 如何帮助您的团队更进一步。
联系我们
专人在线为您服务
联系我们
专属顾问免费为您提供专业服务
建议反馈
您的建议,让我们更进一步
客服微信

客服微信

售前咨询电话

400 8279 010