基于Spark技术的大数据加工软件

| 产品背景

      随着大数据技术的发展,开源大数据平台的高可用性、高扩展性、相对低成本的优势深受用户的肯定,数据存储和加工逐渐从传统数据平台向大数据平台转移将是大势所趋。

      传统数据平台一般采用传统数据加工工具和以SQL为核心的存储过程进行数据加工,虽然成熟高效,但有平台局限性,无法适应大数据平台。大数据平台上数据存储软件种类较多,目前还没有一个能够得到广泛认可、成熟的、可跨数据存储软件的数据加工工具。

| 产品简介

       基于Spark技术的大数据加工软件,采用Spark核心组件搭建数据加工框架,利用Spark先进的DAG执行引擎及性能强大的基于内存的多轮迭代计算技术,对源数据进行深度加工。其解决了传统技术中在处理海量数据时,IO吞吐量、系统资源存在瓶颈,扩展困难且价格昂贵的缺陷。数据加工工具可以线性平滑扩展,运行速度快,运行无需人工干预,且易于管理和维护,能充分满足各行业特别是大企业在数据ETL方面的需要。
       本产品采用Scala编程,与Spark完美结合,直达Spark内核,提高了编程效率和大数据处理性能,同时保证了系统的高容错性和高可伸缩性。
       产品提供可视化图形化界面进行ETL的全过程定义,界面操作简单,在易用性和可维护性方面较传统ETL工具产品和直接编程,在效率上有数倍的提升。                                    

产品图形化开发界面

| 产品功能

  • 数据抽取。 支持关系型数据库、结构化数据文件(可压缩)、HDFS文件、Hive文件等多种异构数据源。
  • 数据处理。 针对采集的数据,结合元数据定义,组合“处理单元”实现转码、数据清洗、数据转换、增转全加工、拉炼表加工等一系列数据处理过程。
  • 数据整合。 对当天的增量数据和上一天的全量数据进行数据整合,得到当天全量数据。
  • 数据输出。 根据数据应用系统对数据格式的要求,对当天整合后数据进行格式转换并输出。数据输出格式支持结构化数据文件(可压缩)、关系型数据库、HDFS文件、Hive文件等。
  • 内部元数据管理。 将各种要素如数据源信息、源数据结构、目标数据格式、目标数据结构、数据转换规则及表达式、ETL作业调度策略等进行参数化定义和管理,并输出元数据控制文件供ETL作业流程引擎使用。元数据管理又包含元数据定义、元数据检查、元数据导出、元数据分析等功能模块。
    数据加工工具内嵌元数据管理,具有元数据影响分析及自动化变更功能,能快速响应上游数据源数据结构变化,更新受影响的数据加工工具程序。
  • 数据加工工具提供完备的开发单元组件,在覆盖传统ETL工具常用开发单元组件的基础上,增加了一些特有的开发组件,能满足数据加工需求,开箱即用,无需额外编程。

| 产品特性

  • 无需编程,开箱即用,自动运行。该产品快速部署,开箱即用,成熟完备的ETL工具箱,涵盖常用的数据ETL需求;元数据一旦设置完成,整个ETL就会自动流水线式运行数据抽取、数据处理、数据整合、数据输出等模块,无需人工干预。源数据变更,只需修改相应的元数据,无需编程。
  • 内存计算,性能翻倍,线性拓展。该产品采用Scala编程语言完美结合Spark;利用Spark分布式内存并行计算技术,将中间计算结果缓存在内存并进行多轮迭代计算,减少磁盘I/O;采用多线程并发运行处理作业提高ETL的性能和资源利用率;本产品较传统架构的ETL产品,在运行速度上有数倍的提升。

| 产品应用场景

      产品面向拥有海量数据的企业,产品提供数据采集、数据清洗、数据加工、数据加载等一系列功能,帮助企业实现大数据平台的快速部署。

 

 

数据业务化软件


产品拥有快速且持续的数据集成能力,灵活的数据试错能力,数据分析与桌面计算能力,强大的数据检验能力,具有安全、开放与高度可定制性。