大数据处理加速引擎系统

| 产品背景

      随着大数据技术的发展,开源大数据平台的高可用性、高扩展性、相对低成本的优势深受用户的肯定,数据存储和加工逐渐从传统数据平台向大数据平台转移将是大势所趋。

      采用传统数据加工工具或以SQL为核心的存储过程进行数据加工,虽然成熟高效,但有平台局限性,无法适配大数据平台。大数据平台上数据存储软件种类较多,但目前还没有得到广泛认可、成熟的、易用的、可跨数据存储软件的数据加工工具。

| 产品简介

       大数据处理加速引擎系统,采用Spark核心组件搭建数据加工框架,利用Spark先进的DAG执行引擎及性能强大的基于内存的多轮迭代计算技术,对源数据进行深度加工。其解决了传统技术中在处理海量数据时,IO吞吐量、系统资源存在瓶颈,扩展困难且价格昂贵的缺陷。本产品可以线性平滑扩展,运行速度快,运行无需人工干预,且易于管理和维护,能充分满足各行业特别是大企业在数据ETL方面的需要。

       本产品提供可视化图形化界面进行ETL的全过程定义,界面操作简单,在易用性和可维护性方面较传统ETL工具产品和直接编程,在效率上有数倍的提升。                                            

图形化开发界面 

| 产品功能

  • 数据抽取:支持关系型数据库、结构化数据文件(可压缩)、HDFS文件、Hive文件等多种异构数据源。
  • 数据处理:针对采集的数据,结合元数据定义,组合“处理单元”实现转码、数据清洗、数据转换、增转全加工、拉链表加工等一系列数据处理过程。
  • 数据整合:对当天的增量数据和上一天的全量数据进行数据整合,得到当天全量数据。
  • 数据输出:根据数据应用系统对数据格式的要求,对当天整合后数据进行格式转换并输出。数据输出格式支持结构化数据文件(可压缩)、关系型数据库、HDFS文件、Hive文件等。
  • 元数据管理:具有“元数据影响分析“及”程序自动化变更”功能,通过简易操作,能快速响应上游数据源数据结构变化,并更新受影响的程序。

| 产品特性

  • 无代码/低代码开发,开箱即用,自动化运行。支持快速部署,开箱即用,成熟完备的ETL工具箱,涵盖常用的数据ETL需求;支持自动化流水线式运行数据抽取、数据处理、数据整合、数据输出等ETL处理流程,无需人工干预。
  • 内存计算,性能翻倍,线性拓展。利用Spark分布式内存并行计算技术,将中间计算结果缓存在内存并进行多轮迭代计算,减少磁盘I/O;采用多线程并发运行处理作业提高ETL的性能和资源利用率;本产品较传统架构的ETL产品,在运行速度上有数倍的提升。

| 产品应用场景

       产品面向拥有海量数据的企业,产品提供数据采集、数据清洗、数据加工、数据加载等一系列可视化开发组件,帮助企业实现大数据平台的快速部署。

 

 

数据业务化软件


产品拥有快速且持续的数据集成能力,灵活的数据试错能力,数据分析与桌面计算能力,强大的数据检验能力,具有安全、开放与高度可定制性。