• 阅读: 109 回复: 0
    澜小二

    数据中台产品|数栖平台数据资产开发套件 :离线开发

    楼主 发表于 2021-09-08 14:18:23

    数栖平台数据资产开发套件——离线开发

    离线开发是数栖平台提供的一站式大数据开发环境,提供了数据同步、数据开发、发布管理、运维监控的全链路解决方案,可用于构建 PB 级别的数据仓库,实现超大规模数据集成,通过对数据价值的深度挖掘,实现数据的资产化。 

    (一)产品特性

    1. 适配主流大数据存储计算平台

    离线开发适配市面上大部分存储计算平台,如:Hadoop 社区、CDH、HDP、星环、FusionInsight、MaxCompute 等,并提供灵活插件化的方式扩展。

    2. 支持多种数据任务类型、高效协同开发

    提供多种数据任务类型,如:指定类型,HiveSQL、SparkSQL、GreenPlumSQL、PySpark、TensorFlow 等;通用类型,Shell、Python、Perl;并支持加解锁,满足多人协同开发的场景。

    3. 一体化运维管理

    可实现多种调度配置方式(可视化人工或自动推荐);多环境(开发、预先、生产)级联发布;智能全链路基线告警;补数据重跑数据等应急运维手段。

    4. 多版本代码管理

    提供对代码、资源的多版本的管理,方便用户追踪代码变化过程,可紧急回滚到之前任意代码分支。 

    (二) 数据同步

    1. 支持多种数据源

    提供 20+种多源异构数据的稳定高效传输,如:MySQL、Oracle、SQLServer、Hive、GreenPlum、Postgresql、MongoDB、HBase、OTS、FTP、HDFS、OSS 、HANA、DB2、CarbonThriftServer 等,支持以插件化、热插拔的方式对数据源进行扩充,快速支持二次开发。

    2. 支持向导和脚本双模式

    提供可视化向导和脚本编辑双模式配置源端和目标端相关设置。向导模式,用户只需通过可视化界面进行任务的创建与配置,如:同步任务选择源头表、目的表、配置字段映射关系和配置传输速度控制等,即可快速完成同步任务。同时也提供脚本编辑模式,支持用户通过编写脚本的方式完成同步作业。

    3. 灵活的预处理机制

    提供数据预处理功能,支持简单的数据清洗函数策略,如:replace、filter、substr、pad 等以及通过 Transformer 自定义复杂转换函数,在数据交换的前、中、后任何阶段进行数据预处理操作,从而避免由于数据敏感、重复等因素造成的困扰。 

    4.支持实时/离线、全量/增量同步

    提供每日数据全量、增量同步,仅需用户输入相应的过滤条件即可实现,平台也提供 bizData 函数,支持部分具备时间戳的标识业务库进行增量同步。支持非结构化数据同步,支持整库同步方式、满足各类业务场景要求.

    5.细粒度的过程控制

    数据同步过程中,可根据具体场景对容错、并发、速率和运行内存等控制配置等参数进行设置并进行监控,避免抢占业务资源的同时保障任务按时、准确完

    成。支持数据源的条件过滤、数据冲突策略、转换规则配置高级配置等;支持对同步任务配置依赖关系(约束同步任务与其他任务的执行先后顺序)和定时调度策略。

    (三)离线作业

    1.支持多种数据任务类型

    提供多种数据任务类型,包含:MySQL、Oracle、GreenPlum、Hive,SparkSQL, Hbase,Spark,PySpark,TensorFlow、Shell、Python、Perl 等作业类型。

    2.简单易用的可视化开发

    提供可视化业务流程的方式,用户无需搭配任何开发工具,通过简单的拖拽式任务开发和调试,即可完成复杂的数据分析任务。

    3.图形化的 Web_IDE 界面

    提供图形化 Web ID 编辑界面,支持智能语法高亮显示、SQL 代码格式化、语法检查、智能提示及自动补全等人性化功能,带来更顺滑的数据开发体验。

    4.细粒度调度配置机制

    提供细粒度调度配置机制,通过可视化的操作来配置任务的依赖关系和定时调度

    (可选择分钟、小时、天、周、月、季度),支持任务按照工作流自动调度,支持对任务实例的重启和自动重新运行相关联的下游任务等。

    5.友好的团队协作开发

    支持多名开发者在线进行写同开发、管理,对数据权限、功能权限进行有效区分, 高开发效率,保证开发进度。

    (四)函数开发

    提供内置系统函数,如 Spark 函数、数据同步函数,并支持用户创建基于 Hive 的自定义函数(User Defined Function,以下简称 UDF)开发、调试,可直接用于 Hive 或 SparkSQL 类型的任务中。

    (五)资源文件

    提供满足复杂度更高的业务场景,支持Jar、py、txt、json、perl、java、自定义,开发更加自由灵活,用户只需通过上传自定义资源,即可提供给其他作业任务调用使用。

    (六)临时作业

    用于存放临时任务开发,适用于做探索性的任务,能够看到任务产出的预期结果; 支持临时作业在不同环境中运行,可查看运行日志和运行结果,并支持下载运行结果数据。

    (七)表管理

    表管理,为用户提供快速建表功能,支持查看主数据库的表信息,包括表名、字段信息、分区信息、数据预览等信息。

     

热门文章

数栖云部署及资源配置超详细指南

数栖平台使用前置条件说明

数栖云套餐选择攻略

数栖云中的各个作业类型,到底有什么不同?

最新文章

澜图使用教程摘要:01.工具界面各部分介绍

数据中台产品|数栖平台数据资产开发套件 :实时开发

数据可视化工具|02 澜图产品价值

鲍志方:手把手教你制作炫酷可视化地图

  • 未登录

    回复楼主

    登录后可回复
    /1000