数栖平台数据资产开发套件——离线开发
离线开发是数栖平台提供的一站式大数据开发环境,提供了数据同步、数据开发、发布管理、运维监控的全链路解决方案,可用于构建 PB 级别的数据仓库,实现超大规模数据集成,通过对数据价值的深度挖掘,实现数据的资产化。
(一)产品特性
1. 适配主流大数据存储计算平台
离线开发适配市面上大部分存储计算平台,如:Hadoop 社区、CDH、HDP、星环、FusionInsight、MaxCompute 等,并提供灵活插件化的方式扩展。
2. 支持多种数据任务类型、高效协同开发
提供多种数据任务类型,如:指定类型,HiveSQL、SparkSQL、GreenPlumSQL、PySpark、TensorFlow 等;通用类型,Shell、Python、Perl;并支持加解锁,满足多人协同开发的场景。
3. 一体化运维管理
可实现多种调度配置方式(可视化人工或自动推荐);多环境(开发、预先、生产)级联发布;智能全链路基线告警;补数据重跑数据等应急运维手段。
4. 多版本代码管理
提供对代码、资源的多版本的管理,方便用户追踪代码变化过程,可紧急回滚到之前任意代码分支。
(二) 数据同步
1. 支持多种数据源
提供 20+种多源异构数据的稳定高效传输,如:MySQL、Oracle、SQLServer、Hive、GreenPlum、Postgresql、MongoDB、HBase、OTS、FTP、HDFS、OSS 、HANA、DB2、CarbonThriftServer 等,支持以插件化、热插拔的方式对数据源进行扩充,快速支持二次开发。
2. 支持向导和脚本双模式
提供可视化向导和脚本编辑双模式配置源端和目标端相关设置。向导模式,用户只需通过可视化界面进行任务的创建与配置,如:同步任务选择源头表、目的表、配置字段映射关系和配置传输速度控制等,即可快速完成同步任务。同时也提供脚本编辑模式,支持用户通过编写脚本的方式完成同步作业。
3. 灵活的预处理机制
提供数据预处理功能,支持简单的数据清洗函数策略,如:replace、filter、substr、pad 等以及通过 Transformer 自定义复杂转换函数,在数据交换的前、中、后任何阶段进行数据预处理操作,从而避免由于数据敏感、重复等因素造成的困扰。
4.支持实时/离线、全量/增量同步
提供每日数据全量、增量同步,仅需用户输入相应的过滤条件即可实现,平台也提供 bizData 函数,支持部分具备时间戳的标识业务库进行增量同步。支持非结构化数据同步,支持整库同步方式、满足各类业务场景要求.
5.细粒度的过程控制
数据同步过程中,可根据具体场景对容错、并发、速率和运行内存等控制配置等参数进行设置并进行监控,避免抢占业务资源的同时保障任务按时、准确完
成。支持数据源的条件过滤、数据冲突策略、转换规则配置高级配置等;支持对同步任务配置依赖关系(约束同步任务与其他任务的执行先后顺序)和定时调度策略。
(三)离线作业
1.支持多种数据任务类型
提供多种数据任务类型,包含:MySQL、Oracle、GreenPlum、Hive,SparkSQL, Hbase,Spark,PySpark,TensorFlow、Shell、Python、Perl 等作业类型。
2.简单易用的可视化开发
提供可视化业务流程的方式,用户无需搭配任何开发工具,通过简单的拖拽式任务开发和调试,即可完成复杂的数据分析任务。
3.图形化的 Web_IDE 界面
提供图形化 Web ID 编辑界面,支持智能语法高亮显示、SQL 代码格式化、语法检查、智能提示及自动补全等人性化功能,带来更顺滑的数据开发体验。
4.细粒度调度配置机制
提供细粒度调度配置机制,通过可视化的操作来配置任务的依赖关系和定时调度
(可选择分钟、小时、天、周、月、季度),支持任务按照工作流自动调度,支持对任务实例的重启和自动重新运行相关联的下游任务等。
5.友好的团队协作开发
支持多名开发者在线进行写同开发、管理,对数据权限、功能权限进行有效区分, 高开发效率,保证开发进度。
(四)函数开发
提供内置系统函数,如 Spark 函数、数据同步函数,并支持用户创建基于 Hive 的自定义函数(User Defined Function,以下简称 UDF)开发、调试,可直接用于 Hive 或 SparkSQL 类型的任务中。
(五)资源文件
提供满足复杂度更高的业务场景,支持Jar、py、txt、json、perl、java、自定义,开发更加自由灵活,用户只需通过上传自定义资源,即可提供给其他作业任务调用使用。
(六)临时作业
用于存放临时任务开发,适用于做探索性的任务,能够看到任务产出的预期结果; 支持临时作业在不同环境中运行,可查看运行日志和运行结果,并支持下载运行结果数据。
(七)表管理
表管理,为用户提供快速建表功能,支持查看主数据库的表信息,包括表名、字段信息、分区信息、数据预览等信息。