数栖云产品百问百答

机灵小不懂    发布于:2019-07-31 浏览 437

数栖云使用有疑惑?快来这里找答案吧!(持续更新中)

Q1:产品帮助文档在什么位置?

A:点击页面右上角(头像右侧)下拉按钮,选择下拉框第二行的帮助文档。

Q2:对于数据挖掘需求,是不是需要通过自定义函数实现?

A:自定义函数是一种路径,也可以新建spark、pyspark作业,调用spark mlib来满足数据挖掘需求,还可以新建tensorflow作业。

Q3:数栖平台是否支持MySQL?

A:目前MySQL只能作为数据源,不能作为计算引擎。

Q4:任务的调度规则是怎样的?

A:子任务的调度时间是最终决定于: 1)父任务是否成功,父任务成功的时间; 2)子任务是否到达设置的调度时间。 举个例子,子任务设置下午5点开始调度,但是,父任务没有成功的话,到了5点也不会调度,要等父任务成功后才能开始调度。如果父任务下午2点就成功了,那么子任务会等到设置的时间(即下午5点)开始调度。 (工作流调度也是参考这个规则,但分钟、小时等调度只支持工作流级别)

Q5:如果需要新的数据源或作业类型,数栖云是否能根据需要进行二次开发?

A:数栖平台支持插件化二次开发,比如数据源、数据同步、作业类型。

Q6:能否有接口,方便调出清洗好的数据,呈现在自己的系统上?

A:加工好的数据可以通过数据同步功能从大数据集群导出到自己的业务系统库中。

Q7:目前是否需要将数据导出后进入统计软件/BI工具软件中进行下一步处理?

A:可以把加工好数据导入到专业的第三方BI工具里来展现。

Q8:数栖云是否可以实现实时的数据提取及最后的实时数据报表输出?

A:目前只开放了离线开发,实时开发平台暂未开放。可以先用离线里面的分钟级别调度来满足。

Q9:数栖云是否有可视化、服务化、业务化等数据开发后续工作的支撑?

A:目前还没有相关模块,平台后续会逐步迭代完善。

Q10:创建组织有什么规则或限制?(针对此问题,您已可以点击链接查看详细内容)

A:组织的创建是用户进行组织成员管理、购买套餐、乃至后面开发工作的前提。您可根据自身情况选择创建企业型或者非企业型的组织,每个用户只能创建一个组织。此外,企业型组织必须填写与营业执照上完全一致的企业名称。

Q11:如何判断需要创建企业型组织还是非企业型组织?

A:企业型组织:以盈利为目的的经济实体,如公司、集团 非企业型组织:非盈利性组织,如学校、医院、社团

Q12:CDH 平台可以有 Hadoop 的计算能力, 高并发查询 , PB 级数据数据处理? 数栖云只有一个节点的话,会有瓶颈吗?

A:数据处理能力的强弱主要取决于集群的计算和存储资源。其次也与数栖平台的执行代理资源情况有关,如果您在数栖平台·SaaS 上只部署一个执行代理节点,可能会出现数据处理能力和任务并发数量的瓶颈,这种瓶颈主要是指执行任务的效率及并发数限制等,它与执行代理服务器的数量,配置及每个执行代理配置的并发数都有关系。而数栖平台·SaaS 目前支持部署多个执行代理节点,只要根据自身数据量和处理需求等实际情况,选择合适的执行代理部署数量及每台执行代理的配置,那么数据处理的瓶颈问题一般不会处在执行代理这个环节。

Q13:数栖云基础版和专业版套餐有什么区别?

A:1)基础版:适合6人以内的小型数据开发团队。仅支持单环境,支持常见的10种数据源,作业数300以内,数据质量告警每日限30次;

      2)专业版:适合企业级的开发团队,成员50人以内。支持单环境和双环境模式、作业打包发布和审核、作业基线管理、数据生命周期管理、支持17种数据源、允许创建最大作业数1万个、数据质量告警和基线告警每日合限100次。

详细对比请参照:《数栖云套餐选择攻略

Q14:专业版套餐有什么申请限制?

A:专业版套餐目前仅支持企业型组织申请。下单后会有工作人员进行电话回访,确认相关信息。

Q15:一个组织是否可以选择多个套餐?

A:目前数栖平台仅支持购买一个套餐,且暂不支持套餐更换。

Q16:我在注册到使用前,要经历哪些审核?

A:1.组织审核——组织审核—当您创建组织后,进入待认证状态,需要您申请认证,我们的同学将首先对您创建的组织进行审核,审核通过后,进入已认证状态,之后您可以进行套餐的购买

      2.订单审核——当您下单完成后,我们的同学也会根据您的组织情况,企业信息来判断您的订单是否与您企业相匹配,审核完成后,您可以进入后续开发阶段。

Q17:导入的数据保存在哪里?是不是就上传到你们的平台了?

A:数栖平台采用的是混合云架构,数据的存储和计算都是在用户自己的大数据集群上。

Q18:进行标签开发,开发出来的标签数据是存放在数栖平台上的还是存放在企业的平台内?

A:标开发出来的数据是存放在客户自己的存储和计算集群里。数澜提供的数栖平台是一个开发环境,会记录存储工作流信息,但是客户真正的数据计算和存储是运行在客户自己环境里。

Q19:一定要有集群才能使用数栖平台吗?

A:目前我们的产品只能在Hadoop集群上部署和使用。 1)如果您已经搭建了集群,您可以在订单通过后直接填写邮件中的表格并回传,我们会再以邮件的方式发送给您相应的服务包下载链接和执行代理部署文档; 2)如果您未曾搭建集群,但打算搭建,我们可以为您提供相应的运维服务。您可以回复邮件咨询服务详情。

具体可以参照:《数栖云使用前置条件说明

Q20:数栖云目前可以适配哪些集群?

A:目前我们的产品支持下图中的集群,如果您希望适配您的企业集群版本号,欢迎向我们反馈!

Q21:从头搭建集群的成本是多少,是否能提供一些参考?

A:具体可以参照 《数栖云使用前置条件说明》帖子中对于Hadoop 集群选配方案的介绍。

Q22:如果我们的环境都是需要 VPN 的,怎么使用数栖云呢?

A:您需要至少有一台服务器,能够连接外网,才能够使用数栖云,必须要有公网 ip(通过公网与数栖平台通信)。

Q23:如果我需要数栖云帮忙进行部署,数栖云能够提供哪些服务?

A:数栖云目前除产品外,也会为您提供许多相关服务。包括但不限于执行代理部署服务、集群安装服务、云厂商 EMR 类集群代配置服务等。具体的服务相关信息,可以通过《数栖云服务与定价说明》进行详细了解。

Q24:数栖云能否提供线下的运维服务?

A:如果您在数栖云使用过程中遇到问题,我们暂不提供线下运维服务。运维类服务仅支持线上远程代部署。但如果您是我们的首批核心种子用户,遇到任何问题,我们都会快速响应,立即进行处理。

Q25:阿里云上的数据如何导入?能连接到第三方的数据库吗?

A:首先我们对于数据的导入是采用数据同步机制,对原有的数据源并不侵入,不去修改数据源本身的数据,只是同步过来。如果担心同步压力比较大,关系型数据库也可以从备库中导出数据。数据的导入支持各种云上的数据,我们的离线开发中心的数据交换任务可以直接导入各方数据。可以连接第三方数据库,需要提供数据库的权限。

Q26:执行代理部署完成后还需要进行什么操作?

A:1)执行代理部署好后需要打通跟数澜的网络通信,双方开通防火墙白名单; 2)登陆数栖云进行资源组、计算引擎、数据源的配置。

Q27:为什么我建了资源组和计算引擎,但在项目初始化时,未能关联出来?

A:资源组和计算引擎建好后需要授权给离线开发,如果不授权,则无法在项目初始化时关联显示。

Q28:部署工作应该由什么岗位的人来操作?

A:需要由技术人员或运维人员来进行部署操作。

Q29:数据处理是否在本地,是否需上传到数栖平台,对数据安全是否有影响?

A:数据处理在本地,不影响数据安全;数栖平台采用混合云的模式,让用户更安全的管理自己的数据,我们的工作流开发和管理是在平台端,具体的存储和计算是通过代理服务器下发到用户本地集群中;为了方便用户开发时观察结果,数栖平台本身有预览功能,会从本地提取一些数据用于平台端预览,具体条数用户可自行配置;关于数据安全技术这方面我们有白皮书,理论上来说白名单只需要开放给我们平台控制出口的两个ip(一主一备)来进行任务的下发与必要的通信即可,且我们的代码和平台都是通过了安恒等大型厂商严格的渗透测试与代码审计的,所以从技术角度来说用户完全可以放心。

Q30:如果数栖云的服务器出现了问题,我们这里的数据是否会出问题?

A:不会有影响。数据云都是高可用部署,而且通过了专业的安全厂商测评。

Q31:Hive 有对 MySQL 增量同步的实施方式吗,每天全量 MySQL 到 Hive ,效率比较低。

收藏此文章 点赞此文章

评论 (0)

暂无用户回复

评论此篇文章

登录后可回复
/1000