很多用户在注册数栖云平台之后,都会被一个略带魔幻的词“执行代理”搞到崩溃。到底什么是执行代理?我为什么要在这里下载一个服务包?难道不是直接就能启用服务了吗?
不要着急,让我们一点一点解开这个谜题。但在解开谜题之前,您也可以先尝试着下载这个系统提示的安装包~毕竟听我讲完这个概念,你就会发现,想要使用我们的产品数栖云,执行代理服务安装包真的必不可少!
在讲清楚执行代理究竟是什么之前,在这里也需要先跟大家大致讲解一下,为什么在我们的产品中会提到执行代理服务这个概念。
首先,我们需要再次强调,数栖云平台实际采⽤的是混合云技术架构,主要分为三个模块:
1. 数栖云控制端
目前部署在云上(即:https://shuqi.dtwave.com),主要用于项目,资源组,计算引擎和数据源等的配置,开发任务的代码编写等。 简单来说,就是大家使用的数栖云产品界面端。
2. 客户集群
如果想要启用数栖云的服务,每个客户都必须要有⾃己的Hadoop集群(参见帖子:数栖云使用前置条件说明),并且,集群都需要部署在自有环境内,⽐如IDC机房、私有服务器、各种云服务。例如华为云的MRS、在阿里云服务器上部署的CDH集群、腾讯云的EMR服务等。
3. 执行代理
执⾏代理作为前两者数栖云控制端和客户集群的桥梁,可以把两者有效串联起来。通过执⾏代理,在数栖平台上书写的Hive、SparkSQL等作业可以提交到客户集群上执⾏,及查询结果、日志、 状态等。
对于执行代理的讲解,为了方便大家理解,我们举个查数据的栗子来做介绍:
食客在饱了么外卖平台上注册账号之后,进行点外卖操作:选好商家,点好外卖,并配置好送货地址。之后饱了么平台就会分配骑手去商家取餐并送到食客手中。
这个过程中,食客=用户,饱了么外卖平台=数栖平台,骑手=执行代理,外卖=数据,食客下单的过程就是用户在数栖云上执行任务的过程:下发任务到骑手(执行代理),骑手(执行代理)根据任务信息到商家店里(集群上)取餐(取数据),然后送给食客品尝(查看数据)。
也就是说,如果在这个环节中没有部署好执行代理服务,在平台上的指令是无法直接传达给服务器集群的,这也是为什么很多用户注册完成后未经过部署,以为已经完成了全部的前期工作,就直接进行数据开发及跑任务的工作,会遇到根本跑不通的问题。
补充一点,执行代理的网络需求:
1.执行代理需要可以访问外网(数栖云控制端)。
2.需要开通执行代理的两个服务端口(可自行配置,默认8444,8443)给我们平台控制端访问,即把数栖云控制端的IP加入到您的白名单中,具体IP请联系客服(微信号:shulan_shouhou)。
好啦,以上就是我们对于执行代理的一个解释啦!不知道您有没有理解它的重要性呢?如果您看完这篇帖子,还没下载执行代理服务包的话,记得回到数栖云产品中,点击用户名下面的用户中心,查看我的订单,点击订单详情,在详情页的底部一键下载执行代理服务包。
另外,这里还有一些关于执行代理部署的小 Tips,在你下载好服务包之后一定会用到,点击下方链接直达:
好啦~今天的解释大概就这么多啦!下次见!