数栖云快速入门

1. 概述

此部分将引导用户通过离线开发中心完成一个quick_start案例,即把学生基础数据导入到Hive表,并得到最大年龄、最小体重。

1.1 步骤

2 准备工作

2.1 前期准备

详细步骤请参见用户中心-用户指南中的使用流程部分。

  • 注册登录

  • 创建组织

  • 购买套餐

2.2 资源准备

详细步骤请参见资源管理-用户指南中的资源组和计算引擎部分。

  • 资源组:添加名称为默认资源组的资源组,并将该资源组授权到离线开发。

  • 计算引擎:添加名称为默认计算引擎_hadoop计算引擎,类型为Hadoop。

  • 调度队列:dev(配置Yarn的调度队列)

  • 资源文件存储路径:/user/shuqi(根据实际情况配置)

2.3 数据准备

学生的数据信息如下,每列分别表示: 用户ID、姓名、年龄、体重,各列之间用逗号分割。在本地新建文本文件student_info.txt,将下列数据拷贝至student_info.txt后保存。

1,赵晓丽,23,50
2,王明,25,60
3,王勇,22,55
4,杜孟娟,21,50
5,李志刚,22,56
6,张林静,23,51

3 项目管理

3.1 新建项目

进入离线开发-项目列表,点击新建项目,新建一个名称为quick_start,新建计算引擎类型为Hadoop的项目。

3.2 添加环境

  • 新建的项目状态为待配置,点击项目配置。

  • 进入环境配置页面,点击立即添加,添加一个名称quick_start_dev的环境。

资源组:选择默认资源组。

计算引擎:选择默认计算引擎_hadoop

调度队列:输入dev

数据库:输入quick_start_dev_db,勾选新建。

资源文件路径:使用默认路径/user/shuqi

 

  • 环境添加成功,项目状态变为开发中,点击进入开发进入开发中心。

4 数据集成

4.1 新建资源

进入开发中心,点击新建资源,输入资源名称为student_info,选择资源类型为txt,点击添加文件按钮,选择保存在本地的student_info.txt文件,点击确定。

4.2 新建表

  • 新建工作流

点击新建工作流,新建一个名称quick_start,工作流模板为空白模板的工作流。

  • 新建ddl与job目录

在工作流quick_start名称右侧点击 ┇ 按钮,选择新建目录,分别创建ddl和job两个目录。其中,ddl目录用于存放创建表的DDL类型作业,job目录用于存放其他类型的作业。

  • 创建DDL作业

在 quick_start 工作流的ddl目录下,选择新建离线作业。

新建一个名称为ddl_quick_start_student_info业类型为DDL,模板为空模板的作业。

在 ddl_quick_start_student_info 作业中,输入以下建表语句。其中代码注释必须要以 ”--“ 加空格开头,且为单独一行。

-- 如果表已存在,可以删除掉.
-- drop table if exists quick_start_student_info;

-- 新建学生表
create table if not exists quick_start_student_info
(
    id      bigint comment 'ID'
  , name    string comment '姓名'
  , age     bigint comment '年龄'
  , weight  bigint comment '体重(kg)'
)
comment '学生基本信息'
row format delimited
fields terminated by',' 
lines terminated by'\n'
stored as textfile;

点击 运行 按钮,DDL作业将会在Hive库中新建表quick_start_student_info。运行日志如下图所示,如果显示 作业运行成功(Finished) 则表示此DDL作业运行成功。

4.3 数据导入

把student_info.txt文件资源中的数据导入到Hive表quick_start_student_info中。

  • 创建SparkSQL作业

 quick_start 工作流的 job 目录下,选择新建离线作业。

新建一个名称为 quick_start_student_info,类型为 SparkSQL的作业。

在quick_start_student_info作业中,输入如下导入数据语句:

-- 导入学生信息
load data local inpath '{student_info.txt}' overwrite into table quick_start_student_info;

-- 预览数据(支持选中执行)
select * from quick_start_student_info limit 10;
  • 配置作业属性

点击作业右侧的属性配置按钮,在依赖配置中的资源依赖中,选择 student_info.txt 资源。

  • 运行作业

点击运行按钮,运行SparkSQL作业。运行日志如图所示,如果日志中出现 作业运行成功(Finished),则表示导入数据成功。

导入成功后,也可只选中上述的select语句(选中整行)后,点击运行来预览数据。

导入成功后,可在表管理中查看表 quick_start_student_info 中的预览数据。

5 数据加工

  • 新建SparkSQL作业

在 quick_start 工作流的 job 目录下,选择新建离线作业

新建一个名称为 quick_start_student_statistics,类型为 SparkSQL 的作业。

在 quick_start_student_statistics 作业中,输入如下的数据加工语句:

-- 1. 查询学生基本信息
select
         id
       , name
       , age
       , weight
from quick_start_student_info
order by age;

-- 2. 查询学生最大年龄、最小体重
select
      max(age)
    , min(weight)
from quick_start_student_info;
  • 运行作业

点击 运行 按钮运行作业,运行日志如图所示,如果出现 作业运行成功(Finished),则表示数据加工作业运行成功。

每条select语句会产生一个运行结果,因此再未选中运行的情况下(相当于全选运行),运行后会产生两个运行结果。

SQL语句中出现select、list、show 关键字时,均会产生运行结果。

点击 运行结果1 和 运行结果2 分别查看数据加工作业的运行结果。

至此,quick_start 这个案例就完成了。