• 阅读: 801 回复: 0
    学习委员

    【数栖EMR】配置集群客户端教程

    楼主 发表于 2020-04-24 15:02:27

    1. 拷贝集群客户端,配置文件及配置环境变量

    说明:
    1. 以下操作请在执行代理服务器上用root权限执行。
    2. $hdp_ip为集群任意节点的ip。
    3. 具体操作可能因版本不同而有所变化,请根据实际情况操作。
    
    sudo mkdir -p /usr/hdp/
    sudo rsync -av root@$hdp_ip:/usr/hdp/* /usr/hdp/
    sudo rsync -av root@$hdp_ip:/etc/hadoop /etc/
    sudo rsync -av root@$hdp_ip:/etc/hive /etc/
    sudo rsync -av root@$hdp_ip:/etc/spark* /etc/
    sudo rsync -av root@$hdp_ip:/etc/hbase* /etc/
    
    #HDP_VERSION因版本不同而有所变化,请根据实际情况配置。
    
    echo '
    export HDP_VERSION=3.1.0.0-78
    export HADOOP_COMMON_HOME=/usr/hdp/$HDP_VERSION/hadoop
    export HADOOP_HDFS_HOME=/usr/hdp/$HDP_VERSION/hadoop-hdfs
    export HADOOP_MAPRED_HOME=/usr/hdp/$HDP_VERSION/hadoop-mapreduce
    export HADOOP_YARN_HOME=/usr/hdp/$HDP_VERSION/hadoop-yarn
    export HIVE_HOME=/usr/hdp/$HDP_VERSION/hive
    export HBASE_HOME=/usr/hdp/$HDP_VERSION/hbase
    export SPARK_HOME=/usr/hdp/$HDP_VERSION/spark2
    export SQOOP_HOME=/usr/hdp/$HDP_VERSION/sqoop
    PATH=$PATH:$SPARK_HOME/bin:$HADOOP_COMMON_HOME/bin:$HADOOP_HDFS_HOME/bin:$HADOOP_MAPRED_HOME/bin:$HIVE_HOME/bin:$HBASE_HOME/bin:/usr/local/bin/python/bin:$STORM_HOME/bin:$SQOOP_HOME/bin' | sudo tee -a /home/deploy/.bashrc > /dev/null
    
    echo 'spark.ui.enabled false' >> /etc/spark2/conf/spark-defaults.conf
    
    echo 'log4j.logger.org.apache.hadoop.yarn.client=INFO' >> /etc/spark2/conf/log4j.properties
    
    source /home/deploy/.bashrc
    
     

    2. 以上操作完成之后,请手动将集群的hosts信息拷贝到执行代理服务器上的/etc/hosts内。

    3. 在hdfs上创建数栖平台项目默认资源目录

    ssh root@$hdp_ip  'sudo su - hdfs -c "hadoop fs -mkdir -p /user/shuqi"'
    ssh root@$hdp_ip  'sudo su - hdfs -c "hadoop fs -mkdir -p /user/deploy"'
    ssh root@$hdp_ip  'sudo su - hdfs -c "hadoop fs -chown -R deploy:deploy /user/shuqi"'
    ssh root@$hdp_ip  'sudo su - hdfs -c "hadoop fs -chown -R deploy:deploy /user/deploy"'
    
     

    4. 验证:

    # 进入spark/spark2目录,请注意:spark/spark2目录可能因集群版本和spark版本不同而改变
    cd /usr/hdp/2.6.0.3-8/spark或spark2
    
    # 执行sparkPi,指定调度队列为dev,请注意:这里的调度队列以及spark-examples的jar包版本需要视实际情况而定
     ./bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --queue dev --name sparkPi lib/spark-examples-1.6.3.2.6.0.3-8-hadoop2.7.3.2.6.0.3-8.jar 100
    
    注:如果是spark2,则示例jar包目录一般为/usr/hdp/2.6.0.3-8/spark2/examples/jars/spark-examples_2.11-2.1.0.2.6.0.3-8.jar,请根据实际情况而定。
    
    # 结果:
    
    ......
    17/10/14 14:52:30 INFO Submitted application application_1507947630013_0003
    17/10/14 14:53:12 INFO scheduler.DAGScheduler: Job 0 finished: reduce at SparkPi.scala:38, took 1.976050 s
    Pi is roughly 3.1411539141153915
    ......

热门文章

数栖云部署及资源配置超详细指南

数栖平台使用前置条件说明

数栖云套餐选择攻略

数栖云中的各个作业类型,到底有什么不同?

最新文章

澜图使用教程摘要:01.工具界面各部分介绍

数据中台产品|数栖平台数据资产开发套件 :实时开发

数据可视化工具|02 澜图产品价值

鲍志方:手把手教你制作炫酷可视化地图

  • 未登录

    回复楼主

    登录后可回复
    /1000