腾讯云EMR使用说明: 配置工作流

fastio • 2023-01-03 • 云技术社区 • 280 阅读

1. 概述

本文将通过一个简单，并且具有典型代表的例子，描述如何使用EMR产品中的Hue组件创建工作流，并使该工作流每天定时执行。

2. 进入Hue控制台

为了使用HUE，请在新建EMR实例的时候，选择HUE组件。对于现有且未部署HUE组件的实例，请提交工单，技术支持通过后台系统为您部署HUE组件。

为了使用HUE组件管理工作流，请先登录HUE控制台页面，具体步骤如下：

1）登录腾讯官网控制台
2）进入EMR控制页面，点击相应的EMR实例详情页面

1.png

3）在详情页面中，请点击“快捷入口”标签，点击控制台连接
4）首次登陆HUE控制台页面，请使用root账号等，密码为创建集群时候提供的密码。

注意：由于EMR产品的组件启动账号为hadoop。请在首次以root账号登录HUE控制台后，新建hadoop账户。后续所有作业通过hadoop账号来提交。

3.png

3. 在HUE上创建Workflow

一个Workflow 包含多个作业。目前支持Hive, MR, Spark, Shell, Java 可执行程序等多种类型的作业。

本文设计一个简单的Workflow, 包含4种类型作业：Shell、MR、Spark、Hive. 作为例子，上述四个作业直接并无数据相互依赖。

登录Hue控制台页面，具体步骤见章节2.
在菜单栏选择Workflows->Editors->Workflows 进入编辑Workflow页面, 点击Create按钮

4.png

进入Workflows编辑页面后，给新建Workflow增加名字，以及描述

5.png

点击图中(1) 填写Workflow名称，点击（2）填写该Workflow的描述。

我们创建一个名为hello-workflow的Workflow, 共包含4个作业：Shell类型作业、MR类型左右、Spark类型作业、HIVE类型作业。这些作业依次执行。

接下来，分别介绍不同类型作业创建过程。

3.1 创建Shell类型作业

Hue 可以提交Shell类型作业，事先将Shell脚本存放至HDFS中。

具体步骤如下：

1）在Workflow编辑页面中，选择Shell作业类型图标，用鼠标拖动到编辑区；

6.png

2）填写作业参数

7.png

其中，(1) 填写执行Shell脚本的命令，这里我们填写sh; (2) 填写执行sh命令所需的参数；（3）填写脚本路径，注意是在HDFS上的路径。

3）点击右上角保存按钮，保存当前作业配置。

8.png

至此，我们已经在hello-workflow中增加了一个Shell类型的作业了。

3.2 创建MapReduce类型作业

在创建MapReduce类型作业前，我们需要把可执行Jar, 以及数据存放在HDFS上。

具体创建作业步骤如下：

1）在Workflow编辑页面中，选择MapReduce作业类型图标，用鼠标拖动到编辑区；

9.png

其中，（1）选择MapReduce类型作业；（2）使用鼠标将（1）处图标拖拽至(2) 所在区域。

2) 填写Jar路径，注意是HDFS上的路径，填写作业参数；

10.png

其中，（1）填写可执行Jar在HDFS中的路径；（2）填写Jar所需参数，在本例子中是数据输入和输出路径。

3) 点击右上角保存按钮，保存当前作业配置；

至此，我们在Hello-workflow中又增加了一个MR类型的作业。

3.3 创建HIVE类型作业

在创建Hive类型作业前，请确认EMR实例中已经部署了Hive组件，否则作业执行将失败。

具体步骤如下：

1）将要执行的Hive存放在HDFS中；在本例子中，我们将Hive脚本存放在HDFS的/tmp/simple-hive-query.sql
2）拖拽Hive作业图标至Workflow编辑区；
3) 填写Hive脚本所在路径

11.png

4) 点击右上角保存按钮，保存作业配置；

3.4 创建Spark类型作业

在创建Spark作业前，请确认EMR实例中已经部署了Spark组件，否则作业将执行失败；

具体步骤如下：

1）将要执行的Spark作业可执行文件存放至HDFS中；在本例子中，我们将Spark作业可执行文件存放在HDFS的/tmp/spark-terasort-1.1-SNAPSHOT-jar-with-dependencies.jar
2) 将代表Spark类型作业的图片，用鼠标拖拽至Workflow编辑区

12.png

3）填写作业参数

13.png

其中，（1）处填写可执行程序名称，本例中是Jar包名称；（2）填写Jar包的Main Class名称；（3）填写可执行程序所需参数，注意参数顺序与程序参数顺序一致；（4）填写可执行程序在HDFS中的路径；（5）填写Spark任务所需参数，本例中填写的为--master yarn --deploy-mode cluster --executor-memory 2G --conf spark.default.parallelism=512

4）点击右上角保存按钮，保存作业配置；

至此，我们为hello-workflow 增加了Spark类型作业。

4. 运行Workflow

对于创建完成的Workflow, 我们可以手工点击提交按钮，启动Workflow; 也可以配置定时调度方式执行。

当我编辑好Workflow，并保存后。该Workflow将展现在Workflows->Editors->Workflows 页面下的列表里。

15.png

4.1 手动触发Workflow运行

具体步骤如下：

1）选择将运行的Workflow, 点击Submit按钮；

16.png

2）配置Workflow中作业需要的参数。在我们的例子中，只有MapReduce类型作业需要2个参数。

17.png

3）点击Submit按钮后，就可以提交Workflow，进入准备执行阶段；

18.png

其中，(1) 展示了Workflow整体执行状况，包括进度等信息；(2) 展示了当前正在执行的作业的执行进度；（3）是产科作业执行日志的链接

4）查看作业执行结果；

19.png

4.2 定时触发Workflow执行

使用Hue控制台，我们很方便配置定时执行的Workflow。Hue提供一个叫Coordinator的抽象，管理Workflow定时执行。我们需要借助控制台页面创建一个Coordinator来定时触发在第3章节中创建的hello-workflow。具体步骤如下：

1）点击Workflows->Editors->Coordinators，进入Coordinators Editor 页面

20.png

2）填写Coordinator 名称，填写相应的描述，选择需要调度的Workflow, 设置调度时间

21.png

其中，（1）可以命名Coordinator 和增加描述; (2) 选择需要调度的Workflow; (3) 设置调度周期；（4）可以设置时间区，设置开始时间和结束时间；

3）配置Workflow中作业需要的参数，通常这些参数包含HDFS上数据路径，以时间作为分区参数；

22.png

在我们的工作流的作业中，定义了两个变量，这里需要配置对应的变量值。

4）点击左下角“Save”按钮，保存配置；
5）最后在Coordinator Editor页面下的列表里，展示出该用户下所有的Coordinator;

5. 结束

本文通过一个例子，展现如何使用EMR产品创建工作流。

参考文献：

EMR产品说明文档

HUE user guide

本站文章资源均来源自网络，除非特别声明，否则均不代表站方观点，并仅供查阅，不作为任何参考依据！
如有侵权请及时跟我们联系，本站将及时删除！
如遇版权问题，请查看本站版权声明

THE END

spark 大数据大数据处理套件

二维码

海报

腾讯云EMR使用说明: 配置工作流

本文将通过一个简单，并且具有典型代表的例子，描述如何使用EMR产品中的Hue组件创建工作流，并使该工作流每天定时执行。

简单5步，从0开始搭建你的第一款小程序

<<上一篇

打通小程序音视频和webRTC

下一篇>>

Thomas

12月20日

尊敬的站长您好，在这留下评论，如有造成不便，还望您能谅解。那这里我先简单的介绍一下。我是Thomas，代表Bl...

评论于 DigitalOcean VPS启用IPv6以及解决IPv6地址Ping不通问题

红油麻将

12月18日

请教下我在编译的时候出现问题 /opt/bin/gcc limit.c -o limit gcc: err...

评论于威联通套件版 qBittorrent: Too many open files 或者 No file descriptors available 的解决方案

maodoudou

11月14日

感谢分享

评论于梦幻西游H5游戏超详细图文架设教程

yugan

11月4日

请问这个方法支持微信的动画表情吗？我自己添加的表情可以，但是微信自带的表情显示一个Error: Empty S...

评论于【干货分享】在TG上聊微信

健康就好

9月5日

感谢

搜索内容

腾讯云EMR使用说明: 配置工作流

1. 概述

2. 进入Hue控制台

3. 在HUE上创建Workflow

3.1 创建Shell类型作业

3.2 创建MapReduce类型作业

3.3 创建HIVE类型作业

3.4 创建Spark类型作业

4. 运行Workflow

4.1 手动触发Workflow运行

4.2 定时触发Workflow执行

5. 结束

作者信息

近期文章

文章目录

句子

标签云

最新评论