Flink 实践教程：进阶8-自定义标量函数（UDF）

吴云涛 • 2023-01-02 • 云技术社区 • 278 阅读

流计算 Oceanus 简介

流计算 Oceanus 是大数据产品生态体系的实时化分析利器，是基于 Apache Flink 构建的具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点的企业级实时大数据分析平台。流计算 Oceanus 以实现企业数据价值最大化为目标，加速企业实时化数字化的建设进程。

本文将您详细介绍如何使用自定义标量函数（UDF），对随机产生的数据进行处理后存入 MySQL 中。

Flink 实践教程-进阶（8）：自定义标量函数（UDF）

前置准备

创建流计算 Oceanus 集群

在流计算 Oceanus 产品活动页面 1 元购买 Oceanus 集群。进入 Oceanus 控制台，点击左侧【集群管理】，点击左上方【创建集群】，具体可参考 Oceanus 官方文档创建独享集群。

创建 MySQL 实例

进入 MySQL 控制台，点击【新建】。具体可参考官方文档创建 MySQL 实例。进入实例后，单击右上角【登陆】即可登陆 MySQL 数据库。

创建 MySQL 表

-- 建表语句，用于接收 Sink 端数据
CREATE TABLE `udf_output` (
  `id`        int(10) NOT NULL,
  `len_name`  int(10) DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8

开发 UDF

这里定义一个获取字符串字段长度的函数。如果传入一个字段，则获取这个字段的长度后返回；如果传入两个字段，则获取这两个字段的长度和后返回。

1. 代码编写

在本地IDE中创建 maven 项目，编写自定义函数UDF的代码。

// 类名：StringLengthUdf
package demos.UDF;

import org.apache.flink.table.functions.ScalarFunction;

public class StringLengthUdf extends ScalarFunction {

    public long eval(String a) {
        return a == null ? 0 : a.length();
    }

    public long eval(String b, String c) {
        return eval(b) + eval(c);
    }
}

2. 项目打包

使用 IDEA 自带打包工具 Build Artifacts 或者命令行进行打包。命令行打包命令：

mvn clean package

命令行打包后生成的 JAR 包可以在项目 target 目录下找到。

流计算 Oceanus 作业

上传依赖

在 Oceanus 控制台，点击左侧【依赖管理】，点击左上角【新建】新建依赖，上传本地 JAR 包。

创建 SQL 作业

在 Oceanus 控制台，点击左侧【作业管理】，点击左上角【新建】新建作业，作业类型选择 SQL 作业，点击【开发调试】进入作业编辑页面。单击【作业参数】，在【引用程序包】处选择刚才上传的 JAR 包。

1. 创建 Function

CREATE TEMPORARY SYSTEM FUNCTION StringLengthUdf AS 'demos.UDF.StringLengthUdf';

StringLengthUdf代表创建的函数名，demos.UDF.StringLengthUdf代表类路径。

2. 创建 Source

CREATE TABLE random_source ( 
  id INT, 
  name1 VARCHAR, 
  name2 VARCHAR 
  ) WITH ( 
  'connector' = 'datagen', 
  'rows-per-second'='1',          -- 每秒产生的数据条数
  'fields.id.kind'='sequence',    -- 无界的随机数
  'fields.id.start'='1',          -- 随机数的最小值
  'fields.id.end'='5',            -- 随机数的最大值
  'fields.name1.length'='10',     -- 随机字符串的长度
  'fields.name2.length'='10'      -- 随机字符串的长度
);

3. 创建 Sink

CREATE TABLE `jdbc_upsert_sink_table` (
    `id` INT,
    `len_name` INT,
    PRIMARY KEY(id) NOT ENFORCED
) WITH (
    -- 指定数据库连接参数
    'connector' = 'jdbc',
    'url' = 'jdbc:mysql://xx.xx.xx.xx:xxxx/testdb?rewriteBatchedStatements=true&serverTimezone=Asia/Shanghai',         -- 请替换为您的实际 MySQL 连接参数
    'table-name' = 'udf_output',           -- 需要写入的数据表
    'username' = 'root',                   -- 数据库访问的用户名（需要提供 INSERT 权限）
    'password' = 'xxxxxxxxx',              -- 数据库访问的密码
    'sink.buffer-flush.max-rows' = '200',  -- 批量输出的条数
    'sink.buffer-flush.interval' = '2s'    -- 批量输出的间隔
);

4. 编写业务 SQL

INSERT INTO jdbc_upsert_sink_table
SELECT
id,
CAST(StringLengthUdf(name1,name2) AS INT) AS `len_name`
FROM random_source;

运行作业

点击【发布草稿】->【运行版本】即可运行，可通过【日志】面板 TaskManager 或 Flink UI 查看运行信息。

总结

本文首先在本地开发 UDF 函数，将其打成 JAR 包后上传到 Oceanus 平台引用。接下来使用 Datagen 连接器产生虚拟数据，调用 UDF 函数进行不同字段的字符串长度的加和操作后存入 MySQL 中。

自定义标量函数（UDF）将0个、1个或多个标量值映射到一个新的标量值。
UDF 需要在 ScalarFunction 类中实现 eval 方法，且必须声明为 public 类型；自定义函数中 open 方法和 close 方法可选；可被重载，即在一个 UDF 中实现多个 eval 方法。

参考阅读

[1] 用户自定义函数 https://nightlies.apache.org/flink/flink-docs-release-1.14/zh/docs/dev/table/functions/udfs

本站文章资源均来源自网络，除非特别声明，否则均不代表站方观点，并仅供查阅，不作为任何参考依据！
如有侵权请及时跟我们联系，本站将及时删除！
如遇版权问题，请查看本站版权声明

THE END

二维码

海报

Flink 实践教程：进阶8-自定义标量函数（UDF）

流计算 Oceanus 是大数据产品生态体系的实时化分析利器，是基于 Apache Flink 构建的具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点...

go的并发编程

<<上一篇

腾讯云联合信通院发布《超低延时直播白皮书》，推动直播延时降低90%以上

下一篇>>

Thomas

12月20日

尊敬的站长您好，在这留下评论，如有造成不便，还望您能谅解。那这里我先简单的介绍一下。我是Thomas，代表Bl...

评论于 DigitalOcean VPS启用IPv6以及解决IPv6地址Ping不通问题

红油麻将

12月18日

请教下我在编译的时候出现问题 /opt/bin/gcc limit.c -o limit gcc: err...

评论于威联通套件版 qBittorrent: Too many open files 或者 No file descriptors available 的解决方案

maodoudou

11月14日

感谢分享

评论于梦幻西游H5游戏超详细图文架设教程

yugan

11月4日

请问这个方法支持微信的动画表情吗？我自己添加的表情可以，但是微信自带的表情显示一个Error: Empty S...

评论于【干货分享】在TG上聊微信

健康就好

9月5日

感谢

搜索内容

Flink 实践教程：进阶8-自定义标量函数（UDF）

流计算 Oceanus 简介

前置准备

创建流计算 Oceanus 集群

创建 MySQL 实例

创建 MySQL 表

开发 UDF

1. 代码编写

2. 项目打包

流计算 Oceanus 作业

上传依赖

创建 SQL 作业

1. 创建 Function

2. 创建 Source

3. 创建 Sink

4. 编写业务 SQL

运行作业

总结

参考阅读

作者信息

近期文章

文章目录

句子

标签云

最新评论