搜索内容

【任务型对话】任务型对话中的自然语言生成

百川NLP • 2023-01-02 • 云技术社区 • 272 阅读

预训练1：首先在大规模的无标注文本上预训练。这一步和GPT-2一致，
预训练2：为了让生成的文本更贴近任务导向型对话的要求，模型还进一步在标注的数据集上预训练。这里的数据来自Schema-Guided Dialogcorpus, MultiWOZ corpus, Frame corpus和Facebook Multilingual Dialog Corpus，这些都是人工标注好的人物对话型数据集，来自各个领域，共计约400K个样本。
微调：最后，只需要在特定领域的少样本数据集下微调即可。

其中关键就是如何将dialog Act编码，其实可以看到她的方式很简单粗暴，直接dialog act作为一个句子输入到模型，作为prompt，然后指导后续的句子生成。

另外，预训练阶段2其实也挺重要的，保证了模型能够学习到对话语料，在做具备一定通用对话的能力，在做领域迁移的时候不会太差。

从上图可以看到，整体训练的数据量还是很小的。

最后看指标，以及生成的case，还是挺靠谱的，整体方法在任务型对话的NLG任务上，应该是够用了（闲聊估计是不太够），本人也在业务中实践也是比较靠谱。

中文GPT模型：预训练一阶段目前已经有中文的gpt2模型，预训练2阶段可能需要中文的对话数据集，目前百度千言开放了一些对话数据集，可以在预训练阶段2用到。微调领域生成一些应该就可以。

https://github.com/Morizeyao/GPT2-Chinese：12层的decoder。

https://github.com/imcaspar/gpt2-ml

Reference

image.png

本站文章资源均来源自网络，除非特别声明，否则均不代表站方观点，并仅供查阅，不作为任何参考依据！
如有侵权请及时跟我们联系，本站将及时删除！
如遇版权问题，请查看本站版权声明

THE END

GPT NLG 任务型对话对话机器人

0

二维码

海报

【任务型对话】任务型对话中的自然语言生成

任务型对话中，一般包含ASR、语义理解、多轮状态追踪、会话策略、自然语言生成（NLG）模块，那么任务型对话中都有哪些生成的方法呢？

【玩转Lighthouse】网关APISIX 的基础使用

【玩转Lighthouse】轻松搭建视频配音工具晓晓配音

下一篇>>

相关推荐

Thomas

12月20日

尊敬的站长您好，在这留下评论，如有造成不便，还望您能谅解。那这里我先简单的介绍一下。我是Thomas，代表Bl...

评论于 DigitalOcean VPS启用IPv6以及解决IPv6地址Ping不通问题

红油麻将

12月18日

请教下我在编译的时候出现问题 /opt/bin/gcc limit.c -o limit gcc: err...

评论于威联通套件版 qBittorrent: Too many open files 或者 No file descriptors available 的解决方案

maodoudou

11月14日

感谢分享

评论于梦幻西游H5游戏超详细图文架设教程

yugan

11月4日

请问这个方法支持微信的动画表情吗？我自己添加的表情可以，但是微信自带的表情显示一个Error: Empty S...

评论于【干货分享】在TG上聊微信

健康就好

9月5日

感谢

评论于梦幻西游H5游戏超详细图文架设教程