请选择 进入手机版 | 继续访问电脑版

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 213|回复: 0

利用强化学习开源主动问题重构

[复制链接]

545

主题

0

回帖

1677

积分

金牌会员

积分
1677
发表于 2024-12-10 16:34:36 | 显示全部楼层 |阅读模式
自然语言理解 是Google AI 研究的持续重点,可应用于机器翻译、句法和语义分析等等。重要的是,随着对话技术越来越需要直接回答用户问题的能力,我们最活跃的研究领域之一就是问答 (QA),这是人类对话的基本组成部分
。 由于开源代码是可重复研究的重要组成部分,我们发布了一个用于主动问答(ActiveQA) 的 TensorFlow 包,这是一项研究项目,旨在使用强化学习训练人工智能体来回答问题。ActiveQA 在我们的ICLR 2018论文“提出正确的问题:使用强化学习进行主动问题表述”中首次提出,它使用自然语言与 QA 系统交互,以提供更好的答案。
主动问答
在传统的 QA 中,监督学习技术与标记数据结合使用,以训练一个可以回答任意输入问题的系统。虽然这种方法很有效,但它缺乏像人类一样处理不确定性的能力,无法通过重新表述问题、发起多次搜索、评估和汇总响应来处理不确定性。受人类“提出正确问题”能力的启发,ActiveQA 引入了一个反复咨询 QA 系统的代理。在此过程中,代理可能会多次重新表述原始问题,以找到最佳答案。我们称这种方法为主动方法,因为代理与 QA 系统进行动态交互,目标是提高返回答案的质量。
例如,考虑“特斯拉什么时候出生? ”这个问题。代理以两种不同的方式重新表述问题:“特斯拉的生日是什么时候”和“特斯拉出生在哪一年”,从 QA 系统中检索这两个问题的答案。使用所有这些信息,它决定返回“ 1856 年 7 月 10 日”。
ActiveQA 系统的特点是,它会学习提出能带来良好答案的问题。但是,由于以问题对形式呈现的训练数据(包含原始问题和更成功的变体)并不容易获得,因此 ActiveQA 使用强化学习,这是一种机器学习方法,它涉及训练代理,以便它们在与环境交互的同时采取行动来最大化奖励。
学习发生在 ActiveQA 代理与 QA 系统交互时;每个问题表述都会根据相应答案的好坏进行评估,这构成了奖励。如果答案是好的,那么学习算法将调整模型的参数,以便更有可能再次生成导致答案的问题表述,或者如果答案不好,则不太可能生成。
在我们的论文中,我们展示了通过提出更好的问题,可以训练此类代理超越底层 QA 系统(用于提供表述答案的系统)。这是一个重要的结果,因为 QA 系统已经通过监督学习进行了训练来解决相同的任务。我们研究的另一个引人注目的发现是,ActiveQA 代理可以学习一种相当复杂且仍具有一定可解释性的重构策略(强化学习中的策略)。学习到的策略使用众所周知的信息检索技术,例如tf-idf 查询词重新加权(即信息量较大的词比一般词的权重更大)和词干提取。
构建您自己的 ActiveQA 系统
我们发布的 TensorFlow ActiveQA 包由三个主要组件组成,包含训练和运行 ActiveQA 代理所需的所有代码。
预训练的序列到序列模型,将问题作为输入并返回其重构。此任务类似于机器翻译,从英语翻译成英语,实际上初始模型可用于一般释义。为了实现它,我们使用并自定义了TensorFlow 神经机器翻译教程代码。我们调整了代码以支持使用策略梯度方法进行强化学习的训练。*
答案选择模型。答案选择器使用卷积神经网络,并为原始问题、重新表述和答案的每个三元组分配分数。选择器使用预先训练的、公开可用的词嵌入 ( GloVe )。
问答系统(环境)。为此,我们使用Seo 等人(2017 年)描述的流行问答系统BiDAF。
我们还为所有经过训练的模型提供了检查点的指针。Google
的使命是整合全球信息,使之可供所有人访问和使用,我们相信 ActiveQA 是实现这一使命的重要一步。我们设想这项研究将帮助我们设计提供更好、更易于解释的答案的系统,并希望它能帮助其他人开发能够使用自然语言与世界互动的系统。
致谢
这项研究和发布的贡献者包括 Alham Fikri Aji、Christian Buck、Jannis Bulian、Massimiliano Ciaramita、Wojciech Gajewski、Andrea Gesmundo、Alexey Gronskiy、Neil Houlsby、Yannic Kilcher 和 Wei Wang。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|绿色天空实验室

GMT+8, 2025-1-22 06:36 , Processed in 0.073312 second(s), 18 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表