语义文本相似度的进展

lixia01 · 发表于 2024-12-12 13:06:07

基于神经网络的自然语言理解研究最近进展迅速，尤其是在学习语义文本表示方面，这可以实现真正新颖的产品，例如Smart Compose和Talk to Books。它还可以帮助提高各种自然语言任务的性能，这些任务的训练数据量有限，例如从少至 100 个标记示例构建强大的文本分类器。
下面，我们讨论了两篇报告 Google 语义表示研究最新进展的论文，以及可在TensorFlow Hub上下载的两个新模型，我们希望开发人员可以使用它们来构建新的令人兴奋的应用程序。
语义文本相似性
在“从对话中学习语义文本相似性”中，我们介绍了一种学习语义文本相似性句子表示的新方法。直觉是，如果句子具有相似的响应分布，则它们在语义上相似。例如，“你多大了？”和“你几岁了？”都是关于年龄的问题，可以通过类似的回答来回答，例如“我 20 岁”。相反，“你好吗？”和“你几岁了？”包含几乎相同的单词，但它们的含义却截然不同，并会导致不同的反应。
如果句子可以用相同的答案来回答，那么它们在语义上是相似的。否则，它们在语义上是不同的。
在这项工作中，我们旨在通过响应分类任务来学习语义相似性：给定对话输入，我们希望从一批随机选择的响应中对正确的响应进行分类。但是，最终目标是学习一个可以返回代表各种自然语言关系（包括相似性和相关性）的编码的模型。通过添加另一个预测任务（在本例中为SNLI 蕴涵数据集）并强制两者通过共享编码层，我们在相似性度量（例如STSBenchmark（句子相似性基准）和CQA 任务 B（问题/问题相似性任务））上获得了更好的性能。这是因为逻辑蕴涵与简单的等价完全不同，并为学习复杂的语义表示提供了更多信号。
对于给定的输入，分类被视为针对潜在候选者的排名问题。
通用句子编码器
在“通用句子编码器”中，我们引入了一个模型，该模型通过添加更多任务来扩展上述多任务训练，并使用类似跳跃思维的模型对它们进行联合训练，该模型可以预测围绕给定文本选择的句子。然而，我们没有使用原始跳跃思维模型中的编码器-解码器架构，而是通过共享编码器使用仅编码架构来驱动预测任务。通过这种方式，训练时间大大减少，同时保持了情绪和语义相似性分类等各种传输任务的性能。目的是提供一个可以支持尽可能广泛的应用的编码器，包括释义检测、相关性、聚类和自定义文本分类。
通过 TensorFlow Hub Universal Sentence Encoder 的输出进行成对语义相似度比较。
正如我们在论文中所描述的，通用句子编码器模型的一个版本使用深度平均网络（DAN）编码器，而第二个版本使用更复杂的自关注网络架构Transformer。
如“通用句子编码器”中所述的多任务训练。各种任务和任务结构通过共享的编码器层/参数（灰色框）连接起来。
由于架构更为复杂，该模型在各种情感和相似性分类任务中的表现都优于更简单的 DAN 模型，而对于短句而言仅略慢一些。但是，使用 Transformer 的模型的计算时间会随着句子长度的增加而明显增加，而 DAN 模型的计算时间则随着句子长度的增加而几乎保持不变。
新模型
除了上面描述的 Universal Sentence Encoder模型之外，我们还在TensorFlow Hub上分享了两个新模型：Universal Sentence Encoder - Large和Universal Sentence Encoder - Lite。这些是预训练的 Tensorflow 模型，可为可变长度的文本输入返回语义编码。这些编码可用于自然语言文本的语义相似性测量、相关性、分类或聚类。
Large 模型使用我们第二篇论文中描述的Transformer编码器进行训练。它针对需要高精度语义表示和最佳模型性能的场景，但速度和大小是其代价。
精简版模型使用句子片段词汇表（而不是单词）进行训练，以显著减少词汇量（这是模型大小的主要影响因素）。它针对的是内存和 CPU 等资源有限的场景，例如设备上或基于浏览器的实现。
我们很高兴与社区分享这项研究和这些模型。我们相信，我们在这里展示的只是一个开始，还有重要的研究问题需要解决，比如将这些技术扩展到更多语言（上面讨论的模型目前支持英语）。我们还希望进一步开发这项技术，使其能够理解段落甚至文档级别的文本。在完成这些任务时，有可能制作出真正“通用”的编码器。
致谢
Daniel Cer、Mario Guajardo-Cespedes、Sheng-Yi Kong、Noah Constant 训练了模型，Nan Hua、Nicole Limtiaco、Rhomni St. John 转移任务，Steve Yuan、Yunhsuan Sung、Brian Strope、Ray Kurzweil 讨论了模型架构。特别感谢 Sheng-Yi Kong 和 Noah Constant 训练了 Lite 模型。

		自动登录	找回密码
密码			立即注册