使用多游戏决策转换器训练通才代理
当前的深度强化学习(RL) 方法可以训练出擅长在特定环境中对各种单个任务进行决策的专业人工智能体,例如围棋或星际争霸。然而,将这些结果扩展到不仅能够执行许多不同任务,而且还能在具有潜在不同表现的各种环境中执行的通用智能体方面进展甚微。纵观自...
当前的深度强化学习(RL) 方法可以训练出擅长在特定环境中对各种单个任务进行决策的专业人工智能体,例如围棋或星际争霸。然而,将这些结果扩展到不仅能够执行许多不同任务,而且还能在具有潜在不同表现的各种环境中执行的通用智能体方面进展甚微。纵观自...
代码日益复杂,对软件工程的生产力构成了重大挑战。代码补全已成为帮助缓解集成开发环境(IDE) 中这种复杂性的重要工具。传统上,代码补全建议是通过基于规则的语义引擎(SE) 实现的,这些引擎通常可以访问完整的存储库并了解其语义结构。最近的研究...
在自然对话中,我们不会每次交谈时都说出对方的名字。相反,我们依靠上下文信号机制来发起对话,而眼神交流通常就足够了。Google Assistant 目前已在 95 多个国家/地区和 29 多种语言中推出,它主要依靠热词机制(“Hey Goo...
虽然模型设计和训练数据是深度神经网络(DNN) 成功的关键因素,但用于更新模型参数(权重)的具体优化方法却很少被讨论。训练 DNN 涉及最小化损失函数,该函数衡量真实标签与模型预测之间的差异。训练通过反向传播进行,通过梯度下降步骤调整模型权...
随着计算密集型应用的兴起、出于隐私和安全原因需要在设备上保留某些数据,以及在网络连接不可用时提供服务的需求,对移动设备、平板电脑等设备上机器学习 (ML) 模型推理的需求 日益增长。然而,设备上推理带来了从建模到平台支持要求等一系列挑战。这...
用于视觉任务(例如图像分类)的深度学习模型通常使用来自单个视觉域(例如自然图像或计算机生成的图像)的数据进行端到端训练。通常,完成多个域的视觉任务的应用程序需要为每个单独的域构建多个模型,独立训练它们(意味着域之间没有共享数据),然后在推理...
计算机视觉模型每天都会应用于各种各样的任务,从对象识别到基于图像的 3D 对象重建。实例级识别 (ILR)是计算机视觉问题中一种具有挑战性的类型— 给定一个对象的图像,任务不仅要确定对象的通用类别(例如拱门),还要确定对象的具体实例(“法国...
视频是一种无处不在的媒体内容来源,涉及人们日常生活的诸多方面。现实世界的视频应用(例如视频字幕、视频内容分析和视频问答(VideoQA))越来越依赖于能够将视频内容与文本或自然语言连接起来的模型。然而,VideoQA 尤其具有挑战性,因为它...
排名是各种领域(如搜索引擎、推荐系统或问答系统)的核心问题。因此,研究人员经常使用排名学习(LTR),这是一组监督机器学习技术,可优化整个项目列表(而不是一次单个项目)的效用。最近一个明显的重点是将 LTR 与深度学习相结合。现有的库(最著...
美国首席地区法官罗伯特·谢尔比(Robert Shelby)发布了初步禁令,支持 NetChoice 的立场。一名联邦法官暂时叫停了犹他州一项旨在通过规范社交媒体使用来保护未成年人心理健康的新法律。该法律将于 10 月 1 日生效,要求社交...