
使用时间周期一致性学习进行视频理解
过去几年,视频理解领域取得了巨大进步。例如,监督学习和强大的 深度 学习 模型可用于对视频中可能出现的多种动作进行分类,用一个标签总结整个视频片段。然而,在许多情况下,我们需要的不仅仅是整个视频片段的一个标签。例如,如果机器人正在往杯子里倒...
过去几年,视频理解领域取得了巨大进步。例如,监督学习和强大的 深度 学习 模型可用于对视频中可能出现的多种动作进行分类,用一个标签总结整个视频片段。然而,在许多情况下,我们需要的不仅仅是整个视频片段的一个标签。例如,如果机器人正在往杯子里倒...
技术的实用性取决于其可访问性。可访问性的一个关键组成部分是自动语音识别 (ASR),它可以极大地提高有言语障碍的人与日常智能设备交互的能力。然而,ASR 系统通常是从“典型”语音中训练出来的,这意味着代表性不足的群体(例如有言语障碍或口音很...
能够识别“谁说了什么”或进行说话人分类是通过自动化手段理解人类对话音频的关键步骤。例如,在医生和患者之间的医疗对话中,患者在回答“您一直在定期服用心脏病药物吗? ”时说的“是”与医生的修辞“是? ”的含义有很大不同。 传统的说话人分类 (S...
感知手部形状和运动的能力是改善各种技术领域和平台上的用户体验的重要组成部分。例如,它可以作为手语理解和手势控制的基础,还可以在增强现实中将数字内容和信息叠加在物理世界之上。虽然对人们来说这是自然而然的事情,但强大的实时手部感知是一项极具挑战...
机器学习 (ML) 算法生成的模型的质量直接取决于训练数据的质量,但现实世界的数据集通常包含一定量的噪声,这会给 ML 模型带来挑战。数据集中的噪声有多种形式,从损坏的样本(例如,猫图像中的镜头光晕)到数据收集时标记错误的样本(例如,猫图像...
各国加大对芯片技术的投资。2024 年第三季度,全球半导体销售额激增,同比增长 23.2%,环比增长 10.7%,这得益于人工智能、大数据和电动汽车等行业的需求不断增长。包括中国、美国和欧盟在内的世界各国都在大力投资半导体开发,以确保在全球...
Meta、苹果和谷歌等主要科技公司在人工智能集成领域处于领先地位。人工智能正成为广泛使用技术的核心功能,各大公司都在将人工智能嵌入到熟悉的产品中。Meta 的人工智能聊天机器人现在增强了 Facebook 和 Instagram 等平台的功...
中美关系紧张之下,全球半导体行业的新中心。受美国对中国半导体行业制裁力度预期加大,尤其是特朗普重返白宫的影响,全球半导体制造商正加速从中国向越南转移。三星电子和 SK 海力士等韩国企业正引领这一转变,停止在中国的生产扩张,将投资重点放在越南...
声称生成人工智能市场存在垄断。埃隆·马斯克将微软也纳入诉讼范围,扩大了与 OpenAI 的法律战,指控这两家公司从事非法行为,垄断生成式人工智能市场。在加利福尼亚州奥克兰提起的联邦反垄断诉讼称,OpenAI 与其最大投资者微软之间的合作关系...
人工智能驱动的 Gemini 应用程序登陆 iOS,具有多种语言的实时助手工具和 Imagen 3 图像生成功能。Google已在 Google Docs 中直接推出了其先进的文本转图像生成模型 Imagen 3。该工具允许用户通过简单地输...