Google 参加 ICCV 2023_商业应用

谷歌很荣幸成为国际计算机视觉大会(ICCV 2023)的白金赞助商，这是一个顶级年度会议，本周在法国巴黎举行。作为计算机视觉研究领域的领导者，谷歌在今年的会议上表现出色，有 60 篇论文被接受，并积极参与了 27 场研讨会和教程。谷歌还很自豪地成为LatinX in CV研讨会的白金赞助商。我们期待分享我们广泛的计算机视觉研究成果，并扩大与更广泛研究社区的合作伙伴关系。

参加 ICCV 2023？我们希望您能参观 Google 展位，与积极追求计算机视觉最新创新的研究人员交流，并查看一些预定的展位活动（例如下面列出的演示和问答环节）。访问@GoogleAI Twitter 帐户，了解有关 ICCV 2023 上 Google 展位活动的更多信息。

请参阅下文，了解有关在 ICCV 2023 上展示的 Google 研究的更多信息（Google 附属机构以粗体显示）。

理事会及组织委员会

总主席：Cordelia Schmid

财务主席：Ramin Zabih

工业关系主席：Rahul Sukthankar

宣传和社交媒体联合主席：Boqing Gong

已接受的论文

具有轻量级 ToF 传感器的单目密集 SLAM 的多模态神经辐射场

Xinyang Liu , Yijin Li , Yanbin Teng , Hujun Bao , Guifeng Zhang , Yinda Zhang , Zapeng Cui

ITI-GEN：包容性文本到图像生成

张成、陈宣柏、柴思齐、陈亨利·吴、Dmitry Lagun、Thabo Beeler、Fernando De la Torre

ASIC：对齐稀疏的野外图像集

Kamal Gupta , Varun Jampani , Carlos Esteves , Abhinav Shrivastava , Ameesh Makadia , Noah Snavely , Abhishek Kar

VQ3D：在 ImageNet 上学习 3D 感知生成模型

Kyle Sargent、Jing Yu Koh、Han Zhang、Huiwen Chang、Charles Herrmann、Pratul Srinivasan、Jiajun Wu、Deqing Sun

开放域视觉实体识别：面向识别数百万个维基百科实体

Hexiang Hu、Yi Luan、Yang Chen *、Urvashi Khandelwal、Mandar Joshi、Kenton Lee、Kristina Toutanova、Ming-Wei Chang

用于语言图像预训练的 Sigmoid 损失

Xiaohua Zhai、Basil Mustafa、Alexander Kolesnikov、Lucas Beyer

同时追踪所有地方的所有事物

Qianqian Wang , Yen-Yu Chang , Ruojin Cai , Zhengqi Li , Bharath Hariharan , Aleksander Holynski , Noah Snavely

Zip-NeRF：基于抗锯齿网格的神经辐射场

Jonathan T. Barron、Ben Mildenhall、Dor Verbin、Pratul P. Srinivasan、Peter Hedman

Delta 去噪分数

Amir Hertz *、Kfir Aberman、Daniel Cohen-Or *

DreamBooth3D：主题驱动的文本到 3D 生成

Amit Raj、Srinivas Kaza、Ben Poole、Michael Niemeyer、Nataniel Ruiz、Ben Mildenhall、Shiran Zada、Kfir Aberman、Michael Rubinstein、Jonathan Barron、Yuanzhen Li、Varun Jampani

百科全书 VQA：关于细粒度类别详细属性的视觉问题

Thomas Mensink、Jasper Uijlings、Lluis Castrejon、Arushi Goel *、Felipe Cadar *、Howard Zhou、Fei Sha、André Araujo、Vittorio Ferrar i

GECCO：几何条件点扩散模型

Michał J. Tyszkiewicz、Pascal Fua、Eduard Trulls

通过学习非配对多视图间的语义对齐实现自我中心视频识别

王启通、赵龙、袁良哲、刘婷、彭曦

用于逆向渲染的神经微面元场

Alexander Mai、Dor Verbin、Falko Kuester、Sara Fridovich-Keil

Rosetta Neurons：挖掘模型动物园中的常见单位

Amil Dravid、Yossi Gandelsman、Alexei A. Efros、Assaf Shocher

教学 CLIP 数到十

Roni Paiss *、Ariel Ephrat、Omer Tov、Shiran Zada、Inbar Mosseri、Michal Irani、Tali Dekel

Vox-E：3D 对象的文本引导体素编辑

Etai Sella , Gal Fiebelman , Peter Hedman , Hadar Averbuch-Elor

CC3D：基于布局的合成 3D 场景生成

Sherwin Bahmani、Jeong Joon Park、Despoina Paschalidou、Xingguang Yan、Gordon Wetzstein、Leonidas Guibas、Andrea Tagliasacchi

深入研究单目 3D 物体跟踪的运动感知匹配

Kuan-Chih Huang、Ming-Hsuan Yang、Yi-Hsuan Tsai

用于 3D 感知图像生成的生成多平面神经辐射

Amandeep Kumar、Ankan Kumar Bhunia、Sanath Narayan、Hisham Cholakkal、Rao Muhammad Anwer、Salman Khan、Ming-Hsuan Yang、Fahad Shahbaz Khan

M2T：对 Transformers 进行两次掩蔽以实现更快的解码

Fabian Mentzer、Eirikur Agustsson、Michael Tschannen

MULLER：用于视觉的多层拉普拉斯调整器

Zhengzhong Tu、Peyman Milanfar、Hossein Talebi

SVDiff：用于扩散微调的紧凑参数空间

Ligong Han *、Yinxiao Li、Han Zhang、Peyman Milanfar、Dimitris Metaxas、Feng Yang

使用迭代扩散模型实现真实人脸恢复及其他研究

赵扬、侯廷波、苏昱川、贾旭辉、李延东、Matthias Grundmann

使用视觉和语言模型进行统一的视觉关系检测

Long Zhao、Liangzhe Yuan、Boqing Gong、Yin Cui、Florian Schroff、Ming-Hsuan Yang、Hartwig Adam、Ting Liu

3D 运动放大：从随时间变化的辐射场可视化细微运动

Brandon Y. Feng、Hadi Alzayer、Michael Rubinstein、William T. Freeman、Jia-Bin Huang

全局特征是图像检索和重新排序所需要的全部内容

邵世豪、陈开锋、Arjun Karpur、崔庆华、André Araujo、曹秉义

在基于提示的持续学习中引入语言指导

Muhammad Gul Zain Ali Khan、Muhammad Ferjad Naeem、Luc Van Gool、Didier Stricker、Federico Tombari、Muhammad Zeshan Afzal

多尺度结构引导扩散用于图像去模糊

Mengwei Ren *、Mauricio Delbracio、Hossein Talebi、Guido Gerig、Peyman Milanfar

复杂条件下的稳健单目深度估计

Stefano Gasperini、Nils Morbitzer、HyunJun Jung、Nassir Navab、Federico Tombari

基于分数的扩散模型作为逆向成像的原理先验

Berthy T. Feng *、Jamie Smith、Michael Rubinstein、Huiwen Chang、Katherine L. Bouman、William T. Freeman

面向通用图像嵌入：通用图像表示的大规模数据集和挑战

Nikolaos-Antonios Ypsilantis、Kaifeng Chen、Bingyi Cao、Mario Lipovsky、Pelin Dogan-Schonberger、Grzegorz Makosa、Boris Bluntschli、Mojtaba Seyedhosseini、Ondrej Chum、André Araujo

U-RED：部分点云的无监督 3D 形状检索和变形

Yan Di、Chenyangguang Zhang、Ruida Zhang、Fabian Manhardt、Yongzhi Su、Jason Rambach、Didier Stricker、Xiangyang Ji、Federico Tombari

AvatarCraft：将文本转换为具有参数化形状和姿势控制的神经人类头像

Ruixiang Jiang , Can Wang , Jingbo Zhang , Minglei Chai , Mingming He , Dongdong Chen , Jing Liao

使用改进的 AR 模型学习多功能 3D 形状生成

Simian Luo , Xuelin Qi , Yanwei Fu , Yinda Zhang , Ying Tai , Zhunyu Zhu , Chengjie Wang , Mingyang Xu

稀疏视图中手-物体交互的新颖视图合成和姿势估计

曲文天,崔兆鹏,张银达,孟晨宇,马翠霞,邓晓明,王红安

PreSTU：场景文本理解预训练

Jihyung Kil *, Soravit Changpinyo , Xi Chen , Hexiang Hu , Sebastian Goodman , Wei-Lun Chao , Radu Soricut

可变形物体的隐式形状表征与密集对应自监督学习

张宝文、李嘉禾、邓小明、张银达、马翠霞、王红安

自我调节提示：不忘记基础模型适应

Muhammad Uzair Khattak、Syed Talal Wasi、Muzammal Nasee、Salman Kha、Ming-Hsuan Yan、Fahad Shahbaz Khan

Spectral Graphormer：基于光谱图的变换器，使用多视角彩色图像进行自我中心双手重建

Tze Ho Elden Tse *、Franziska Mueller、Zhengyang Shen、Danhang Tang、Thabo Beeler、Mingsong Dou、Yinda Zhang、Sasa Petrovic、Hyung Jin Chang、Jonathan Taylor、Bardia Doosti

在 3D 室内场景中合成不同的人体动作

Kaifeng Zhao , Yan Zhang , Shaofei Wang , Thabo Beeler , Siyu Tang

通过 3D 模型估计跟踪视频中的未知物体

Denys Rozumnyi、Jiri Matas、Marc Pollefeys、Vittorio Ferrari、Martin R. Oswald

UnLoc：视频定位任务的统一框架

Shen Yan、Xuehan Xiong、Arsha Nagrani、Anurag Arnab、Zhonghao Wang *、Weina Ge、David Ross、Cordelia Schmid

动词在行动：提高视频语言模型中的动词理解

Liliane Momeni、Mathilde Caron、Arsha Nagrani、Andrew Zisserman、Cordelia Schmid

VLSlice：交互式视觉和语言切片发现

Eric Slyman、Minsuk Kahng、Stefan Lee

是的，我们可以用 CANN：基于局部特征的视觉定位的约束近似最近邻

Dror Aiger、André Araujo、Simon Lynen

视听蒙版自动编码器

Mariana-Iuliana Georgescu *、Eduardo Fonseca、Radu Tudor Ionescu、Mario Lucic、Cordelia Schmid、Anurag Arnab

CLR：用于持续学习的通道式轻量级重编程

Yunhao Ge , Yue Cheng Li , Shuo Ni , Jiaping Zhao , Ming-Hsuan Yang , Laurent Itti

LU-NeRF：通过同步局部非姿势 NeRF 进行场景和姿势估计

Zezhou Cheng *、Carlos Esteves、Varun Jampani、Abhishek Kar、Subhransu Maji、Ameesh Makadia

实时抗锯齿神经渲染的多尺度

表示胡东亭，张振凯，侯廷波，刘铜良，付焕，龚明明

Nerfbusters：从随意捕获的 NeRF 中移除幽灵神器

Frederik Warburg、Ethan Weber、Matthew Tancik、Aleksander Holynski、Angjoo Kanazawa

无需先验知识即可分割已知物体和未见未知物体

Stefano Gasperini、Alvaro Marcos-Ramiro、Michael Schmidt、Nassir Navab、Benjamin Busam、Federico Tombari

SparseFusion：融合多模态稀疏表示用于多传感器 3D 物体检测

Yichen Xie、Chenfeng Xu、Marie-Julie Rakotosaona、Patrick Rim、Federico Tombari、Kurt Keutzer、Masayoshi Tomizuka、Wei Zhan

SwiftFormer：基于 Transformer 的实时移动视觉应用的高效加性注意力机制

Abdelrahman Shaker、Muhammad Maa、Hanoona Rashee、Salman Kha、Ming-Hsuan Yan、Fahad Shahbaz Kha

敏捷建模：从概念到分类器只需几分钟

Otilia Stretcu、Edward Vendrow、Kenji Hata、Krishnamurthy Viswanathan、Vittorio Ferrari、Sasan Tavakkol、Wenlei Zhou、Aditya Avinash、Enming Luo、Neil Gordon Alldrin、MohammadHossein Bateni、Gabriel Berger、Andrew Bunner、Chun-Ta Lu、Javier A Rey、Giulia DeSalvo、Ranjay Krishna、Ariel Fuxman

CAD-Estate：RGB 视频中的大规模 CAD 模型注释

Kevis-Kokitsi Maninis、Stefan Popov、Matthias Niessner、Vittorio Ferrari

恶劣天气下的人数统计

黄志凯、陈伟霆、蒋元春、郭思彦、杨明轩

DreamPose：稳定扩散的时尚视频合成

Johanna Karras、Aleksander Holynski、Ting-Chun Wang、Ira Kemelmacher-Shlizerman

InfiniCity：无限规模城市综合

Chieh Hubert Lin、Hsin-Ying Lee、Willi Menapace、Menglei Chai、Aliaksandr Siarohin、Ming-Hsuan Yang、Sergey Tulyakov

采样：场景自适应分层多平面图像表示，用于从单个图像进行新颖视图合成

周晓宇、林志伟、单晓军、王永涛、孙德清、杨明轩

教程

使用噪声和未标记数据进行分类以外的大型模型学习

Sifei Liu、Hongxu Yin、Shalini De Mello、Pavlo Molchanov、Jose M. Alvarez、Jan Kautz、Xiaolong Wang、Anima Anandkumar、Ming-Hsuan Yang、Trevor Darrell

演讲者：Varun Jampani

工作坊

LatinX in AI

白金赞助商

小组成员：Daniel Castro Chin、Andre Araujo

特邀演讲嘉宾：Irfan Essa志愿者：Ming-Hsuan Yang、Liangzhe Yuan、Pedro Velez、Vincent Etter

场景图和图形表示学习

组织者：Federico Tombari

面部和手势分析与建模国际研讨会

主讲人：Todd Zickler

电子商务中的 3D 视觉和建模挑战

演讲者：Leonidas Guibas

BigMAC：计算机视觉的大模型适配

组织者：Mathilde Caron

现实世界中的对抗鲁棒性 (AROW)

组织者：白宇桐

GeoNet：第一届跨地域稳健计算机视觉研讨会

发言人：Sara Beery

组织者：Tarun Kalluri

计算机视觉，何去何从？

演讲者：Bill Freeman

使用 NeRF 还是不使用 NeRF：针对人类头部的视图合成挑战

演讲者：Thabo Beeler

组织者：Stefanos Zafeiriou

视觉转换器的新思路

演讲者：Cordelia Schmid

组织者：Ming-Hsuan Yang

使用非常有限的图像进行表征学习：自我、合成和公式监督的潜力

演讲者：Manel Baradad Jurjo

计算机视觉的资源高效深度学习

演讲者：Prateek Jain

组织者：Jiahui Yu、Rishabh Tiwari、Jai Gupta

计算机视觉辅助建筑设计

演讲者：Noah Snavely

AV4D：空间声音的视觉学习

组织者：David Harwath

视觉与语言算法推理

演讲者：François Chollet

自动驾驶和机器人的神经场

演讲者：Jon Barron

国际构图与多模态感知挑战赛

组织者：Ranjay Krishna

开放词汇 3D 场景理解 (OpenSUN3D)

演讲者：Thomas Funkhouser

组织者：Francis Engelmann、Johanna Wald、Federico Tombari、Leonidas Guibas

单目 3D 感知的前沿：几何基础模型

演讲者：Leonidas Guibas

PerDream：通过多模态基础模型进行感知、决策和推理

组织者：Daniel McDuff

恢复 6D 物体姿势

发言人：Fabian Manhardt、Martin Sundermeyer

组织者：Martin Sundermeyer

计算机视觉领域的女性 (WiCV)

小组成员：Arsha Nagrani

3D 场景语言

组织者：Leonidas Guibas

人工智能在 3D 内容创作中的

应用演讲者：张凯鸿

组织者：Leonidas Guibas

元宇宙计算机视觉

演讲者：Jon Barron、Thomas Funkhouser

面向下一代计算机视觉数据集

演讲者：Tom Duerig

Google 研究展位活动

标题：即时调整：即时个性化图像到图像生成

演讲者：Xuhui Jia、Suraj Kothawade

10 月 4 日星期三下午 12:30（欧洲中部夏令时间）

标题：Open Images V7（论文、数据集、博客文章）

演讲者：Rodrigo Benenson、Jasper Uijlings、Jordi Pont-Tuset

10 月 4 日星期三下午 3:30（欧洲中部夏令时间）

标题：Pixel 8 Pro 上的新 Magic Eraser

演讲者：Steven Hickson、Pedro Velez、Albert Shaw

10 月 5 日星期四上午 10:30（欧洲中部夏令时）

标题：前言：数据驱动的少量样本超高分辨率人脸合成体积先验

演讲者：Marcel Bühler、Kripasindhu Sarkar

10 月 5 日星期四下午 12:30（欧洲中部夏令时间）

标题：哎呀！合成和构图图像的视觉和语言基准

演讲者：Yonatan Bitton

10 月 5 日星期四下午 1:00（欧洲中部夏令时间）

标题：事实核查浏览器中的图像搜索（博客文章）

演讲者：Yair Alon、Avneesh Sud

10 月 5 日星期四下午 3:30（欧洲中部夏令时）

标题：用于逆问题的即时调整潜在扩散模型

演讲者：Hyungjin Chung

星期五，10 月 6 日，下午 12:30（欧洲中部夏令时）

标题：现实世界应用的神经隐式表征

演讲者：Federico Tombari、Fabian Manhardt、Marie-Julie Rakotosaona

10 月 6 日星期五下午 3:30（欧洲中部夏令时间）

Google 参加 ICCV 2023

版权声明

相关推荐

评论