Google 参加 ICCV 2023

1724638131429.jpg

谷歌很荣幸成为国际计算机视觉大会(ICCV 2023)的白金赞助商,这是一个顶级年度会议,本周在法国巴黎举行。作为计算机视觉研究领域的领导者,谷歌在今年的会议上表现出色,有 60 篇论文被接受,并积极参与了 27 场研讨会和教程。谷歌还很自豪地成为LatinX in CV研讨会的白金赞助商。我们期待分享我们广泛的计算机视觉研究成果,并扩大与更广泛研究社区的合作伙伴关系。

参加 ICCV 2023?我们希望您能参观 Google 展位,与积极追求计算机视觉最新创新的研究人员交流,并查看一些预定的展位活动(例如下面列出的演示和问答环节)。访问@GoogleAI Twitter 帐户,了解有关 ICCV 2023 上 Google 展位活动的更多信息。

请参阅下文,了解有关在 ICCV 2023 上展示的 Google 研究的更多信息(Google 附属机构以粗体显示)。

 

 

理事会及组织委员会

总主席:Cordelia Schmid

财务主席:Ramin Zabih

工业关系主席:Rahul Sukthankar

宣传和社交媒体联合主席:Boqing Gong

 

 

已接受的论文

具有轻量级 ToF 传感器的单目密集 SLAM 的多模态神经辐射场

Xinyang Liu , Yijin Li , Yanbin Teng , Hujun Bao , Guifeng Zhang , Yinda Zhang , Zapeng Cui

ITI-GEN:包容性文本到图像生成

张成、陈宣柏、柴思齐、陈亨利·吴、Dmitry Lagun、Thabo Beeler、Fernando De la Torre

ASIC:对齐稀疏的野外图像集

Kamal Gupta , Varun Jampani , Carlos Esteves , Abhinav Shrivastava , Ameesh Makadia , Noah Snavely , Abhishek Kar

VQ3D:在 ImageNet 上学习 3D 感知生成模型

Kyle Sargent、Jing Yu Koh、Han Zhang、Huiwen Chang、Charles Herrmann、Pratul Srinivasan、Jiajun Wu、Deqing Sun

开放域视觉实体识别:面向识别数百万个维基百科实体

Hexiang Hu、Yi Luan、Yang Chen *、Urvashi Khandelwal、Mandar Joshi、Kenton Lee、Kristina Toutanova、Ming-Wei Chang

用于语言图像预训练的 Sigmoid 损失

Xiaohua Zhai、Basil Mustafa、Alexander Kolesnikov、Lucas Beyer

同时追踪所有地方的所有事物

Qianqian Wang , Yen-Yu Chang , Ruojin Cai , Zhengqi Li , Bharath Hariharan , Aleksander Holynski , Noah Snavely

Zip-NeRF:基于抗锯齿网格的神经辐射场

Jonathan T. Barron、Ben Mildenhall、Dor Verbin、Pratul P. Srinivasan、Peter Hedman

Delta 去噪分数

Amir Hertz *、Kfir Aberman、Daniel Cohen-Or *

DreamBooth3D:主题驱动的文本到 3D 生成

Amit Raj、Srinivas Kaza、Ben Poole、Michael Niemeyer、Nataniel Ruiz、Ben Mildenhall、Shiran Zada、Kfir Aberman、Michael Rubinstein、Jonathan Barron、Yuanzhen Li、Varun Jampani

百科全书 VQA:关于细粒度类别详细属性的视觉问题

Thomas Mensink、Jasper Uijlings、Lluis Castrejon、Arushi Goel *、Felipe Cadar *、Howard Zhou、Fei Sha、André Araujo、Vittorio Ferrar i

GECCO:几何条件点扩散模型

Michał J. Tyszkiewicz、Pascal Fua、Eduard Trulls

通过学习非配对多视图间的语义对齐实现自我中心视频识别

王启通、赵龙、袁良哲、刘婷、彭曦

用于逆向渲染的神经微面元场

Alexander Mai、Dor Verbin、Falko Kuester、Sara Fridovich-Keil

Rosetta Neurons:挖掘模型动物园中的常见单位

Amil Dravid、Yossi Gandelsman、Alexei A. Efros、Assaf Shocher

教学 CLIP 数到十

Roni Paiss *、Ariel Ephrat、Omer Tov、Shiran Zada、Inbar Mosseri、Michal Irani、Tali Dekel

Vox-E:3D 对象的文本引导体素编辑

Etai Sella , Gal Fiebelman , Peter Hedman , Hadar Averbuch-Elor

CC3D:基于布局的合成 3D 场景生成

Sherwin Bahmani、Jeong Joon Park、Despoina Paschalidou、Xingguang Yan、Gordon Wetzstein、Leonidas Guibas、Andrea Tagliasacchi

深入研究单目 3D 物体跟踪的运动感知匹配

Kuan-Chih Huang、Ming-Hsuan Yang、Yi-Hsuan Tsai

用于 3D 感知图像生成的生成多平面神经辐射

Amandeep Kumar、Ankan Kumar Bhunia、Sanath Narayan、Hisham Cholakkal、Rao Muhammad Anwer、Salman Khan、Ming-Hsuan Yang、Fahad Shahbaz Khan

M2T:对 Transformers 进行两次掩蔽以实现更快的解码

Fabian Mentzer、Eirikur Agustsson、Michael Tschannen

MULLER:用于视觉的多层拉普拉斯调整器

Zhengzhong Tu、Peyman Milanfar、Hossein Talebi

SVDiff:用于扩散微调的紧凑参数空间

Ligong Han *、Yinxiao Li、Han Zhang、Peyman Milanfar、Dimitris Metaxas、Feng Yang

使用迭代扩散模型实现真实人脸恢复及其他研究

赵扬、侯廷波、苏昱川、贾旭辉、李延东、Matthias Grundmann

使用视觉和语言模型进行统一的视觉关系检测

Long Zhao、Liangzhe Yuan、Boqing Gong、Yin Cui、Florian Schroff、Ming-Hsuan Yang、Hartwig Adam、Ting Liu

3D 运动放大:从随时间变化的辐射场可视化细微运动

Brandon Y. Feng、Hadi Alzayer、Michael Rubinstein、William T. Freeman、Jia-Bin Huang

全局特征是图像检索和重新排序所需要的全部内容

邵世豪、陈开锋、Arjun Karpur、崔庆华、André Araujo、曹秉义

在基于提示的持续学习中引入语言指导

Muhammad Gul Zain Ali Khan、Muhammad Ferjad Naeem、Luc Van Gool、Didier Stricker、Federico Tombari、Muhammad Zeshan Afzal

多尺度结构引导扩散用于图像去模糊

Mengwei Ren *、Mauricio Delbracio、Hossein Talebi、Guido Gerig、Peyman Milanfar

复杂条件下的稳健单目深度估计

Stefano Gasperini、Nils Morbitzer、HyunJun Jung、Nassir Navab、Federico Tombari

基于分数的扩散模型作为逆向成像的原理先验

Berthy T. Feng *、Jamie Smith、Michael Rubinstein、Huiwen Chang、Katherine L. Bouman、William T. Freeman

面向通用图像嵌入:通用图像表示的大规模数据集和挑战

Nikolaos-Antonios Ypsilantis、Kaifeng Chen、Bingyi Cao、Mario Lipovsky、Pelin Dogan-Schonberger、Grzegorz Makosa、Boris Bluntschli、Mojtaba Seyedhosseini、Ondrej Chum、André Araujo

U-RED:部分点云的无监督 3D 形状检索和变形

Yan Di、Chenyangguang Zhang、Ruida Zhang、Fabian Manhardt、Yongzhi Su、Jason Rambach、Didier Stricker、Xiangyang Ji、Federico Tombari

AvatarCraft:将文本转换为具有参数化形状和姿势控制的神经人类头像

Ruixiang Jiang , Can Wang , Jingbo Zhang , Minglei Chai , Mingming He , Dongdong Chen , Jing Liao

使用改进的 AR 模型学习多功能 3D 形状生成

Simian Luo , Xuelin Qi , Yanwei Fu , Yinda Zhang , Ying Tai , Zhunyu Zhu , Chengjie Wang , Mingyang Xu

稀疏视图中手-物体交互的新颖视图合成和姿势估计

曲文天,崔兆鹏,张银达,孟晨宇,马翠霞,邓晓明,王红安

PreSTU:场景文本理解预训练

Jihyung Kil *, Soravit Changpinyo , Xi Chen , Hexiang Hu , Sebastian Goodman , Wei-Lun Chao , Radu Soricut

可变形物体的隐式形状表征与密集对应自监督学习

张宝文、李嘉禾、邓小明、张银达、马翠霞、王红安

自我调节提示:不忘记基础模型适应

Muhammad Uzair Khattak、Syed Talal Wasi、Muzammal Nasee、Salman Kha、Ming-Hsuan Yan、Fahad Shahbaz Khan

Spectral Graphormer:基于光谱图的变换器,使用多视角彩色图像进行自我中心双手重建

Tze Ho Elden Tse *、Franziska Mueller、Zhengyang Shen、Danhang Tang、Thabo Beeler、Mingsong Dou、Yinda Zhang、Sasa Petrovic、Hyung Jin Chang、Jonathan Taylor、Bardia Doosti

在 3D 室内场景中合成不同的人体动作

Kaifeng Zhao , Yan Zhang , Shaofei Wang , Thabo Beeler , Siyu Tang

通过 3D 模型估计跟踪视频中的未知物体

Denys Rozumnyi、Jiri Matas、Marc Pollefeys、Vittorio Ferrari、Martin R. Oswald

UnLoc:视频定位任务的统一框架

Shen Yan、Xuehan Xiong、Arsha Nagrani、Anurag Arnab、Zhonghao Wang *、Weina Ge、David Ross、Cordelia Schmid

动词在行动:提高视频语言模型中的动词理解

Liliane Momeni、Mathilde Caron、Arsha Nagrani、Andrew Zisserman、Cordelia Schmid

VLSlice:交互式视觉和语言切片发现

Eric Slyman、Minsuk Kahng、Stefan Lee

是的,我们可以用 CANN:基于局部特征的视觉定位的约束近似最近邻

Dror Aiger、André Araujo、Simon Lynen

视听蒙版自动编码器

Mariana-Iuliana Georgescu *、Eduardo Fonseca、Radu Tudor Ionescu、Mario Lucic、Cordelia Schmid、Anurag Arnab

CLR:用于持续学习的通道式轻量级重编程

Yunhao Ge , Yue Cheng Li , Shuo Ni , Jiaping Zhao , Ming-Hsuan Yang , Laurent Itti

LU-NeRF:通过同步局部非姿势 NeRF 进行场景和姿势估计

Zezhou Cheng *、Carlos Esteves、Varun Jampani、Abhishek Kar、Subhransu Maji、Ameesh Makadia

实时抗锯齿神经渲染的 多尺度

表示 胡东亭,张振凯 ,侯廷波, 刘铜 良,付焕,龚明明

Nerfbusters:从随意捕获的 NeRF 中移除幽灵神器

Frederik Warburg、Ethan Weber、Matthew Tancik、Aleksander Holynski、Angjoo Kanazawa

无需先验知识即可分割已知物体和未见未知物体

Stefano Gasperini、Alvaro Marcos-Ramiro、Michael Schmidt、Nassir Navab、Benjamin Busam、Federico Tombari

SparseFusion:融合多模态稀疏表示用于多传感器 3D 物体检测

Yichen Xie、Chenfeng Xu、Marie-Julie Rakotosaona、Patrick Rim、Federico Tombari、Kurt Keutzer、Masayoshi Tomizuka、Wei Zhan

SwiftFormer:基于 Transformer 的实时移动视觉应用的高效加性注意力机制

Abdelrahman Shaker、Muhammad Maa、Hanoona Rashee、Salman Kha、Ming-Hsuan Yan、Fahad Shahbaz Kha

敏捷建模:从概念到分类器只需几分钟

Otilia Stretcu、Edward Vendrow、Kenji Hata、Krishnamurthy Viswanathan、Vittorio Ferrari、Sasan Tavakkol、Wenlei Zhou、Aditya Avinash、Enming Luo、Neil Gordon Alldrin、MohammadHossein Bateni、Gabriel Berger、Andrew Bunner、Chun-Ta Lu、Javier A Rey、Giulia DeSalvo、Ranjay Krishna、Ariel Fuxman

CAD-Estate:RGB 视频中的大规模 CAD 模型注释

Kevis-Kokitsi Maninis、Stefan Popov、Matthias Niessner、Vittorio Ferrari

恶劣天气下的人数统计

黄志凯、陈伟霆、蒋元春、郭思彦、杨明轩

DreamPose:稳定扩散的时尚视频合成

Johanna Karras、Aleksander Holynski、Ting-Chun Wang、Ira Kemelmacher-Shlizerman

InfiniCity:无限规模城市综合

Chieh Hubert Lin、Hsin-Ying Lee、Willi Menapace、Menglei Chai、Aliaksandr Siarohin、Ming-Hsuan Yang、Sergey Tulyakov

采样:场景自适应分层多平面图像表示,用于从单个图像进行新颖视图合成

周晓宇、林志伟、单晓军、王永涛、孙德清、杨明轩

 

 

教程

使用噪声和未标记数据进行分类以外的大型模型学习

Sifei Liu、Hongxu Yin、Shalini De Mello、Pavlo Molchanov、Jose M. Alvarez、Jan Kautz、Xiaolong Wang、Anima Anandkumar、Ming-Hsuan Yang、Trevor Darrell

演讲者:Varun Jampani

 

 

工作坊

LatinX in AI

白金赞助商

小组成员:Daniel Castro Chin、Andre Araujo

特邀演讲嘉宾:Irfan Essa志愿者:Ming-Hsuan Yang、Liangzhe Yuan、Pedro Velez、Vincent Etter

场景图和图形表示学习

组织者:Federico Tombari

面部和手势分析与建模国际研讨会

主讲人:Todd Zickler

电子商务中的 3D 视觉和建模挑战

演讲者:Leonidas Guibas

BigMAC:计算机视觉的大模型适配

组织者:Mathilde Caron

现实世界中的对抗鲁棒性 (AROW)

组织者:白宇桐

GeoNet:第一届跨地域稳健计算机视觉研讨会

发言人:Sara Beery

组织者:Tarun Kalluri

计算机视觉,何去何从?

演讲者:Bill Freeman

使用 NeRF 还是不使用 NeRF:针对人类头部的视图合成挑战

演讲者:Thabo Beeler

组织者:Stefanos Zafeiriou

视觉转换器的新思路

演讲者:Cordelia Schmid

组织者:Ming-Hsuan Yang

使用非常有限的图像进行表征学习:自我、合成和公式监督的潜力

演讲者:Manel Baradad Jurjo

计算机视觉的资源高效深度学习

演讲者:Prateek Jain

组织者:Jiahui Yu、Rishabh Tiwari、Jai Gupta

计算机视觉辅助建筑设计

演讲者:Noah Snavely

AV4D:空间声音的视觉学习

组织者:David Harwath

视觉与语言算法推理

演讲者:François Chollet

自动驾驶和机器人的神经场

演讲者:Jon Barron

国际构图与多模态感知挑战赛

组织者:Ranjay Krishna

开放词汇 3D 场景理解 (OpenSUN3D)

演讲者:Thomas Funkhouser

组织者:Francis Engelmann、Johanna Wald、Federico Tombari、Leonidas Guibas

单目 3D 感知的前沿:几何基础模型

演讲者:Leonidas Guibas

PerDream:通过多模态基础模型进行感知、决策和推理

组织者:Daniel McDuff

恢复 6D 物体姿势

发言人:Fabian Manhardt、Martin Sundermeyer

组织者:Martin Sundermeyer

计算机视觉领域的女性 (WiCV)

小组成员:Arsha Nagrani

3D 场景语言

组织者:Leonidas Guibas

人工智能在 3D 内容创作中的

应用 演讲者:张凯鸿

组织者:Leonidas Guibas

元宇宙计算机视觉

演讲者:Jon Barron、Thomas Funkhouser

面向下一代计算机视觉数据集

演讲者:Tom Duerig

 

Google 研究展位活动

标题:即时调整:即时个性化图像到图像生成

演讲者:Xuhui Jia、Suraj Kothawade

10 月 4 日星期三下午 12:30(欧洲中部夏令时间)

标题:Open Images V7(论文、数据集、博客文章)

演讲者:Rodrigo Benenson、Jasper Uijlings、Jordi Pont-Tuset

10 月 4 日星期三下午 3:30(欧洲中部夏令时间)

标题:Pixel 8 Pro 上的新 Magic Eraser

演讲者:Steven Hickson、Pedro Velez、Albert Shaw

10 月 5 日星期四上午 10:30(欧洲中部夏令时)

标题:前言:数据驱动的少量样本超高分辨率人脸合成体积先验

演讲者:Marcel Bühler、Kripasindhu Sarkar

10 月 5 日星期四下午 12:30(欧洲中部夏令时间)

标题:哎呀!合成和构图图像的视觉和语言基准

演讲者:Yonatan Bitton

10 月 5 日星期四下午 1:00(欧洲中部夏令时间)

标题:事实核查浏览器中的图像搜索(博客文章)

演讲者:Yair Alon、Avneesh Sud

10 月 5 日星期四下午 3:30(欧洲中部夏令时)

标题:用于逆问题的即时调整潜在扩散模型

演讲者:Hyungjin Chung

星期五,10 月 6 日,下午 12:30(欧洲中部夏令时)

标题:现实世界应用的神经隐式表征

演讲者:Federico Tombari、Fabian Manhardt、Marie-Julie Rakotosaona

10 月 6 日星期五下午 3:30(欧洲中部夏令时间)

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论