谷歌很荣幸成为国际计算机视觉大会(ICCV 2023)的白金赞助商,这是一个顶级年度会议,本周在法国巴黎举行。作为计算机视觉研究领域的领导者,谷歌在今年的会议上表现出色,有 60 篇论文被接受,并积极参与了 27 场研讨会和教程。谷歌还很自豪地成为LatinX in CV研讨会的白金赞助商。我们期待分享我们广泛的计算机视觉研究成果,并扩大与更广泛研究社区的合作伙伴关系。
参加 ICCV 2023?我们希望您能参观 Google 展位,与积极追求计算机视觉最新创新的研究人员交流,并查看一些预定的展位活动(例如下面列出的演示和问答环节)。访问@GoogleAI Twitter 帐户,了解有关 ICCV 2023 上 Google 展位活动的更多信息。
请参阅下文,了解有关在 ICCV 2023 上展示的 Google 研究的更多信息(Google 附属机构以粗体显示)。
理事会及组织委员会
总主席:Cordelia Schmid
财务主席:Ramin Zabih
工业关系主席:Rahul Sukthankar
宣传和社交媒体联合主席:Boqing Gong
已接受的论文
具有轻量级 ToF 传感器的单目密集 SLAM 的多模态神经辐射场
Xinyang Liu , Yijin Li , Yanbin Teng , Hujun Bao , Guifeng Zhang , Yinda Zhang , Zapeng Cui
ITI-GEN:包容性文本到图像生成
张成、陈宣柏、柴思齐、陈亨利·吴、Dmitry Lagun、Thabo Beeler、Fernando De la Torre
ASIC:对齐稀疏的野外图像集
Kamal Gupta , Varun Jampani , Carlos Esteves , Abhinav Shrivastava , Ameesh Makadia , Noah Snavely , Abhishek Kar
VQ3D:在 ImageNet 上学习 3D 感知生成模型
Kyle Sargent、Jing Yu Koh、Han Zhang、Huiwen Chang、Charles Herrmann、Pratul Srinivasan、Jiajun Wu、Deqing Sun
开放域视觉实体识别:面向识别数百万个维基百科实体
Hexiang Hu、Yi Luan、Yang Chen *、Urvashi Khandelwal、Mandar Joshi、Kenton Lee、Kristina Toutanova、Ming-Wei Chang
用于语言图像预训练的 Sigmoid 损失
Xiaohua Zhai、Basil Mustafa、Alexander Kolesnikov、Lucas Beyer
同时追踪所有地方的所有事物
Qianqian Wang , Yen-Yu Chang , Ruojin Cai , Zhengqi Li , Bharath Hariharan , Aleksander Holynski , Noah Snavely
Zip-NeRF:基于抗锯齿网格的神经辐射场
Jonathan T. Barron、Ben Mildenhall、Dor Verbin、Pratul P. Srinivasan、Peter Hedman
Delta 去噪分数
Amir Hertz *、Kfir Aberman、Daniel Cohen-Or *
DreamBooth3D:主题驱动的文本到 3D 生成
Amit Raj、Srinivas Kaza、Ben Poole、Michael Niemeyer、Nataniel Ruiz、Ben Mildenhall、Shiran Zada、Kfir Aberman、Michael Rubinstein、Jonathan Barron、Yuanzhen Li、Varun Jampani
百科全书 VQA:关于细粒度类别详细属性的视觉问题
Thomas Mensink、Jasper Uijlings、Lluis Castrejon、Arushi Goel *、Felipe Cadar *、Howard Zhou、Fei Sha、André Araujo、Vittorio Ferrar i
GECCO:几何条件点扩散模型
Michał J. Tyszkiewicz、Pascal Fua、Eduard Trulls
通过学习非配对多视图间的语义对齐实现自我中心视频识别
王启通、赵龙、袁良哲、刘婷、彭曦
用于逆向渲染的神经微面元场
Alexander Mai、Dor Verbin、Falko Kuester、Sara Fridovich-Keil
Rosetta Neurons:挖掘模型动物园中的常见单位
Amil Dravid、Yossi Gandelsman、Alexei A. Efros、Assaf Shocher
教学 CLIP 数到十
Roni Paiss *、Ariel Ephrat、Omer Tov、Shiran Zada、Inbar Mosseri、Michal Irani、Tali Dekel
Vox-E:3D 对象的文本引导体素编辑
Etai Sella , Gal Fiebelman , Peter Hedman , Hadar Averbuch-Elor
CC3D:基于布局的合成 3D 场景生成
Sherwin Bahmani、Jeong Joon Park、Despoina Paschalidou、Xingguang Yan、Gordon Wetzstein、Leonidas Guibas、Andrea Tagliasacchi
深入研究单目 3D 物体跟踪的运动感知匹配
Kuan-Chih Huang、Ming-Hsuan Yang、Yi-Hsuan Tsai
用于 3D 感知图像生成的生成多平面神经辐射
Amandeep Kumar、Ankan Kumar Bhunia、Sanath Narayan、Hisham Cholakkal、Rao Muhammad Anwer、Salman Khan、Ming-Hsuan Yang、Fahad Shahbaz Khan
M2T:对 Transformers 进行两次掩蔽以实现更快的解码
Fabian Mentzer、Eirikur Agustsson、Michael Tschannen
MULLER:用于视觉的多层拉普拉斯调整器
Zhengzhong Tu、Peyman Milanfar、Hossein Talebi
SVDiff:用于扩散微调的紧凑参数空间
Ligong Han *、Yinxiao Li、Han Zhang、Peyman Milanfar、Dimitris Metaxas、Feng Yang
使用迭代扩散模型实现真实人脸恢复及其他研究
赵扬、侯廷波、苏昱川、贾旭辉、李延东、Matthias Grundmann
使用视觉和语言模型进行统一的视觉关系检测
Long Zhao、Liangzhe Yuan、Boqing Gong、Yin Cui、Florian Schroff、Ming-Hsuan Yang、Hartwig Adam、Ting Liu
3D 运动放大:从随时间变化的辐射场可视化细微运动
Brandon Y. Feng、Hadi Alzayer、Michael Rubinstein、William T. Freeman、Jia-Bin Huang
全局特征是图像检索和重新排序所需要的全部内容
邵世豪、陈开锋、Arjun Karpur、崔庆华、André Araujo、曹秉义
在基于提示的持续学习中引入语言指导
Muhammad Gul Zain Ali Khan、Muhammad Ferjad Naeem、Luc Van Gool、Didier Stricker、Federico Tombari、Muhammad Zeshan Afzal
多尺度结构引导扩散用于图像去模糊
Mengwei Ren *、Mauricio Delbracio、Hossein Talebi、Guido Gerig、Peyman Milanfar
复杂条件下的稳健单目深度估计
Stefano Gasperini、Nils Morbitzer、HyunJun Jung、Nassir Navab、Federico Tombari
基于分数的扩散模型作为逆向成像的原理先验
Berthy T. Feng *、Jamie Smith、Michael Rubinstein、Huiwen Chang、Katherine L. Bouman、William T. Freeman
面向通用图像嵌入:通用图像表示的大规模数据集和挑战
Nikolaos-Antonios Ypsilantis、Kaifeng Chen、Bingyi Cao、Mario Lipovsky、Pelin Dogan-Schonberger、Grzegorz Makosa、Boris Bluntschli、Mojtaba Seyedhosseini、Ondrej Chum、André Araujo
U-RED:部分点云的无监督 3D 形状检索和变形
Yan Di、Chenyangguang Zhang、Ruida Zhang、Fabian Manhardt、Yongzhi Su、Jason Rambach、Didier Stricker、Xiangyang Ji、Federico Tombari
AvatarCraft:将文本转换为具有参数化形状和姿势控制的神经人类头像
Ruixiang Jiang , Can Wang , Jingbo Zhang , Minglei Chai , Mingming He , Dongdong Chen , Jing Liao
使用改进的 AR 模型学习多功能 3D 形状生成
Simian Luo , Xuelin Qi , Yanwei Fu , Yinda Zhang , Ying Tai , Zhunyu Zhu , Chengjie Wang , Mingyang Xu
稀疏视图中手-物体交互的新颖视图合成和姿势估计
曲文天,崔兆鹏,张银达,孟晨宇,马翠霞,邓晓明,王红安
PreSTU:场景文本理解预训练
Jihyung Kil *, Soravit Changpinyo , Xi Chen , Hexiang Hu , Sebastian Goodman , Wei-Lun Chao , Radu Soricut
可变形物体的隐式形状表征与密集对应自监督学习
张宝文、李嘉禾、邓小明、张银达、马翠霞、王红安
自我调节提示:不忘记基础模型适应
Muhammad Uzair Khattak、Syed Talal Wasi、Muzammal Nasee、Salman Kha、Ming-Hsuan Yan、Fahad Shahbaz Khan
Spectral Graphormer:基于光谱图的变换器,使用多视角彩色图像进行自我中心双手重建
Tze Ho Elden Tse *、Franziska Mueller、Zhengyang Shen、Danhang Tang、Thabo Beeler、Mingsong Dou、Yinda Zhang、Sasa Petrovic、Hyung Jin Chang、Jonathan Taylor、Bardia Doosti
在 3D 室内场景中合成不同的人体动作
Kaifeng Zhao , Yan Zhang , Shaofei Wang , Thabo Beeler , Siyu Tang
通过 3D 模型估计跟踪视频中的未知物体
Denys Rozumnyi、Jiri Matas、Marc Pollefeys、Vittorio Ferrari、Martin R. Oswald
UnLoc:视频定位任务的统一框架
Shen Yan、Xuehan Xiong、Arsha Nagrani、Anurag Arnab、Zhonghao Wang *、Weina Ge、David Ross、Cordelia Schmid
动词在行动:提高视频语言模型中的动词理解
Liliane Momeni、Mathilde Caron、Arsha Nagrani、Andrew Zisserman、Cordelia Schmid
VLSlice:交互式视觉和语言切片发现
Eric Slyman、Minsuk Kahng、Stefan Lee
是的,我们可以用 CANN:基于局部特征的视觉定位的约束近似最近邻
Dror Aiger、André Araujo、Simon Lynen
视听蒙版自动编码器
Mariana-Iuliana Georgescu *、Eduardo Fonseca、Radu Tudor Ionescu、Mario Lucic、Cordelia Schmid、Anurag Arnab
CLR:用于持续学习的通道式轻量级重编程
Yunhao Ge , Yue Cheng Li , Shuo Ni , Jiaping Zhao , Ming-Hsuan Yang , Laurent Itti
LU-NeRF:通过同步局部非姿势 NeRF 进行场景和姿势估计
Zezhou Cheng *、Carlos Esteves、Varun Jampani、Abhishek Kar、Subhransu Maji、Ameesh Makadia
实时抗锯齿神经渲染的 多尺度
表示 胡东亭,张振凯 ,侯廷波, 刘铜 良,付焕,龚明明
Nerfbusters:从随意捕获的 NeRF 中移除幽灵神器
Frederik Warburg、Ethan Weber、Matthew Tancik、Aleksander Holynski、Angjoo Kanazawa
无需先验知识即可分割已知物体和未见未知物体
Stefano Gasperini、Alvaro Marcos-Ramiro、Michael Schmidt、Nassir Navab、Benjamin Busam、Federico Tombari
SparseFusion:融合多模态稀疏表示用于多传感器 3D 物体检测
Yichen Xie、Chenfeng Xu、Marie-Julie Rakotosaona、Patrick Rim、Federico Tombari、Kurt Keutzer、Masayoshi Tomizuka、Wei Zhan
SwiftFormer:基于 Transformer 的实时移动视觉应用的高效加性注意力机制
Abdelrahman Shaker、Muhammad Maa、Hanoona Rashee、Salman Kha、Ming-Hsuan Yan、Fahad Shahbaz Kha
敏捷建模:从概念到分类器只需几分钟
Otilia Stretcu、Edward Vendrow、Kenji Hata、Krishnamurthy Viswanathan、Vittorio Ferrari、Sasan Tavakkol、Wenlei Zhou、Aditya Avinash、Enming Luo、Neil Gordon Alldrin、MohammadHossein Bateni、Gabriel Berger、Andrew Bunner、Chun-Ta Lu、Javier A Rey、Giulia DeSalvo、Ranjay Krishna、Ariel Fuxman
CAD-Estate:RGB 视频中的大规模 CAD 模型注释
Kevis-Kokitsi Maninis、Stefan Popov、Matthias Niessner、Vittorio Ferrari
恶劣天气下的人数统计
黄志凯、陈伟霆、蒋元春、郭思彦、杨明轩
DreamPose:稳定扩散的时尚视频合成
Johanna Karras、Aleksander Holynski、Ting-Chun Wang、Ira Kemelmacher-Shlizerman
InfiniCity:无限规模城市综合
Chieh Hubert Lin、Hsin-Ying Lee、Willi Menapace、Menglei Chai、Aliaksandr Siarohin、Ming-Hsuan Yang、Sergey Tulyakov
采样:场景自适应分层多平面图像表示,用于从单个图像进行新颖视图合成
周晓宇、林志伟、单晓军、王永涛、孙德清、杨明轩
教程
使用噪声和未标记数据进行分类以外的大型模型学习
Sifei Liu、Hongxu Yin、Shalini De Mello、Pavlo Molchanov、Jose M. Alvarez、Jan Kautz、Xiaolong Wang、Anima Anandkumar、Ming-Hsuan Yang、Trevor Darrell
演讲者:Varun Jampani
工作坊
LatinX in AI
白金赞助商
小组成员:Daniel Castro Chin、Andre Araujo
特邀演讲嘉宾:Irfan Essa志愿者:Ming-Hsuan Yang、Liangzhe Yuan、Pedro Velez、Vincent Etter
场景图和图形表示学习
组织者:Federico Tombari
面部和手势分析与建模国际研讨会
主讲人:Todd Zickler
电子商务中的 3D 视觉和建模挑战
演讲者:Leonidas Guibas
BigMAC:计算机视觉的大模型适配
组织者:Mathilde Caron
现实世界中的对抗鲁棒性 (AROW)
组织者:白宇桐
GeoNet:第一届跨地域稳健计算机视觉研讨会
发言人:Sara Beery
组织者:Tarun Kalluri
计算机视觉,何去何从?
演讲者:Bill Freeman
使用 NeRF 还是不使用 NeRF:针对人类头部的视图合成挑战
演讲者:Thabo Beeler
组织者:Stefanos Zafeiriou
视觉转换器的新思路
演讲者:Cordelia Schmid
组织者:Ming-Hsuan Yang
使用非常有限的图像进行表征学习:自我、合成和公式监督的潜力
演讲者:Manel Baradad Jurjo
计算机视觉的资源高效深度学习
演讲者:Prateek Jain
组织者:Jiahui Yu、Rishabh Tiwari、Jai Gupta
计算机视觉辅助建筑设计
演讲者:Noah Snavely
AV4D:空间声音的视觉学习
组织者:David Harwath
视觉与语言算法推理
演讲者:François Chollet
自动驾驶和机器人的神经场
演讲者:Jon Barron
国际构图与多模态感知挑战赛
组织者:Ranjay Krishna
开放词汇 3D 场景理解 (OpenSUN3D)
演讲者:Thomas Funkhouser
组织者:Francis Engelmann、Johanna Wald、Federico Tombari、Leonidas Guibas
单目 3D 感知的前沿:几何基础模型
演讲者:Leonidas Guibas
PerDream:通过多模态基础模型进行感知、决策和推理
组织者:Daniel McDuff
恢复 6D 物体姿势
发言人:Fabian Manhardt、Martin Sundermeyer
组织者:Martin Sundermeyer
计算机视觉领域的女性 (WiCV)
小组成员:Arsha Nagrani
3D 场景语言
组织者:Leonidas Guibas
人工智能在 3D 内容创作中的
应用 演讲者:张凯鸿
组织者:Leonidas Guibas
元宇宙计算机视觉
演讲者:Jon Barron、Thomas Funkhouser
面向下一代计算机视觉数据集
演讲者:Tom Duerig
Google 研究展位活动
标题:即时调整:即时个性化图像到图像生成
演讲者:Xuhui Jia、Suraj Kothawade
10 月 4 日星期三下午 12:30(欧洲中部夏令时间)
标题:Open Images V7(论文、数据集、博客文章)
演讲者:Rodrigo Benenson、Jasper Uijlings、Jordi Pont-Tuset
10 月 4 日星期三下午 3:30(欧洲中部夏令时间)
标题:Pixel 8 Pro 上的新 Magic Eraser
演讲者:Steven Hickson、Pedro Velez、Albert Shaw
10 月 5 日星期四上午 10:30(欧洲中部夏令时)
标题:前言:数据驱动的少量样本超高分辨率人脸合成体积先验
演讲者:Marcel Bühler、Kripasindhu Sarkar
10 月 5 日星期四下午 12:30(欧洲中部夏令时间)
标题:哎呀!合成和构图图像的视觉和语言基准
演讲者:Yonatan Bitton
10 月 5 日星期四下午 1:00(欧洲中部夏令时间)
标题:事实核查浏览器中的图像搜索(博客文章)
演讲者:Yair Alon、Avneesh Sud
10 月 5 日星期四下午 3:30(欧洲中部夏令时)
标题:用于逆问题的即时调整潜在扩散模型
演讲者:Hyungjin Chung
星期五,10 月 6 日,下午 12:30(欧洲中部夏令时)
标题:现实世界应用的神经隐式表征
演讲者:Federico Tombari、Fabian Manhardt、Marie-Julie Rakotosaona
10 月 6 日星期五下午 3:30(欧洲中部夏令时间)
评论