Google 参加 2023 年 Interspeech 大会

]4SM]G]9L3JIL2FAW2FM0_4.png

本周,国际语音通信协会第 24 届年会(INTERSPEECH 2023) 在爱尔兰都柏林举行,这是全球最大规模的口语理解和处理研究和技术会议之一。语音相关研究领域的专家齐聚一堂,参加口头报告和海报展示,并在全球范围内建立合作关系。

我们很高兴成为INTERSPEECH 2023 的白金赞助商,我们将在本次大会上展示 20 多种研究出版物,并支持多场研讨会和特别会议。我们欢迎现场参会者莅临 Google Research 展位,与我们的研究人员见面,参与问答环节,并演示我们的一些最新语音技术,这些技术有助于提高可访问性,并为数十亿用户提供便捷的通信。此外,我们鼓励在线参会者访问我们在 Topia 的虚拟展位,在那里您可以获得有关 Google 研究和机会的最新信息。访问@GoogleAI Twitter 帐户,了解 Google 展位活动(例如演示和问答环节)。您还可以在下方详细了解 INTERSPEECH 2023 上展示的 Google 研究(Google 附属机构以粗体显示)。

理事会及组织委员会

ISCA 董事会、技术委员会主席:Bhuvana Ramabhadran

领域主席包括:

    语音和音频信号分析:Richard Rose

    语音合成和口语生成:Rob Clark

    特殊领域:Tara Sainath

卫星事件

VoxCeleb 演讲者识别挑战赛 2023 (VoxSRC-23)

组织者包括:Arsha Nagrani

ISCA 语音合成研讨会(SSW12)

演讲者包括:Rob Clark

主题演讲 – ISCA Medalist

连接语音科学与技术 — 现在和未来

演讲者:Shrikanth Narayanan

调查谈话

人工智能时代的语音压缩

演讲者:Jan Skoglund

特别会议文件

用于对重叠语音进行微调 ASR 模型的级联编码器

Richard Rose、Oscar Chang、Olivier Siohan

TokenSplit:使用离散语音表示进行直接、精炼和转录条件语音分离和识别

Hakan Erdogan、Scott Wisdom、Xuankai Chang*、Zalán Borsos、Marco Tagliasacchi、Neil Zeghidour、John R. Hershey

文件

DeePMOS:语音的深度后验平均意见分数

Xinyu Liang、Fredrik Cumlin、Christian Schüldt、Saikat Chatterjee

O-1:使用 Oracle 进行自我训练和 1-最佳假设

Murali Karthick Baskar、Andrew Rosenberg、Bhuvana Ramabhadran、Kartik Audhkhasi

使用特征融合方法重新研究语音基础模型的有效迁移学习

Zhouyuan Huo、Khe Chai Sim、Dongseong Hwang、Tsendsuren Munkhdalai、Tara N. Sainath、Pedro Moreno

MOS 与 AB:使用聚类标准误差可靠地评估文本转语音系统

Joshua Camp、Tom Kenter、Lev Finkelstein、Rob Clark

LanSER:语言模型支持的语音情感识别

Taesik Gong、Josh Belanich、Krishna Somandepalli、Arsha Nagrani、Brian Eoff、Brendan Jou

基于一致性的流式 ASR 的模块化领域自适应

Qiujia Li、Bo Li、Dongseong Hwang、Tara N. Sainath、Pedro M. Mengibar

训练神经残余声学回声抑制器以改进 ASR

Sankaran Panchapagesan、Turaj Zakizadeh Shabestary、Arun Narayanan

MD3:对话的多方言数据集

Jacob Eisenstein、Vinodkumar Prabhakaran、Clara Rivera、Dorottya Demszky、Devyani Sharma

双模式 NAM:端到端 ASR 的有效 Top-K 上下文注入

Zelin Wu、Tsendsuren Munkhdalai、Pat Rondon、Golan Pundak、Khe Chai Sim、Christopher Li

使用文本注入来提高语音中个人标识符的识别率

Yochai Blau、Rohan Agrawal、Lior Madmony、Gary Wang、Andrew Rosenberg、Zhehuai Chen、Zorik Gekhman、Genady Beryozkin、Parisa Haghani、Bhuvana Ramabhadran

如何评估预训练语音模型的模型可转移性?

Zih-Ching Chen、Chao-Han Huck Yang*、Bo Li、Yu Zhang、Nanxin Chen、Shuo-yiin Chang、Rohit Prabhavalkar、 Hung-yi Lee、Tara N. Sainath

改进无需对齐的联合语音-文本表征

Cal Peyser、Zhong Meng、Ke Hu、Rohit Prabhavalkar、Andrew Rosenberg、Tara N. Sainath、Michael Picheny、Kyunghyun Cho

语音模型中大写和话轮预测的文本注入

Shaan Bijwadia、Shuo-yin Chang、Weiran Wang、Zhong Meng、Hao Zhang、Tara N. Sainath

用于设备上语音到语音转换的流式 Parrotron

Oleg Rybakov、Fadi Biadsy、Xia Zhang、Liyang Jiang、Phoenix Meadowlark、Shivani Agrawal

使用双向语言模型进行语义分割可改进长格式 ASR

W. Ronny Huang、Hao Zhang、Shankar Kumar、Shuo-yiin Chang、Tara N. Sainath

通用国际音标自动转写

Chihiro Taguchi、Yusuke Sakai、Parisa Haghani、David Chiang

流式多语言 ASR 的混合专家一致性算法

Ke Hu、Bo Li、Tara N. Sainath、Yu Zhang、Francoise Beaufays

手机实时频谱反演

Oleg Rybakov , Marco Tagliasacchi ,李云鹏,蒋立阳,张霞, Fadi Biadsy

用于自动语音识别的 2 位一致性量化

Oleg Rybakov、Phoenix Meadowlark、Shaojin Ding、David Qiu、Jian Li、David Rim、Yanzhang He

LibriTTS-R:恢复的多语言文本转语音语料库

Yuma Koizumi、Heiga Zen、Shigeki Karita、Yifan Ding、Kohei Yatabe、Nobuyuki Morioka、Michiel Bacchiani、Yu Zhu、Wei Han、Ankur Bapna

PronScribe:从语音和文本进行高精度多模态音素转录

Yang Yu、Matthew Perez*、Ankur Bapna、Fadi Haik、Siamak Tazari、Yu Zhang

用于语言识别的标签感知语音表示学习

Shikhar Vashishth , Shikhar Bharadwaj , Sriram Ganapathy , Ankur Bapna , Min Ma , Wei Han , Vera Axelrod , Partha Talukdar

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论