Google 参加 2023 年 Interspeech 大会_商业应用

]4SM]G]9L3JIL2FAW2FM0_4.png

本周，国际语音通信协会第 24 届年会(INTERSPEECH 2023) 在爱尔兰都柏林举行，这是全球最大规模的口语理解和处理研究和技术会议之一。语音相关研究领域的专家齐聚一堂，参加口头报告和海报展示，并在全球范围内建立合作关系。

我们很高兴成为INTERSPEECH 2023 的白金赞助商，我们将在本次大会上展示 20 多种研究出版物，并支持多场研讨会和特别会议。我们欢迎现场参会者莅临 Google Research 展位，与我们的研究人员见面，参与问答环节，并演示我们的一些最新语音技术，这些技术有助于提高可访问性，并为数十亿用户提供便捷的通信。此外，我们鼓励在线参会者访问我们在 Topia 的虚拟展位，在那里您可以获得有关 Google 研究和机会的最新信息。访问@GoogleAI Twitter 帐户，了解 Google 展位活动（例如演示和问答环节）。您还可以在下方详细了解 INTERSPEECH 2023 上展示的 Google 研究（Google 附属机构以粗体显示）。

理事会及组织委员会

ISCA 董事会、技术委员会主席：Bhuvana Ramabhadran

领域主席包括：

语音和音频信号分析：Richard Rose

语音合成和口语生成：Rob Clark

特殊领域：Tara Sainath

卫星事件

VoxCeleb 演讲者识别挑战赛 2023 (VoxSRC-23)

组织者包括：Arsha Nagrani

ISCA 语音合成研讨会(SSW12)

演讲者包括：Rob Clark

主题演讲 – ISCA Medalist

连接语音科学与技术 — 现在和未来

演讲者：Shrikanth Narayanan

调查谈话

人工智能时代的语音压缩

演讲者：Jan Skoglund

特别会议文件

用于对重叠语音进行微调 ASR 模型的级联编码器

Richard Rose、Oscar Chang、Olivier Siohan

TokenSplit：使用离散语音表示进行直接、精炼和转录条件语音分离和识别

Hakan Erdogan、Scott Wisdom、Xuankai Chang*、Zalán Borsos、Marco Tagliasacchi、Neil Zeghidour、John R. Hershey

文件

DeePMOS：语音的深度后验平均意见分数

Xinyu Liang、Fredrik Cumlin、Christian Schüldt、Saikat Chatterjee

O-1：使用 Oracle 进行自我训练和 1-最佳假设

Murali Karthick Baskar、Andrew Rosenberg、Bhuvana Ramabhadran、Kartik Audhkhasi

使用特征融合方法重新研究语音基础模型的有效迁移学习

Zhouyuan Huo、Khe Chai Sim、Dongseong Hwang、Tsendsuren Munkhdalai、Tara N. Sainath、Pedro Moreno

MOS 与 AB：使用聚类标准误差可靠地评估文本转语音系统

Joshua Camp、Tom Kenter、Lev Finkelstein、Rob Clark

LanSER：语言模型支持的语音情感识别

Taesik Gong、Josh Belanich、Krishna Somandepalli、Arsha Nagrani、Brian Eoff、Brendan Jou

基于一致性的流式 ASR 的模块化领域自适应

Qiujia Li、Bo Li、Dongseong Hwang、Tara N. Sainath、Pedro M. Mengibar

训练神经残余声学回声抑制器以改进 ASR

Sankaran Panchapagesan、Turaj Zakizadeh Shabestary、Arun Narayanan

MD3：对话的多方言数据集

Jacob Eisenstein、Vinodkumar Prabhakaran、Clara Rivera、Dorottya Demszky、Devyani Sharma

双模式 NAM：端到端 ASR 的有效 Top-K 上下文注入

Zelin Wu、Tsendsuren Munkhdalai、Pat Rondon、Golan Pundak、Khe Chai Sim、Christopher Li

使用文本注入来提高语音中个人标识符的识别率

Yochai Blau、Rohan Agrawal、Lior Madmony、Gary Wang、Andrew Rosenberg、Zhehuai Chen、Zorik Gekhman、Genady Beryozkin、Parisa Haghani、Bhuvana Ramabhadran

如何评估预训练语音模型的模型可转移性？

Zih-Ching Chen、Chao-Han Huck Yang*、Bo Li、Yu Zhang、Nanxin Chen、Shuo-yiin Chang、Rohit Prabhavalkar、 Hung-yi Lee、Tara N. Sainath

改进无需对齐的联合语音-文本表征

Cal Peyser、Zhong Meng、Ke Hu、Rohit Prabhavalkar、Andrew Rosenberg、Tara N. Sainath、Michael Picheny、Kyunghyun Cho

语音模型中大写和话轮预测的文本注入

Shaan Bijwadia、Shuo-yin Chang、Weiran Wang、Zhong Meng、Hao Zhang、Tara N. Sainath

用于设备上语音到语音转换的流式 Parrotron

Oleg Rybakov、Fadi Biadsy、Xia Zhang、Liyang Jiang、Phoenix Meadowlark、Shivani Agrawal

使用双向语言模型进行语义分割可改进长格式 ASR

W. Ronny Huang、Hao Zhang、Shankar Kumar、Shuo-yiin Chang、Tara N. Sainath

通用国际音标自动转写

Chihiro Taguchi、Yusuke Sakai、Parisa Haghani、David Chiang

流式多语言 ASR 的混合专家一致性算法

Ke Hu、Bo Li、Tara N. Sainath、Yu Zhang、Francoise Beaufays

手机实时频谱反演

Oleg Rybakov , Marco Tagliasacchi ,李云鹏,蒋立阳,张霞, Fadi Biadsy

用于自动语音识别的 2 位一致性量化

Oleg Rybakov、Phoenix Meadowlark、Shaojin Ding、David Qiu、Jian Li、David Rim、Yanzhang He

LibriTTS-R：恢复的多语言文本转语音语料库

Yuma Koizumi、Heiga Zen、Shigeki Karita、Yifan Ding、Kohei Yatabe、Nobuyuki Morioka、Michiel Bacchiani、Yu Zhu、Wei Han、Ankur Bapna

PronScribe：从语音和文本进行高精度多模态音素转录

Yang Yu、Matthew Perez*、Ankur Bapna、Fadi Haik、Siamak Tazari、Yu Zhang

用于语言识别的标签感知语音表示学习

Shikhar Vashishth , Shikhar Bharadwaj , Sriram Ganapathy , Ankur Bapna , Min Ma , Wei Han , Vera Axelrod , Partha Talukdar

Google 参加 2023 年 Interspeech 大会

版权声明

相关推荐

评论