找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 37|回复: 0

SpeakFaster:为严重运动障碍人士带来革命性的沟通方式

[复制链接]

545

主题

0

回帖

1677

积分

金牌会员

积分
1677
发表于 2024-12-2 21:54:47 | 显示全部楼层 |阅读模式
我们推出了 SpeakFaster,这是一个研究原型界面,它使用大型语言模型来加速 ALS 用户的眼神打字,并报告用户研究的结果。
对于因ALS等疾病而无法说话或打字的人来说,辅助和替代沟通(AAC) 设备和眼动打字可以为沟通提供必要的支持。然而,这些资源的文本输入速度较慢,阻碍了用户进行自发对话和充分表达自己的能力。缩小 AAC 设备的速度差距可以对改善许多人的生活质量发挥重要作用。
然而,对于残障用户来说,快速凝视打字的一​​个主要瓶颈是眼睛疲劳和多次击键带来的时间成本。解决这一瓶颈的一种方法是开发技术,通过根据前面的文本和非语言上下文信号预测接下来的文本,从而显著减少输入文本所需的击键次数。
在《自然通讯》杂志上发表的《使用大型语言模型加速 ALS 眼动打字用户的交流》一文中,我们利用 LLM 的功能,重新思考了为 AAC 用户增强文本输入的策略和用户界面。该论文介绍了 SpeakFaster,这是一个利用微调的 LLM 和对话上下文将高度缩写的英文文本(仅单词首字母,必要时补充其他字母和单词)以非常高的准确度扩展为所需完整短语的系统。SpeakFaster 系统由 Google Research 和Team Gleason合作开发。我们最初的用户研究表明,这种共同设计的用户界面节省了令人印象深刻的电机动作,在离线模拟中比传统预测键盘需要的电机动作减少了 57%,并且文本输入速度比传统基线快 29-60%。
SpeakFaster:一种人工智能解决方案,用于弥合思想与文本之间的差距
眼球追踪技术通常用于操作 AAC 设备,其工作原理是识别用户的注视点,并将这些动作转换为类似的计算机鼠标动作,以便进行打字和点击。但是,每次击键所需的精度导致文本输入速度慢得令人沮丧,平均每分钟只有 8-10 个字。如果您回想一下您最近的几次数字对话,就很容易理解这种缓慢的速度是进行自然而有吸引力的对话的重大障碍,并且对用户来说尤其令人沮丧,限制了他们充分参与的能力。脑机接口(BCI) 和人工智能都具有巨大的潜力来帮助处于这种情况的用户。虽然 BCI 是一种侵入性程序,仍然需要更广泛的评估,但人工智能提供了一种更直接的非侵入性解决方案来应对这一挑战。
SpeakFaster 提供了一种基于 AI 的方法,将大型语言模型 (LLM) 与专为缩写文本输入而设计的新型用户界面相结合。语言模型长期以来一直用于支持智能键盘应用程序中的单词补全和下一单词预测功能。最近的 LLM 能够做更多的事情。例如,我们之前证明,经过微调的 640 亿参数Google LaMDA模型可以将单词首字母形式的缩写(例如“ishpitb”)扩展为完整短语(例如“I saw him play in the bed”),在提供对话上下文(即另一位说话者的轮次)时,准确率高达 77%。SpeakFaster 以此方法为基础。用户首先输入他们想要的短语中单词的首字母。然后,我们经过微调的 LLM(基于支持 SpeakFaster的 PaLM模型)会预测整个短语,并根据这些首字母和对话上下文显示最可能的短语。如果所需短语不在选项中,用户可以通过拼出关键词或选择替代词来优化预测。这种方法大大减少了所需的击键次数,从而加快了沟通速度。
具体来说,我们设计了 SpeakFaster 的用户界面以允许轻松输入和优化缩写,确保用户始终能够传达他们想要的信息,即使初始预测不是他们想要的。为了与 UI 配合使用,我们开发了两个经过微调的 LLM 作为为 SpeakFaster 提供支持的完整实用解决方案。第一个“KeywordAE”能够扩展混合了首字母和完整或不完整拼写的单词的缩写。KeywordAE 模型还能够扩展仅有首字母的缩写,因此提供了我们以前工作功能的超集。其次,“FillMask”模型能够在周围单词的上下文中提供以给定首字母开头的替代单词。这两个模型都使用从四个公共英语对话数据集中合成的大约 180 万个独特的三元组 {上下文、缩写、完整短语}进行了微调。
用户研究的主要发现
除了模拟实验外,我们还进行了用户研究,以测试 SpeakFaster 的有效性。这些研究涉及非 AAC 和 ALS 眼动用户,因为参与此类研究会耗费 ALS 患者本已有限的时间和精力,而 ALS 患者仅靠眼动进行交流。19 名非 AAC 参与者在移动设备上用手打字,为我们提供了有关系统易用性的有用信息,并使我们能够定量验证击键率的提高,这支持了我们从两名仅使用眼动打字进行交流的 ALS 患者那里得到的结果。
研究本身分为两个阶段,一个是脚本阶段,另一个是非脚本阶段。在脚本阶段,参与者扮演两人对话中的一方,参与者需要输入的内容会以文本形式显示在屏幕上。在非脚本阶段,参与者与实验者进行 5 或 6 轮简短对话,其中只有对话开场白是预先确定的,例如“你听什么类型的音乐?”其余部分都是即兴的。在研究之前,参与者观看了一段视频演示,并进行了五次对话的小练习,以熟悉界面。
为了评估 SpeakFaster 界面,我们测量了运动动作节省(与要输入的完整字符集相比节省的击键次数)、实用性(每分钟的打字速度)和 SpeakFaster UI 的可学习性(人们需要多少练习才能习惯使用该系统)。
在所有研究中,与传统基线相比,SpeakFaster 为眼球凝视用户和非 AAC 参与者提供了大量按键节省,包括脚本和非脚本对话。对于非 AAC 用户,SpeakFaster在脚本场景中可节省56% ( p = 8.0x10 -11 ) 的按键,在非脚本场景中可节省 45% ( p = 5.5×10 −7 ) 的按键。对于我们的 ALS 眼球凝视测试人员,SpeakFaster 还在脚本阶段显著节省了按键。
虽然可以大幅节省击键次数,但对于非 AAC 用户来说,整体文本输入速度与传统打字速度相当。然而,在我们针对一位 ALS 眼动键盘用户的实验室研究中,SpeakFaster 使脚本阶段的打字速度提高了 61.3% ( p = 0.011),非脚本阶段的打字速度提高了 46.4% ( p = 0.43)。虽然我们无法将此推广到更大的用户群体,但这说明此类系统有望显著改善眼动键盘用户的沟通。
除了节省动作和打字速度外,打字系统和用户界面的采用还取决于学习曲线和它引入的认知开销。虽然与非 AAC 用户相比,SpeakFaster 对于眼球注视用户来说,最初的学习曲线略慢(对于 ALS 参与者来说,还有一个额外的因素,即习惯眼球注视校准和与他们可能习惯的常规眼球注视键盘的自定义设置不同的设置),但事实证明,通过练习是可以做到的。只需 15 个练习对话,眼球注视参与者就能达到舒适的打字速度。
法学硕士可以为 AAC 通信开启更光明的未来
SpeakFaster 的研究显示,使用包含 LLM 的 UI 可以显著改善眼动打字。通过大幅提高文本输入速度并减少身体压力,SpeakFaster 等系统可以帮助严重运动障碍患者更有效、更高效地进行交流,使他们能够更充分地参与对话,从而提高独立性、社会参与度、自我表达能力和生活质量。
我们希望通过这项研究激励社区探索 LLM 技术、UI 设计和个性化方面的进一步进步,以开发和增强 SpeakFaster 等系统的功能,并让更多人能够使用这项技术。随着语言模型的不断改进,我们很高兴看到它们推动 AAC 通信的发展,目标是让最需要的人能够更快地进行通信。
致谢
我们要感谢 Team Gleason Foundation 和 Project Euphonia 的敬业成员,他们使这项研究成为可能。具体来说,我们要感谢 Steve Gleason、Blair Casey、Jay Beavers、John Costello、Julie Cattiau、Katie Seaver、Richard Cave、Anton Kast、Pan-Pan Jiang、Rus Heywood、Michael Terry、James Stout、Mahima Pushkarna、Jon Campbell、William Ito 和 Shumin Zhai 的宝贵贡献。我们感谢 Tobii (R) 授权我们使用 Tobii Stream Engine 进行眼动原型开发。
我们还要感谢 Leonard Florence 生活中心始终致力于提高 ALS 患者的独立性和支持。他们的支持对推进这项重要工作起到了重要作用。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|绿色天空实验室

GMT+8, 2024-12-28 02:47 , Processed in 0.081037 second(s), 19 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表