通过滚动交互预测文本的可读性

1727419236237.jpg

全球至少有 7.73 亿人不识字,无论老少。对于这些人来说,阅读来自不熟悉来源或不熟悉主题的信息可能极其困难。不幸的是,由于阅读和写作教育机会不平等,全球疫情进一步加剧了这些不平等现象。事实上,联合国教科文组织报告称,由于与疫情相关的学校停课,超过 1 亿儿童的阅读能力未达到最低水平。

随着全球范围内科技的普及,平板电脑或手机等设备上的阅读方式已在很大程度上取代了传统阅读方式。这为我们提供了一个独特的机会来观察阅读互动,例如,读者如何滚动阅读文本,这可以让我们了解哪些因素会导致文本难以阅读。在为低水平读者和语言学习者设计教育应用程序时,这种理解至关重要,因为它可用于为学习者匹配适当水平的文本,并帮助读者理解超出其阅读水平的文本。

在CoNLL 2021上发表的 “根据滚动交互预测文本可读性”中,我们展示了设备上阅读交互的数据可用于预测文本的可读性。这种新颖的方法提供了对主观可读性的洞察——个人读者是否认为文本易于理解——并表明可以通过纳入基于滚动的阅读交互的反馈来改进现有的可读性模型。为了鼓励该领域的研究并帮助实现更多个性化的语言学习和文本简化工具,我们将发布基于滚动行为的英语文本可读性评估生成的 阅读交互数据集。

理解文本难度

文本的多个方面都会影响其阅读难度,包括词汇水平、句法结构和整体连贯性。传统的机器学习方法完全依赖于这些语言特征来衡量可读性。然而,单独使用这些特征对于在线内容效果不佳,因为此类内容通常包含缩写、表情符号、残缺文本和短文,这会对可读性模型的性能产生不利影响。

为了解决这个问题,我们调查了是否可以使用关于一个群体的阅读互动的汇总数据来预测文本的难度,以及阅读互动如何根据读者的理解而有所不同。在设备上阅读时,读者通常通过垂直方式滚动与文本互动,我们假设这可以作为阅读理解的粗略代理。考虑到这一点,我们招募了 518 名付费参与者,并要求他们阅读不同难度级别的英语文本。我们通过测量参与者滚动行为的不同特征(例如速度、加速度和重访文本区域的次数)来记录阅读互动。然后,我们使用这些信息为可读性分类器生成一组特征。

根据滚动行为预测文本难度

我们调查了哪些类型的滚动行为受文本难度的影响最大,并使用线性混合效应模型测试了其重要性。在我们的设置中,我们进行了重复测量,因为多个参与者阅读相同的文本,并且每个参与者阅读了多个文本。使用线性混合效应模型让我们更有信心地认为,我们观察到的交互差异是由于文本难度而不是其他随机效应造成的。

我们的结果表明,多种阅读行为在不同文本层面存在显著差异,例如滚动的平均、最大和最小加速度。我们发现最显著的特征是总阅读时间和最大阅读速度。

然后,我们将这些特征作为机器学习算法的输入。我们设计并训练了一个支持向量机(即二元分类器),仅根据个人与文本交互时的滚动行为来预测文本是高级的还是初级的。训练该模型的数据集包含 60 篇文章,每篇文章平均由 17 名参与者阅读。通过对这些交互取参与者显著指标的平均值,我们生成了聚合特征。

我们使用名为f-score 的 指标来衡量该方法的准确度,该指标衡量模型将文本分类为“简单”或“困难”的准确度(其中 1.0 表示完美的分类准确度)。仅使用交互特征,我们就能在此任务上获得 0.77 的 f-score。这是首次展示仅使用交互特征就可以预测文本可读性的工作。

改进可读性模型

为了证明将滚动行为的可读性测量应用于现有可读性模型的价值,我们将基于滚动的功能集成到最先进的自动可读性评估工具中,该工具是作为OneStopEnglish 语料库的一部分发布的。我们发现,添加交互功能可将此模型的 f 分数从 0.84 提高到 0.88。此外,我们能够通过使用交互信息与简单的词汇特征(例如文本中的单词数量)来显著超越此系统,实现令人印象深刻的 0.96 f 分数。

在我们的研究中,我们记录了理解分数,以评估个人 对文本的理解和可读性。参与者被问到每篇文章三个问题来评估读者对所读内容的理解。个人滚动行为的交互特征表示为一个高维向量。为了探索这些数据,我们使用t 分布随机邻域嵌入来可视化每个参与者的阅读交互特征,这是一种可视化高维数据的统计方法。结果显示,根据个人对文本的理解程度,理解分数呈现聚类趋势。这表明,阅读交互中隐含着关于个人理解特定文本的可能性的信息。我们将这种现象称为主观可读性。这些信息对于教育应用或简化在线内容非常有用。

图表显示了 t-SNE 投影的滚动交互在二维中的分布。每个数据点的颜色与理解分数相对应。理解分数的聚类表明阅读行为与理解之间存在相关性。

最后,我们调查了不同读者群体的阅读互动差异程度。我们比较了不同读者群体的平均滚动速度,涵盖了阅读能力和读者的母语。我们发现速度分布因读者的熟练程度和母语而异。这支持了母语和熟练程度会改变读者阅读行为的观点,这使我们能够将群体的阅读行为置于特定情境中,并更好地了解哪些文本区域对他们来说可能更难阅读。

柱状图显示不同熟练程度(初级、中级和高级)读者的平均滚动速度(以每毫秒垂直像素为单位),线条显示每组的平滑趋势。平均滚动速度越高,表示阅读时间越快。例如,高级读者滚动速度较慢的文本更具挑战性,而初学者的滚动速度较快,因为他们只是肤浅地阅读文本。

直方图显示了不同读者(按第一语言,泰米尔语或英语)的平均滚动速度(以每毫秒垂直像素为单位),其中线条显示了每组的平滑趋势。平均滚动速度越高,阅读时间越快。深蓝色条是直方图重叠的地方。

结论

这项研究首次表明,阅读交互(例如滚动行为)可用于预测文本的可读性,这可以带来许多好处。这样的措施与语言无关、不引人注目,并且对噪声文本具有鲁棒性。隐式用户反馈允许在个人层面上洞察可读性,从而可以对文本难度进行更具包容性和个性化的评估。此外,能够判断文本的主观可读性有利于语言学习和教育应用程序。我们进行了一项有 518 名参与者参与的研究,以调查文本可读性对阅读交互的影响,并发布了一个与阅读交互相关的新数据集。我们确认,读者与高级文本和初级文本交互的方式存在统计学上的显着差异,并且个人的理解分数与滚动交互的特定指标相关。有关更多信息,请参阅 我们的会议演示文稿。

致谢

我们感谢我们的合作者 Yevgeni Berzak、Tony Mak 和 Matt Sharifi,以及 Dmitry Lagun 和 Blaise Aguera y Arcas 对本文提出的有益反馈。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论