找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 50|回复: 0

What-If 工具:无需代码即可探测机器学习模型

[复制链接]

545

主题

0

回帖

1677

积分

金牌会员

积分
1677
发表于 2024-12-10 16:38:48 | 显示全部楼层 |阅读模式
构建有效的机器学习 (ML) 系统意味着要提出很多问题。仅仅训练一个模型然后放手是不够的。相反,优秀的从业者会充当侦探,不断探索以更好地理解他们的模型:更改数据点会如何影响我的模型的预测?它对不同群体(例如历史上被边缘化的人)的表现是否不同?我在其上测试模型的数据集有多多样化?
回答这些问题并不容易。探究“假设”情景通常意味着编写自定义的一次性代码来分析特定模型。这个过程不仅效率低下,而且还使非程序员难以参与塑造和改进 ML 模型的过程。Google AI PAIR 计划的一个重点是让广大民众更容易检查、评估和调试 ML 系统。
今天,我们推出了What-If Tool,这是开源TensorBoard Web 应用程序的一项新功能,用户无需编写代码即可分析 ML 模型。通过指向 TensorFlow 模型和数据集的指针,What-If 工具提供了一个用于探索模型结果的交互式可视化界面。
What-If 工具具有大量功能,包括使用Facets自动可视化数据集、手动编辑数据集中的示例并查看这些更改的效果,以及自动生成部分依赖关系图,该图显示模型的预测如何随着任何单个特征的变化而变化。让我们更详细地探索这两个功能。
反事实
只需单击一个按钮,您就可以将数据点与模型预测不同结果的最相似点进行比较。我们将这样的点称为“反事实”,它们可以阐明模型的决策边界。或者,您可以手动编辑数据点并探索模型的预测如何变化。在下面的屏幕截图中,该工具用于二元分类模型,该模型根据UCI 人口普查数据集中的公共人口普查数据预测某人的收入是否超过 5 万美元。这是 ML 研究人员使用的基准预测任务,尤其是在分析算法公平性时——我们很快就会讨论这个主题。在这种情况下,对于选定的数据点,该模型以 73% 的置信度预测该人的收入超过 5 万美元。该工具已自动找到数据集中最相似的人,模型预测其收入低于 5 万美元,并将两者并排比较。在这种情况下,年龄和职业的细微差异仅仅改变了模型的预测就发生了变化。
性能和算法公平性分析
您还可以探索不同分类阈值的影响,同时考虑到不同的数值公平性标准等约束。下面的屏幕截图展示了微笑检测模型的结果,该模型在开源CelebA 数据集上进行训练,该数据集包含名人的带注释脸部图像。下面,数据集中的脸部根据他们是否有棕色头发进行划分,并且对于两组中的每一个,都有一个ROC 曲线和预测混淆矩阵,以及用于设置模型在确定脸部在微笑之前必须有多大的信心的滑块。在这种情况下,该工具自动设置了两组的置信度阈值,以优化平等机会。
演示
为了说明 What-If 工具的功能,我们发布了一组使用预先训练模型的演示:
检测错误分类:多类分类模型,可根据植物花朵的四个测量值预测植物类型。该工具有助于显示模型的决策边界以及导致错误分类的原因。该模型使用UCI 鸢尾花数据集进行训练。
评估二元分类模型中的公平性:上文提到的用于微笑检测的图像分类模型。该工具有助于评估不同子群体的算法公平性。该模型经过专门训练,没有提供来自特定人群子集的任何示例,以展示该工具如何帮助发现模型中的此类偏见。评估公平性需要仔细考虑整体背景——但这是一个有用的定量起点。
调查不同子群体的模型表现:根据人口普查信息预测受试者年龄的 回归模型。该工具有助于显示模型在各个子群体中的相对表现以及不同特征如何单独影响预测。该模型使用UCI 人口普查数据集进行训练。
实践中的假设
我们与 Google 内部的团队一起测试了假设工具,并看到了这种工具的直接价值。一个团队很快发现他们的模型错误地忽略了数据集的整个特征,这促使他们修复了一个之前未被发现的代码错误。另一个团队使用它以可视化的方式将他们的示例从最佳到最差的表现组织起来,这促使他们发现了他们的模型表现不佳的示例类型的规律。
我们期待 Google 内部和外部的人员使用此工具来更好地了解 ML 模型并开始评估公平性。由于代码是开源的,我们欢迎对该工具做出贡献。
致谢
假设工具是一个协作成果,用户体验设计由 Mahima Pushkarna 完成,Facets 更新由 Jimbo Wilson 完成,并得到了许多其他人的意见。我们要感谢试用该工具并提供宝贵反馈的 Google 团队,以及 TensorBoard 团队的所有帮助。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|绿色天空实验室

GMT+8, 2024-12-27 10:03 , Processed in 0.085019 second(s), 19 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表