找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 24|回复: 0

使用机器学习发现神经网络优化器

[复制链接]

545

主题

0

回帖

1677

积分

金牌会员

积分
1677
发表于 2024-12-12 13:27:22 | 显示全部楼层 |阅读模式
深度学习模型已部署在众多 Google 产品中,例如搜索、翻译和照片。优化方法的选择在训练深度学习模型时起着重要作用。例如,随机梯度下降 在许多情况下效果很好,但更高级的优化器可以更快,尤其是在训练非常深的网络时。然而,由于优化问题的非凸性质,为神经网络设计新的优化器具有挑战性。在Google Brain 团队中,我们想看看是否有可能自动发现新的优化器,其方式类似于使用AutoML
发现新的竞争性神经网络架构。在“使用强化学习的神经优化器搜索”中,我们介绍了一种发现优化方法的方法,重点是深度学习架构。使用这种方法,我们发现了两个新的优化器PowerSign和AddSign,它们在各种不同的任务和架构上都具有竞争力,包括ImageNet分类和 Google 的神经机器翻译系统。为了帮助其他人从这项工作中受益,我们在Tensorflow中提供了优化器。
神经优化器搜索利用循环神经网络 控制器,该控制器可以访问通常与优化相关的简单基元列表。这些基元包括梯度或梯度的移动平均值,并导致具有超过 10 10 个 可能组合的搜索空间。然后,控制器为该搜索空间中的候选优化器或更新规则生成计算图。
在我们的论文中,提出的候选更新规则 (U) 用于在CIFAR10上训练子卷积神经网络几个时期,最终验证准确率 (R) 作为奖励提供给控制器。控制器通过强化学习进行训练,以最大限度地提高采样更新规则的验证准确率。此过程如下所示。
神经优化器搜索概述使用迭代过程来发现新的优化器。
有趣的是,我们发现的优化器是可解释的。例如,在我们发布的PowerSign优化器中,每次更新都会比较梯度的符号及其运行平均值,并根据这两个值是否一致来调整步长。这背后的直觉是,如果这些值一致,则对更新的方向更有信心,因此步长可以更大。我们还发现了一种简单的学习率衰减方案,即线性余弦衰减,我们发现它可以加快收敛速度​​。
图表比较了线性余弦衰减、逐步衰减和余弦衰减的学习率衰减函数。
神经优化器搜索发现了几种在小型ConvNet模型上表现优于常用优化器的优化器。在那些可以很好地迁移到其他任务的优化器中,我们发现PowerSign和AddSign将最先进的 ImageNet 移动大小模型的 top-1 和 top-5 准确率提高了 0.4%。它们在 Google 的神经机器翻译系统上也运行良好,在英语到德语的翻译任务中使用双语评估指标 ( BLEU )将准确率提高了 0.7 。
我们很高兴神经优化器搜索不仅可以提高机器学习模型的性能,而且还可能带来新的可解释方程和发现。我们希望在 Tensorflow 中开源这些优化器将对机器学习从业者有所帮助。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|绿色天空实验室

GMT+8, 2024-12-28 02:21 , Processed in 0.074239 second(s), 19 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表