找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 52|回复: 0

Google BigQuery 中的机器学习

[复制链接]

545

主题

0

回帖

1677

积分

金牌会员

积分
1677
发表于 2024-12-10 17:07:27 | 显示全部楼层 |阅读模式
Google BigQuery支持对大型数据集进行交互式分析,让企业可以轻松分享有意义的见解并根据客户分析制定解决方案。但是,许多使用 BigQuery 的企业并没有使用机器学习来帮助更好地理解他们生成的数据。这是因为精通SQL的数据分析师可能不具备应用机器学习技术所需的传统数据科学背景。
今天,我们宣布推出BigQuery ML,这是 BigQuery 内部的一项功能,可让数据科学家和分析师在海量结构化或半结构化数据集上构建和部署机器学习模型。BigQuery ML 是一组简单的 SQL 语言扩展,使用户能够利用流行的 ML 功能,在已经存储数据的源头执行预测分析,例如预测销售额和创建客户细分。BigQuery ML 还会自动设置智能默认值并负责数据转换,从而带来无缝、易于使用的体验和出色的结果。
在设计 BigQuery ML 后端时,团队面临着一个两难的境地。将大量数据从 BigQuery 服务器传输到运行机器学习算法的专用服务器将非常耗时,并且在安全和隐私方面会产生开销。但是,由于梯度下降的核心组件(一种机器学习算法的主力优化方法)可以使用常见的 SQL 操作*来实现,因此我们能够将现有的 BigQuery SQL 处理引擎重新用于 BigQuery ML。
由于 BigQuery 引擎旨在高效扫描大型数据集,而不是从中随机抽取小样本,因此 BigQuery ML 基于梯度下降的标准(批量)变体,而不是随机版本。虽然随机梯度下降在当今的大型机器学习系统中更为常见,但批量变体具有许多实际优势。
例如,基于随机梯度下降的数据库内机器学习系统逐个处理示例,当数据排序次优时,性能会很差。但是,为了优化常规 SQL 查询的性能,BigQuery 数据通常分布在磁盘上,而不断地重新分配数据以支持随机机器学习算法在计算上会非常昂贵。相反,批量梯度下降对磁盘上数据的排序和分区不敏感,从而完全避免了这个问题。此外,批处理方法可以与经典优化文献中的线搜索技术相结合,从而产生一种更稳定、需要更少微调的学习算法。将线搜索与随机方法结合使用要棘手得多 。我们的实现还包括对正则化和预条件的支持。有关更多详细信息,请参阅我们的论文。 我们希望您会发现 BigQuery ML 对许多预测分析任务都很有用。要尝试它,请访问BigQuery 控制台并按照用户指南进行操作。创建模型非常简单:
创建模型数据集.模型名称
  选项(model_type ='linear_reg',input_label_cols = ['input_label'])
从输入表中选择*;
未来,我们计划进一步将梯度下降实现与 BigQuery 基础架构集成,以实现更多的性能提升。我们还将探索其他机器学习算法,这些算法可以利用 BigQuery 的强大功能轻松高效地解决大规模问题。
致谢
BigQuery ML 是 Google 众多团队合作的成果。主要贡献者和赞助商包括 Hossein Ahmadi、Corinna Cortes、Grzegorz Czajkowski、JD Degenaar、Dan Delorey、Mingge Deng、Danielle Hanks、Amir Hormati、Abhishek Kashyap、Jing Jing Long、Dan McClary、Chris Meyers、Ross Popoff-Walker、Girishkumar Sabhnani、Vivek Sharma、Jordan Tigani、Chad Verbowski、Jiaxun Wu 和 Lisa Yin。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|绿色天空实验室

GMT+8, 2024-12-27 10:04 , Processed in 0.078597 second(s), 19 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表