Databricks 扩展 Mosaic AI 以帮助企业利用 LLM 进行构建

一年前,Databricks以 13 亿美元收购了MosaicML 。如今,该平台更名为 Mosaic AI,已成为 Databricks 人工智能解决方案不可或缺的一部分。今天,在该公司的数据 + 人工智能峰会上,该公司推出了多项新功能。在发布这些消息之前,我采访了 Databricks 联合创始人、首席执行官 Ali Ghodsi 和首席技术官 Matei Zaharia。

Databricks 在其会议上推出了五种新的Mosaic AI 工具:Mosaic AI 代理框架、Mosaic AI 代理评估、Mosaic AI 工具目录、Mosaic AI 模型训练和 Mosaic AI 网关。

“这是非常棒的一年——GenAI 取得了巨大进步。每个人都对此感到兴奋,”Ghodsi 告诉我。“但大家关心的仍然是三件事:我们如何提高这些模型的质量或可靠性?第二,我们如何确保它具有成本效益?这里的模型之间的成本差异很大——价格相差巨大,数量级不等。第三,我们如何在保护数据隐私的情况下做到这一点?”

今天的发布旨在解决 Databricks 客户的大部分担忧。

Zaharia 还指出,现在将大型语言模型 (LLM) 部署到生产中的企业正在使用具有多个组件的系统。这通常意味着他们会多次调用一个模型(也可能是多个模型),并使用各种外部工具来访问数据库或执行检索增强生成 (RAG)。这些复合系统可以加速基于 LLM 的应用程序,通过使用更便宜的模型进行特定查询或缓存结果来节省资金,也许最重要的是,通过使用专有数据增强基础模型,使结果更可靠、更相关。

“我们认为这是真正影响深远、任务关键型人工智能应用的未来,”他解释道。“因为如果你仔细想想,如果你正在做一些真正任务关键型的事情,你会希望工程师能够控制它的各个方面——而你可以通过模块化系统做到这一点。因此,我们正在开展大量基础研究,研究如何以最佳方式为特定任务创建这些 [系统],以便开发人员可以轻松地使用它们并连接所有部分,跟踪所有内容并查看正在发生的事情。”

至于实际构建这些系统,Databricks 本周将推出两项服务:Mosaic AI 代理框架和 Mosaic AI 工具目录。AI 代理框架采用了该公司的无服务器向量搜索功能,该功能上个月已全面推出,并为开发人员提供了在此基础上构建自己的基于 RAG 的应用程序的工具。

Ghodsi 和 Zaharia 强调,Databricks 矢量搜索系统采用混合方法,将传统的基于关键字的搜索与嵌入搜索相结合。所有这些都与 Databricks 数据湖深度集成,并且两个平台上的数据始终自动保持同步。这包括整个 Databricks 平台的治理功能(特别是 Databricks Unity Catalog治理层),以确保个人信息不会泄露到矢量搜索服务中。

谈到 Unity Catalog(该公司现在也在慢慢将其开源),值得注意的是,Databricks 正在扩展该系统,让企业可以控制这些 LLM 在生成答案时可以调用哪些 AI 工具和功能。Databricks 表示,这个目录还将使这些服务在整个公司中更容易被发现。

Ghodsi 还强调,开发人员现在可以使用所有这些工具来构建自己的代理,例如使用Langchain或LlamaIndex将模型和函数链接在一起。事实上,Zaharia 告诉我,很多 Databricks 客户现在已经在使用这些工具了。

“很多公司都在使用这些东西,甚至是类似代理的工作流程。我认为人们常常对数量之多感到惊讶,但这似乎是事情发展的方向。我们还发现,在我们的内部人工智能应用程序中,比如我们平台的助手应用程序,这就是构建它们的方式,”他说。

为了评估这些新应用程序,Databricks 还推出了 Mosaic AI Agent Evaluation,这是一款 AI 辅助评估工具,结合了基于 LLM 的评委来测试 AI 在生产中的表现,同时也允许企业快速获得用户的反馈(并让他们标记一些初始数据集)。Agent Evaluation 包括一个基于 Databricks今年早些时候收购 Lilac 的UI 组件,它允许用户可视化和搜索大量文本数据集。

“我们的每位客户都在说:我确实需要在内部做一些标记,我会让一些员工来做。我可能只需要 100 个答案,或者 500 个答案——然后我们可以将其提供给 LLM 评委,”Ghodsi 解释道。

另一种改善结果的方法是使用微调模型。为此,Databricks 现在提供 Mosaic AI 模型训练服务,该服务(您猜对了)允许用户使用其组织的私有数据微调模型,以帮助他们在特定任务上表现更好。

最后一款新工具是 Mosaic AI Gateway,该公司将其描述为“查询、管理和部署任何开源或专有模型的统一界面”。其理念是允许用户使用集中式凭证存储以受控的方式查询任何 LLM。毕竟,没有哪家企业希望其工程师将随机数据发送给第三方服务。

在预算缩减的情况下,AI Gateway 还允许 IT 部门为不同供应商设置费率限制,以保持成本可控。此外,这些企业还可以获得使用情况跟踪和追踪,以便调试这些系统。

正如 Ghodsi 告诉我的那样,所有这些新功能都是对 Databricks 用户现在使用 LLM 的方式的反应。“我们看到过去一个半季度市场发生了巨大转变。去年年初,无论你和谁交谈,他们都会说:我们支持开源,开源很棒。但当你真正推动人们时,他们就会使用 Open AI。每个人,无论他们说什么,无论他们如何吹捧开源有多棒,在幕后,他们都在使用 Open AI。”现在,这些客户已经变得更加成熟,并且正在使用开放模型(当然,很少有真正开源的模型),这反过来又要求他们采用一套全新的工具来解决随之而来的问题和机遇。

本站全部资讯来源于实验室原创、合作机构投稿及网友汇集投稿,仅代表个人观点,不作为任何依据,转载联系作者并注明出处:https://www.lvsky.net/585.html

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论