OceanBase 湖库一体 AI 数据库正式发布

6 月 29 日，OceanBase Hours 线上发布会举行，OceanBase 面向湖库一体的 AI 数据库正式发布，OceanBase Lakebase、DataStudio、DataPilot 等全新 AI 产品家族同步亮相。

OceanBase CEO 杨冰

OceanBase AI 数据库，是以湖库一体为核心架构、面向 Agent 和多模态数据设计的现代数据基础设施。它将数据库的事务、一致性与实时处理能力，与数据湖的开放、海量存储和多样化计算能力统一起来，把结构化、半结构化、非结构化数据纳入统一管理体系，打通在线服务与离线分析，消除多系统拼装带来的数据割裂、链路冗余与工程复杂性，为现代 AI 应用提供可靠、实时、可扩展的数据底座。

左右滑动查看更多

“这不是传统数据库的功能升级，而是 OceanBase 面向 AI 时代的一次基础设施重建。” OceanBase CEO 杨冰表示，Agent 正在成为数据库新的数据使用者，AI 下一阶段决胜关键不仅在模型能力，更在于让模型理解企业业务、在真实场景中创造价值。这道题的关键在数据。“AI 让非结构化数据第一次可以被数据库理解，OceanBase AI 数据库让理解的结果能被治理、查询和实时使用。”

每一次计算范式的跃迁，都会推动底层基础设施重新演进。从原生分布式数据库到湖库一体的 AI 数据库，这不是简单的产品能力升级，而是 OceanBase 面向 AI 时代，对数据基础设施演进方向作出的系统性判断。

两组数字：AI 时代数据库的新趋势

分享一开始，杨冰分享了一组正在改变数据基础设施格局的数字：

据 Gartner 预测，到 2028 年，三分之一的企业软件交互将由 Agent 完成。这意味着，AI 正成为新的数据使用者，而且是 7×24 小时全天候、持续调用数据的数据使用者。

通用模型已经具备广泛的知识与推理能力，但距离真正理解一家企业，仍然缺少关键的一步。何为企业智能？杨冰给出了答案：从“通用聪明”到“懂企业业务”，靠的不是更大的模型，而是高质量、实时且可信的数据与上下文。

“如果底层数据还是分散在多套彼此割裂的系统里，Agent 就很难得到完整、一致的业务上下文。”杨冰表示，结构化与非结构化数据的融合，已不再是技术选项，正在成为 Agent 进入企业生产系统的前提条件。

Agent 成为新的数据使用者，“规模”的定义也正在被重新改写。杨冰表示，过去讨论数据库扩展性，通常指“单一数据库能承载多大体量”，但 AI 时代，新的挑战来自应用数量和独立数据空间数量的快速增长。

以蚂蚁灵光为例，它承载了 3000 万个闪应用，每个应用仅有数百行数据，尽管其中 99% 处于休眠状态，却需要随时实现秒级响应。这些 Agent 应用不能独享资源，也不能简单共享数据，杨冰表示，这正是传统数据库从未面对过的新型负载：海量 Agent 轻应用需要低成本共存、相互隔离，并能够根据访问热度和业务规模按需调度资源。

同时，Agent 还在持续进化，但失败路径不能污染生产数据，更不能影响后续尝试。“数据基础设施需要像代码仓库一样,可以快速创建分支，在隔离环境中试验，验证通过后保留或合并，失败则可以直接回滚或释放。”

杨冰表示，上下文、规模、进化——这三个 Agent 的关键需求，指向同一个命题：AI 数据库解决的，不是“数据如何存储存”，而是“Agent 如何安全、准确并持续地使用数据”。

变化同样发生在数据本身，这是杨冰展示的第二组数据：到今天，全球超 80% 的数据是非结构化数据。数据形态之变、数据流动之变、数据交互之变——这三股力量正同时涌来。

客服录音、产品图像、会议记录、工程图纸——这些原本“不可计算”的非结构化数据，在 AI 眼中正转化为最具竞争价值的战略资产，它们需要和结构化数据一起，在同一个底座上被统一管理、统一治理、统一调用。

数据融合的挑战，不只发生在数据形态上，还发生在数据流动的方式上。过去的数据链路是线性的，各环节相互割裂，AI 应用的运转逻辑截然不同，模型需要在线数据实时供给上下文，模型的推理结果反哺数据库，让数据越用越准。杨冰表示，AI 时代，数据必须形成闭环，在线与离线就不能割裂在两套系统里。

数据库与用户的交互方式，也正在经历一场根本性的变革。

过去，数据库的交互方式是 SQL，工程师写查询，数据库返回结果。但现在，自然语言正成为 Agent 与数据交互的全新入口。这意味着数据库不能再只做“存储和检索”——它需要真正具备语义层，能够理解业务本体，能够支撑 Agent 对业务逻辑的深度理解。

“AI 数据库，必须从‘记录事实’走向‘理解业务’。”杨冰表示，这是 AI 数据库一个全新的角色定位，也是传统数据库架构从未承担过的能力边界。

15 年积累：重建底座的底气

这，正是 OceanBase 选择重建数据基础设施的根本原因。而支撑这次重建的最大底气，来自 15 年的技术积累与真实场景锤炼。

OceanBase 从分布式事务数据库起步，在金融这一对可靠性要求最为严苛的领域，经历了长达 15 年的大规模实战检验。目前，OceanBase 已服务超过 4000+ 家客户，其中60%以上的客户将OceanBase作为核心系统支撑企业的关键业务负载，，连续三年在中国分布式数据库本地部署市场份额排名第一。在国际舞台上，OceanBase是迄今唯一同时在 TPC-C、TPC-H 两项权威基准测试中登顶的数据库，业务已覆盖全球多个国家和地区。

数据不出错、系统不中断、故障毫秒恢复——这些 AI 时代被反复提及的“刚需”，在金融级场景中早已锤炼成熟，成为 OceanBase 的基本功。

15 年的技术积累，也让 OceanBase 在原有 TP 与 AP 能力基础上，逐步构建起面向 AI 场景的数据能力体系——通过 AI 原生、一体化架构和多模态等关键能力，支撑企业构建面向 AI 时代的数据底座。

这一技术方向，已获得行业权威认可。今年 5 月，在世界智能产业博览会上，OceanBase AI 数据库凭借前沿技术架构与创新应用价值，斩获“硬核产品”前沿科技成果奖项。

杨冰表示，15 年来，OceanBase 始终沿着一条技术路线持续演进：从支撑交易，到统一处理交易与分析；从处理关系型数据，到管理结构化、半结构化、非结构化数据；从存算一体，到存算分离与开放生态。每一次架构的演进，都是在消除数据系统的工程复杂性，让现代数据与工作负载，能够在一体化架构血统中运行，构建面向未来的现代数据基础设施。

到今天，湖库一体的 AI 数据库，就是 OceanBase 交出的答卷。

什么是湖库一体的 AI 数据库？

对于这一问题，OceanBase CTO 杨传辉给出了清晰的回答：其核心在于通过湖库一体架构，将数据库的事务一致性、实时服务和分析能力，与数据湖的开放存储、海量数据管理和多模态离在线处理能力连接起来。在此基础上，进一步引入 AI 所需的语义检索、模型调用和多模态数据处理能力，让不同数据形态与不同工作负载围绕统一的数据、元数据和治理体系协同运行。

OceanBase CTO 杨传辉

“这并不是简单地在传统数据库上叠加 AI 功能，”杨传辉表示，“而是以湖库一体为核心理念，重新构建面向 AI 时代的数据基础设施。”

“湖库一体的 AI 数据库可以从两个维度来理解。”发布会上，杨冰划出两个重点：

从业务负载看，它同时满足一体化与多模态两项核心需求。

一体化，意味着多模态数据、离线与在线的计算，统一在同一个强一致的底座之上，数据不再被切割，不必在多套系统之间反复搬运；
多模态，则意味着结构化、半结构化与非结构化数据，能够在同一套体系中被统一管理与治理，通过标量、全文、向量等方式实现混合搜索。智能体的记忆天生跨越模态，沉睡的非结构化数据，也由此被真正盘活。

从设计理念看，它坚持 Agent 友好与开放两条原则。

Agent 友好，意味着 Agent 所需的记忆、上下文、隔离、分支、回滚与规模化运行能力，不依赖外部系统拼装堆砌，而是作为数据底座的原生能力存在；
开放，则意味着存储与计算始终保持开放，不被锁入任何一家的专有系统——企业的数据主权与选择权，始终握在自己手中。

这两个需求、两条原则，四者缺一不可。

湖库一体 AI 数据库的四条工程底线

理解了湖库一体 AI 数据库“有什么”，还需要看清它“不丢的是什么”。

杨冰提到，OceanBase 湖库一体的 AI 数据库虽于今日正式发布，但并不是将过去的一切推倒重来。“真正被重写的，是架构与品类；必须被坚守的，是工程的底线。”而这四条底线，被推到了前所未有的高度，也成为 OceanBase 15 年技术积累在 AI 时代的延伸。

一致性，从“高标准”变成了“生死线”。当前，智能体已经从辅助工具走向“替人决策”。在风控审核、内容安全等环节，已是智能体直接面向用户拍板——它背后的数据，便具有了与核心交易系统同等的属性：错一条、慢一拍，不再是技术指标上的细微偏差，而是真实发生的业务事故。OceanBase 的强一致能力，让湖库一体的 AI 数据库得以扛起智能体的在线决策，而这恰恰是只做检索的系统无法企及的边界。

扩展性，从“把一个库做大”变成了“让一百万个库低成本共存”。在过去，OceanBase 扩展性的命题是如何把一个库做大、扛住更大的负载。AI 时代，题目变了：如何让一百万个 Agent 应用经济地共存——需要时能无限扩展、海量并发也扛得住，闲置时又近乎不占成本，像水电一样按需供给。OceanBase 的弹性架构，正是为这一新型负载而生。

可靠性，从“有人兜底”变成了“智能体的生命线”。智能体全天候运转，身边没有运维人员时刻值守。OceanBase 15 年金融级高可用积累沉淀下来的能力，过去为核心交易系统兜底，如今成为每一个智能体稳定运行的根基——它保障的，是业务的连续与体验的连续。

实时性，在线、实时地服务智能体的决策，而不是隔夜跑批。智能体的判断发生在毫秒之间，数据底座必须跟得上这个节奏。OceanBase 的实时处理能力，确保每一次 Agent 调用都能得到及时、准确的数据支撑。

这就是 OceanBase 湖库一体的 AI 数据库——“库”擅长一致与实时，“湖”擅长规模与开放，AI 时代，两者合而为一。“AI 时代的数据库，就是湖库一体的。”杨冰表示。

此次 OceanBase 并非只发布了湖库一体的 AI 数据库这单一引擎，而是一套完整的产品体系。发布会上，OceanBase 产品总经理韩富晟正式发布 OceanBase AI 数据库产品家族。

OceanBase 产品总经理韩富晟

OceanBase Lakebase 作为底层引擎，承载湖库一体与多模态数据能力，让结构化数据、非结构化数据和向量数据能够在统一架构中被管理、加工、检索和调用。

OceanBase DataStudio 是运行在 Lakebase 之上的数据生产、治理与服务工作台，覆盖数据接入、数据加工、任务编排、语义建模、数据治理到 Agent 协作等关键环节，帮助企业把分散的数据资产转化为可管理、可理解、可调用的数据服务。

OceanBase DataPilot 是面向经营分析和业务决策的数据智能 Agent，作为统一的企业业务智能入口，让业务人员可以通过自然语言完成分析报告、数据看板和可信答案生成，把过去依赖专业数据团队完成的分析流程，转化为可交互、可追问、可复用的智能决策能力。

“Lakebase 解决了 AI 时代的数据底座问题，DataStudio 解决了数据如何生产与治理的问题，而 DataPilot 则解决了业务人员如何直接使用数据智能的问题。” 韩富晟表示，这三者构成了从底层数据引擎、数据生产治理到业务智能入口的闭环。

在这套体系中，OceanBase Lakebase 是 OceanBase AI 数据库的核心引擎。

韩富晟表示，它解决的不是单点能力问题，而是 AI 时代数据底座的系统性问题：通过融合湖的开放灵活与数据库的高性能能力，为 AI 原生应用提供多模态、对 Agent 友好的新一代数据底座。

它原生支持结构化、半结构化、非结构化及多模态数据的存储与处理，统一管理文本、图像、音频、视频等多种数据类型，让数据不必在多个系统之间反复搬迁和复制，就可以直接支撑在线服务、实时分析和 AI 应用运行。

此外，OceanBase Lakebase 的多模表让不同数据形态进入同一张表的语义之下，用户看到的仍是一张表，但表背后可以承载更丰富的数据资产，并在同一套治理体系中被检索、计算和调用。

在多模表之上，OceanBase Lakebase的 AI 列进一步把模型能力引入数据处理链路。它可以基于原始数据生成摘要、标签、特征、向量或其他语义结果，让模型理解能力以“列”的形式进入数据库。这意味着，非结构化数据不再只是“被存下来的文件”，而成为可搜索、可计算、可治理、可被 Agent 安全调用的数据资产。

同时，OceanBase Lakebase 原生支持面向 Agent 的实时上下文工程，通过数据分支、逻辑库、资源隔离和快速回滚，为海量 Agent 应用快速创建独立、安全的数据环境。这让 AI 应用能够从验证阶段走向规模化生产运行。

AI 时代的数据处理不会只发生在一种引擎里。OceanBase Lakebase 基于开放式存储格式与可扩展计算架构，支持 S3 兼容对象存储与 Iceberg 开放表格式，并可对接 Spark、Ray 等计算引擎。这带来的价值是，让企业的数据架构保持开放和可演进，未来新的计算引擎也可以在同一数据基础上扩展。

Agent 友好是 OceanBase Lakebase 的又一特性。它能提供标准化 API MCP 接口与丰富工具集，降低集成门槛，助力 Agent 快速构建与高效协同。

技术架构的价值，最终要在真实业务中得到验证。

发布会上，蚂蚁集团平台技术事业群总架构师黄挺分享了 AI Agent 时代，蚂蚁集团对数据底座的思考与实践。

OceanBase 打磨 AI 数据库的环境，是阿里巴巴、蚂蚁集团最前沿、最复杂、也最核心的真实 AI 场景——支付宝的 AI 支付、蚂蚁阿福、灵光、淘宝 AI 购物助理，以及通义千问、高德、飞猪等。其中，蚂蚁阿福面向行业复杂智能体开发，灵光则面向大众提供“一句话生成应用”能力，目前已承载超过 3000 万个闪应用。

灵光 3000 万个闪应用背后是极为苛刻的挑战：海量应用需要各自独立的数据空间，Schema 动态变化，同时还需要完整的 SQL 计算能力。

对此，OceanBase AI 数据库通过面向海量 Agent 与轻应用的逻辑表，将每个闪应用的 Schema 与数据映射为可查询、可计算的逻辑表，从根本上避免了“一应用一物理表”所带来的元数据膨胀与资源开销。每一个 AI 生成的应用，都可以用标准 SQL 完成过滤、聚合、Join 等计算，大量闪应用则可以在统一数据库基础设施上低成本、安全地运行.

灵光的实践揭示了 AI 时代新的规模问题：未来的海量，不只是单张表拥有更多数据，也可能是数千万个应用分别拥有独立的小型数据空间。灵光之外，OceanBase Lakebase 的落地实践还延伸至智慧驾驶与证券等更多行业场景。

在智慧驾驶领域，自动驾驶模型的持续迭代依赖视频、图像、传感器数据和结构化标签等多种数据。OceanBase Lakebase 通过多模态数据管理与离在线协同处理，连接数据存储、加工、检索与模型使用链路，为模型训练和能力迭代提供数据基础。

在证券行业，数据来源分散、格式异构，权限与合规要求复杂。OceanBase Lakebase 可以作为多模态数据处理与服务中枢，统一连接异构数据源，解析研报、制度文件等非结构化内容，并通过 API 与 MCP 向上层 Agent 提供服务，支撑智能研报、合规管理和业务分析等应用。

这些场景覆盖了不同的数据形态和业务需求，但共同指向同一个问题：如何让企业数据以更低的工程复杂度进入 AI 应用，并在生产环境中持续、可靠地运行。

这也体现了 OceanBase AI 数据库的设计目标：不是面向某一个单点场景提供定制能力，而是构建一套能够在真实业务复杂度中持续演进的数据基础设施。

蚂蚁集团平台技术事业群总架构师黄挺

在相关场景中，相较于多系统组合方案，OceanBase AI 数据库可通过减少数据冗余、重复计算和系统数量，使整体 TCO 降低 30%—50%。这一收益并不只是来自少部署几套系统，更来自数据、元数据、权限和工作负载在统一架构中的协同。当企业不再需要依赖多套系统构建复杂的数据链路，AI 应用才更容易从试点验证走向规模化生产。

从 15 年前“双十一”的一行行代码，到今天在 AI 最前沿的场景中持续打磨——OceanBase 始终把行业发展中的数据难题当作自己的使命。

当下，数据库正经历一次根本性的角色转变——从单纯的“存放数据”，升级为“承载智能”。

杨冰表示，站在这场变革的节点上，下一个十年，OceanBase 的目标只有一个——

再造一个 AI 时代的 OceanBase。

转自：OceanBase

版权申明：内容来源网络，版权归原创者所有，如有侵权请联系删除

想了解更多行业资讯

扫码关注👇