6 月 29 日,OceanBase Hours 线上发布会举行,OceanBase 面向湖库一体的 AI 数据库正式发布,OceanBase Lakebase、DataStudio、DataPilot 等全新 AI 产品家族同步亮相。
OceanBase CEO 杨冰
OceanBase AI 数据库,是以湖库一体为核心架构、面向 Agent 和多模态数据设计的现代数据基础设施。它将数据库的事务、一致性与实时处理能力,与数据湖的开放、海量存储和多样化计算能力统一起来,把结构化、半结构化、非结构化数据纳入统一管理体系,打通在线服务与离线分析,消除多系统拼装带来的数据割裂、链路冗余与工程复杂性,为现代 AI 应用提供可靠、实时、可扩展的数据底座。
“这不是传统数据库的功能升级,而是 OceanBase 面向 AI 时代的一次基础设施重建。” OceanBase CEO 杨冰表示,Agent 正在成为数据库新的数据使用者,AI 下一阶段决胜关键不仅在模型能力,更在于让模型理解企业业务、在真实场景中创造价值。这道题的关键在数据。“AI 让非结构化数据第一次可以被数据库理解,OceanBase AI 数据库让理解的结果能被治理、查询和实时使用。”
每一次计算范式的跃迁,都会推动底层基础设施重新演进。从原生分布式数据库到湖库一体的 AI 数据库,这不是简单的产品能力升级,而是 OceanBase 面向 AI 时代,对数据基础设施演进方向作出的系统性判断。
分享一开始,杨冰分享了一组正在改变数据基础设施格局的数字:
据 Gartner 预测,到 2028 年,三分之一的企业软件交互将由 Agent 完成。这意味着,AI 正成为新的数据使用者,而且是 7×24 小时全天候、持续调用数据的数据使用者。
通用模型已经具备广泛的知识与推理能力,但距离真正理解一家企业,仍然缺少关键的一步。何为企业智能?杨冰给出了答案:从“通用聪明”到“懂企业业务”,靠的不是更大的模型,而是高质量、实时且可信的数据与上下文。
“如果底层数据还是分散在多套彼此割裂的系统里,Agent 就很难得到完整、一致的业务上下文。”杨冰表示,结构化与非结构化数据的融合,已不再是技术选项,正在成为 Agent 进入企业生产系统的前提条件。
Agent 成为新的数据使用者,“规模”的定义也正在被重新改写。杨冰表示,过去讨论数据库扩展性,通常指“单一数据库能承载多大体量”,但 AI 时代,新的挑战来自应用数量和独立数据空间数量的快速增长。
以蚂蚁灵光为例,它承载了 3000 万个闪应用,每个应用仅有数百行数据,尽管其中 99% 处于休眠状态,却需要随时实现秒级响应。这些 Agent 应用不能独享资源,也不能简单共享数据,杨冰表示,这正是传统数据库从未面对过的新型负载:海量 Agent 轻应用需要低成本共存、相互隔离,并能够根据访问热度和业务规模按需调度资源。
同时,Agent 还在持续进化,但失败路径不能污染生产数据,更不能影响后续尝试。“数据基础设施需要像代码仓库一样,可以快速创建分支,在隔离环境中试验,验证通过后保留或合并,失败则可以直接回滚或释放。”
杨冰表示,上下文、规模、进化——这三个 Agent 的关键需求,指向同一个命题:AI 数据库解决的,不是“数据如何存储存”,而是“Agent 如何安全、准确并持续地使用数据”。
变化同样发生在数据本身,这是杨冰展示的第二组数据:到今天,全球超 80% 的数据是非结构化数据。数据形态之变、数据流动之变、数据交互之变——这三股力量正同时涌来。
客服录音、产品图像、会议记录、工程图纸——这些原本“不可计算”的非结构化数据,在 AI 眼中正转化为最具竞争价值的战略资产,它们需要和结构化数据一起,在同一个底座上被统一管理、统一治理、统一调用。
数据融合的挑战,不只发生在数据形态上,还发生在数据流动的方式上。过去的数据链路是线性的,各环节相互割裂,AI 应用的运转逻辑截然不同,模型需要在线数据实时供给上下文,模型的推理结果反哺数据库,让数据越用越准。杨冰表示,AI 时代,数据必须形成闭环,在线与离线就不能割裂在两套系统里。
数据库与用户的交互方式,也正在经历一场根本性的变革。
过去,数据库的交互方式是 SQL,工程师写查询,数据库返回结果。但现在,自然语言正成为 Agent 与数据交互的全新入口。这意味着数据库不能再只做“存储和检索”——它需要真正具备语义层,能够理解业务本体,能够支撑 Agent 对业务逻辑的深度理解。
“AI 数据库,必须从‘记录事实’走向‘理解业务’。”杨冰表示,这是 AI 数据库一个全新的角色定位,也是传统数据库架构从未承担过的能力边界。
这,正是 OceanBase 选择重建数据基础设施的根本原因。而支撑这次重建的最大底气,来自 15 年的技术积累与真实场景锤炼。
OceanBase 从分布式事务数据库起步,在金融这一对可靠性要求最为严苛的领域,经历了长达 15 年的大规模实战检验。 目前,OceanBase 已服务超过 4000+ 家客户,其中60%以上的客户将OceanBase作为核心系统支撑企业的关键业务负载,,连续三年在中国分布式数据库本地部署市场份额排名第一。在国际舞台上,OceanBase是迄今唯一同时在 TPC-C、TPC-H 两项权威基准测试中登顶的数据库,业务已覆盖全球多个国家和地区。
数据不出错、系统不中断、故障毫秒恢复——这些 AI 时代被反复提及的“刚需”,在金融级场景中早已锤炼成熟,成为 OceanBase 的基本功。
15 年的技术积累,也让 OceanBase 在原有 TP 与 AP 能力基础上,逐步构建起面向 AI 场景的数据能力体系——通过 AI 原生、一体化架构和多模态等关键能力,支撑企业构建面向 AI 时代的数据底座。
这一技术方向,已获得行业权威认可。今年 5 月,在世界智能产业博览会上,OceanBase AI 数据库凭借前沿技术架构与创新应用价值,斩获“硬核产品”前沿科技成果奖项。
杨冰表示,15 年来,OceanBase 始终沿着一条技术路线持续演进:从支撑交易,到统一处理交易与分析;从处理关系型数据,到管理结构化、半结构化、非结构化数据;从存算一体,到存算分离与开放生态。每一次架构的演进,都是在消除数据系统的工程复杂性,让现代数据与工作负载,能够在一体化架构血统中运行,构建面向未来的现代数据基础设施。
到今天,湖库一体的 AI 数据库,就是 OceanBase 交出的答卷。
什么是湖库一体的 AI 数据库?
对于这一问题,OceanBase CTO 杨传辉给出了清晰的回答:其核心在于通过湖库一体架构,将数据库的事务一致性、实时服务和分析能力,与数据湖的开放存储、海量数据管理和多模态离在线处理能力连接起来。在此基础上,进一步引入 AI 所需的语义检索、模型调用和多模态数据处理能力,让不同数据形态与不同工作负载围绕统一的数据、元数据和治理体系协同运行。
OceanBase CTO 杨传辉
“这并不是简单地在传统数据库上叠加 AI 功能,”杨传辉表示,“而是以湖库一体为核心理念,重新构建面向 AI 时代的数据基础设施。”
“湖库一体的 AI 数据库可以从两个维度来理解。”发布会上,杨冰划出两个重点:
从业务负载看,它同时满足一体化与多模态两项核心需求。
- 一体化,意味着多模态数据、离线与在线的计算,统一在同一个强一致的底座之上,数据不再被切割,不必在多套系统之间反复搬运;
- 多模态,则意味着结构化、半结构化与非结构化数据,能够在同一套体系中被统一管理与治理,通过标量、全文、向量等方式实现混合搜索。智能体的记忆天生跨越模态,沉睡的非结构化数据,也由此被真正盘活。
从设计理念看,它坚持 Agent 友好与开放两条原则。
- Agent 友好,意味着 Agent 所需的记忆、上下文、隔离、分支、回滚与规模化运行能力,不依赖外部系统拼装堆砌,而是作为数据底座的原生能力存在;
- 开放,则意味着存储与计算始终保持开放,不被锁入任何一家的专有系统——企业的数据主权与选择权,始终握在自己手中。
这两个需求、两条原则,四者缺一不可。
理解了湖库一体 AI 数据库“有什么”,还需要看清它“不丢的是什么”。
杨冰提到,OceanBase 湖库一体的 AI 数据库虽于今日正式发布,但并不是将过去的一切推倒重来。“真正被重写的,是架构与品类;必须被坚守的,是工程的底线。”而这四条底线,被推到了前所未有的高度,也成为 OceanBase 15 年技术积累在 AI 时代的延伸。
一致性,从“高标准”变成了“生死线”。 当前,智能体已经从辅助工具走向“替人决策”。在风控审核、内容安全等环节,已是智能体直接面向用户拍板——它背后的数据,便具有了与核心交易系统同等的属性:错一条、慢一拍,不再是技术指标上的细微偏差,而是真实发生的业务事故。OceanBase 的强一致能力,让湖库一体的 AI 数据库得以扛起智能体的在线决策,而这恰恰是只做检索的系统无法企及的边界。
扩展性,从“把一个库做大”变成了“让一百万个库低成本共存”。在过去,OceanBase 扩展性的命题是如何把一个库做大、扛住更大的负载。AI 时代,题目变了:如何让一百万个 Agent 应用经济地共存——需要时能无限扩展、海量并发也扛得住,闲置时又近乎不占成本,像水电一样按需供给。OceanBase 的弹性架构,正是为这一新型负载而生。
可靠性,从“有人兜底”变成了“智能体的生命线”。 智能体全天候运转,身边没有运维人员时刻值守。OceanBase 15 年金融级高可用积累沉淀下来的能力,过去为核心交易系统兜底,如今成为每一个智能体稳定运行的根基——它保障的,是业务的连续与体验的连续。
实时性,在线、实时地服务智能体的决策,而不是隔夜跑批。智能体的判断发生在毫秒之间,数据底座必须跟得上这个节奏。OceanBase 的实时处理能力,确保每一次 Agent 调用都能得到及时、准确的数据支撑。
这就是 OceanBase 湖库一体的 AI 数据库——“库”擅长一致与实时,“湖”擅长规模与开放,AI 时代,两者合而为一。“AI 时代的数据库,就是湖库一体的。”杨冰表示。
此次 OceanBase 并非只发布了湖库一体的 AI 数据库这单一引擎,而是一套完整的产品体系。发布会上,OceanBase 产品总经理韩富晟正式发布 OceanBase AI 数据库产品家族。
OceanBase 产品总经理韩富晟
OceanBase Lakebase 作为底层引擎,承载湖库一体与多模态数据能力,让结构化数据、非结构化数据和向量数据能够在统一架构中被管理、加工、检索和调用。
OceanBase DataStudio 是运行在 Lakebase 之上的数据生产、治理与服务工作台,覆盖数据接入、数据加工、任务编排、语义建模、数据治理到 Agent 协作等关键环节,帮助企业把分散的数据资产转化为可管理、可理解、可调用的数据服务。
OceanBase DataPilot 是面向经营分析和业务决策的数据智能 Agent,作为统一的企业业务智能入口,让业务人员可以通过自然语言完成分析报告、数据看板和可信答案生成,把过去依赖专业数据团队完成的分析流程,转化为可交互、可追问、可复用的智能决策能力。
“Lakebase 解决了 AI 时代的数据底座问题,DataStudio 解决了数据如何生产与治理的问题,而 DataPilot 则解决了业务人员如何直接使用数据智能的问题。” 韩富晟表示,这三者构成了从底层数据引擎、数据生产治理到业务智能入口的闭环。
在这套体系中,OceanBase Lakebase 是 OceanBase AI 数据库的核心引擎。
韩富晟表示,它解决的不是单点能力问题,而是 AI 时代数据底座的系统性问题:通过融合湖的开放灵活与数据库的高性能能力,为 AI 原生应用提供多模态、对 Agent 友好的新一代数据底座。
它原生支持结构化、半结构化、非结构化及多模态数据的存储与处理,统一管理文本、图像、音频、视频等多种数据类型,让数据不必在多个系统之间反复搬迁和复制,就可以直接支撑在线服务、实时分析和 AI 应用运行。
此外,OceanBase Lakebase 的多模表让不同数据形态进入同一张表的语义之下,用户看到的仍是一张表,但表背后可以承载更丰富的数据资产,并在同一套治理体系中被检索、计算和调用。
在多模表之上,OceanBase Lakebase的 AI 列进一步把模型能力引入数据处理链路。它可以基于原始数据生成摘要、标签、特征、向量或其他语义结果,让模型理解能力以“列”的形式进入数据库。这意味着,非结构化数据不再只是“被存下来的文件”,而成为可搜索、可计算、可治理、可被 Agent 安全调用的数据资产。
同时,OceanBase Lakebase 原生支持面向 Agent 的实时上下文工程,通过数据分支、逻辑库、资源隔离和快速回滚,为海量 Agent 应用快速创建独立、安全的数据环境。这让 AI 应用能够从验证阶段走向规模化生产运行。
AI 时代的数据处理不会只发生在一种引擎里。OceanBase Lakebase 基于开放式存储格式与可扩展计算架构,支持 S3 兼容对象存储与 Iceberg 开放表格式,并可对接 Spark、Ray 等计算引擎。这带来的价值是,让企业的数据架构保持开放和可演进,未来新的计算引擎也可以在同一数据基础上扩展。
Agent 友好是 OceanBase Lakebase 的又一特性。它能提供标准化 API MCP 接口与丰富工具集,降低集成门槛,助力 Agent 快速构建与高效协同。
技术架构的价值,最终要在真实业务中得到验证。
发布会上,蚂蚁集团平台技术事业群总架构师黄挺分享了 AI Agent 时代,蚂蚁集团对数据底座的思考与实践。
OceanBase 打磨 AI 数据库的环境,是阿里巴巴、蚂蚁集团最前沿、最复杂、也最核心的真实 AI 场景——支付宝的 AI 支付、蚂蚁阿福、灵光、淘宝 AI 购物助理,以及通义千问、高德、飞猪等。其中,蚂蚁阿福面向行业复杂智能体开发,灵光则面向大众提供“一句话生成应用”能力,目前已承载超过 3000 万个闪应用。
灵光 3000 万个闪应用背后是极为苛刻的挑战:海量应用需要各自独立的数据空间,Schema 动态变化,同时还需要完整的 SQL 计算能力。
对此,OceanBase AI 数据库通过面向海量 Agent 与轻应用的逻辑表,将每个闪应用的 Schema 与数据映射为可查询、可计算的逻辑表,从根本上避免了“一应用一物理表”所带来的元数据膨胀与资源开销。每一个 AI 生成的应用,都可以用标准 SQL 完成过滤、聚合、Join 等计算,大量闪应用则可以在统一数据库基础设施上低成本、安全地运行.
灵光的实践揭示了 AI 时代新的规模问题:未来的海量,不只是单张表拥有更多数据,也可能是数千万个应用分别拥有独立的小型数据空间。灵光之外,OceanBase Lakebase 的落地实践还延伸至智慧驾驶与证券等更多行业场景。
在智慧驾驶领域,自动驾驶模型的持续迭代依赖视频、图像、传感器数据和结构化标签等多种数据。OceanBase Lakebase 通过多模态数据管理与离在线协同处理,连接数据存储、加工、检索与模型使用链路,为模型训练和能力迭代提供数据基础。
在证券行业,数据来源分散、格式异构,权限与合规要求复杂。OceanBase Lakebase 可以作为多模态数据处理与服务中枢,统一连接异构数据源,解析研报、制度文件等非结构化内容,并通过 API 与 MCP 向上层 Agent 提供服务,支撑智能研报、合规管理和业务分析等应用。
这些场景覆盖了不同的数据形态和业务需求,但共同指向同一个问题:如何让企业数据以更低的工程复杂度进入 AI 应用,并在生产环境中持续、可靠地运行。
这也体现了 OceanBase AI 数据库的设计目标:不是面向某一个单点场景提供定制能力,而是构建一套能够在真实业务复杂度中持续演进的数据基础设施。
在相关场景中,相较于多系统组合方案,OceanBase AI 数据库可通过减少数据冗余、重复计算和系统数量,使整体 TCO 降低 30%—50%。这一收益并不只是来自少部署几套系统,更来自数据、元数据、权限和工作负载在统一架构中的协同。当企业不再需要依赖多套系统构建复杂的数据链路,AI 应用才更容易从试点验证走向规模化生产。
从 15 年前“双十一”的一行行代码,到今天在 AI 最前沿的场景中持续打磨——OceanBase 始终把行业发展中的数据难题当作自己的使命。
当下,数据库正经历一次根本性的角色转变——从单纯的“存放数据”,升级为“承载智能”。
杨冰表示,站在这场变革的节点上,下一个十年,OceanBase 的目标只有一个——
再造一个 AI 时代的 OceanBase。
转自:OceanBase
版权申明:内容来源网络,版权归原创者所有,如有侵权请联系删除
想了解更多行业资讯
扫码关注👇

了解更多考试相关
扫码添加上智启元官方客服微信👇

17认证网








