编者按
OceanBase DataPilot 在被誉为“数据智能时代新基准”的 HuggingFace DABstep 基准测试 Hard 级别中获得全球最高分,并已连续 1 个月大幅领先第二名,位居全球第一。该⼯具旨在评估最先进的语⾔模型和 AI 代理在多步骤推理中的能⼒,特别是在数据分析领域的表现。
引言:当“更聪明的 Prompt”不再奏效
当今世界数据无处不在,而数据科学一直被视为人类智能的重要体现。在大型语言模型(LLM)的应用探索中,数据分析一直被视为重要方向。
然而,当开发者试图将 Text-to-SQL 或简单的 Python Agent 投入真实的金融、风控或运维场景时,往往会撞上一堵无形的墙:模型似乎“听懂”了,但分析出来的数据总是不对;脚本在测试集跑通了,上线面对脏数据却频繁崩溃;复杂的业务口径在不同轮次的对话中发生漂移。
所以,一家来自荷兰的支付解决方案提供商 Adyen 与全球著名 AI 社区 Hugging Face 才会一起联手,想搞清楚 AI 到底能不能胜任这份工作。
2025年2月,他们联合发布了一个 DABstep(Data Agent Benchmark for Multi-step Reasoning)基准测试,将这一矛盾摆在了台面上,即便是 o3-mini、DeepSeek-R1 这样的顶尖推理模型,在 Hard 模式下的准确率也仅在 13%-16% 徘徊。
它的难主要体现在三个极度真实的方面:
首先,DABstep 的问题是高度真实的。在测试里包含了 450+ 真实业务任务,全部来自于 Adyen 内部真实的金融业务场景。比如欺诈风险分析,支付费率计算。这些都不是研究人员凭空想象出来的简单问题,而是反映了分析师每天面临的挑战;
第二是数据环境的真实性。DABstep 包含结构化和非结构化数据,分别用于衡量领域知识和技术技能。其中,结构化数据包括 CSV 和 JSON 文件,代表真实世界的数据,如交易记录和业务元数据;非结构化数据包括文档、手册和详细指南等。这些任务需要高级数据分析技能,以处理结构化数据和理解多个数据集及文档中的非结构化数据。
最后是解决路径的真实性。DABstep 的问题无法通过单一代码片段解决,而是需要多步骤的迭代推理。AI 必须像一个真正的人类分析师一样,先做探索性分析,然后分步骤迭代的去解决问题。例如,代理至少需要知道数据集中有哪些列才能回答问题。
DABstep 基准测试分为 2 个难度级别:
⭐简单级别:作为热身任务,帮助验证设置、集成和研究⽅向。通常只需要⼀个结构化数据集和少量背景知识。⼈类在经过 3 小时以上的工作后平均能达到 62% 的基线准确率,⽽ Llama 70B 零样本提示可以超过 90% 的准确率。
⭐困难级别 :需要更复杂的方法,涉及多个结构化数据集和领域特定知识。这些问题通常无法通过单⼀代码生成解决,而是需要多步骤推理。
DataPilot 是 OceanBase 推出的智能问数与洞察平台:支持快速搭建分析域、自动化语义层配置与指标管理;提供自然语言驱动的问答式分析,输出可解释的 SQL/推理过程与统计结论;内置细粒度数据权限与审计能力,确保数据安全合规。近期,DataPilot 在 DABstep Hard 级别的全球基准测试中获得最高分,并已连续 1 个月大幅领先第二名,位居全球第一。
DABstep 全球实时榜单:https://huggingface.co/spaces/adyen/DABstep
我们可以看到,DABstep 榜单上有很多参与者,为什么 OceanBase DataPilot 能拿到最高分?答案不在于 OceanBase 用了更强的模型,而在于建立了一套能够持续积累和复用的知识体系。
OceanBase DataPilot 的做法是:通过测试集和专业数据分析师构建的 success story 样本,以及必要的人工纠偏和引导,在这套框架下沉淀了能够比较稳定解答问题的数据理解、必要业务规则、公式指标、代码规范。基于这些构建的上下文,智能体能够在测试集上稳定回答推理问题,并且充分发挥 LLM 的能力,触类旁通解决相似问题,实现一定的外推泛化性能。
数据分析的“真实之痛”
数据分析从来不是简单的“写代码”或“画图表”。在 DABstep 揭示的真实场景中,分析师通常面临着三重典型问题:
第一重约束是口径歧义。
文档可能会说“国内交易费率更低”,但数据表里有 issuer_country
(发卡国)、acquirer_country
(收单国)、ip_country
(IP归属地)等多个字段。到底哪两个字段匹配才算“国内”?模型往往靠直觉“猜”,导致在部分样本上正确,部分样本上谬误。这种歧义在真实业务中比比皆是,而模型缺乏明确的业务规则,只能在黑暗中摸索。
第二重约束是数据脏乱。
真实数据中,空值可能是 null
、None
,也可能是空数组 []
。普通的 Python 脚本在面对这些“非标”数据时,往往不是算错,而是直接抛出异常崩溃。
第三重约束是性能与资源受限。
即使逻辑正确,一个 O(R * T)
(R=规则数量,T=交易数量)的双重循环在面对百万级交易流水时也可能直接超时。在 DABstep 或真实业务中,“跑得太慢”等同于“不可用”。
OceanBase 是如何设计 Data Agent 的?
1
核心理念:从“临时对话”到“版本化资产”
想象一下,你在和 AI 聊天时,它每次都要重新理解“国内交易是什么意思”“空值该怎么处理”。这就像每天上班都要重新培训新员工,效率极低。普通的 RAG(检索增强生成)系统往往将上下文视为临时的、用完即弃的对话内容。OceanBase DataPilot 的思路是把知识变成可以长期保存、反复使用的“资产”。
具体来说,系统做了三件事。
第一,把上下文当成资产而不是临时对话内容,将 AI 需要的知识拆成三层,分别管理、分别迭代;
第二,把每次做题变成一次小型训练,用“样例题解过程 + 标准答案”做自动回归,持续修正并沉淀经验;
第三,把稳定交付当成产品目标,不仅要算对,还要能跑完、跑得快、不会因为脏数据频繁崩溃。
这张架构图把 DataPilot 的“资产化闭环”落到可执行模块上:上层 ReACT Agent 作为构建态与运行态的统一入口,用工具与沙箱执行驱动数据洞察,必要时调用子智能体生成多版本假设实现。
中层 Workflow 把对话结论、口径、工具与 SOP 结构化生成资源,并统一打上 Subject Tree Hypothesis Tag Resource Version。下层 seekdb 负责混合检索与版本化管理,既能按标签精确召回,也能按语义 query 组合上下文。Benchmark 则把不同 Hypothesis Tag 当作可对照实验分组:同一任务流程下仅切换检索标签,批量评测并输出分支分数,从而选择最优分支上下文沉淀为主干默认版本。
整套系统分为两部分。资产平面存放可检索、可版本化的知识与能力,相当于长期记忆;运行平面把这些资产组装成一次可执行的分析作业,负责当次执行。打个比方,资产平面就像一个知识库和工具箱,里面装着各种标准操作手册、代码模板、历史经验;运行平面就像一个装配车间,根据当前任务从工具箱里挑选合适的工具组装起来干活。
在资产平面“知识”又被分成三层。
把“知识”分层的原因很简单:不同类型的知识,生命周期、复用方式、验证方式完全不同。混在一起会很难维护。
第一层是数据事实层(Data Surface),回答最基础的问题:数据到底长什么样?字段是什么类型?有多少空值?可能的取值范围是什么?这一层的产物是字段字典、数据画像(缺失率、值域)、易错点提醒。
比如,明确告诉 Agent:“这个叫 Country 的字段,虽然名字像国家,但实际存的全是 IP 地址。”这样的信息看似简单,但对避免误判至关重要。
第二层是语义口径层(Semantic Lens),回答业务定义问题:业务到底怎么算?什么叫“月交易量”?是按金额还是笔数?是自然月还是滚动窗口?“欺诈率”怎么算?按金额还是按笔数?边界值如何判定?输出需要保留几位小数?空列表用什么语义表达?这一层的产物是术语卡、指标卡、粒度约束。比如,固化一条规则:“国内交易 = 发卡国和收单国相同,不看 IP 国家。”这样的规则一旦确定,就不再允许歧义和漂移。
第三层是可执行作业层(Procedure Pack),负责怎么稳定做出来。
这一层是最硬核的部分,包含能处理脏数据、能在资源限制下跑完、能一键回归的代码。这里不仅要算对,还要能处理脏数据(不崩溃)、能在资源限制下跑完(性能可控)、能一键回归(证明没有退化)。
产物包括可复用工具、端到端作业脚本、验证器/回归集、多个实现变体。比如,一个通用工具:“安全的成员判断函数 safe_in
,处理空值、空数组、None 等各种边界情况。”这是最硬核的资产,包含了处理脏数据和性能优化的代码结晶。
从工程实现角度看,分层让检索与装配更直接:资产可以用结构化元数据进行治理与过滤,用全文做关键词召回,用向量做语义召回;必要时再对候选做轻量重排。运行态通常可以先用硬条件缩小范围,再用混合召回拉出候选资产组合,最后按适用条件与成本画像完成选择与装配。
2
GRPO 理念的上下文构建:Train-Free 的资产迭代
OceanBase DataPilot 借鉴了 GRPO(Group Relative Policy Optimization) 的思想,将其应用于“上下文资产”而非“模型参数”的优化。
这是一种 Train-Free 的迭代方式,每一轮同时产出多个候选改动,用回归分数做相对比较,再选择最优候选写回。
训练信号来自两个方向。Success Story(样例题解过程)给你“方向线索”,告诉你哪些字段关键、哪些边界会翻转答案、哪些解释方式可沉淀为口径条目。Golden Answer(标准答案)给你“裁判尺度”,衡量你的改动有没有让一批样本更对齐,并且这个对齐是可以被机器验证的。
迭代闭环可以概括为“分支生成—标签化对照评测—主干沉淀”。
在生成阶段,ReACT Agent 在推理或人机交互中识别歧义点/未知点,将其显式化为占位符分叉,并由 ReCodeReasoningAgent(或其他子智能体)产出多套候选实现与上下文变体;这些候选以 Subject Tree Hypothesis Tag Resource Version 的形式被结构化写入 seekdb,形成可检索、可组合的分支版本。
随后进入对照评测阶段,Benchmark 接收一组待检验的 Hypothesis Tag 列表,对每个标签执行完全一致的任务流程与回归样本,只在上下文召回时透传对应 Tag 做混合检索,从而得到“同题同流程、仅上下文假设不同”的可比实验结果,并为每个分支输出可解释的分数与证据报告。
最后进入沉淀阶段,系统依据评测成绩与多目标权衡(正确性/稳健性/成本)选取最优假设分支,将其对应的资源集合提升为默认主干,其余分支保留为可追溯但不生效的候选,以便后续复测与回滚。
3
三个典型进化闭环案例
整套方法可分为三个典型闭环,对应前面三重典型问题的解决,分别代表了口径歧义、脚本崩溃和性能瓶颈。
逻辑闭环:解决“口径歧义”—— 让 AI 知道“国内交易”到底怎么算
例如一个数据表里有三个“国家”字段:发卡国、收单国、IP 国家,AI 每次都在猜“国内”到底指哪两个字段匹配。解决过程是这样的:系统生成三个候选定义(H1/H2/H3),分别对应不同的字段组合,然后用标准答案批量测试,看哪个定义的准确率最高。把最优定义写入“语义口径层”作为强制规则,再把判定逻辑封装成工具函数,所有脚本必须调用。结果是以后遇到“国内交易”,AI 不再猜测,而是直接查询已确定的口径定义。这个案例的核心在于把歧义消除,将隐性的业务规则显性化、资产化。
健壮性闭环:解决“脚本崩溃”—— 让代码能处理各种脏数据
在真实业务的数据中,空值可能是 null、None、空数组 [],普通代码遇到就崩溃。
解决过程包括四个步骤:
收集所有崩溃日志并按错误类型分类,提取最小复现样本写成回归测试用例,开发通用的安全判断函数 safe_in统一处理各种空值情况,把这个函数写入工具库并强制所有脚本使用。以后写代码时,不用每次都想“空值怎么办”,直接调用标准工具即可。这个例子把健壮性经验沉淀为可复用的工具,避免同类错误反复出现。
效率闭环:解决“性能瓶颈”—— 让慢代码跑得快
假设有一个“规则匹配交易”的任务,因为嵌套循环(规则数 × 交易数),在百万级数据上超时。解决方法是先识别热点,发现主要耗时在双重循环;然后生成优化方案,先把交易按特征聚合减少匹配次数;接着验证优化,用标准答案确认结果一致,用性能测试确认确实更快;最后把优化版本作为新变体保存,标注适用条件(大数据量时使用)。当以后遇到同类任务,系统会优先选择高性能版本,自动规避性能陷阱。该例子可以把性能优化也变成可复用的资产,而不是每次都重新优化。
以上三个案例揭示了 OceanBase 方案的本质:不是让 LLM 每次都从零开始推理,而是通过资产化的方式,把“数据长什么样”(Data Surface)、“业务怎么算”(Semantic Lens)、“代码怎么写”(Procedure Pack)这三层知识固化下来。当遇到新问题时,系统先从资产库中检索相关知识,然后基于这些知识构建上下文,让 LLM 在一个“有记忆”的环境中推理。
更重要的是,这套体系具备泛化能力。虽然初始的资产是通过测试集和 success story 构建的,但一旦建立起来,系统就能触类旁通。
比如,学会了处理“国内交易”的口径歧义后,遇到类似的“跨境交易”“本地货币”等概念时,系统能够复用同样的消歧方法。学会了 safe_in
函数后,遇到其他类型的边界情况(如除零、类型转换),也能用类似的思路去抽象和沉淀。学会了特征聚合优化后,遇到其他双重循环的性能瓶颈,也能快速识别并应用类似的优化策略。
这就是为什么 OceanBase DataPilot 能在 DABstep 上拿到最高分的原因。不是因为模型更聪明,而是因为建立了一套让模型“变聪明”的机制。
这套机制通过三层资产管理,将隐性的推理能力显性化;通过 success story 和 golden answer,将一次性的成功经验持久化;通过混合搜索和事务写回,将碎片化的知识系统化。最终,系统不再是“做对一次题”,而是“学会一类题”。
让“存 + 找 + 写回”构建顺滑的闭环
值得注意的是,这套方法论要成立,有一个常被低估的前提:“长期资产”必须既能被稳定治理,又能被高质量检索,还能被安全写回。
如果这些能力分散在多个组件里(例如元数据一套、文档一套、向量索引一套),系统很容易在工程上变得很脆。改动写回时可能出现“部分成功”的情况,比如索引更新了但内容没更新,或者内容更新了但索引没更新。检索装配需要在应用层拼接多路召回与重排,结果不可控也难以回归。证据链散落在日志和文件里,难以追溯、难以长期复用。
为了让上面的闭环在工程上足够顺滑,资产库需要把“治理、检索、写回”三类能力稳定地提供出来。这就引出了一个关键问题:DABstep 这样的负载,本质上在考验数据库的什么能力?
OceanBase 为什么天然适合 AI Agent 负载
1
多模一体
传统的数据架构往往是“拼接”的,用 MySQL 处理交易,用 ES 存文档,用 Milvus 存向量,中间再挂一个 Redis 做缓存。这种架构在 AI Agent 场景下存在致命问题。一方面是割裂的上下文,Agent 需要频繁查询事实(Schema)、查阅口径(文档)、检索历史代码(向量),跨系统的每一次跳转都意味着延迟、网络抖动和潜在的一致性错误。另一方面是难以回溯的状态,当 Agent 犯错时,你很难复现是因为向量库索引没更新,还是数据库里的元数据变了。
OceanBase 采用一体化架构(TP + AP + AI),在一个引擎内同时承载结构化元数据、全文文档、向量语义索引与 JSON 。这意味着“上下文构建”发生在一个统一的数据平面内,数据的一致性和交互的原子性得到了物理级别的保障。
2
混合搜索
在 OceanBase 的方案中,混合搜索不再是锦上添花的功能,而是 Agent 工程的基石。
DABstep 的任务往往隐含着复杂的查询需求,比如“在距离五百米以内(空间查询),人均消费 25 元以下(关系过滤),评价 4.5 分以上且‘不用排队’(向量语义)的咖啡厅”这样的组合条件。
对于 Agent 而言,构建一次精准的上下文就是一次混合搜索的过程。找事实时利用关系数据库能力,快速获取表结构、字段统计信息;找口径时利用全文检索关键字;找经验时利用向量检索,召回历史上处理过类似的代码片段。
OceanBase 将这些能力融合在同一套 SQL 引擎中,用户(或 Agent)只需一条 SQL 即可完成“语义 + 关键词 + 标量”的混合筛选,无需在应用层进行复杂的归并排序。这种“Data In, Data Out”的能力,让 Agent 能够以毫秒级速度,在一次执行中同时完成“查数据 + 查语义 + 查能力 + 跑作业”,从而保证了系统“算对、跑完、跑稳”。
3
事务写回
在 Agent 的迭代过程中,每次“学到的经验”都需要写回到资产库。但这个写回过程涉及多个维度:更新注册表(标记哪些口径、工具被更新)、内容落库(新的口径定义、代码片段)、证据链记录(回归测试报告、性能基准)。如果这三个操作不在同一个事务里,就可能出现“部分成功”的脏状态,比如注册表说“口径已更新”,但实际内容还是老的。
OceanBase 事务能力确保了这一点,把涉及的“注册表更新 + 内容落库 + 证据链记录”作为一次原子操作提交。要么全部成功并可追溯,要么全部回滚不污染长期记忆。从工程角度看,这意味着写回时不会出现“索引更新了但内容没更新”的不一致状态,回滚时能完整恢复到上一个稳定版本,证据链(如回归测试结果)与资产内容强绑定,可追溯、可审计。这是保证资产质量的关键机制。
4
可嵌入也可服务
以 OceanBase seekdb 为例,可支持两种部署模式,满足不同阶段的需求。在构建态(训练/迭代阶段),OceanBase seekdb 可以作为轻量级嵌入式数据库直接在开发环境中运行,快速响应资产的增删改查,加速迭代周期。在运行态(生产环境),OceanBase seekdb 可以作为独立的数据服务部署,承载高并发的查询请求,支持多个 Agent 实例并发访问资产库。这种灵活性让团队可以在“快速迭代”和“稳定服务”之间自由切换,无需重新设计架构。
从“榜单”到可落地的“技术路径”
在 AI Agent 走向深水区的今天,Hugging Face 发布的 DABstep 榜单揭示了一个真实的现实:即便拥有最强推理能力的 LLM,在面对真实复杂的业务数据分析时,准确率也往往不尽如人意。
然而,OceanBase 凭借“数据底座 + Agent 工程化”的方法论成功登顶。OceanBase DataPilot 在 DABstep Hard 难度中拿到最高分,其意义远超一个榜单的排名。它证明了真正能支撑 AI 走向生产的,不是更聪明的提示词,而是通过数据底座的一体化能力解决上下文碎片化难题,将 Agent 的推理过程转化为可持久化、可回归、可迭代的资产体系。
该体系的关键在于三个技术决策。
第一,是用数据库而非文件系统管理资产,利用事务、索引、查询优化器等成熟能力,避免重复造轮子。
第二,是用回归测试而非人工评估驱动迭代,通过自动化的 pass/fail 判定和相对比较(A/B testing),减少主观性和人工成本。
第三是用混合搜索而非单一检索方式构建上下文,结合关系过滤(精确匹配)、全文召回(关键词)、向量召回(语义),在召回率和准确率之间找到工程平衡点。
在这个体系中,混合搜索所体现的价值远不止是加速检索,更是提升推理质量的基础设施。在数据分析场景中,Agent 需要从三个维度构建上下文:事实维度(schema、statistics、data profile)通过关系查询获取,口径维度(business rules、metric definitions)通过全文检索定位,经验维度(code snippets、procedures、best practices)通过向量检索召回。
这三类信息的粒度、分布、召回策略完全不同,通过混合搜索可以高效组装。更重要的是,混合搜索的结果是确定性的,给定相同的查询和资产版本,返回的上下文是可复现的,这是实现回归测试和版本控制的前提。
未来,OceanBase 会将文中所述的完整 Data Agent 能力集成进 DataPilot 新版本中,包括资产管理(Data Surface、Semantic Lens、Procedure Pack)、混合搜索引擎(关系 + 全文 + 向量)、自动化回归系统(regression runner + commit gate),实现更加坚实可靠的智能问数产品,敬请期待!
想了解更多行业资讯
扫码关注👇

了解更多考试相关
扫码添加上智启元官方客服微信👇

17认证网








