8 月 16 日,由 OceanBase 社区与魔搭社区联合主办的“OceanBase 城市交流会 · SQL 遇上 AI ”在杭州成功举办。
本次活动聚焦 “数据库与 AI 协同,赋能企业智能转型” 这一核心主题,不仅有网易企业邮箱、网易云音乐、某知名卡牌游戏公司等行业标杆的实战案例拆解,更有基于 LangGraph 和 OceanBase 实现 Agentic RAG 系统构建、OceanBase 向量能力深度解析等硬核技术分享。
OceanBase 开源生态技术部总经理封仲淹
OceanBase 开源生态技术部总经理封仲淹在开场致辞中指出,下一代数据库需具备开源、多模融合与云原生三大核心特征。然而,随着 AI 技术的爆发式发展,数据库的未来形态正面临前所未有的挑战。
他通过回顾过去 20 多年以 LAMP 架构推动移动互联网发展、进而带动 MySQL 普及的历史,类比提出 AI 驱动下数据库需重构技术架构以适应智能时代需求。封仲淹强调,本次会议是让大家通过交流和学习获得实际收获,探索 AI 与数据库融合的未来可能性。
网易邮箱研发专家金山分享通过 OceanBase 的分布式架构、高压缩特性及资源隔离能力,有效解决了企业邮箱业务的存储成本、扩展性及运维效率痛点。
实践表明,OceanBase 在性能、稳定性及生态适配层面具备显著优势,为 ToB 业务场景下的数据库选型提供了可复用的标杆案例。
网易邮箱研发专家金山
网易邮箱作为企业通信核心工具,兼具对外业务协作与内部办公管理功能,需保障数据安全、存储稳定性及资源高效利用。随着数据规模增长(核心集群达 180TB),原有架构面临扩容成本高、资源抢占、数据分布不均衡等问题,亟需技术升级。
同时国家政策要求企业采用国产软硬件。团队调研多款国产数据库后,OceanBase 凭借国际权威性能认证、高压缩率、分布式能力等优势,成为替代原有架构的首选方案。
高压缩率:实测压缩比达 4:1 到 5:1,显著降低存储成本,减少扩容需求;
分布式性能:基准测试中,OceanBase 三节点集群性能超原有架构的两倍,分布式架构下 QPS 达16万且 CPU 使用率持平,展现出优异的并发处理能力;
资源隔离与均衡:租户隔离机制,有效控制小库资源占用,避免资源争抢;结合分片权重设置与自动均衡能力,解决数据分布不均问题,提升系统整体稳定性。
迁移关键实践:
- 架构设计:采用二级分区(按用户ID)、中间代理层(OB Proxy)与 OLB 负载均衡,保障分布式场景下的稳定性与扩展性;
- 应用层改造:调整唯一 ID 生成逻辑(序列化机制)、优化索引策略(慎用全局索引)、适配驱动版本及密码规则,降低迁移风险;
- 性能调优:通过连接池配置优化(按节点总数调整)、分区策略调整(按时间/用户ID)、日志处理(Clog 直解析)提升系统效率。
性能瓶颈突破
-
全局索引查询性能:未带分区字段导致全表扫描,通过添加分区字段优化查询路径; -
二级分区管理:
-
原有架构分区表迁移后为二级分区,低版本 OceanBase 不支持二级分区添加和删除。自 V4.2.5 版本起开始支持; -
最初 binlog 生成速度为 25 MBit/s,RPS 为 5万,不满足业务要求。官方优化后 Binlog V4.2.0 版本已经提升到 140 MBit/s,RPS 达到 25 万,有效支撑了大规模数据实时同步场景,显著提升了系统吞吐能力与稳定性。
运维效率提升
-
OCP 平台价值:提供集群资源监控、SQL 性能分析及故障定位功能,降低运维复杂度,助力发现冗余资源(如 CPU 配额过高); -
协作机制:与 OceanBase 团队深度合作,快速响应问题(如索引优化、版本升级),保障迁移平滑性。
功能增强需求
-
期望 OMS 系统支持滚动升级(无需停服)及开源,以适配实时监听场景; -
持续优化 Clog 到 binlog 转换效率,探索与 OMS 更深度集成,应对大规模集群需求。
技术生态共建:网易邮箱团队高度认可 OceanBase 的快速迭代能力与技术支持,计划进一步扩大 OceanBase 在企业邮箱及其他业务场景中的应用范围。
实现数据平滑迁移至 OceanBase 的实践
网易云音乐资深研发工程师吕娅婷介绍了网易云音乐通过自研 NDC 架构,成功实现从 DDB 到 OceanBase 的 PB 级数据迁移,验证了 OceanBase 在高并发、大规模数据场景下的稳定性与性能优势。
网易云音乐资深研发工程师吕娅婷
网易云音乐在高并发场景下,原有自研分布式数据库 DDB(基于 MySQL 构建)存在资源利用率低、扩缩容复杂、高可用性不足、性能瓶颈等问题。基于上述痛点,结合国家政策对国产数据库的支持,网易云音乐选择 OceanBase 作为新一代数据库,以实现高可用、低成本、易运维的架构升级。
高可用性:RTO(恢复时间目标)小于8秒,保障业务连续性;
资源成本优势:实测存储空间仅为 DDB 的1/4,显著降低存储成本;
兼容性良好:天然兼容 MySQL 协议,降低迁移与运维门槛;
金融级稳定性:已在金融核心业务场景中验证,具备高可靠性和处理能力;
生态活跃:社区支持完善,具备持续迭代与问题响应能力。
-
全量与增量数据同步:支持 OLTP、OLAP 及消息队列(如Kafka)场景; -
无状态解析节点:支持并行拉取与解析,提升资源利用率; -
表内并发写:自动响应上游主从切换,实现高可用与不停服迁移。
正向同步策略
-
并行解析模式:提升解析速度至每秒 140MB 以上; -
“一拉多推”模式:减少对源端 MySQL 的连接压力; -
GB 级每秒同步速度:保障大规模数据迁移效率。
反向同步策略
- Binlog 与 CDC 两种模式:Binlog 模式通过 OB Log Proxy 拉取 Clog 并转换为 Binlog 格式,提升兼容性。
兼容性问题
-
为适配 OceanBase,系统从 MySQL 8.0.33 降级至 8.0.25,并移除部分不兼容的 DML 语法; -
引入内存模式与双缓存机制,提升反向同步效率,应对不同流量场景。
运维效率提升
-
面对数百个同步任务,团队通过 NDC 架构实现自动化运维,减少人工干预; -
推动 OceanBase 开发团队支持不停服迁移功能,提升迁移组件的高可用性。
性能瓶颈突破
-
当前 Clog 生成受限于 XA 事务转换,仅能串行生成,影响下游变更事件响应速度; -
团队提出优化建议,希望 OceanBase 开发团队未来支持 Clog 并行解析,提升整体性能。
未来方向,希望可以推进 AI 赋能迁移工具开发,基于 MCP 平台实现多 Agent 协同,降低长期同步任务运维成本。进入核心业务试点与大规模迁移阶段,完善 OceanBase 生态体系建设。
同时持续优化反向同步效率,探索与 OceanBase 团队更深入的技术合作,推动功能持续迭代。
卡牌游戏公司高级开发工程师周强分享了基于 OceanBase 向量数据库的智能客服与推荐系统优化实践。
卡牌游戏公司高级开发工程师周强
该案例为行业提供了可复用的向量数据库应用范式,尤其在 AI 驱动的智能客服、推荐系统等场景中,充分展现了 OceanBase 在数据一致性、高性能检索与一体化架构方面的核心优势。
随着 AI 和机器学习技术的广泛应用,向量数据库因其在非结构化数据处理和语义搜索中的高效性,成为智能客服、推荐系统等场景的关键技术支撑。
然而,传统数据库在处理高维向量数据时面临以下痛点:
效率瓶颈:高维向量计算复杂度高,传统架构难以满足实时检索需求;
架构复杂性:需依赖多系统协同(如向量数据库 + 关系型数据库),链路长且运维成本高;
一致性缺失:多库间数据同步易导致状态不一致,影响业务可靠性。
OceanBase 凭借以下特性成为卡牌游戏公司的首选方案:
-
一体化架构:支持结构化数据与向量数据统一存储与计算; -
原生向量支持:内置向量类型与索引算法(如 HNSW、IVF),提升检索效率; -
分布式扩展能力:支持 TB 级数据弹性扩容; -
事务一致性保障:ACID 事务确保数据与向量更新的原子性与一致性。
智能客服系统通过 AI 技术实现 24 小时不间断服务。
核心流程包括:
-
意图识别:基于大模型解析用户问题; -
语义匹配:通过 768 维向量与 HNSW 索引算法在知识库中高效检索相似问题; -
动态回复生成:结合关键词查询与向量匹配结果,生成个性化回复。
OceanBase 的应用价值:
- 一体化存储:结构化知识库与向量数据统一管理,避免多库同步与一致性问题;
- 高性能检索:原生支持 HNSW 索引,实现毫秒级语义匹配;
- 事务保障:知识库更新与向量数据同步在同一事务中完成,确保数据可靠性;
- 开发友好性:兼容 MySQL 协议,降低团队学习与协作成本。
原有推荐系统痛点:
-
依赖多数据库协同工作,存在链路长、延迟高、一致性差等问题; -
用户行为数据与向量更新异步,影响推荐时效性; -
需多次数据库请求完成推荐逻辑,响应速度受限。
基于 OceanBase 的系统重构方案:
-
统一数据存储:OceanBase 原生支持向量与结构化数据融合,实现帖子内容与向量的统一管理; -
事务一致性保障:在同一事务中完成数据与向量的更新,避免多库同步带来的数据不一致问题; -
单次查询优化:通过一次数据库请求即可完成推荐逻辑,显著降低网络延迟,提升系统响应速度; -
短期向量:实时捕捉用户即时兴趣,如临时关注的硬件信息,提升推荐的时效性; -
长期向量:基于30天行为数据滚动计算,维护用户稳定兴趣偏好,如对特定游戏类型的偏好; -
动态融合机制:根据用户行为变化动态调整短期与长期向量的权重,实现个性化推荐的精准匹配。
卡牌游戏公司通过引入 OceanBase 向量数据库,成功重构智能客服与推荐系统,实现了以下关键突破:
- 技术架构简化:统一数据存储与事务处理,降低系统复杂度;
- 性能显著提升:推荐延迟降低、响应速度加快,用户体验优化;
- 运维成本下降:由多系统维护转向单一系统管理,提升运维效率;
- 业务价值增强:通过短期与长期向量融合,实现更精准的个性化推荐,提升用户满意度与转化率。
LangChain Ambassador 张海立深入探讨了数据库与 AI 编程融合的技术路径,从 RAG 与 Agentic Agent 的协同优化到 MCP 协议的标准化实践,再到 AI 编辑器对开发者体验的革新,为行业提供了从理论到落地的完整解决方案。
LangChain Ambassador 张海立
数据库正从传统数据存储工具演进为 AI 编程的核心支撑平台。张海立指出,结合 RAG、Agentic Agent 和 MCP 等技术,数据库不仅能高效管理数据,还能参与内容生成、工具调用与上下文管理,推动 AI 编程的智能化与工程化。
传统 RAG 的局限性:
-
线性流程导致召回率低(约 80%),依赖单一向量数据库难以满足复杂业务需求; -
需引入全文搜索、图数据库、Web 搜索等多元检索方式提升准确性。
Agentic Agent 技术的引入:
-
Agentic Agent 通过工具调用能力(如 Function Call、JSON Mode)整合多种数据源,实现动态检索与内容生成; -
自查自纠机制(Self-Reflection)确保生成内容的质量,通过多轮数据收集与评估优化结果,形成自适应流程; -
实践案例中,结合 OceanBase 等多模态数据库与搜索引擎(如Google)显著提升了检索效率与业务适配性。
MCP(Model Context Protocol)作为标准化协议,统一管理模型上下文中的资源、工具与提示词,解决工具碎片化问题。服务端提供数据库连接、SQL 执行等能力,客户端从宿主应用获取信息,提升上下文串联效率。
OceanBase 的 MCP 实践支持桌面版、云版、OCP 版等多种形式,配置简单(如连接地址、账号密码)即可启用;整合静态资源、提示词与工具集,开发者可通过关键词(如“@oceanbase”)直接调用数据库操作,无需传统 SQL 客户端。
在 Cloud Code 中集成 MCP 后,开发者可通过命令行直观查看工具列表及功能,执行数据库操作(如表管理、数据查询),提升调试效率。
新增“学习模式”解释命令逻辑,将编辑器转化为智能助手,帮助开发者理解底层实现,降低学习成本。MCP 通过统一接口简化数据库访问流程,开发者无需掌握 JDBC 或复杂 SQL 语法,仅需关注业务需求即可完成数据操作。对非工程化背景的开发者(如前端工程师),MCP 显著降低了数据库使用门槛,使其能快速融入日常开发流程。
当前,OceanBase 在向量存储能力上虽处于基础阶段,但已与主流 AI 框架(如 LangChain、LlamaIndex)完成初步整合,支持向量数据库生态的接入与管理。例如,LangChain 框架已提供 OceanBase Vector Store 的适配接口,开发者可通过以下方式实现功能扩展与生态协同:
多模态大模型:视频、音频等非结构化数据的检索与生成将成为下一代技术重点,推动数据库与 AI 工具的深度整合。
上下文工程:管理模型上下文窗口中的内容(如数据压缩、隔离、检索)将成为核心能力,数据库在非结构化与结构化数据处理中的作用进一步强化。
垂直行业优化:医疗、金融等行业对精准检索与生成的需求驱动定制化解决方案,需结合领域知识图谱与专用数据库(如 OceanBase)提升业务适配性。
OceanBase 高级技术专家蔡飞志
实践案例(如 OceanBase PowerRAG 产品)验证了技术在问答知识库与竞调报告生成场景中的有效性,为行业提供了可复用的技术路径与选型参考。
蔡飞志指出,尽管大型语言模型(LLM)与 RAG(检索增强生成)技术在问答知识库等场景中应用广泛,但行业整体面临“冰火两重天”的困境:市场需求火热,但技术落地率低。当前80%的项目仍停留在 Demo 阶段,仅20%进入生产环境。
核心挑战包括文档格式多样性(如 PDF、多版本 Word)、数据处理复杂性、性能优化瓶颈及从 Demo 到生产应用的稳定性适配问题。
文档切片与向量化
- 推荐使用 Markdown 格式进行文档切片,因其天然支持分段且效果更优。
- 本地部署建议采用 BGM 系列模型进行向量嵌入,其在中文、英文及多语言场景中表现突出,云上推荐使用阿里云 text-embedding 系列;
向量数据库选型
- 优先选用 OceanBase,因其支持向量、标量混合检索,兼容结构化与非结构化数据存储,并具备监控与运维能力,避免数据更新延迟问题。
大模型部署策略
- 针对 RAG 任务,推理型模型(如 DeepSeek)因响应慢且干扰检索过程,优先选择云端非推理型模型,通过开源组件快速搭建 Demo 应用,但需注意生产环境的性能调优与稳定性适配。
生产环境需处理大规模、多格式文档(如图片、PDF、表格),依赖版面分析技术分类解析内容,并通过结构化存储提升检索效率。
结合向量检索与全文索引,通过多路召回提升准确率(提升10%-15%),解决 embedding 模型的语义误差问题。OceanBase 数据库支持中、英、泰文分词器,实现标量与向量混合过滤、短语搜索及自然语言查询;
通过前过滤算法优化检索效率。传统向量嵌入模型难以识别内容间的主从关系(如“计算机组件”与“PC”),需通过构建图结构或利用文档关联关系(如跳转链接)进行二次检索,提升父子层级概念的匹配精度。
采用 Agentic Retrieval 技术,通过模型分析问题本质并动态调整检索策略。例如,通过多步查询验证中文分词器支持能力,或结合日志分析工具提取关键信息辅助社区问答
PowerRAG 产品应用集成工作流、RAG 能力及多算法模型的一站式解决方案,具备 OceanBase 在工程实践上的经验沉淀,适合知识库问答、竞调报告生成等多类场景。
公有云 PowerRAG 已开放公测,支持文档上传与对话体验;私有云版本提供更强的工作流搭建能力。
智能体与 RAG 融合:动态 Agenting RAG 和 固有工作流,提升模型可靠性与生产化落地能力。
多模态大模型突破:视频、音频检索与生成技术成为下一代趋势,推动非文本数据处理需求。
垂直行业深度优化:医疗、金融等行业对精准度要求严苛,需定制化优化 RAG 解决方案。例如,医疗场景需结合领域知识图谱提升检索相关性。
魔搭社区工程师李家伟的分享系统阐述了 MCP 协议如何通过标准化接口重构模型与外部能力的协作模式,并以魔搭社区为载体,展示了开源生态在降低技术门槛、加速场景落地中的关键作用。
魔搭社区工程师李家伟
MCP 作为模型与外部工具交互的核心协议,旨在降低工具使用门槛、扩展模型能力边界。其核心价值包括:
能力扩展:支持多模态交互(如生图、生视频)及复杂任务处理,突破传统语言模型对实时数据的依赖;
生态兼容:通过标准化接口连接模型厂商与能力提供商,促进跨系统数据交换与功能调用;
效率优化:用户可通过简单指令(如高德地图 API 接入)实现能力调用,全流程仅需数秒,加速 AI 产品化落地。
魔搭社区定位为开放、中立的非盈利平台,已吸引超1600万用户,开源模型超7万个,覆盖多领域任务。其生态建设围绕三大核心展开:
全链工具支持:提供数据处理、模型微调、评测、推理 API 等开源工具链,支持近万个模型 API 调用;
MCP 生态拓展:托管超5000个 MCP,服务调用超亿次,涵盖高德地图、通义灵码等场景;推出 MCP 广场,支持用户搜索、贡献及部署 MCP,通过官方认证保障安全性;
开放协作机制:联合模型厂商(如通义实验室、Kimi)及开发者共建生态,通过 MCP 实验场、OpenAPI 等工具促进技术共享与测试。
针对 ToC 场景数据库使用门槛高的痛点,推出 OceanBase Workshop 平台,用户可通过自然语言完成数据库集群创建、数据查询等操作,无需理解复杂技术术语。
跨平台集成案例,如高德地图 MCP 接入流程简化至4-5秒,与 Cherry Studio、Kimi Playground 等平台深度集成,通过 OpenAPI 实现 MCP 能力内嵌;通过“学习模式”解释命令逻辑,将工具转化为智能助手,降低技术学习门槛。
未来,随着多模态交互与垂直领域需求的深化,MCP 与开放社区的结合将成为推动AI技术普惠化的重要引擎。
生态开放深化:持续吸引垂直领域模型(如医疗、金融)接入 MCP 平台,推动多模态能力行业应用;
用户体验优化:强化 MCP 实验场、开发者教育功能,加速技术普及;
社区驱动创新:依托魔搭社区用户反馈机制,形成“开发-测试-迭代”闭环,提升产品与需求匹配度。
特别鸣谢,本期主持人:
本次交流会不仅展示了 OceanBase 在分布式架构、向量数据库、AI 协同等领域的技术领先性,更凸显了开源生态与行业场景深度融合的价值。
从网易系企业的生产级实践,到 RAG、MCP 等前沿技术的探索,数据库与 AI 的协同正在重塑企业智能转型路径。
未来,随着多模态大模型、垂直行业优化等趋势的深化,OceanBase 与开发者社区将持续推动数据库技术边界拓展,为企业构建智能时代的核心竞争力提供强有力的支持。
想了解更多资讯
扫码关注👇
了解更多考试相关
扫码添加上智启元官方客服微信👇