OceanBase 城市交流会杭州站圆满收官!实战案例与 Agentic RAG 技术引热议17认证网

正规官方授权
更专业・更权威

OceanBase 城市交流会杭州站圆满收官!实战案例与 Agentic RAG 技术引热议

8 月 16 日,由 OceanBase 社区与魔搭社区联合主办的“OceanBase 城市交流会 · SQL 遇上 AI ”在杭州成功举办。

本次活动聚焦 “数据库与 AI 协同,赋能企业智能转型” 这一核心主题,不仅有网易企业邮箱、网易云音乐、某知名卡牌游戏公司等行业标杆的实战案例拆解,更有基于 LangGraph 和 OceanBase 实现 Agentic RAG 系统构建、OceanBase 向量能力深度解析等硬核技术分享

OceanBase 开源生态技术部总经理封仲淹

OceanBase 开源生态技术部总经理封仲淹在开场致辞中指出,下一代数据库需具备开源、多模融合与云原生三大核心特征。然而,随着 AI 技术的爆发式发展,数据库的未来形态正面临前所未有的挑战。

他通过回顾过去 20 多年以 LAMP 架构推动移动互联网发展、进而带动 MySQL 普及的历史,类比提出 AI 驱动下数据库需重构技术架构以适应智能时代需求。封仲淹强调,本次会议是让大家通过交流和学习获得实际收获,探索 AI 与数据库融合的未来可能性。

网易企业邮箱:分布式架构改造与国产升级实践

网易邮箱研发专家金山分享通过 OceanBase 的分布式架构、高压缩特性及资源隔离能力,有效解决了企业邮箱业务的存储成本、扩展性及运维效率痛点。

实践表明,OceanBase 在性能、稳定性及生态适配层面具备显著优势,为 ToB 业务场景下的数据库选型提供了可复用的标杆案例。

网易邮箱研发专家金山

技术升级背景与核心诉求

网易邮箱作为企业通信核心工具,兼具对外业务协作与内部办公管理功能,需保障数据安全、存储稳定性及资源高效利用。随着数据规模增长(核心集群达 180TB),原有架构面临扩容成本高、资源抢占、数据分布不均衡等问题,亟需技术升级。

同时国家政策要求企业采用国产软硬件。团队调研多款国产数据库后,OceanBase 凭借国际权威性能认证、高压缩率、分布式能力等优势,成为替代原有架构的首选方案。

OceanBase 技术优势与适配实践

高压缩率:实测压缩比达 4:1 到 5:1,显著降低存储成本,减少扩容需求;

分布式性能:准测试中,OceanBase 三节点集群性能超原有架构的两倍,分布式架构下 QPS 达16万且 CPU 使用率持平,展现出优异的并发处理能力;

资源隔离与均衡:租户隔离机制,有效控制小库资源占用,避免资源争抢;结合分片权重设置与自动均衡能力,解决数据分布不均问题,提升系统整体稳定性。

迁移关键实践:

  • 架构设计:采用二级分区(按用户ID)、中间代理层(OB Proxy)与 OLB 负载均衡,保障分布式场景下的稳定性与扩展性;
  • 应用层改造:调整唯一 ID 生成逻辑(序列化机制)、优化索引策略(慎用全局索引)、适配驱动版本及密码规则,降低迁移风险;
  • 性能调优:通过连接池配置优化(按节点总数调整)、分区策略调整(按时间/用户ID)、日志处理(Clog 直解析)提升系统效率。

技术挑战与解决方案

性能瓶颈突破

  • 全局索引查询性能:未带分区字段导致全表扫描,通过添加分区字段优化查询路径;
  • 二级分区管理:
  • 原有架构分区表迁移后为二级分区,低版本 OceanBase 不支持二级分区添加和删除。自 V4.2.5 版本起开始支持;

  • 最初 binlog 生成速度为 25 MBit/s,RPS 为 5万,不满足业务要求。官方优化后 Binlog V4.2.0 版本已经提升到 140 MBit/s,RPS 达到 25 万,有效支撑了大规模数据实时同步场景,显著提升了系统吞吐能力与稳定性。

运维效率提升

  • OCP 平台价值:提供集群资源监控、SQL 性能分析及故障定位功能,降低运维复杂度,助力发现冗余资源(如 CPU 配额过高);
  • 协作机制:与 OceanBase 团队深度合作,快速响应问题(如索引优化、版本升级),保障迁移平滑性。

未来展望与优化方向

功能增强需求

  • 期望 OMS 系统支持滚动升级(无需停服)及开源,以适配实时监听场景;
  • 持续优化 Clog 到 binlog 转换效率,探索与 OMS 更深度集成,应对大规模集群需求。

技术生态共建:网易邮箱团队高度认可 OceanBase 的快速迭代能力与技术支持,计划进一步扩大 OceanBase 在企业邮箱及其他业务场景中的应用范围。

网易云音乐基于自研 CDC 服务

实现数据平滑迁移至 OceanBase 的实践

网易云音乐资深研发工程师吕娅婷介绍了网易云音乐通过自研 NDC 架构,成功实现从 DDB 到 OceanBase 的 PB 级数据迁移,验证了 OceanBase 在高并发、大规模数据场景下的稳定性与性能优势。

网易云音乐资深研发工程师吕娅婷

网易云音乐在高并发场景下,原有自研分布式数据库 DDB(基于 MySQL 构建)存在资源利用率低、扩缩容复杂、高可用性不足、性能瓶颈等问题。基于上述痛点,结合国家政策对国产数据库的支持,网易云音乐选择 OceanBase 作为新一代数据库,以实现高可用、低成本、易运维的架构升级。

OceanBase 选型优势与适配价值

高可用性:RTO(恢复时间目标)小于8秒,保障业务连续性;

资源成本优势:实测存储空间仅为 DDB 的1/4,显著降低存储成本;

兼容性良好:天然兼容 MySQL 协议,降低迁移与运维门槛;

金融级稳定性:已在金融核心业务场景中验证,具备高可靠性和处理能力;

生态活跃:社区支持完善,具备持续迭代与问题响应能力。

迁移架构设计与关键技术实现

NDC 架构设计
  • 全量与增量数据同步:支持 OLTP、OLAP 及消息队列(如Kafka)场景;
  • 无状态解析节点:支持并行拉取与解析,提升资源利用率;
  • 表内并发写:自动响应上游主从切换,实现高可用与不停服迁移。

正向同步策略

  • 并行解析模式:提升解析速度至每秒 140MB 以上;
  • “一拉多推”模式:减少对源端 MySQL 的连接压力;
  • GB 级每秒同步速度:保障大规模数据迁移效率。

反向同步策略

  • Binlog 与 CDC 两种模式:Binlog 模式通过 OB Log Proxy 拉取 Clog 并转换为 Binlog 格式,提升兼容性。

迁移过程中的技术挑战与应对

兼容性问题

  • 为适配 OceanBase,系统从 MySQL 8.0.33 降级至 8.0.25,并移除部分不兼容的 DML 语法;
  • 引入内存模式与双缓存机制,提升反向同步效率,应对不同流量场景。

运维效率提升

  • 面对数百个同步任务,团队通过 NDC 架构实现自动化运维,减少人工干预;
  • 推动 OceanBase 开发团队支持不停服迁移功能,提升迁移组件的高可用性。

性能瓶颈突破

  • 当前 Clog 生成受限于 XA 事务转换,仅能串行生成,影响下游变更事件响应速度;
  • 团队提出优化建议,希望 OceanBase 开发团队未来支持 Clog 并行解析,提升整体性能。

未来方向,希望可以推进 AI 赋能迁移工具开发,基于 MCP 平台实现多 Agent 协同,降低长期同步任务运维成本。进入核心业务试点与大规模迁移阶段,完善 OceanBase 生态体系建设。

同时持续优化反向同步效率,探索与  OceanBase 团队更深入的技术合作,推动功能持续迭代。

基于OceanBase 向量数据库的智能客服与推荐系统优化实践

卡牌游戏公司高级开发工程师周强分享了基于 OceanBase 向量数据库的智能客服与推荐系统优化实践。

卡牌游戏公司高级开发工程师周强

该案例为行业提供了可复用的向量数据库应用范式,尤其在 AI 驱动的智能客服、推荐系统等场景中,充分展现了 OceanBase 在数据一致性、高性能检索与一体化架构方面的核心优势。

随着 AI 和机器学习技术的广泛应用,向量数据库因其在非结构化数据处理和语义搜索中的高效性,成为智能客服、推荐系统等场景的关键技术支撑。

然而,传统数据库在处理高维向量数据时面临以下痛点:

效率瓶颈:高维向量计算复杂度高,传统架构难以满足实时检索需求;

架构复杂性:需依赖多系统协同(如向量数据库 + 关系型数据库),链路长且运维成本高;

一致性缺失:多库间数据同步易导致状态不一致,影响业务可靠性。

OceanBase 凭借以下特性成为卡牌游戏公司的首选方案:

  • 一体化架构:支持结构化数据与向量数据统一存储与计算;
  • 原生向量支持:内置向量类型与索引算法(如 HNSW、IVF),提升检索效率;
  • 分布式扩展能力:支持 TB 级数据弹性扩容;
  • 事务一致性保障:ACID 事务确保数据与向量更新的原子性与一致性。
智能客服系统的重构实践

智能客服系统通过 AI 技术实现 24 小时不间断服务。

核心流程包括:

  • 意图识别:基于大模型解析用户问题;
  • 语义匹配:通过 768 维向量与 HNSW 索引算法在知识库中高效检索相似问题;
  • 动态回复生成:结合关键词查询与向量匹配结果,生成个性化回复。

OceanBase 的应用价值:

  • 一体化存储:结构化知识库与向量数据统一管理,避免多库同步与一致性问题;
  • 高性能检索:原生支持 HNSW 索引,实现毫秒级语义匹配;
  • 事务保障:知识库更新与向量数据同步在同一事务中完成,确保数据可靠性;
  • 开发友好性:兼容 MySQL 协议,降低团队学习与协作成本。

推荐系统的重构与性能提升 

原有推荐系统痛点:

  • 依赖多数据库协同工作,存在链路长、延迟高、一致性差等问题;
  • 用户行为数据与向量更新异步,影响推荐时效性;
  • 需多次数据库请求完成推荐逻辑,响应速度受限。

基于 OceanBase 的系统重构方案:

  • 统一数据存储:OceanBase 原生支持向量与结构化数据融合,实现帖子内容与向量的统一管理;
  • 事务一致性保障:在同一事务中完成数据与向量的更新,避免多库同步带来的数据不一致问题;
  • 单次查询优化:通过一次数据库请求即可完成推荐逻辑,显著降低网络延迟,提升系统响应速度;
  • 短期向量:实时捕捉用户即时兴趣,如临时关注的硬件信息,提升推荐的时效性;
  • 长期向量:基于30天行为数据滚动计算,维护用户稳定兴趣偏好,如对特定游戏类型的偏好;
  • 动态融合机制:根据用户行为变化动态调整短期与长期向量的权重,实现个性化推荐的精准匹配。

卡牌游戏公司通过引入 OceanBase 向量数据库,成功重构智能客服与推荐系统,实现了以下关键突破:

  • 技术架构简化:统一数据存储与事务处理,降低系统复杂度;
  • 性能显著提升:推荐延迟降低、响应速度加快,用户体验优化;
  • 运维成本下降:由多系统维护转向单一系统管理,提升运维效率;
  • 业务价值增强:通过短期与长期向量融合,实现更精准的个性化推荐,提升用户满意度与转化率。
数据库与 Cloud Code 融合的技术探索与实践

LangChain Ambassador 张海立深入探讨了数据库与 AI 编程融合的技术路径,从 RAG 与 Agentic Agent 的协同优化到 MCP 协议的标准化实践,再到 AI 编辑器对开发者体验的革新,为行业提供了从理论到落地的完整解决方案。

LangChain Ambassador 张海立

数据库与 AI 编程的融合趋势

数据库正从传统数据存储工具演进为 AI 编程的核心支撑平台。张海立指出,结合 RAG、Agentic Agent 和 MCP 等技术,数据库不仅能高效管理数据,还能参与内容生成、工具调用与上下文管理,推动 AI 编程的智能化与工程化。

RAG 与 Agentic Agent 技术的协同优化

传统 RAG 的局限性:

  • 线性流程导致召回率低(约 80%),依赖单一向量数据库难以满足复杂业务需求;
  • 需引入全文搜索、图数据库、Web 搜索等多元检索方式提升准确性。

Agentic Agent 技术的引入:

  • Agentic Agent 通过工具调用能力(如 Function Call、JSON Mode)整合多种数据源,实现动态检索与内容生成;
  • 自查自纠机制(Self-Reflection)确保生成内容的质量,通过多轮数据收集与评估优化结果,形成自适应流程;
  • 实践案例中,结合 OceanBase 等多模态数据库与搜索引擎(如Google)显著提升了检索效率与业务适配性。

MCP 协议:标准化与资源管理的突破

MCP(Model Context Protocol)作为标准化协议,统一管理模型上下文中的资源、工具与提示词,解决工具碎片化问题。服务端提供数据库连接、SQL 执行等能力,客户端从宿主应用获取信息,提升上下文串联效率。

OceanBase 的 MCP 实践支持桌面版、云版、OCP 版等多种形式,配置简单(如连接地址、账号密码)即可启用;整合静态资源、提示词与工具集,开发者可通过关键词(如“@oceanbase”)直接调用数据库操作,无需传统 SQL 客户端。

Cloud Code 与数据库操作的革新

在 Cloud Code 中集成 MCP 后,开发者可通过命令行直观查看工具列表及功能,执行数据库操作(如表管理、数据查询),提升调试效率。

新增“学习模式”解释命令逻辑,将编辑器转化为智能助手,帮助开发者理解底层实现,降低学习成本。MCP 通过统一接口简化数据库访问流程,开发者无需掌握 JDBC 或复杂 SQL 语法,仅需关注业务需求即可完成数据操作。对非工程化背景的开发者(如前端工程师),MCP 显著降低了数据库使用门槛,使其能快速融入日常开发流程。

OceanBase 向量存储的现状与社区共建需求

当前,OceanBase 在向量存储能力上虽处于基础阶段,但已与主流 AI 框架(如 LangChain、LlamaIndex)完成初步整合,支持向量数据库生态的接入与管理。例如,LangChain 框架已提供 OceanBase Vector Store 的适配接口,开发者可通过以下方式实现功能扩展与生态协同:

功能增强:推动 OceanBase 与 LangChain/LlamaIndex 的深度整合,覆盖向量、结构化数据与全文检索全场景;
工具链完善:开发面向 OceanBase 的 MCP 工具集(如自动 SQL 生成、数据可视化),降低开发者使用门槛;
生态共建:借鉴开源社区经验(如阿里云模型的社区驱动开发),鼓励开发者贡献适配器与优化方案。

未来趋势与行业展望

多模态大模型:视频、音频等非结构化数据的检索与生成将成为下一代技术重点,推动数据库与 AI 工具的深度整合。

上下文工程:管理模型上下文窗口中的内容(如数据压缩、隔离、检索)将成为核心能力,数据库在非结构化与结构化数据处理中的作用进一步强化。

垂直行业优化:医疗、金融等行业对精准检索与生成的需求驱动定制化解决方案,需结合领域知识图谱与专用数据库(如 OceanBase)提升业务适配性。

RAG 技术应用与 AI 数据库发展趋势实践

OceanBase 高级技术专家蔡飞志系统梳理了 RAG(检索增强生成)技术从理论到落地的核心挑战与解决方案,深入探讨了向量数据库(如 OceanBase)在混合检索、多模态处理中的关键作用,并展望了智能体融合、多模态大模型及垂直行业优化三大趋势。

OceanBase 高级技术专家蔡飞志

实践案例(如 OceanBase PowerRAG 产品)验证了技术在问答知识库与竞调报告生成场景中的有效性,为行业提供了可复用的技术路径与选型参考。

RAG 技术现状与挑战

蔡飞志指出,尽管大型语言模型(LLM)与 RAG(检索增强生成)技术在问答知识库等场景中应用广泛,但行业整体面临“冰火两重天”的困境:市场需求火热,但技术落地率低。当前80%的项目仍停留在 Demo 阶段,仅20%进入生产环境。

核心挑战包括文档格式多样性(如 PDF、多版本 Word)、数据处理复杂性、性能优化瓶颈及从 Demo 到生产应用的稳定性适配问题。

文档检索系统技术选型与实践

文档切片与向量化

  • 推荐使用 Markdown 格式进行文档切片,因其天然支持分段且效果更优。
  • 本地部署建议采用 BGM 系列模型进行向量嵌入,其在中文、英文及多语言场景中表现突出,云上推荐使用阿里云 text-embedding 系列;

向量数据库选型

  • 优先选用 OceanBase,因其支持向量、标量混合检索,兼容结构化与非结构化数据存储,并具备监控与运维能力,避免数据更新延迟问题。

大模型部署策略

  • 针对 RAG 任务,推理型模型(如 DeepSeek)因响应慢且干扰检索过程,优先选择云端非推理型模型,通过开源组件快速搭建 Demo 应用,但需注意生产环境的性能调优与稳定性适配。
从 Demo 到生产应用的差异化挑战

生产环境需处理大规模、多格式文档(如图片、PDF、表格),依赖版面分析技术分类解析内容,并通过结构化存储提升检索效率。

面对用户复杂提问(如非标准表述、上下文依赖),需结合意图分析与关键词过滤优化召回率。
性能与可靠性要求生产系统需解决性能瓶颈(如 QPS 优化)、建立监控告警机制,并确保数据一致性与高可用性,避免 Demo 阶段忽略的稳定性问题。

检索优化策略分析

结合向量检索与全文索引,通过多路召回提升准确率(提升10%-15%),解决 embedding 模型的语义误差问题。OceanBase 数据库支持中、英、泰文分词器,实现标量与向量混合过滤、短语搜索及自然语言查询;

通过前过滤算法优化检索效率。传统向量嵌入模型难以识别内容间的主从关系(如“计算机组件”与“PC”),需通过构建图结构或利用文档关联关系(如跳转链接)进行二次检索,提升父子层级概念的匹配精度。

采用 Agentic Retrieval 技术,通过模型分析问题本质并动态调整检索策略。例如,通过多步查询验证中文分词器支持能力,或结合日志分析工具提取关键信息辅助社区问答

PowerRAG 产品介绍与实践

PowerRAG 产品应用集成工作流、RAG 能力及多算法模型的一站式解决方案,具备 OceanBase 在工程实践上的经验沉淀,适合知识库问答、竞调报告生成等多类场景。

公有云 PowerRAG 已开放公测,支持文档上传与对话体验;私有云版本提供更强的工作流搭建能力。

AI 数据库趋势与行业展望

智能体与 RAG 融合:动态 Agenting RAG 和 固有工作流,提升模型可靠性与生产化落地能力。

多模态大模型突破:视频、音频检索与生成技术成为下一代趋势,推动非文本数据处理需求。

垂直行业深度优化:医疗、金融等行业对精准度要求严苛,需定制化优化 RAG 解决方案。例如,医疗场景需结合领域知识图谱提升检索相关性。

MCP 协议与魔搭社区推动 AI 模型生态开放实践

魔搭社区工程师李家伟的分享系统阐述了 MCP 协议如何通过标准化接口重构模型与外部能力的协作模式,并以魔搭社区为载体,展示了开源生态在降低技术门槛、加速场景落地中的关键作用。

魔搭社区工程师李家伟

MCP 协议:构建模型与外部能力的标准化桥梁

MCP 作为模型与外部工具交互的核心协议,旨在降低工具使用门槛、扩展模型能力边界。其核心价值包括:

能力扩展:支持多模态交互(如生图、生视频)及复杂任务处理,突破传统语言模型对实时数据的依赖;

生态兼容:通过标准化接口连接模型厂商与能力提供商,促进跨系统数据交换与功能调用;

效率优化:用户可通过简单指令(如高德地图 API 接入)实现能力调用,全流程仅需数秒,加速 AI 产品化落地。

魔搭社区:开放模型生态的构建与实践

魔搭社区定位为开放、中立的非盈利平台,已吸引超1600万用户,开源模型超7万个,覆盖多领域任务。其生态建设围绕三大核心展开:

全链工具支持:提供数据处理、模型微调、评测、推理 API 等开源工具链,支持近万个模型 API 调用;

MCP 生态拓展:托管超5000个 MCP,服务调用超亿次,涵盖高德地图、通义灵码等场景;推出 MCP 广场,支持用户搜索、贡献及部署 MCP,通过官方认证保障安全性;

开放协作机制:联合模型厂商(如通义实验室、Kimi)及开发者共建生态,通过 MCP 实验场、OpenAPI 等工具促进技术共享与测试。

技术落地与场景创新

针对 ToC 场景数据库使用门槛高的痛点,推出 OceanBase Workshop 平台,用户可通过自然语言完成数据库集群创建、数据查询等操作,无需理解复杂技术术语。

跨平台集成案例,如高德地图 MCP 接入流程简化至4-5秒,与 Cherry Studio、Kimi Playground 等平台深度集成通过 OpenAPI 实现 MCP 能力内嵌;通过“学习模式”解释命令逻辑,将工具转化为智能助手,降低技术学习门槛。

未来,随着多模态交互与垂直领域需求的深化,MCP 与开放社区的结合将成为推动AI技术普惠化的重要引擎。

生态开放深化:持续吸引垂直领域模型(如医疗、金融)接入 MCP 平台,推动多模态能力行业应用;

用户体验优化:强化 MCP 实验场、开发者教育功能,加速技术普及;

社区驱动创新:依托魔搭社区用户反馈机制,形成“开发-测试-迭代”闭环,提升产品与需求匹配度。

特别鸣谢,本期主持人:

尹珉

Linux 基金会亚太地区布道师,OceanBase 社区布道师

本次交流会不仅展示了 OceanBase 在分布式架构、向量数据库、AI 协同等领域的技术领先性,更凸显了开源生态与行业场景深度融合的价值。

从网易系企业的生产级实践,到 RAG、MCP 等前沿技术的探索,数据库与 AI 的协同正在重塑企业智能转型路径。

未来,随着多模态大模型、垂直行业优化等趋势的深化,OceanBase 与开发者社区将持续推动数据库技术边界拓展,为企业构建智能时代的核心竞争力提供强有力的支持。

想了解更多资讯

扫码关注👇

了解更多考试相关

扫码添加上智启元官方客服微信👇

未经允许不得转载:17认证网 » OceanBase 城市交流会杭州站圆满收官!实战案例与 Agentic RAG 技术引热议
分享到:0

评论已关闭。

400-663-6632
咨询老师
咨询老师
咨询老师