2024 年 8 月 26 日至 8 月 30 日,数据库领域国际顶级会议 VLDB 2024(50th International Conference on Very Large Databases)在中国广州举办。OceanBase 两篇论文成功入选,获得了国际学术界的高度认可。
VLDB 是全球数据库领域的三大顶会之一, 集中展示了数据库研究的前沿方向和工业界的最新应用,会议涵盖数据管理、数据库架构、图数据管理、数据隐私与安全、数据挖掘、机器学习、人工智能和数据库系统研究等技术领域,汇集全球数据库领域的顶尖专家学者。
本次入选的两篇论文,均以 OceanBase 数据库的设计与实现为基础。第一篇论文 PALF: Replicated Write-Ahead Logging for Distributed Databases 从技术视角,阐述了 OceanBase 4.0 分布式日志系统 PALF (Paxos-backed Append-only Log File System) 的架构设计,及其在有效支撑 OceanBase 高可用、高可靠、极致性能等特性方面的技术优势。
第二篇论文 Native Distributed Databases: Problems, Challenges and Opportunities 从实践视角,以 OceanBase 为案例,从数据同步、一致性模型、分布式事务、查询处理等多角度,深入探讨了原生分布式数据库领域的前沿技术、工业实现,以及行业机遇。
入选论文 1
《PALF: Replicated Write-Ahead Logging for Distributed Databases》
*论文下载链接:https://www.vldb.org/pvldb/volumes/17/paper/PALF%3A%20Replicated%20Write-ahead%20Logging%20for%20Distributed%20Databases
近年来,分布式数据库由于其可扩展、可用性,以及一致性保障,逐渐成为了热门研究议题。其中,预写式日志(Write-Ahead Logging,WAL)通过将变更操作在提交前写入日志,确保数据库在发生故障后能够成功恢复到之前的状态,从而保障了数据的原子性和持久性。然而,设计并实现一款支持分布式数据库系统、并具有 ACID 事务能力的日志系统仍然存在诸多挑战。
本篇论文创新性地提出并阐述了分布式日志系统 PALF(Paxos-backed Append-only Log File System),该日志系统满足事务系统 WAL 的功能需求,实现事务的原子性与持久性,保障事务高性能;同时基于 Paxos 协议,支撑分布式系统的高可用、高可靠能力。具体而言,本篇论文的主要贡献与成果包括:
- 面向 OceanBase 分布式数据库的高可用需求,设计并实现 PALF 分布式日志系统,以及基于 Paxos 算法的分布式共识协议。该协议原生支持选举优先级,用户可以灵活指定数据库主节点的选举策略,充分发挥分布式数据库的灵活性和高可用能力,使 OceanBase 数据库能有效容忍运行过程中的机器故障等异常。
- PALF 提供类文件系统接口,高效结合了 OceanBase 数据库事务引擎和分布式日志系统,避免了传统复制状态机模型的功能和性能短板,同时有效屏蔽底层分布式系统的复杂度对事务引擎的影响。基于 PALF,OceanBase 数据库实现了分布式事务定序、弱读等功能,高效支撑分布式数据库事务引擎。
- 基于 PALF 创新性的共识协议设计,OceanBase 数据库在日志复制层高效实现了跨数据库的原生高可用方案,使得 OceanBase 不仅能容忍单个数据库集群内的故障,更能在整个数据库集群出现异常的极端场景下保证数据库服务的高可用、高可靠。
- PALF 在共识协议实现过程中完成了多项关键性能优化,包括流水线复制、自适应聚合和无锁写入路径等,实现近乎线性拓展的写入性能和极短的故障恢复时间(RTO < 8s),完全满足 OceanBase 数据库对高可用、高性能的极致要求。
截至目前,PALF 已经成功应用于 OceanBase 4.0 及后续版本中,有效支撑了 OceanBase 数据库的高可用、高可靠、高性能特性,以及物理备库、备份恢复等重要功能。
入选论文 2
《Native Distributed Databases: Problems, Challenges and Opportunities》
*论文下载链接:https://www.vldb.org/pvldb/volumes/17/paper/PALF%3A%20Replicated%20Write-ahead%20Logging%20for%20Distributed%20Databases
这篇论文由 OceanBase 与华东师范大学合作完成,深入探讨了原生分布式数据库领域的前沿技术及其工业应用。论文全面分析了数据同步、一致性模型、分布式事务、查询处理等多个方面,揭示了当前分布式数据库面临的主要技术挑战及其解决方案。
在数据复制与同步方面,论文讨论了分布式数据库在数据复制和同步中的功能要求和技术策略,并详细分析了这些技术实施中的挑战。对于一致性模型,论文介绍了各种模型的特征,并讨论了如何根据具体需求选择最合适的一致性模型,同时权衡其利弊。
论文还对分布式事务进行了深入探讨,涵盖了事务提交协议和分布式版本控制两项关键技术,分析了实现过程中遇到的困难与挑战。在查询处理部分,作者阐述了 SQL 执行器和优化器的工作逻辑,指出了现有问题及未来可能的发展方向。
通过以 OceanBase 为典型案例,论文详细介绍了这一原生分布式数据库的基础结构和优异性能。文中还展望了分布式数据库领域的热点趋势和潜在机遇,如 Severless、AI4DB / DB4AI、多模数据库和向量数据库等。
这篇论文不仅从学术界与工业界的视角出发,解析了分布式数据库的先进技术,还展现了其实际应用的广泛适用性。学界对这篇论文给予了高度评价,认为在数据驱动的当今世界,原生分布式数据库的重要性日益突出,并成为了热门的研究和讨论话题。
截至目前,OceanBase 已在 SIGMOD、ICDE、VLDB 等权威学术期刊发表了 20 余篇论文,这代表着 OceanBase 在数据库领域的技术能力和创新成果得到了全球数据库领域学术界的认可,同时也为数据库技术的进步和发展作出了积极贡献。未来,OceanBase 将持续投入学术创新,推动研究成果向实际应用转化,同时继续加强科研合作与人才培养,持续推动数据库技术的前沿发展。
本文转自墨天轮
想了解更多资讯
扫码关注👇
了解更多考试相关
扫码添加上智启元官方客服微信👇