拓数派邱培峰：云原生向量数据库 PieCloudVector助力多模态大模型 AI 应用

导读

在全球AGI（人工通用智能）市场快速增长的背景下，企业应用成为推动这一领域发展的主要力量。根据InfoQ的报告，未来几年AGI市场将保持超过100%的年增长率，到2030年市场规模预计达到4,500亿元，其中企业应用规模可能达到3,000亿元。在这一趋势下，企业如何选择合适的技术来支撑其智能化转型显得尤为重要。

【墨天轮数据库沙龙】邀请到拓数派向量数据库负责人邱培峰，为大家带来《云原生向量数据库 PieCloudVector》的主题分享。PieCloudVector在推动企业智能化转型中发挥着怎样的作用？以下为演讲实录。

邱培峰

拓数派向量数据库负责人

国内AGI发展趋势

中国AGI市场自下而上分为基础设施层、模型层、中间层和应用层，这四层结构共同构成了中国AGI市场的技术框架。

图1 中国AGI市场分层与典型厂商

最底层的基础设施层是AI应用的支柱，它提供硬件、算力和网络支持，任何AI应用都离不开这些技术。在基础设施层之上，核心模型的研发是重中之重，所有AI应用都围绕某个大模型构建，而模型的训练和能力直接影响着AGI应用的实际效能。进一步往上，是围绕模型提供的各种框架、工具、微调能力，它们为实际AI落地搭建了一个桥梁。最后的应用层面则是直面用户业务、解决具体问题的地方。

AI Agent 推动AI迅速发展

最近，AI领域的一大热点是“AI Agent”，它正逐渐成为探索的核心路径。单一的大模型只能生成文字或图片，实际能够落地应用的方向比较有限。Agent的目的旨在让大模型根据用户设定的目标，通过与周围环境交互、使用可访问的数据、调用接口和各种辅助工具，使大模型能够独立完成某些原本需要人工介入的任务，它的发展方向是深入垂直行业，通过明确和精细的任务范围来提高实现效果。目前，Agent应用已经相当普遍，比如智能手机上的语音助手就是一种Agent的具体表现形式。

图2 Agent的概念与应用

云原生向量数据库 PieCloudVector

拓数派云原生向量数据库 PieCloudVector 是大模型时代的分析型数据库升维，可助力多模态大模型AI应用，进一步实现海量向量数据存储和高效查询，帮助基础模型在场景AI的快速适配和二次开发，是大模型应用必备。

一、大模型时代向量数据库的必要性

大模型通过庞大的语料库训练得出，但这些语料库的数据有一个截止日期，因此它们无法回答关于实时性的问题。例如，如果询问一个已经训练好的大模型“现在中国队在巴黎奥运会上拿了多少块金牌？”它必然是无法回答的。在这种情况下，就需要对大模型提供外部的上下文，让大模型可以理解实时的信息，能够更好的去回答这类问题。

其次，大模型训练的语料一般是从公开渠道获得的，并不能接触到私域数据，因此训练出来的大模型不会具有某个领域的专精知识，从而无法回答相关的问题。对于企业构建知识库应用，数据安全是一个不可忽视的问题，数据不可以随意出域暴露在公网上，这时则需要一个可以在私域部署的提供数据的平台。最后，训练好的大模型是静态的，不包含长期记忆，例如在聊天机器人场景，用户每次与模型重新对话时，它并不会记住之前的对话历史或会话内容。

图3 向量数据库帮助大模型更好地满足企业需求

上述大模型面临的局限性问题，都可以通过外部数据检索系统来解决，向量数据库则作为一种重要的解决方案应运而生。通过RAG技术，将最新的信息存储在向量数据库中，通过持久化存储，为模型提供外部知识，提高模型在特定应用场景中的准确性和可用性。此外，还有一种方式是直接对模型进行微调，可以让大模型本身具备一些最新的信息，但其成本要高于使用向量数据库。

二、向量计算引擎的核心能力要求

向量数据通常由文字、语音和图像通过内嵌（embedding）操作转换得来，对于向量数据库来说，如何对海量向量数据进行快速且准确的检索是一个巨大的技术挑战。因此，向量数据库必须采用更高级的技术和算法。

图4 向量计算引擎的核心能力表现

在海量的向量数据中，如何快速且准确地找到与查询向量最接近的N个向量（K-NN）是一个关键问题。为此，向量数据库通常使用改进的数据结构（R树或M树等），这些复杂的数据结构能够更有效地组织和存储高维数据，从而提高检索效率。

另外，向量引擎还可以采用近似检索算法（ANN），通过牺牲一定程度的精度，近似检索算法能够大幅提升检索效率，常用的算法包括IVF、HNSW等。目前没有一个通用算法能在任意数据集上达到所有指标(recall/qps/内存)均最优，一般都需要做取舍以达到整体平衡。

最后，向量间距离的计算是向量检索的核心操作，与大模型的推理或训练过程类似，即重复进行同样的计算。这类操作非常适合使用GPU或FPGA进行加速，单纯依赖CPU的效率则较低。因此，硬件加速是向量计算引擎不可或缺的能力。

三、云原生向量数据库PieCloudVector

拓数派旗下云原生数据库 PieCloudVector 基于 PostgreSQL 内核打造，支持单机和分布式部署，具备完整的 ACID 特性。PieCloudVector 支持向量标量混合查询，即在同一个表中包含向量列和标量列，可以使用 SQL 对向量列进行 ANN 近似查找，并对标量列进行条件筛选。PieCloudVector 兼容 LangChain、LlamaIndex 等主流大模型应用框架，并对外提供了 SQL/REST/Python 接口。

PieCloudVector 架构特点

PieCloudVector 整体架构由四个主要组件构成：管控服务、元数据服务、计算节点和存储底座。具体如下图所示：

图5 PieCloudVector整体架构

架构由四个主要组件构成：管控服务、元数据服务、计算节点和存储底座。计算节点可弹性扩展，分为协调器和执行器两个角色。协调器负责接收 SQL 查询，并进行解析和优化，最终将任务分发给执行器，执行器则负责实际的向量搜索操作。PieCloud Vector 支持主流的 ANN 算法，并能在配备 GPU 的计算节点上加速部分计算。

PieCloud Vector 可部署在裸机、媒体C等带有管控层的平台上，也可以部署在公有云环境中。管控服务提供用户接口，支持向量索引管理、集群监控、备份及用户权限管理等功能。

PieCloudVector RAG 工作流程

PieCloudVector 支持RAG相关应用能力。RAG 是一种将检索模型（通常是向量数据库）和生成模型结合在一起的技术，核心思路是使用来自私有数据源的信息来辅助模型生成更为准确的内容。

下面将介绍 PieCloudVector 基于 RAG 技术构建知识库应用的流程：

将现有所有的知识、文档、信息进行整理，通过原始数据解析之后，对其进行切块（块的大小根据实际文档类型进行调整）；
通过Embedding模型将所有的块转换为向量，并将这些向量存储到 PieCloudVector 中；
为所有的向量建立索引以便后续加速查询。

对于应用使用者，当用户提出问题时，应用会通过同样的Embedding模型将问题转换为向量，并在向量数据库中进行向量搜索找到与目标向量相关的所有知识块，然后将这些知识块包含的信息与原问题进行组合形成新的提示词输入给大模型，最终得到质量更高的答案。

图6 RAG工作流程

尽管向量搜索在RAG中非常有用，但也有其局限性。比如，通过向量搜索得到知识库内容同样会导致结果出现“幻觉”，输出与问题不相关的内容，这种现象可能与embedding模型的选择、切块策略等因素有关。例如，如果切块时将重要信息分成了两块，或是上下文整合时丢失实际语义，还有可能是向量搜索得到的结果无法与提示词良好结合，这些因素都会影响最终生成的回答质量。这也是为什么PieCloudVector 开始探索新一代GraphRAG架构的原因。

PieCloudVector发展趋势：新一代GraphRAG架构

为克服向量RAG的局限性，PieCloudVector 将在不久的未来，计划结合向量搜索和图搜索的优势，即采用GraphRAG架构。其整体流程如下：

首先，通过向量或关键词搜索找到一些初始记录，这些记录已经提前整理成知识图谱（Knowledge Graph）。
接着，从这些初始节点出发，通过图遍历找到与其相关的周边节点，得到更深度的信息；
最终，结合图搜索得到的深度知识与向量搜索的结果，可以生成更符合用户预期的提示词，从而提升大模型推理的准确性。

图7 GraphRAG架构

AIGC全生命周期管理

对于用户来说，他们更希望企业能够基于用户提供的私域知识、语料库搭建一站式AIGC应用。而为了满足这些需求，拓数派提出了大模型数据计算系统 PieDataCS，并支持包括向量数据库PieCloudVector、云原生虚拟数仓PieCloudDB、大模型机器学习 PieCloudML 三款计算引擎。

PieDataCS 将整个模型生命周期管理集成在一起，包括模型的创建、训练、质量测试、微调、部署和推理等所有操作，同时整合了多种计算引擎和各种框架，为用户提供了一个完整的解决方案。

图8 PieDataCS集成整个模型生命周期

在 AIGC 应用中，模型和框架的能力各占一半。通过PieDataCS 构建 AIGC 应用的流程可分成两步：

根据现有的知识或语料选择合适的基础大模型，并结合私域数据进行微调，形成垂直大模型。
将模型与周边的框架和工具集成，通过前端程序进行可视化展示，最终形成一个完整的应用。

落地案例分享

拓数派云原生向量数据库 PieCloudVector 凭借其卓越的性能和广泛适用性，已成功在多个行业领域中落地应用。

某金融客户AIGC应用实践

在某金融客户 AIGC应用的实践中，整个应用基于向量数据库 PieCloudVector 与 LangChain 框架打造，通过Embedding模型将收集到的法律法规、政策文件、报告以及各种投研材料等内容转换为向量并存储到PieCloudVector中，构建了一个强大的RAG框架，最终在前端的应用中可以为用户提供投研分析、量化分析、情绪分析等复杂任务，并实现了问答机器人的功能。

图9 金融行业案例

联合某高校打造多模态数据分析课程

在另一个案例中，拓数派与某高校联合打造了多模态数据分析的课程。整个数据分析的流程首先是使用 Embedding 模型将各种文本、语音、图片等数据转换为向量，然后通过对外提供的 Python SDK 将这些向量数据一同输入到 PieCloudVector 中，利用 PieCloudVector 强大的向量数据处理和分析能力，最终实现智能推荐、文档检索等功能。