天翼云PostgreSQL重磅升级：全面支持PGVector 0.8.0，解锁向量数据处理新范式！

在大模型技术迅猛发展的今天，如何高效处理海量非结构化数据并从中提取价值，成为企业面临的核心挑战。天翼云致力于为企业提供最前沿的数据库技术。近期，PostgreSQL云数据库正式宣布全面支持PGVector 0.8.0插件，同时提供了向量相关的指标监控，将向量引擎计算能力无缝融入云数据库，为企业构建AI应用提供更坚实的技术基础。

向量数据库：AI时代的数据管理新范式

向量数据库是专门设计用于处理向量数据（一系列数字的集合，称为嵌入）的数据库系统。在AI模型中，文本、图像、音频和视频等非结构化数据都可以通过嵌入技术转化为向量，从而在数学空间中表示其特性和关系。嵌入（embedding）是指将高维数据映射为低维表示的过程。通过嵌入，复杂的数据可以在多个维度上抽象，转化为向量表示。

向量相似性则通过计算向量之间的距离来衡量。以“狗”、“猫”和“苹果”三个对象为例，将它们转化为二维向量后：

“苹果”：[1, 1, 0.5]

“香蕉”：[1.2, 0.8, 0.6]

“猫”：[6, 0.4, 0.1]

在二维平面中，同属动物的狗和猫距离更接近，而它们与苹果的距离则相对较远。维度越高，对信息的分类就越细，搜索结果的精确度也就越高。

天翼云PostgreSQL的向量能力全面升级

天翼云关系型数据库PostgreSQL版通过PGVector 0.8.0插件，为用户提供更强大的向量数据处理能力。PGVector 0.8.0的核心功能特性

PGVector扩展为PostgreSQL增加了vector数据类型，使数据库能够直接存储和检索向量数据。

主要技术特性包括：

• 高性能向量存储：支持在PostgreSQL表中直接存储高维向量，最大支持16000维度的向量。

• 灵活相似性搜索：提供精确和近似最近邻搜索(ANN)，支持欧氏距离（L2）、曼哈顿距离(L1)、余弦相似度及内积运算。

• 多索引策略：支持HNSW索引和IVFFlat索引，满足不同场景下的性能与召回率需求。

• 并行索引构建：显著提升索引构建效率，缩短系统维护时间。

企业级实践示例

在天翼云PostgreSQL中使用PGVector极为简便：

创建扩展

SQL
CREATE EXTENSION IF NOT EXISTS vector;

创建包含向量列的表

SQL
CREATE TABLE items (
id bigserial PRIMARY KEY,
item text,
embedding vector(3) — 以三维为例，实际支持更高维度
);

插入向量数据

SQL
INSERT INTO items (item, embedding)
VALUES
(‘苹果’, ‘[1, 1, 0.5]’),(‘香蕉’, ‘[1.2, 0.8, 0.6]’),
(‘猫’, ‘[6, 0.4, 0.1]’);

执行相似性搜索

SQL
— 余弦度量：使用公式cosine_similarity = 1 – cosine_distance进行计算余弦相似度，距离越小，相似度越高。(范围 [-1, 1])
SELECT
item,1 – (embedding <=> ‘[1.2, 0.8, 0.6]’) AS cosine_similarity
FROM
items
ORDER BY
cosine_similarity DESC;– 内积度量：需将 <#> 的结果乘以 -1得到内积（因 <#>返回负内积）。使用 l2_normalize() 函数将向量归一化为单位向量（模长为1）
— 归一化后的内积 = 余弦相似度（范围 [-1, 1]）
SELECT
item,
-(l2_normalize(embedding)<#> l2_normalize(‘[1.2, 0.8, 0.6]’::vector)) AS normalized_inner_product
FROM
items
ORDER BY
-(l2_normalize(embedding)<#> l2_normalize(‘[1.2, 0.8, 0.6]’::vector)) DESC;

–L1度量：<+> 返回 L1 距离，范围 [0, +∞)，距离越小，相似度越高，0表示完全相同
SELECT
item,
embedding <+> ‘[1.2, 0.8, 0.6]’ AS l1_distance
FROM
items
ORDER BY
embedding <+> ‘[1.2, 0.8, 0.6]’ ASC;

–L2度量：<-> 返回 L2 距离，范围 [0, +∞)，距离越小，相似度越高，0表示完全相同
SELECT
item,
embedding <-> ‘[1.2, 0.8, 0.6]’ AS l2_distance
FROM
items
ORDER BY
embedding <-> ‘[1.2, 0.8, 0.6]’ ASC;

查询结果示例：

SQL
–以余弦度量为例：
item | cosine_similarity
——+——————–
香蕉 | 1
苹果 | 0.9816159996665887
猫 | 0.8068634552933738
(3 rows)

从结果可以看出，香蕉与自身的相似度为1（完全匹配），与苹果的相似度为0.978（高度相似），而与猫的相似度为0.852（相似度较低）。

向量索引的优化策略

在实际生产环境中，合理的索引策略是保证向量检索性能的关键：HNSW索引配置

SQL
CREATE INDEX ON items USING hnsw (embedding vector_cosine_ops)
WITH (m = 16, ef_construction = 64);

参数说明：• m：构建HNSW索引时，每层中每个节点的最大邻近节点数目。该值越大，图的稠密度越高，通常会导致召回率的提高，同时构建和查询所需的时间也相应增加。

• ef_construction：表示构建HNSW索引时，候选集的大小。该值越大，通常召回率也越高，但构建和查询所需的时间也相应增加。

IVFFlat索引配置

SQL
CREATE INDEX ON items USING ivfflat (embedding vector_cosine_ops)
WITH (lists = 100);

参数说明：• lists：参数表示将数据集分成的列表数。该值越大，表示数据集被分割得越多，每个子集的大小相对较小，索引查询速度越快。但随着lists值的增加，查询的召回率可能会下降。

应用场景：向量技术的多元化实践

天翼云PostgreSQL配合PGVector 0.8.0插件，在多种AI应用场景下发挥关键作用：智能推荐系统

根据用户的历史行为和偏好向量，寻找相似的产品或内容，大幅提升推荐准确度和用户体验。

多模态内容检索

将图像、语音和文本数据统一转化为向量表示，实现高效的跨模态语义搜索，应用于版权保护、内容检索等领域。

RAG增强检索

为大语言模型提供精准的知识检索能力，基于向量相似性从企业知识库中检索相关信息，减少模型幻觉，提升回答准确性。

异常检测

在金融、网络安全等领域，通过向量相似度比较，快速识别异常交易或行为模式，保障业务安全。

天翼云TeleDB的全面向量化战略

PGVector插件只是天翼云数据库向量化能力的一部分。天翼云自研的TeleDB分布式数据库同样集成了向量搜索引擎，形成完整的向量数据处理技术栈。TeleDB定位是一款分布式HTAP数据库，在SQL引擎层引入了向量化执行引擎，以进一步提升TeleDB的数据分析能力。这表明天翼云正在构建一个完整的向量数据处理生态，从多个层面推进数据库的智能化转型：

• 顶层：数据库生命周期管理平台DCP，作为天翼云数据库能力中台。

• 中间层：丰富的数据库生态工具，包括数据传输服务DTS、数据管理服务DMS等。

• 底层：数据库产品，包括常用的RDS托管产品以及自研的TeleDB数据库。

天翼云PostgreSQL对PGVector 0.8.0插件的支持，是传统数据库向AI原生架构演进的又一重要里程碑。这一集成使企业能够在统一的数据平台上构建完整的智能应用生态，同时满足事务一致性、分析性能和语义检索的多元化需求。作为云计算国家队，天翼云始终秉承央企使命，致力于通过技术创新推动产业智能化转型，为企业提供稳定可靠、性能卓越、安全合规的向量数据管理平台，助力千行百业在AI时代构建核心竞争优势。

随着AI技术的不断普及，向量数据库将成为企业智能化转型的核心基础设施。天翼云通过PostgreSQL的PGVector 0.8.0支持和TeleDB的向量化能力，正助力中国企业在新的技术浪潮中抢占先机，成就智能未来！

想了解更多行业资讯

扫码关注👇