天翼云PostgreSQL重磅升级:全面支持PGVector 0.8.0,解锁向量数据处理新范式!17认证网

正规官方授权
更专业・更权威

天翼云PostgreSQL重磅升级:全面支持PGVector 0.8.0,解锁向量数据处理新范式!

在大模型技术迅猛发展的今天,如何高效处理海量非结构化数据并从中提取价值,成为企业面临的核心挑战。天翼云致力于为企业提供最前沿的数据库技术。近期,PostgreSQL云数据库正式宣布全面支持PGVector 0.8.0插件,同时提供了向量相关的指标监控,将向量引擎计算能力无缝融入云数据库,为企业构建AI应用提供更坚实的技术基础。
向量数据库:AI时代的数据管理新范式
向量数据库是专门设计用于处理向量数据(一系列数字的集合,称为嵌入)的数据库系统。在AI模型中,文本、图像、音频和视频等非结构化数据都可以通过嵌入技术转化为向量,从而在数学空间中表示其特性和关系。嵌入(embedding)是指将高维数据映射为低维表示的过程。通过嵌入,复杂的数据可以在多个维度上抽象,转化为向量表示。

向量相似性则通过计算向量之间的距离来衡量。以“狗”、“猫”和“苹果”三个对象为例,将它们转化为二维向量后:

 “苹果”:[1, 1, 0.5]

 “香蕉”:[1.2, 0.8, 0.6]

 “猫”:[6, 0.4, 0.1]

在二维平面中,同属动物的狗和猫距离更接近,而它们与苹果的距离则相对较远。维度越高,对信息的分类就越细,搜索结果的精确度也就越高。

天翼云PostgreSQL的向量能力全面升级
天翼云关系型数据库PostgreSQL版通过PGVector 0.8.0插件,为用户提供更强大的向量数据处理能力。PGVector 0.8.0的核心功能特性

PGVector扩展为PostgreSQL增加了vector数据类型,使数据库能够直接存储和检索向量数据。

主要技术特性包括:

• 高性能向量存储:支持在PostgreSQL表中直接存储高维向量,最大支持16000维度的向量。

• 灵活相似性搜索:提供精确和近似最近邻搜索(ANN),支持欧氏距离(L2)、曼哈顿距离(L1)、余弦相似度及内积运算。

 多索引策略:支持HNSW索引和IVFFlat索引,满足不同场景下的性能与召回率需求。

• 并行索引构建:显著提升索引构建效率,缩短系统维护时间。

企业级实践示例

在天翼云PostgreSQL中使用PGVector极为简便:

创建扩展

SQL
CREATE EXTENSION IF NOT EXISTS vector;
创建包含向量列的表
SQL
CREATE TABLE items (
id bigserial PRIMARY KEY,
item text,
embedding vector(3)  — 以三维为例,实际支持更高维度
);
插入向量数据
SQL
INSERT INTO items (item, embedding)
VALUES
(‘苹果’, ‘[1, 1, 0.5]’),(‘香蕉’, ‘[1.2, 0.8, 0.6]’),
(‘猫’, ‘[6, 0.4, 0.1]’);
执行相似性搜索
SQL
— 余弦度量:使用公式cosine_similarity = 1 – cosine_distance进行计算余弦相似度,距离越小,相似度越高。(范围 [-1, 1])
SELECT
item,1 – (embedding <=> ‘[1.2, 0.8, 0.6]’) AS cosine_similarity
FROM
items
ORDER BY
cosine_similarity DESC;– 内积度量:需将 <#> 的结果乘以 -1得到内积(因 <#>返回负内积)。使用 l2_normalize() 函数将向量归一化为单位向量(模长为1)
— 归一化后的内积 = 余弦相似度(范围 [-1, 1])
SELECT
item,
-(l2_normalize(embedding)<#> l2_normalize(‘[1.2, 0.8, 0.6]’::vector)) AS normalized_inner_product
FROM
items
ORDER BY
-(l2_normalize(embedding)<#> l2_normalize(‘[1.2, 0.8, 0.6]’::vector)) DESC;

–L1度量:<+> 返回 L1 距离,范围 [0, +∞),距离越小,相似度越高,0表示完全相同
SELECT
item,
embedding <+> ‘[1.2, 0.8, 0.6]’ AS l1_distance
FROM
items
ORDER BY
embedding <+> ‘[1.2, 0.8, 0.6]’ ASC;

–L2度量:<-> 返回 L2 距离,范围 [0, +∞),距离越小,相似度越高,0表示完全相同
SELECT
item,
embedding <-> ‘[1.2, 0.8, 0.6]’ AS l2_distance
FROM
items
ORDER BY
embedding <-> ‘[1.2, 0.8, 0.6]’ ASC;

查询结果示例:
SQL
–以余弦度量为例:
item | cosine_similarity
——+——————–
香蕉 |                  1
苹果 | 0.9816159996665887
猫   | 0.8068634552933738
(3 rows)
从结果可以看出,香蕉与自身的相似度为1(完全匹配),与苹果的相似度为0.978(高度相似),而与猫的相似度为0.852(相似度较低)。
向量索引的优化策略
在实际生产环境中,合理的索引策略是保证向量检索性能的关键:HNSW索引配置

SQL
CREATE INDEX ON items USING hnsw (embedding vector_cosine_ops)
WITH (m = 16, ef_construction = 64);
参数说明:• m:构建HNSW索引时,每层中每个节点的最大邻近节点数目。该值越大,图的稠密度越高,通常会导致召回率的提高,同时构建和查询所需的时间也相应增加。

• ef_construction:表示构建HNSW索引时,候选集的大小。该值越大,通常召回率也越高,但构建和查询所需的时间也相应增加。

IVFFlat索引配置

SQL
CREATE INDEX ON items USING ivfflat (embedding vector_cosine_ops)
WITH (lists = 100);
参数说明:• lists:参数表示将数据集分成的列表数。该值越大,表示数据集被分割得越多,每个子集的大小相对较小,索引查询速度越快。但随着lists值的增加,查询的召回率可能会下降。

应用场景:向量技术的多元化实践
天翼云PostgreSQL配合PGVector 0.8.0插件,在多种AI应用场景下发挥关键作用:智能推荐系统

根据用户的历史行为和偏好向量,寻找相似的产品或内容,大幅提升推荐准确度和用户体验。

多模态内容检索

将图像、语音和文本数据统一转化为向量表示,实现高效的跨模态语义搜索,应用于版权保护、内容检索等领域。

RAG增强检索

为大语言模型提供精准的知识检索能力,基于向量相似性从企业知识库中检索相关信息,减少模型幻觉,提升回答准确性。

异常检测

在金融、网络安全等领域,通过向量相似度比较,快速识别异常交易或行为模式,保障业务安全。

天翼云TeleDB的全面向量化战略
PGVector插件只是天翼云数据库向量化能力的一部分。天翼云自研的TeleDB分布式数据库同样集成了向量搜索引擎,形成完整的向量数据处理技术栈。TeleDB定位是一款分布式HTAP数据库,在SQL引擎层引入了向量化执行引擎,以进一步提升TeleDB的数据分析能力。这表明天翼云正在构建一个完整的向量数据处理生态,从多个层面推进数据库的智能化转型:

• 顶层:数据库生命周期管理平台DCP,作为天翼云数据库能力中台。

• 中间层:丰富的数据库生态工具,包括数据传输服务DTS、数据管理服务DMS等。

• 底层:数据库产品,包括常用的RDS托管产品以及自研的TeleDB数据库。

天翼云PostgreSQL对PGVector 0.8.0插件的支持,是传统数据库向AI原生架构演进的又一重要里程碑。这一集成使企业能够在统一的数据平台上构建完整的智能应用生态,同时满足事务一致性、分析性能和语义检索的多元化需求。作为云计算国家队,天翼云始终秉承央企使命,致力于通过技术创新推动产业智能化转型,为企业提供稳定可靠、性能卓越、安全合规的向量数据管理平台,助力千行百业在AI时代构建核心竞争优势。

随着AI技术的不断普及,向量数据库将成为企业智能化转型的核心基础设施。天翼云通过PostgreSQL的PGVector 0.8.0支持和TeleDB的向量化能力,正助力中国企业在新的技术浪潮中抢占先机,成就智能未来!

想了解更多行业资讯

扫码关注👇

了解更多考试相关

扫码添加上智启元官方客服微信👇

未经允许不得转载:17认证网 » 天翼云PostgreSQL重磅升级:全面支持PGVector 0.8.0,解锁向量数据处理新范式!
分享到:0

评论已关闭。

400-663-6632
咨询老师
咨询老师
咨询老师