向量相似性则通过计算向量之间的距离来衡量。以“狗”、“猫”和“苹果”三个对象为例,将它们转化为二维向量后:
“苹果”:[1, 1, 0.5]
“香蕉”:[1.2, 0.8, 0.6]
“猫”:[6, 0.4, 0.1]
在二维平面中,同属动物的狗和猫距离更接近,而它们与苹果的距离则相对较远。维度越高,对信息的分类就越细,搜索结果的精确度也就越高。
PGVector扩展为PostgreSQL增加了vector数据类型,使数据库能够直接存储和检索向量数据。
主要技术特性包括:
• 高性能向量存储:支持在PostgreSQL表中直接存储高维向量,最大支持16000维度的向量。
• 灵活相似性搜索:提供精确和近似最近邻搜索(ANN),支持欧氏距离(L2)、曼哈顿距离(L1)、余弦相似度及内积运算。
• 多索引策略:支持HNSW索引和IVFFlat索引,满足不同场景下的性能与召回率需求。
• 并行索引构建:显著提升索引构建效率,缩短系统维护时间。
企业级实践示例
在天翼云PostgreSQL中使用PGVector极为简便:
创建扩展
CREATE EXTENSION IF NOT EXISTS vector;
CREATE TABLE items (
id bigserial PRIMARY KEY,
item text,
embedding vector(3) — 以三维为例,实际支持更高维度
);
INSERT INTO items (item, embedding)
VALUES
(‘苹果’, ‘[1, 1, 0.5]’),(‘香蕉’, ‘[1.2, 0.8, 0.6]’),
(‘猫’, ‘[6, 0.4, 0.1]’);
— 余弦度量:使用公式cosine_similarity = 1 – cosine_distance进行计算余弦相似度,距离越小,相似度越高。(范围 [-1, 1])
SELECT
item,1 – (embedding <=> ‘[1.2, 0.8, 0.6]’) AS cosine_similarity
FROM
items
ORDER BY
cosine_similarity DESC;– 内积度量:需将 <#> 的结果乘以 -1得到内积(因 <#>返回负内积)。使用 l2_normalize() 函数将向量归一化为单位向量(模长为1)
— 归一化后的内积 = 余弦相似度(范围 [-1, 1])
SELECT
item,
-(l2_normalize(embedding)<#> l2_normalize(‘[1.2, 0.8, 0.6]’::vector)) AS normalized_inner_product
FROM
items
ORDER BY
-(l2_normalize(embedding)<#> l2_normalize(‘[1.2, 0.8, 0.6]’::vector)) DESC;
–L1度量:<+> 返回 L1 距离,范围 [0, +∞),距离越小,相似度越高,0表示完全相同
SELECT
item,
embedding <+> ‘[1.2, 0.8, 0.6]’ AS l1_distance
FROM
items
ORDER BY
embedding <+> ‘[1.2, 0.8, 0.6]’ ASC;
–L2度量:<-> 返回 L2 距离,范围 [0, +∞),距离越小,相似度越高,0表示完全相同
SELECT
item,
embedding <-> ‘[1.2, 0.8, 0.6]’ AS l2_distance
FROM
items
ORDER BY
embedding <-> ‘[1.2, 0.8, 0.6]’ ASC;
–以余弦度量为例:
item | cosine_similarity
——+——————–
香蕉 | 1
苹果 | 0.9816159996665887
猫 | 0.8068634552933738
(3 rows)
CREATE INDEX ON items USING hnsw (embedding vector_cosine_ops)
WITH (m = 16, ef_construction = 64);
• ef_construction:表示构建HNSW索引时,候选集的大小。该值越大,通常召回率也越高,但构建和查询所需的时间也相应增加。
IVFFlat索引配置
CREATE INDEX ON items USING ivfflat (embedding vector_cosine_ops)
WITH (lists = 100);
根据用户的历史行为和偏好向量,寻找相似的产品或内容,大幅提升推荐准确度和用户体验。
多模态内容检索
将图像、语音和文本数据统一转化为向量表示,实现高效的跨模态语义搜索,应用于版权保护、内容检索等领域。
RAG增强检索
为大语言模型提供精准的知识检索能力,基于向量相似性从企业知识库中检索相关信息,减少模型幻觉,提升回答准确性。
异常检测
在金融、网络安全等领域,通过向量相似度比较,快速识别异常交易或行为模式,保障业务安全。
• 顶层:数据库生命周期管理平台DCP,作为天翼云数据库能力中台。
• 中间层:丰富的数据库生态工具,包括数据传输服务DTS、数据管理服务DMS等。
• 底层:数据库产品,包括常用的RDS托管产品以及自研的TeleDB数据库。
随着AI技术的不断普及,向量数据库将成为企业智能化转型的核心基础设施。天翼云通过PostgreSQL的PGVector 0.8.0支持和TeleDB的向量化能力,正助力中国企业在新的技术浪潮中抢占先机,成就智能未来!
想了解更多行业资讯
扫码关注👇

了解更多考试相关
扫码添加上智启元官方客服微信👇

17认证网








