docs/wiki/集成扩展/集成向量数据库.md
本文提供了向 WeKnora 项目添加新向量数据库支持的完整指南。通过实现标准化接口和遵循结构化流程,开发者可以高效地集成自定义向量数据库。
类似的扩展开发模式参见 添加网络搜索引擎
type RetrieveEngine interface {
EngineType() types.RetrieverEngineType
Retrieve(ctx context.Context, params types.RetrieveParams) ([]*types.RetrieveResult, error)
Support() []types.RetrieverType
}
实现 RetrieveEngineRepository 接口,扩展基础检索引擎能力,添加索引管理功能:
Save / BatchSave — 保存索引EstimateStorageSize — 估算存储空间DeleteByChunkIDList / DeleteByKnowledgeIDList — 删除索引CopyIndices — 复制索引创建 RetrieveEngineService 实现,负责索引创建和管理的业务逻辑。
RETRIEVE_DRIVER=postgres,elasticsearch_v8,your_database
YOUR_DATABASE_ADDR=host:port
YOUR_DATABASE_USERNAME=username
YOUR_DATABASE_PASSWORD=password
在 internal/container/container.go 的 initRetrieveEngineRegistry 中添加初始化与注册逻辑。
在 internal/types/retriever.go 中添加新的引擎类型常量。
建议参考现有实现:
internal/application/repository/retriever/postgres/internal/application/repository/retriever/elasticsearch/v7/internal/application/repository/retriever/elasticsearch/v8/internal/application/repository/retriever/doris/internal/application/repository/retriever/tencentvectordb/Doris 是 MPP 风格的分析型 SQL 库,其接入方式与 NoSQL 向量库有几处特殊点:
<DORIS_TABLE_PREFIX>_<dim> 表,UNIQUE KEY(id) + enable_unique_key_merge_on_write=true。content 字段使用 chinese parser;ANN 索引使用 HNSW + cosine_distance(异步构建,建表后自动轮询 30s 等待 FINISHED)。1 - cosine_distance_approximate(...),threshold 比较 >=、ORDER BY DESC,与 Qdrant cosine 相似度方向一致。MATCH_ANY,无需在 Go 端做 jieba 分词。BatchUpdateChunkEnabledStatus 与 BatchUpdateChunkTagID 通过 Stream Load partial update 协议实现,支持 1MiB 自动分批。环境变量:
RETRIEVE_DRIVER=doris
DORIS_ADDR=doris-fe:9030
DORIS_HTTP_PORT=8030
DORIS_DATABASE=weknora
DORIS_USERNAME=root
DORIS_PASSWORD=
DORIS_TABLE_PREFIX=weknora_embeddings
启动方式:docker compose --profile doris up -d,然后在 FE 上 CREATE DATABASE weknora;。
WeKnora 内置 Tencent VectorDB 适配器,驱动名为 tencent_vectordb。该适配器支持向量检索、基于 BM25 sparse vector 的关键词检索和索引管理,可参与 WeKnora 上层混合检索。
RETRIEVE_DRIVER=tencent_vectordb
TENCENT_VECTORDB_ADDR=http://your-instance.tencentvectordb.com
TENCENT_VECTORDB_USERNAME=root
TENCENT_VECTORDB_API_KEY=your_tencent_vectordb_api_key
TENCENT_VECTORDB_DATABASE=weknora
TENCENT_VECTORDB_COLLECTION=weknora_embeddings
TENCENT_VECTORDB_COLLECTION 是集合名前缀。WeKnora 会按向量维度创建实际集合,例如 weknora_embeddings_768。
关键词检索依赖 Tencent VectorDB sparse vector 索引。新建集合会自动创建 sparse_vector 索引;旧版本已创建的向量集合如果没有该索引,需要重建集合并重新导入知识库数据后才能启用关键词检索。