Milvus 成立于 2019 年,是一款开源分布式向量数据库,专注于存储和管理大规模嵌入向量,这些嵌入向量主要源于深度神经网络以及其他机器学习模型的产出。Milvus 以其卓越的向量索引能力在大规模嵌入向量的处理上独占鳌头,可以轻松应对万亿级规模的向量索引问题。
该数据库设想在设计的底层逻辑就开始着手处理那些源自非结构化数据的嵌入向量,这一点例如传统的关系型数据库处理预定义模式的结构化数据不同。随着互联网的发展,非结构化数据的出现越来越普遍,例如电子邮件、学术论文、物联网的传感器数据、社交媒体的照片和蛋白质结构等。为了让计算机能处理这些非结构化数据,我们需要使用嵌入技术把这些数据转化为向量,而 Milvus 的出现为我们提供了存储和索引这些向量的极好解决方案。
Milvus 的强大之处不只在于存储和索引,它还能计算两个向量之间的相似性距离,从而分析出两个向量的关联性。这意味着如果两个嵌入向量的相似性很高,那么它们的原始数据就很可能存在相似性。这对于理解和处理非结构化数据的模式和趋势具有极大的帮助。
评论
还没有评论。成为第一个评论的人!
相关工具
Elasticsearch
www.elastic.co/cn/elasticsearch
Elasticsearch 是一款强大的分布式搜索与数据分析引擎,不仅支持各类数据处理,也提供矢量字段的高效存储与计算。
Faiss
github.com/facebookresearch/faiss
Faiss 是 Meta 公司研发的一款用于大规模相似性搜索和密集向量聚类的优秀工具库,赋能高效的数据模型构建调整。
PGVector
github.com/pgvector/pgvector
PGVector,一款用于PostgreSQL的扩展工具,能够实现向量数据的高效存储和查询操作。
