向量数据库(Vector Database)就是存储和处理向量的数据库。向量是指一组数据,而向量数据库是指处理高维数组的数据库。

咨询deepseek,建议使用和安装milvus;Milvus可以独立安装,但也有个简易版本milvus-lite,已经集成到python lib,安装非常简单。需要注意在Ubuntu 24.04, 系统不建议使用pip直接安装python库,所以先创建虚拟环境再安装。

# Enable venv first 
(myenv) $ pip install -U pymilvus

记一下使用Docker安装的步骤:

  1. 确保docker/docker-compose 的版本符合最低要求
    • peter@~ $ docker --version
    • Docker version 26.1.3, build 26.1.3-0ubuntu1~24.04.1
    • peter@~ $ docker-compose --version
    • docker-compose version 1.29.2, build unknown
  2. 官方推荐,IO速度需要达到500 IOPS, 但我这台老黄牛机器只有200 IOPS左右,因此比较低了。
    • $ mkdir test-data
    • $ fio --rw=write --ioengine=sync --fdatasync=1 --directory=test-data --size=2200m --bs=2300 --name=mytest
  3. 创建一个目录,用来存放启动docker milvus的脚本。有时会报链接打不开,需要特殊处理。
    • $ mkdir milvus
    • $ cd milvus
    • $ curl -sfL https://raw.githubusercontent.com/milvus-io/milvus/master/scripts/standalone_embed.sh -o standalone_embed.sh
  4. 启动
    • $ bash standalone_embed.sh start