数据库管理154期 2024-02-23
- 数据库管理-第154期 Oracle Vector DB & AI-06(20240223)
- 1 环境准备
- 创建表空间及用户
- TNSNAME配置
- 2 Oracle Vector的DML操作
- 创建示例表
- 插入基础数据
- DML操作
- UPDATE操作
- DELETE操作
- 3 多Vector列表
- 4 固定维度的向量操作
- 5 不同向量格式的表
- 总结
数据库管理-第154期 Oracle Vector DB & AI-06(20240223)
作者:胖头鱼的鱼缸(尹海文)
Oracle ACE Associate: Database(Oracle与MySQL)
网思科技 DBA总监
10年数据库行业经验,现主要从事数据库服务工作
拥有OCM 11g/12c/19c、MySQL 8.0 OCP、Exadata、CDP等认证
墨天轮MVP、认证技术专家,ITPUB认证专家,OCM讲师
圈内拥有“总监”、“保安”、“国产数据库最大敌人”等称号,非著名社恐(社交恐怖分子)
公众号:胖头鱼的鱼缸;CSDN:胖头鱼的鱼缸(尹海文);墨天轮:胖头鱼的鱼缸;ITPUB:yhw1809。
除授权转载并标明出处外,均为“非法”抄袭。
休息一天,今天继续。
1 环境准备
由于上一期的基本演示是用sys用户执行的,众所周知在生产中不要在任何生产数据放在sys用户和system、sysaux等系统表空间中。为了避免往后有人产生误解,今天重新配置下环境并操作。
创建表空间及用户
create tablespace vector_tbs datafile size 500m autoextend on next 500m maxsize unlimited;
create user vector identified by vector account unlock;
grant DB_DEVELOPER_ROLE to vector;
alter user vector default tablespace vector_tbs quota unlimited on vector_tbs;
后续操作都将在orclpdb1中的vector用户执行,数据将存放在vector_tbs表空间中。
TNSNAME配置
/u01/app/oracle/product/23.0.0/dbhome_1/network/admin/tnsnames.ora
# 添加以下内容
ORCLPDB1 =
(DESCRIPTION =
(ADDRESS = (PROTOCOL = TCP)(HOST = oradb23c)(PORT = 1521))
(CONNECT_DATA =
(SERVER = DEDICATED)
(SERVICE_NAME = orclpdb1)
)
)
sqlplus vector/vector@orclpdb1
2 Oracle Vector的DML操作
创建示例表
CREATE TABLE IF NOT EXISTS t1
( id NUMBER PRIMARY KEY,
name VARCHAR2(32),
v1 VECTOR
);
DESC t1;
插入基础数据
INSERT INTO t1 VALUES (1, 'A', '[1.1]'),
(2, 'B', '[2.2]'),
(3, 'C', '[3.3]'),
(4, 'D', '[4.4]'),
(5, 'E', '[5.5]');
commit;
SELECT * FROM t1;
DML操作
UPDATE操作
UPDATE t1 SET v1 = '[2.9]' WHERE id = 2;
commit;
SELECT * FROM t1 WHERE id = 2;
DELETE操作
DELETE FROM t1 WHERE id IN (1, 3);
commit;
SELECT * FROM t1;
3 多Vector列表
在Oracle Vector DB中,一张表可以拥有多个vector数据类型的列,可以满足更多的应用场景。
CREATE TABLE IF NOT EXISTS t2
( id NUMBER NOT NULL,
name VARCHAR2(32),
v1 VECTOR,
v2 VECTOR,
v3 VECTOR,
PRIMARY KEY (id)
);
DESC t2;
INSERT INTO t2 VALUES
(1,
'One',
'[2.3, 4.5, 0.1]',
'[1.3]',
'[4.981, -6.3]'
);
commit;
SELECT * FROM t2;
4 固定维度的向量操作
VECTOR (<optional NUM of dimensions>, <optional format for dimension values>)
维度值的类型可以是FLOAT32, FLOAT64, 或者 INT8
之前介绍vector数据类型的时候,有向量维度数量和向量维度精度两个可选配置内容,Oracle Vector DB支持64K个向量维度,而且当向量维度数量配置之后,这个数量将作为一个check约束。下面是一些AI模型中vector embeddings的维度数量:
- OpenAI text-embedding-ada-002 = 1536 dimensions
- Cohere Embed-English-v2.0 = 4096 dimensions
- Cohere Embed-English-Light-v2.0 = 1024 dimensions
- Cohere Embed-Multilingual-v2.0 = 768 dimensions
- open-source all-MiniLM-L6-v2 = 384 dimensions
CREATE TABLE IF NOT EXISTS t3
( v VECTOR(3, FLOAT32) );
DESC t3;
INSERT INTO t3 VALUES ('[1.1, 2.2, 3.3]');
INSERT INTO t3 VALUES ('[1.2, 2.3, 3.4]');
INSERT INTO t3 VALUES ('[1.2, 2.3, 3.4]');
INSERT INTO t3 VALUES ('[1.3]');
INSERT INTO t3 VALUES ('[1.3, 2.4, 3.5, 4.1]');
INSERT INTO t3 VALUES ('[1.4, 2.5, a]');
这里前三条数据可以正常插入:
后三条数据因为向量维度数量约束限制插入失败:
5 不同向量格式的表
既然Oracle Vector DB支持有多个Vector数据类型的表,那么每个Vector列的配置格式也是可以不同的。
CREATE TABLE IF NOT EXISTS t4
( v1 VECTOR(3, float32),
v2 VECTOR(2, float64),
v3 VECTOR(1, int8),
v4 VECTOR(1, *),
v5 VECTOR(*, float32),
v6 VECTOR(*, *),
v7 VECTOR
);
DESC t4;
INSERT INTO t4 VALUES ('[1.1, 2.2, 3.3]',
'[1.1, 2.2]',
'[7]',
'[9]',
'[1.1, 2.2, 3.3, 4.4, 5.5]',
'[1.1, 2.2]',
'[1.1, 2.2, 3.3, 4.4, 5.5, 6.6]'
);
commit;
select * from t4;
这里附上Oracle Vector DB中Vector数据类型格式的解释:
- vector(*, float64) 任何数量的维度,维度值类型为float64
- vector(5, *) 5个维度数量,可以使用任意维度值类型
- vector(*, *) 任意维度数量,可以使用任意维度值类型
- vector 任意维度数量,维度值类型为float32
- vector(1, int8) 1个维度数量,维度值类型为int8
- int8 是一个独立的byte
总结
本期简单介绍了Oracle Vector DB的DML操作,向量维度与维度类型以及多Vector列表的相关内容。
老规矩,知道写了些啥。