OpenSearch
OpenSearch
非结构数据与结构化数据相比较而言,更难让计算机理解
信息可以被划分为两大类
信息能够用数据或统一的结构加以表示,称之为结构化数据信息无法用数字或统一的结构表示,称之为非结构化数据
特征&举例:特征&举例:
•
不便用数据库二位逻辑表来表现的数据
• 图片
• 音频
• 视频
以搜索为例:需要将非结构化数据,转为结构化,再完成搜索
① 搜数据 ② 搜文本
多模态信息
•
•
• 以关系数据库表形式管理的数据
• ERP数据
• OA数据
• HR数据
③ 搜图片
④ 搜视频
⑤ 搜音频
OpenSearch
MaxCompute
OpenSearch 向量检索版 客户侧
API
客户侧
表基
础信 息
选择
数据
同步
来源
返回结果
文本数据
向量数据
API
OSS对象存储
名称
分片数
更新资源
场景模版
• 通用模板
• 图片搜索
• 文本语义搜索
字段配置
embedding
• clip
•
clip
•
•
向量索引配置
命名空间
维度
距离类型
向量算法
高级配置
查询数据
多向量查询
多命名空间查询
包含过滤条件查询
主键查询
端到端向量查询
数据量大,对自动全量/实时同步 有需求 成本敏感,要求资源占用低 追求效果,有业务规则需求
大规模向量快速导入
单节点384维1亿向量,3.5小时完成全量构建
索引即增即查
单节点承载十亿向量,单节点实时写入TPS过万
索引合并、索引压缩
单节点承载数据量大
高精度 · 高维度 · 多算法
HNSW QC
命名空间、向量 混合搜索
Linear
表达式过滤 边搜索边过滤
参数灵活控制
分布式智能搜索引擎
千亿数据毫秒级查询响应
实时数据更新秒级可见
*
•支持企业在没有向量数据的情况下,通过OpenSearch 向量检索版,快速搭建图像搜索服务。
• 用户可以直接导入图片源数据,在OpenSearch 内部便捷完成图片向量化、向量搜索等步骤,实现以图搜图、以文搜图等多种图像
检索能力。
用户
MaxCompute
表数据、图片地址(OSS路径)
MaxCompute
base64 编码后的图片、表数据
base64 编码后的图片、表数据
API
MaxCompute
数据源
API 数据源
OpenSearch
向量检索版
① 创建表-数据同步-选择数据源类型
② 从数据源获取图片,完成图片向量化
a. 获取图片的oss路径 或 base64 编码
b. 内置clip模型进行向量化
③ 基于表数据、向量化的图片数据,构建
索引
④ 查询数据,获得结果
OSS
base64 编码后的图片、表数据
OSS数据源
OpenSear ch
原图片上传至OSS
OSS
OpenSearch向量检索:V ectorStore
•V
OpenSearch向量检索和大模型方案.pdf