阿里云Elasticsearch AI场景语义搜索最佳实践

本文涉及的产品
Elasticsearch Serverless通用抵扣包,测试体验金 200元
简介: 本文介绍了如何使用阿里云Elasticsearch结合搜索开发工作台搭建AI语义搜索。

阿里云检索服务Elasticsearch版(简称ES)结合了搜索开发工作台的组件化模型能力,本文介绍如何搭建AI语义搜索。

方案介绍

阿里云搜索开发工作台围绕智能搜索及检索增强生成RAG(Retrieval-Augmented Generation)场景,能够提供优质的组件化服务。阿里云ES提供高性能混合检索方案,结合搜索开发工作台AI模型服务,可以提供完整的AI语义搜索方案。

方案如下:

  • 数据写入原理:
    对大文档数据进行切片处理(可选操作),将切分后的文档片段调用文本向量化服务,生成稠密向量(Dense ventor)和稀疏向量(Sparse ventor),在阿里云ES中构建稠密向量索引和稀疏向量索引。稀疏向量常用于表达关键词和词频信息,可与稠密向量、文本索引搭配进行混合检索,提升检索效果。
  • 数据查询原理:
    将需要查询的Query信息,通过向量化模型转换为稠密向量和稀疏向量,在阿里云ES中进行混合检索,召回TOP N文档内容。

前提条件

说明

  • 将待访问ES实例的设备的IP地址加入ES实例的公网或私网访问白名单中,详情请参见配置实例公网或私网访问白名单
  • 登录Kibana控制台。您可以在Kibana控制台的开发工具(Dev Tools)上执行本文中出现的所有代码。具体操作,请参见登录Kibana控制台
  • 已在华东2(上海)地域开通阿里云搜索开发工作台服务。具体操作,请参见开通服务

说明

步骤一:创建模型

阿里云ES的Inference API提供了加载第三方模型服务的功能, 同时扩展了对阿里云搜索开发工作台推理模型服务的支持,详情参见阿里云Elasticsearch Inference API介绍

在阿里云ES中注册搜索开发工作台模型服务,构建语义搜索需要的模型服务如下:

说明

  • 您也可以使用已注册模型服务快速搭建语义搜索。

环节

服务说明

服务说明文档

文档切片

文档切片服务(ops-document-split-001):提供通用文本切片服务,支持基于文档段落、文本语义、指定规则,对HTML、Markdown、txt格式的结构化数据进行拆分,同时支持以富文本形式提取文档中的代码、图片以及表格。

文档切片API

文本向量化

  • 文本向量化服务-001(ops-text-embedding-001):提供多语言(40+)文本向量化服务,输入文本最大长度300,输出向量维度1536维。
  • 通用文本向量化服务-002(ops-text-embedding-002):提供多语言(100+)文本向量化服务,输入文本最大长度8192,输出向量维度1024维。
  • 文本向量化服务-中文-001(ops-text-embedding-zh-001):提供中文文本向量化服务,输入文本最大长度1024,输出向量维度768维。
  • 文本向量化服务-英文-001(ops-text-embedding-en-001):提供英文文本向量化服务,输入文本最大长度512,输出向量维度768维。

文本向量API

文本稀疏向量化

文本稀疏向量化服务(ops-text-sparse-embedding-001):提供将文本数据转化为稀疏向量形式表达的服务,稀疏向量存储空间更小,常用于表达关键词和词频信息,可与稠密向量搭配进行混合检索,提升检索效果。提供多语言(100+)文本向量化服务,输入文本最大长度8192。

文本稀疏向量化API

创建doc_split推理模型

注册搜索开发工作台文档切片服务(ops-document-split-001),创建doc_split推理模型。

PUT _inference/doc_split/os-doc-split-test
{
  "service": "alibabacloud-ai-search",
  "service_settings": {
    "api_key": "OS-xxx",
    "service_id": "ops-document-split-001",
    "host" : "default-j01.platform-cn-shanghai.opensearch.aliyuncs.com",
    "workspace" : "default"
  },
  "task_settings": {
    "document": {"content_type": "text"},
    "strategy": {"max_chunk_size": 20}
  }
}

max_chunk_size用来设置切片的最大长度,默认值是300。由于本文测试的文本较短,为了测试查询时的inner_hits参数,以上示例max_chunk_size设置了较小值。其他参数请参见阿里云Elasticsearch Inference API介绍

创建text_embedding推理模型

注册搜索开发工作台文本向量化服务-001(ops-text-embedding-001),创建text_embedding推理模型。

PUT _inference/text_embedding/os-embeddings-test
{
  "service": "alibabacloud-ai-search",
  "service_settings": {
    "api_key": "OS-xxx",
    "service_id": "ops-text-embedding-001",
    "host" : "default-j01.platform-cn-shanghai.opensearch.aliyuncs.com",
    "workspace" : "default"
  }
}

创建sparse_embedding推理模型

注册搜索开发工作台文本稀疏向量化服务(ops-text-sparse-embedding-001),创建sparse_embedding推理模型。

PUT _inference/sparse_embedding/os-sparse-embeddings-test
{
  "service": "alibabacloud-ai-search",
  "service_settings": {
    "api_key": "OS-xxx",
    "service_id": "ops-text-sparse-embedding-001",
    "host" : "default-j01.platform-cn-shanghai.opensearch.aliyuncs.com",
    "workspace" : "default"
  }
}

调试模型

以下代码以调试text_embedding推理模型为例,其他模型使用类似方式调试。

POST _inference/text_embedding/os-embeddings-test
{
  "input":["科学技术是第一生产力", "elasticsearch产品文档"]
}

步骤二:调用服务搭建语义搜索并调试

以下演示了2个ES语义搜索示例:

  • 不使用文档切片:根据写入的文本,直接生成embedding、sparse_embedding字段。
  • 使用文档切片:使用ES nested类型,将一个文本切成多个chunk数组,分别对这些chunk进行embedding、sparse_embedding。

说明


不使用文档切片

配置ingest pipeline

文档原始数据长度较小,或已完成文档切片的doc,在向量模型最大处理限制之内,可不使用文档切片,只对写入的content进行text dense embedding和sparse embedding,配置的ingest pipeline示例如下:

PUT _ingest/pipeline/os-pipeline-no-split-demo
{
  "description": "This is an example of text-embedding and sparse-embedding fields",
  "processors": [
    {
      "text_embedding": {
        "model_id": "os-embeddings-test",
        "input_output": [
          {
            "input_field": "content",
            "output_field": "content_embedding"
          }
        ]
      }
    },
    {
      "text_embedding": {
        "model_id": "os-sparse-embeddings-test",
        "input_output": [
          {
            "input_field": "content",
            "output_field": "content_sparse_embedding"
          }
        ]
      }
    }
  ]
}


ingest pipeline创建成功后,可以通过simulate接口(仅用于模拟调试,不会实际创建索引),测试pipeline处理的效果:

POST _ingest/pipeline/os-pipeline-no-split-demo/_simulate
{
  "docs": [
    {
      "_index": "testindex",
      "_id": "1",
      "_source":{
        "content": "elasticsearch产品文档"
      }
    }
    ]
}

创建索引

执行以下代码,创建不使用文档切片的索引:

PUT os_demo_no_split_index
{
  "mappings": {
    "properties": {
        "content": {
          "type": "text"
        },
        "content_embedding":{
          "type": "dense_vector",
          "dims": 1536
        },
        "content_sparse_embedding":{
          "type": "sparse_vector"
        }
      }
  }
}

写入数据

写入数据时带上配置好的pipeline_id,文本数据就可以通过pipeline进行自动的embedding。

POST os_demo_no_split_index/_bulk?pipeline=os-pipeline-no-split-demo
{"index":{}}
{"content":"现代科技的发展推动了人工智能的极速进步。AI在各个领域展现出巨大的潜力,从医疗到金融,AI都在发挥着重要的作用,为人类的生活带来了翻天覆地的变化。"}
{"index":{}}
{"content":"教育是一个国家发展的基石。高质量的教育不仅能够帮助个人实现梦想,还能推动社会的进步。教育公平是实现社会和谐的关键,每个孩子都有受教育的权利。"}
{"index":{}}
{"content":"旅游可以让人们开阔视野,体验不同的文化和风俗。无论是饱览自然风光,还是探寻历史古迹,旅行都能让人们在体验中学习和成长。"}
{"index":{}}
{"content":"健康饮食对于保持身体健康至关重要。合理搭配膳食,摄入足够的营养,不仅可以增强免疫力,还能预防多种疾病。多吃蔬菜水果,少吃高脂食物,是保持健康的重要措施。"}
{"index":{}}
{"content":"互联网改变了人们的生活方式。随着智能手机和社交媒体的普及,信息传播的速度大大加快。人们可以通过网络获取最新的新闻、学习新的知识,以及与朋友保持联系。"}
{"index":{}}
{"content":"历史是一面镜子,通过研究历史,人们能够更好地了解过去,从而预测未来。无论是战争的经验教训,还是文明的更迭,历史都为我们提供了宝贵的知识和智慧。"}
{"index":{}}
{"content":"运动是保持身体健康的重要途径。无论是跑步、游泳,还是做瑜伽,都有助于强身健体。适量的运动可以提高心肺功能,增强体力,减轻压力,提高生活质量。"}
{"index":{}}
{"content":"艺术是人类文明的重要组成部分。通过绘画、音乐、舞蹈等形式,艺术表达了人们的情感和思想。丰富多彩的艺术形式不仅带给人们美的享受,还能陶冶情操、激发创造力。"}
{"index":{}}
{"content":"环境保护是全人类共同的责任。随着工业化进程的推进,环境问题日益严重。保护环境不仅关系到我们这一代人的生活质量,也影响到后代的福祉。"}
{"index":{}}
{"content":"科学研究是推动社会进步的重要力量。通过不断的探索和实验,科学家们揭示了自然界的奥秘,为人类文明的发展提供了强大的推动力。"}
{"index":{}}
{"content":"城市化进程中,城市规划显得尤为重要。科学合理的城市规划能够提高居民的生活质量,优化资源配置,促进经济发展。"}
{"index":{}}
{"content":"文学作品是人类思想的结晶。通过阅读文学作品,人们可以了解不同的世界观和价值观,培养同理心,提升文化素养。"}

查询数据

  • knn查询:
GET os_demo_no_split_index/_search
{
  "_source": "content", 
  "knn" : {
    "field": "content_embedding",
    "query_vector_builder": {
      "text_embedding": {
        "model_id": "os-embeddings-test",
        "model_text": """
        AI在医疗和金融行业的应用
        """
      }
    },
    "k": 10,
    "num_candidates": 100
  }
}


  • 使用RRF查询,并对文本检索、稀疏向量检索、稠密向量检索进行混合排序:
GET os_demo_no_split_index/_search
{
  "_source": "content", 
  "sub_searches":[
    {
      "query":{
        "match": {
          "content": "AI在医疗和金融行业的应用"
        }
      }
    },
    {
      "query": {
        "text_expansion":{
          "content_sparse_embedding":{
            "model_id":"os-sparse-embeddings-test",
            "model_text":"AI在医疗和金融行业的应用"
          }
        }
      }
    }
  ],
  "knn" : {
    "field": "content_embedding",
    "query_vector_builder": {
      "text_embedding": {
        "model_id": "os-embeddings-test",
        "model_text": """
        AI在医疗和金融行业的应用
        """
      }
    },
    "k": 10,
    "num_candidates": 100
  },
  "rank":{
    "rrf":{
    }
  }
}


使用文档切片

配置ingest pipeline

对写入的文档进行文档切片,使用nested类型存储切片内容,将切片后的文档、text embedding向量和sparse embedding向量写入nested的子文档中。

PUT _ingest/pipeline/os-pipeline-demo
{
  "description": "This is an example of splitting, text-embedding and sparse-embedding fields use foreach",
  "processors": [
    {
      "document_splitting": {
        "model_id": "os-doc-split-test",
        "input_output": [
          {
            "input_field": "content",
            "output_field": "chunk",
            "extend_output_field": "chunk_ext"
          }
        ]
      }
    },
    {
      "foreach": {
        "field": "chunk",
        "processor": {
          "text_embedding": {
            "model_id": "os-embeddings-test",
            "input_output": [
              {
                "input_field": "_ingest._value.content",
                "output_field": "_ingest._value.embedding"
              }
            ]
          }
        }
      }
    },
    {
      "foreach": {
        "field": "chunk",
        "processor": {
          "text_embedding": {
            "model_id": "os-sparse-embeddings-test",
            "input_output": [
              {
                "input_field": "_ingest._value.content",
                "output_field": "_ingest._value.sparse_embedding"
              }
            ]
          }
        }
      }
    }
  ]
}


ingest pipeline创建成功后,可以通过simulate接口(仅用于模拟调试,不会实际创建索引),测试pipeline处理的效果:

POST _ingest/pipeline/os-pipeline-demo/_simulate
{
  "docs": [
    {
      "_index": "testindex",
      "_id": "1",
      "_source":{
        "content": "现代科技的发展推动了人工智能的极速进步。AI在各个领域展现出巨大的潜力,从医疗到金融,AI都在发挥着重要的作用,为人类的生活带来了翻天覆地的变化。"
      }
    }
    ]
}

创建索引

执行以下代码,创建使用文档切片的索引:

PUT os_demo_index
{
  "mappings": {
    "properties": {
        "content": {
          "type": "text"
        },
        "chunk":{
          "type":"nested",
          "properties": {
            "content":{
              "type":"text"
            },
            "embedding":{
              "type": "dense_vector",
              "dims": 1536
            },
            "sparse_embedding":{
              "type": "sparse_vector"
            }
          }
        }
      }
  }
}

写入数据

写入数据时带上配置好的pipeline_id,文本数据就可以通过pipeline进行自动的embedding。

POST os_demo_index/_bulk?pipeline=os-pipeline-demo
{"index":{}}
{"content":"现代科技的发展推动了人工智能的极速进步。AI在各个领域展现出巨大的潜力,从医疗到金融,AI都在发挥着重要的作用,为人类的生活带来了翻天覆地的变化。"}
{"index":{}}
{"content":"教育是一个国家发展的基石。高质量的教育不仅能够帮助个人实现梦想,还能推动社会的进步。教育公平是实现社会和谐的关键,每个孩子都有受教育的权利。"}
{"index":{}}
{"content":"旅游可以让人们开阔视野,体验不同的文化和风俗。无论是饱览自然风光,还是探寻历史古迹,旅行都能让人们在体验中学习和成长。"}
{"index":{}}
{"content":"健康饮食对于保持身体健康至关重要。合理搭配膳食,摄入足够的营养,不仅可以增强免疫力,还能预防多种疾病。多吃蔬菜水果,少吃高脂食物,是保持健康的重要措施。"}
{"index":{}}
{"content":"互联网改变了人们的生活方式。随着智能手机和社交媒体的普及,信息传播的速度大大加快。人们可以通过网络获取最新的新闻、学习新的知识,以及与朋友保持联系。"}
{"index":{}}
{"content":"历史是一面镜子,通过研究历史,人们能够更好地了解过去,从而预测未来。无论是战争的经验教训,还是文明的更迭,历史都为我们提供了宝贵的知识和智慧。"}
{"index":{}}
{"content":"运动是保持身体健康的重要途径。无论是跑步、游泳,还是做瑜伽,都有助于强身健体。适量的运动可以提高心肺功能,增强体力,减轻压力,提高生活质量。"}
{"index":{}}
{"content":"艺术是人类文明的重要组成部分。通过绘画、音乐、舞蹈等形式,艺术表达了人们的情感和思想。丰富多彩的艺术形式不仅带给人们美的享受,还能陶冶情操、激发创造力。"}
{"index":{}}
{"content":"环境保护是全人类共同的责任。随着工业化进程的推进,环境问题日益严重。保护环境不仅关系到我们这一代人的生活质量,也影响到后代的福祉。"}
{"index":{}}
{"content":"科学研究是推动社会进步的重要力量。通过不断的探索和实验,科学家们揭示了自然界的奥秘,为人类文明的发展提供了强大的推动力。"}
{"index":{}}
{"content":"城市化进程中,城市规划显得尤为重要。科学合理的城市规划能够提高居民的生活质量,优化资源配置,促进经济发展。"}
{"index":{}}
{"content":"文学作品是人类思想的结晶。通过阅读文学作品,人们可以了解不同的世界观和价值观,培养同理心,提升文化素养。"}

查询数据

  • knn查询:
GET os_demo_index/_search
{
  "_source": "content", 
  "knn" : {
    "field": "chunk.embedding",
    "query_vector_builder": {
      "text_embedding": {
        "model_id": "os-embeddings-test",
        "model_text": """
        AI在医疗和金融行业的应用
        """
      }
    },
    "k": 10,
    "num_candidates": 100
  }
}


  • 查询时带上inner hint,可返回knn查询命中的chunk:
GET os_demo_index/_search
{
  "_source": "content", 
  "knn" : {
    "field": "chunk.embedding",
    "query_vector_builder": {
      "text_embedding": {
        "model_id": "os-embeddings-test",
        "model_text": """
        AI在医疗和金融行业的应用
        """
      }
    },
    "k": 10,
    "num_candidates": 100,
    "inner_hits":{
      "_source": ["chunk.content","chunk.meta"],
      "size":2
    }
  }
}


  • 使用RRF查询,并对文本检索、稀疏向量检索、稠密向量检索进行混合排序。
GET os_demo_index/_search
{
  "_source": "content", 
  "sub_searches":[
    {
      "query":{
        "match": {
          "content": "AI在医疗和金融行业的应用"
        }
      }
    },
    {
      "query":{
        "nested": {
          "path": "chunk",
          "query": {
            "text_expansion":{
              "chunk.sparse_embedding":{
                "model_id":"os-sparse-embeddings-test",
                "model_text":"AI在医疗和金融行业的应用"
              }
            }
          }
        }
      }
    }
  ],
  "knn" : {
    "field": "chunk.embedding",
    "query_vector_builder": {
      "text_embedding": {
        "model_id": "os-embeddings-test",
        "model_text": """
        AI在医疗和金融行业的应用
        """
      }
    },
    "k": 10,
    "num_candidates": 100
  },
  "rank":{
    "rrf":{
    }
  }
}
相关实践学习
以电商场景为例搭建AI语义搜索应用
本实验旨在通过阿里云Elasticsearch结合阿里云搜索开发工作台AI模型服务,构建一个高效、精准的语义搜索系统,模拟电商场景,深入理解AI搜索技术原理并掌握其实现过程。
ElasticSearch 最新快速入门教程
本课程由千锋教育提供。全文搜索的需求非常大。而开源的解决办法Elasricsearch(Elastic)就是一个非常好的工具。目前是全文搜索引擎的首选。本系列教程由浅入深讲解了在CentOS7系统下如何搭建ElasticSearch,如何使用Kibana实现各种方式的搜索并详细分析了搜索的原理,最后讲解了在Java应用中如何集成ElasticSearch并实现搜索。  
相关文章
|
24天前
|
云安全 人工智能 安全
Dify平台集成阿里云AI安全护栏,构建AI Runtime安全防线
阿里云 AI 安全护栏加入Dify平台,打造可信赖的 AI
|
26天前
|
人工智能 vr&ar UED
获奖公布|第十九届"挑战杯"竞赛2025年度中国青年科技创新"揭榜挂帅"擂台赛阿里云“AI技术助力乡村振兴”专题赛拟授奖名单公示
获奖公布|第十九届"挑战杯"竞赛2025年度中国青年科技创新"揭榜挂帅"擂台赛阿里云“AI技术助力乡村振兴”专题赛拟授奖名单公示
|
23天前
|
人工智能 自然语言处理 算法
【2025云栖大会】AI 搜索智能探索:揭秘如何让搜索“有大脑”
2025云栖大会上,阿里云高级技术专家徐光伟在云栖大会揭秘 Agentic Search 技术,涵盖低维向量模型、多模态检索、NL2SQL及DeepSearch/Research智能体系统。未来,“AI搜索已从‘信息匹配’迈向‘智能决策’,阿里云将持续通过技术创新与产品化能力,为企业构建下一代智能信息获取系统。”
229 9
|
23天前
|
机器学习/深度学习 人工智能 Serverless
吉利汽车携手阿里云函数计算,打造新一代 AI 座舱推理引擎
当前吉利汽车研究院人工智能团队承担了吉利汽车座舱 AI 智能化的方案建设,在和阿里云的合作中,基于星睿智算中心 2.0 的 23.5EFLOPS 强大算力,构建 AI 混合云架构,面向百万级用户的实时推理计算引入阿里云函数计算的 Serverless GPU 算力集群,共同为智能座舱的交互和娱乐功能提供大模型推理业务服务,涵盖的场景如针对模糊指令的复杂意图解析、文生图、情感 TTS 等。
|
26天前
|
缓存 监控 前端开发
顺企网 API 开发实战:搜索 / 详情接口从 0 到 1 落地(附 Elasticsearch 优化 + 错误速查)
企业API开发常陷参数、缓存、错误处理三大坑?本指南拆解顺企网双接口全流程,涵盖搜索优化、签名验证、限流应对,附可复用代码与错误速查表,助你2小时高效搞定开发,提升响应速度与稳定性。
|
26天前
|
存储 人工智能 OLAP
AI Agent越用越笨?阿里云AnalyticDB「AI上下文工程」一招破解!
AI 上下文工程是管理大模型输入信息的系统化框架,解决提示工程中的幻觉、上下文溢出与信息冲突等问题。通过上下文的采集、存储、加工与调度,提升AI推理准确性与交互体验。AnalyticDB PostgreSQL 版提供增强 RAG、长记忆、Supabase 等能力,助力企业构建高效、稳定的 AI 应用。
|
24天前
|
机器学习/深度学习 人工智能 算法
阿里云视频云以 360° 实时回放技术支撑 NBA 2025 中国赛 —— AI 开启“智能观赛”新体验
NBA中国与阿里云达成合作,首发360°实时回放技术,融合AI视觉引擎,实现多视角、低延时、沉浸式观赛新体验,重新定义体育赛事观看方式。
214 0
阿里云视频云以 360° 实时回放技术支撑 NBA 2025 中国赛 —— AI 开启“智能观赛”新体验
|
24天前
|
存储 人工智能 OLAP
AI Agent越用越笨?阿里云AnalyticDB「AI上下文工程」一招破解!
AI上下文工程是优化大模型交互的系统化框架,通过管理指令、记忆、知识库等上下文要素,解决信息缺失、长度溢出与上下文失效等问题。依托AnalyticDB等技术,实现上下文的采集、存储、组装与调度,提升AI Agent的准确性与协同效率,助力企业构建高效、稳定的智能应用。
|
26天前
|
人工智能 算法 搜索推荐
AI 搜索时代选 GEO 外援?十家服务商,企业看过来
随着AI普及,GEO(生成式引擎优化)成为品牌获客新赛道。本文推荐10家优质GEO服务商,涵盖内容优化、流量提升、合规风控等方向,助力企业提升在DeepSeek、豆包等AI模型中的曝光与推荐,实现智能时代的精准增长。
|
24天前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
340 29

热门文章

最新文章

相关产品

  • 检索分析服务 Elasticsearch版