开发者社区 ModelScope模型即服务文章正文

基于elasticsearch + huggingface model 实现语义检索

2024-12-26 286

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

模型训练 PAI-DLC，100CU*H 3个月

交互式建模 PAI-DSW，每月250计算时 3个月

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

简介： 项目地址：https://github.com/skyterra/elastic-embedding-searcher。本项目利用Hugging Face模型生成文本的嵌入向量，并将其同步至Elasticsearch创建索引，支持通过余弦相似度进行高效的向量搜索，实现精准的内容检索与推荐功能。该项目为开发智能搜索应用提供了强大的后端支持。（该简介有239个字符，包括标点和空格）

项目地址：https://github.com/skyterra/elastic-embedding-searcher

使用 Elasticsearch 和 HuggingFace Model Embeddings 实现语义搜索
本项目结合 Elasticsearch 和 HuggingFace 模型生成的嵌入，实现高效的语义搜索。

主要功能
嵌入生成：轻松集成 HuggingFace 的开源模型，为文本数据生成高质量嵌入。
Elasticsearch 支持：利用 Elasticsearch 强大的索引和查询功能，实现可扩展的语义搜索。
模型自定义：可根据应用需求选择和配置嵌入模型。
快速语义检索：基于相似度的搜索，提供相关且有意义的搜索结果，提升用户体验。
该仓库非常适合用于构建文档搜索引擎、推荐系统和知识管理工具等应用。

文章标签：

检索分析服务 Elasticsearch版

搜索推荐

索引

UED

相关实践学习

以电商场景为例搭建AI语义搜索应用

本实验旨在通过阿里云Elasticsearch结合阿里云搜索开发工作台AI模型服务，构建一个高效、精准的语义搜索系统，模拟电商场景，深入理解AI搜索技术原理并掌握其实现过程。

ElasticSearch 最新快速入门教程

本课程由千锋教育提供。全文搜索的需求非常大。而开源的解决办法Elasricsearch（Elastic）就是一个非常好的工具。目前是全文搜索引擎的首选。本系列教程由浅入深讲解了在CentOS7系统下如何搭建ElasticSearch，如何使用Kibana实现各种方式的搜索并详细分析了搜索的原理，最后讲解了在Java应用中如何集成ElasticSearch并实现搜索。  

fhoeappf6hhpg

9月前

存储机器学习/深度学习人工智能

轻松实现向量搜索：探索 Elastic-Embedding-Searcher 项目

elastic-embedding-searcher 是一个基于 Elasticsearch 的向量搜索框架，简化了向量数据的存储和检索过程。通过结合 Elasticsearch 的分布式能力与向量表示，项目实现了高效、精准的相似度检索。支持多种流行的嵌入模型（如 BERT、Word2Vec），并能够处理大规模数据集。该项目适用于文本相似度检索、问答系统及多语言处理等场景，开发者可以轻松集成并实现高效的数据检索。

fhoeappf6hhpg

293 2 2

蚝油菜花

9月前

机器学习/深度学习人工智能自然语言处理

ModernBERT：英伟达开源的新一代编码器模型，性能超越 SOTA，通过去除填充和序列打包减少计算浪费，提高训练和推理的效率

ModernBERT 是由英伟达和 HuggingFace 等机构联合开源的新一代编码器模型，支持长上下文处理，性能超越 SOTA，适合多种自然语言处理任务。

蚝油菜花

308 7 7

ModernBERT：英伟达开源的新一代编码器模型，性能超越 SOTA，通过去除填充和序列打包减少计算浪费，提高训练和推理的效率

技术小达人

8月前

人工智能自然语言处理搜索推荐

云端问道12期实操教学-构建基于Elasticsearch的企业级AI搜索应用

本文介绍了构建基于Elasticsearch的企业级AI搜索应用，涵盖了从传统关键词匹配到对话式问答的搜索形态演变。阿里云的AI搜索产品依托自研和开源（如Elasticsearch）引擎，提供高性能检索服务，支持千亿级数据毫秒响应。文章重点描述了AI搜索的三个核心关键点：精准结果、语义理解、高性能引擎，并展示了架构升级和典型应用场景，包括智能问答、电商导购、多模态图书及商品搜索等。通过实验部分，详细演示了如何使用阿里云ES搭建AI语义搜索Demo，涵盖模型创建、Pipeline配置、数据写入与检索测试等步骤，同时介绍了相关的计费模式。

技术小达人

212 3 3

蚝油菜花

8月前

人工智能 JSON 自然语言处理

Jina Reader：一键将网页内容转为适合 LLM 处理的文本格式，自动抓取和清洗网页内容，支持多种输出格式

Jina Reader 是一款由 Jina AI 推出的开源工具，能够将网页内容快速转换为适合大型语言模型（LLMs）处理的纯文本格式，支持多种输出格式和动态内容处理。

蚝油菜花

1100 20 20

Jina Reader：一键将网页内容转为适合 LLM 处理的文本格式，自动抓取和清洗网页内容，支持多种输出格式

蚝油菜花

8月前

人工智能自然语言处理数据处理

FlexRAG：不再局限于文本的 RAG！中科院开源多模态 RAG 助手，支持多数据类型、上下文压缩和多种检索器类型

FlexRAG 是中科院推出的高性能多模态 RAG 框架，支持多数据类型、上下文压缩和多模态数据处理，显著提升生成模型的表现。

蚝油菜花

960 17 17

FlexRAG：不再局限于文本的 RAG！中科院开源多模态 RAG 助手，支持多数据类型、上下文压缩和多种检索器类型

技术小达人

8月前

人工智能算法 API

构建基于 Elasticsearch 的企业级 AI 搜索应用

本文介绍了基于Elasticsearch构建企业级AI搜索应用的方案，重点讲解了RAG（检索增强生成）架构的实现。通过阿里云上的Elasticsearch AI搜索平台，简化了知识库文档抽取、文本切片等复杂流程，并结合稠密和稀疏向量的混合搜索技术，提升了召回和排序的准确性。此外，还探讨了Elastic的向量数据库优化措施及推理API的应用，展示了如何在云端高效实现精准的搜索与推理服务。未来将拓展至多模态数据和知识图谱，进一步提升RAG效果。

技术小达人

291 1 1

羿莉（萧羿）

9月前

存储监控安全

网络安全视角：从地域到账号的阿里云日志审计实践

日志审计的必要性在于其能够帮助企业和组织落实法律要求，打破信息孤岛和应对安全威胁。选择 SLS 下日志审计应用，一方面是选择国家网络安全专用认证的日志分析产品，另一方面可以快速帮助大型公司统一管理多组地域、多个账号的日志数据。除了在日志服务中存储、查看和分析日志外，还可通过报表分析和告警配置，主动发现潜在的安全威胁，增强云上资产安全。

羿莉（萧羿）

726 44 45

蚝油菜花

8月前

人工智能测试技术

Valley：字节跳动开源小体积的多模态模型，在小于 10B 参数的模型中排名第二

Valley 是字节跳动推出的多模态大模型，能够处理文本、图像和视频数据，在电子商务和短视频领域表现优异，并在 OpenCompass 测试中排名第二。

蚝油菜花

407 10 10