AWS工程师辞职创建Tensor Search引擎,即插即用HuggingFace版CLIP模型

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: AWS工程师辞职创建Tensor Search引擎,即插即用HuggingFace版CLIP模型

Marqo 是一个多功能且强大的、以用户为中心的搜索引擎,可以集成到任何网站或应用程序中。


不久之前,来自亚马逊的 Tom tomhamer 辞去了软件工程师一职,和其他研究者一起创建并开源了 Tensor Search 引擎 Marqo,其可与用户应用程序、网站和工作流无缝集成。



项目地址:https://github.com/marqo-ai/marqo

Marqo 网站:https://www.marqo.ai/


从 Tom tomhamer 的工作经历看,他已经全职加入了 marqo.ai,并担任联合创始人之一。



至于为什么要做这个项目,tomhamer 表示当我们查看文本句子或短段落时,使用向量语义搜索是不错的选择。不仅如此,向量在进行图像搜索时也做得非常好。遗憾的是,视频、长文本和其他更复杂的数据类型,想要继续使用向量表示就有点困难了。


因此他们设想为语义搜索建立一个搜索引擎,类似于 Solr 或 Elasticsearch,无论你扔给这个搜索引擎什么内容,它都能处理它,并可搜索。


Tensor search 涉及将文档、图像和其他数据转换为 Tensor 的向量集合。将数据表示为张量,这样一来我们能够将查询与文档进行匹配,从而像人类一样理解查询和文档的内容。Tensor search 可以为各种用例提供动力,例如:


终端用户的搜索和推荐;

多模态搜索(图像 - 图像、文本 - 图像、图像 - 文本);

聊天机器人和问答系统;

文本和图像分类。



因此,他们构建了 Marqo,它可以使用向量,也可以在必要时扩展到张量,还允许用户灵活地指定特定的分块策略来构建张量。


由于横向可扩展性,Marqo 提供了非常快的查询时间,即使是对数百万个文档。Marqo 使用类似 CLIP 这样的深度学习算法从图像中提取语义,这意味着它可以轻松地处理图像到图像、图像到文本和文本到图像的搜索模式。


不过 Marqo 仍然是一个正在进行的研究,目前支持:


DSL 语言查询(包括关键字,范围和布尔查询);

由 NMSLIB 提供的高效近似 knn 搜索;

Onnx 支持,多 GPU 支持;

支持排序。


为了支持图像和文本搜索,Marqo 允许用户即插即用 HuggingFace 版 CLIP 模型。不过 Marqo 还不支持 arm64 架构的 docker-in-docker 后端配置。这意味着如果你有一个 M 系列 Mac,你还需要进行进一步操作。


了解更多内容,请查看原项目。


参考链接:

https://www.linkedin.com/in/tom-hamer-04a6369b/

https://www.reddit.com/r/MachineLearning/comments/xk31n8/p_my_cofounder_and_i_quit_our_engineering_jobs_at/

相关文章
|
1月前
|
人工智能 缓存 API
谷歌发布MediaPipe LLM Inference API,28亿参数模型本地跑
【2月更文挑战第24天】谷歌发布MediaPipe LLM Inference API,28亿参数模型本地跑
173 3
谷歌发布MediaPipe LLM Inference API,28亿参数模型本地跑
|
1月前
|
人工智能 JSON 搜索推荐
社区供稿 | GLM-4适配ModelScope-Agent最佳实践
GLM-4是由智谱 AI 发布的新一代基座大模型。
|
机器学习/深度学习 数据挖掘 PyTorch
视觉神经网络模型优秀开源工作:PyTorch Image Models(timm)库(上)
视觉神经网络模型优秀开源工作:PyTorch Image Models(timm)库(上)
|
机器学习/深度学习 存储 人工智能
Google Earth Engine(GEE)——TensorFlow支持深度学习等高级机器学习方法(非免费项目)
Google Earth Engine(GEE)——TensorFlow支持深度学习等高级机器学习方法(非免费项目)
1263 0
|
1月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI产品使用合集之负采样版本DSSM双塔模型训练好之后,怎么分别获取user tower的embedding和item tower的embedding
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
再超Transformer!Google提出两个新模型(Griffin、Hawk),强于Mamba,更省资源
【2月更文挑战第15天】再超Transformer!Google提出两个新模型(Griffin、Hawk),强于Mamba,更省资源
202 1
再超Transformer!Google提出两个新模型(Griffin、Hawk),强于Mamba,更省资源
|
1月前
|
人工智能 PyTorch 算法框架/工具
极智AI | 讲解TensorRT怎么实现torch.select层
大家好,我是极智视界,本文讲解一下 TensorRT 实现 torch.select 层。
59 0
|
12月前
|
机器学习/深度学习 人工智能 安全
谷歌大模型云服务上线,代码生成、PaLM for Chat首次亮相
谷歌大模型云服务上线,代码生成、PaLM for Chat首次亮相
138 0
谷歌大模型云服务上线,代码生成、PaLM for Chat首次亮相
|
NoSQL API Redis
一日一技:在LangChain中使用Azure OpenAI Embedding服务踩坑记录
一日一技:在LangChain中使用Azure OpenAI Embedding服务踩坑记录
5015 1
|
机器学习/深度学习 传感器 人工智能
ICLR 2023 Oral | Batch Norm层等暴露TTA短板,开放环境下解决方案来了(1)
ICLR 2023 Oral | Batch Norm层等暴露TTA短板,开放环境下解决方案来了
107 0