Pixeltable:一张表搞定embeddings、LLM、向量搜索,多模态开发不再拼凑工具

简介: Pixeltable 是一个开源多模态 AI 基础设施框架,统一管理文档、图像、视频、embedding 和 LLM 输出,通过“一切皆表”理念,将数据存储、计算与 pipeline 自动化集成于一体,简化 RAG、目标检测、相似性检索等应用开发,告别拼凑式架构,提升开发效率与可维护性。

开发过多模态 AI 应用的人都应该遇到过这个问题,其实最头疼的不是算法而是基础设施。

向量数据库需要存 embeddings;SQL 数据库需要元数据管理;大文件还要放到对象存储上,不仅邀单独跑个 pipeline 做 chunking,还要再写个脚本调模型推理,最后还得套个 agent 框架把这些东西串起来。

代码里到处是胶水逻辑,维护起来十分麻烦。

Pixeltable 这个开源库就的目标就是解决这个问题:"别折腾了,全放一个地方不就完了。"

听起来简单粗暴,但实际用一下还真确实解决了不少问题。因为它提供了一个统一的声明式接口,文档、embeddings、图像、视频、LLM 输出、分块文本、对话历史、工具调用这些东西,全部以表的形式存在。数据一更新,相关计算自动触发。

现有方案的问题在哪

现在搞 AI 应用的技术栈基本是拼凑出来的:

SQL 处理结构化数据,向量库管 embeddings,对象存储扔大文件,Cron 或 Airflow 跑 pipeline,Python 脚本散落各处,再加上各种 API wrapper 对接 OpenAI、HuggingFace、Anthropic。

每个环节独立运行,数据在不同系统间流转,出了问题排查困难。

Pixeltable 的思路则是是让表本身就能处理完整的 pipeline。插入数据后 embeddings 自动算好,改代码只重算变化的部分,图像视频音频 PDF 也可以直接存,LLM、视觉模型、自定义函数都在表里跑,向量搜索和 SQL 过滤同时进行,还有内置的版本控制和时间回溯,导出支持 Parquet、LanceDB、COCO、PyTorch Datasets。

对于开发来说核心逻辑写完了,剩下的就是框架的事了。

简单上手

 pip install pixeltable

先建个多模态表:

 import pixeltable as pxt  

 # A table with an image column
 t = pxt.create_table('images', {'input_image': pxt.Image})

加个计算列,这列的值会自动算出来。Pixeltable 和 Hugging Face 做了集成,可以直接调用:

 from pixeltable.functions import huggingface  

t.add_computed_column(  
    detections=huggingface.detr_for_object_detection(  
        t.input_image,  
        model_id='facebook/detr-resnet-50'  
    )  
 )

提取字段:

 t.add_computed_column(  
     detections_text=t.detections.label_text  
 )

OpenAI Vision 也可以接进来:

 from pixeltable.functions import openai  

t.add_computed_column(  
    vision=openai.vision(  
        model='gpt-4o-mini',  
        prompt="Describe what's in this image.",  
        image=t.input_image  
    )  
 )

插入一张图像,所有我们设置的计算就自动跑起来了:

 t.insert({'input_image': 'https://raw.github.com/pixeltable/.../000000000025.jpg'})

查询结果:

 results=t.select(  
     t.input_image,  
     t.detections_text,  
     t.vision  
 ).collect()

这样数据摄取、目标检测、LLM 处理、结果查询,一套流程在一个系统里跑完了。

底层怎么做的?

Pixeltable 在后台处理了不少细节:

数据摄取这块,图像音频视频 PDF 都存在本地,自动建立引用关系。计算列只在需要的时候执行,不会无脑重跑所有数据。OpenAI、HuggingFace、CLIP、YOLOX 这些模型集成都是内置的,embedding 索引也直接在表里,不用再搭向量数据库。

版本控制和时间回溯查询都有,就算是改错了可以回退。缓存机制只重算受代码变更影响的数据,这样省时间也能省钱。

一些实际例子

1、自动计算利润

最简单的场景,电影收入和成本算利润:

 import pixeltable as pxt  

t = pxt.create_table(  
    'films',  
    {'name': pxt.String, 'revenue': pxt.Float, 'budget': pxt.Float},  
    if_exists="replace"  
)  
t.insert([  
    {'name': 'Inside Out', 'revenue': 800.5, 'budget': 200.0},  
    {'name': 'Toy Story', 'revenue': 1073.4, 'budget': 200.0}  
])  
# Computed column
t.add_computed_column(  
    profit=(t.revenue - t.budget),  
    if_exists="replace"  
)  
 print(t.select(t.name, t.profit).collect())

不需要写循环每行的利润都会自动算好。

2、YOLOX 目标检测

想用 YOLOX 做目标检测,也是直接写个普通函数就行:

 @pxt.udf  
 def detect(image):  
     model = Yolox.from_pretrained("yolox_s")  
     result = model([image])  
     return [COCO_CLASSES[label] for label in result[0]["labels"]]

需要把计算函数注册成计算列:

 t.add_computed_column(classification=detect(t.image))

这样批处理、模型复用、结果存储都自动搞定了。

3、CLIP 图像相似度检索

在创建一个表:

 images=pxt.create_table('my_images', {'img': pxt.Image}, if_exists='replace')

加 embedding 索引:

 frompixeltable.functions.huggingfaceimportclip  

 images.add_embedding_index(  
     'img',  
     embedding=clip.using(model_id='openai/clip-vit-base-patch32')  
 )

用文本检索图像:

 sim=images.img.similarity("a dog playing fetch")  

 results=images.order_by(sim, asc=False).limit(3).collect()

或者用图像检索图像:

 sim2=images.img.similarity(query_image_url)

接口统一,输入是文本还是图像都一样。

完整的 RAG 系统

不用 LangChain 也不用独立的向量数据库,直接在 Pixeltable 里搭 RAG。

存一个文档:

 docs=pxt.create_table('my_docs.docs', {'doc': pxt.Document})  
 docs.insert([{'doc': 'https://.../Jefferson-Amazon.pdf'}])

然后按句子切块:

 chunks = pxt.create_view(  
     'doc_chunks',  
     docs,  
     iterator=DocumentSplitter.create(document=docs.doc, separators='sentence')  
 )

建 embedding 索引:

 embed=huggingface.sentence_transformer.using(model_id='all-MiniLM-L6-v2')  
 chunks.add_embedding_index('text', string_embed=embed)

定义一个检索函数:

 @pxt.query  
 defget_relevant_context(query, limit=3):  
     sim=chunks.text.similarity(query)  
     returnchunks.order_by(sim, asc=False).limit(limit).select(chunks.text)

创建问答表:

 qa=pxt.create_table('my_docs.qa_system', {'prompt': pxt.String})

检索上下文、格式化 prompt、调 LLM:

 qa.add_computed_column(context=get_relevant_context(qa.prompt))  

qa.add_computed_column(  
    final_prompt=pxtf.string.format(  
        "PASSAGES:\n{0}\nQUESTION:\n{1}",  
        qa.context,  
        qa.prompt  
    )  
)  
qa.add_computed_column(  
    answer=openai.chat_completions(  
        model='gpt-4o-mini',  
        messages=[{'role': 'user', 'content': qa.final_prompt}]  
    ).choices[0].message.content  
 )

这样就可以提问了:

 qa.insert([{'prompt': 'What can you tell me about Amazon?'}])

差不多30 行代码完整 RAG 就跑起来了。

总结

多模态应用虽然已经从实验阶段走向生产,但是基础设施还没跟上节奏,大家还都在用各种工具拼接方案。

Pixeltable 的核心贡献不是提出新算法或新模型,而是提供了一个新的抽象层。"一切皆表"这个理念把图像、embeddings、视频、元数据、LLM 输出、文本块、工具调用统一到一个数据结构里。

这样整个工作流就变得声明式、增量式、可重现、可检索、版本化、统一化。这才是现代 AI 基础设施该有的样子。

如果你在做实际的 AI 项目,Pixeltable 可能会让你感觉"这玩意儿直接砍掉了一半架构":RAG 系统、多模态分析、图像视频 pipeline、agent workflow、自定义数据处理、数据集准备、embedding 检索,基本上涉及多模态数据的场景都能用。

上下文工程正在成为 AI 应用的新后端,Pixeltable 算是第一个专门为此设计的框架,值得试试。

github地址:

https://avoid.overfit.cn/post/ba4e6e518082492580ebf751e2507148
作者:Civil Learning

目录
相关文章
|
2月前
|
缓存 监控 测试技术
llama.cpp Server 引入路由模式:多模型热切换与进程隔离机制详解
llama.cpp 于2025年12月11日发布路由模式,支持多模型动态加载与毫秒级切换,无需重启服务。采用多进程隔离架构,兼容OpenAI API,支持自动发现、按需加载、LRU淘汰及手动管理,显著提升本地多模型协作的效率与稳定性,是轻量级推理服务框架的重要升级。
270 3
llama.cpp Server 引入路由模式:多模型热切换与进程隔离机制详解
|
5月前
|
人工智能 JavaScript 算法
Playwright携手MCP:AI智能体实现自主化UI回归测试
MCP 协议使得 AI 能够通过 Playwright 操作浏览器,其中快照生成技术将页面状态转化为 LLM 可理解的文本,成为驱动自动化测试的关键。该方式适用于探索性测试和快速验证,但目前仍面临快照信息缺失、元素定位不稳定、成本高、复杂场景适应性差以及结果确定性不足等挑战。人机协同被认为是未来更可行的方向,AI 负责执行固定流程,人类则专注策略与验证。
|
3月前
|
JavaScript 数据挖掘 关系型数据库
基于python的外卖配送及数据分析系统
本研究基于Python构建外卖配送及数据分析系统,结合Django、Vue和MySQL技术,实现配送路径优化、时效预测与用户行为分析,提升配送效率与服务质量,为平台科学决策提供支持。
|
3月前
|
数据采集 人工智能 自然语言处理
Meta SAM3开源:让图像分割,听懂你的话
Meta发布并开源SAM 3,首个支持文本或视觉提示的统一图像视频分割模型,可精准分割“红色条纹伞”等开放词汇概念,覆盖400万独特概念,性能达人类水平75%–80%,推动视觉分割新突破。
1577 59
Meta SAM3开源:让图像分割,听懂你的话
|
机器学习/深度学习 人工智能 算法
阿里通义最新黑科技!“通义舞王”:让静态照片翩翩起舞,探索艺术与科技的无限可能
【1月更文挑战第2天】在科技日新月异的时代,艺术创作的疆界正以前所未有的速度拓展,,从AI作曲和音乐生成技术带来的跨风格音乐作品,到基于人工智能的诗歌与文学创作,艺术不再仅仅是人类个体情感与才华的体现,而成为人机交互、数据智能与创新思维相互融合的新领域。 近日,阿里云再次引领创新潮流,推出一款令人叹为观止的AI黑科技——通义舞王
阿里通义最新黑科技!“通义舞王”:让静态照片翩翩起舞,探索艺术与科技的无限可能
|
3月前
|
存储 缓存 边缘计算
《Unity沙盒云服配置实战指南:地形生成与创作协同的算力架构》
本文聚焦Unity沙盒世界游戏的云服务器配置核心逻辑,针对沙盒游戏无边界探索、动态实体密集、创作数据海量等特性,突破传统配置思维,从节点架构、算力调度、存储架构、网络优化、稳定性扩展性及成本性能平衡六大维度展开实战解析。提出“地形分片+动态节点”分布式架构,实现无缝探索;基于“实体类型+运算优先级”分层调度算力,适配动态负载波动;采用“三级存储+实时同步”保障创作数据安全高效;通过“动态带宽+分层同步”破解传输瓶颈;以容错架构与模块化设计支撑长期运营;结合数据驱动实现成本与性能优化。全文贯穿技术实践与独特视角,为沙盒游戏开发者提供适配引擎特性、兼顾体验与扩展性的云服配置指南。
167 4
|
3月前
|
机器学习/深度学习 编解码 JSON
混元OCR模型宣布开源,参数仅1B,多项核心能力SOTA
腾讯混元推出全新开源OCR模型HunyuanOCR,仅1B参数,基于原生多模态架构,实现端到端高效推理。在复杂文档解析、文字检测识别等多场景表现卓越,支持14种小语种翻译,广泛适用于票据抽取、视频字幕识别等应用,多项指标达业界SOTA水平。
636 8
|
4月前
|
存储 缓存 调度
vLLM 吞吐量优化实战:10个KV-Cache调优方法让tokens/sec翻倍
十个经过实战检验的 vLLM KV-cache 优化方法 —— 量化、分块预填充、前缀重用、滑动窗口、ROPE 缩放、后端选择等等 —— 提升 tokens/sec。
1535 10
|
2天前
|
搜索推荐 数据挖掘 测试技术
LLM推理时计算技术详解:四种提升大模型推理能力的方法
2025年LLM发展新趋势:不卷训练,专攻推理!本文详解四大推理时计算技术——Chain-of-Thought(深度)、Self-Consistency(宽度)、Tree-of-Thoughts(搜索)、Reflexion/Self-Refine(迭代),配可运行代码与实战对比,助你在不重训模型前提下显著提升性能。
48 0
LLM推理时计算技术详解:四种提升大模型推理能力的方法
|
3月前
|
存储 人工智能 运维
云计算的下半场:资源是底座,智能才是灵魂
云计算的下半场:资源是底座,智能才是灵魂
144 10