|
8月前
|
存储 人工智能 JSON
|

RAG Logger:专为检索增强生成(RAG)应用设计的开源日志工具,支持查询跟踪、性能监控

RAG Logger 是一款专为检索增强生成(RAG)应用设计的开源日志工具,支持查询跟踪、检索结果记录、LLM 交互记录和性能监控等功能。

337 7
来自: 自然语言处理  版块
|
8月前
|
数据采集 传感器 人工智能
|

AgiBot World:智元机器人开源百万真机数据集,数据集涵盖了日常生活所需的绝大多数动作

AgiBot World 是智元机器人开源的百万真机数据集,旨在推动具身智能的发展,覆盖家居、餐饮、工业等五大核心场景。

597 9
来自: 多模态  版块
|
9月前
|
人工智能 自然语言处理 搜索推荐
|

Open Notebook:开源 AI 笔记工具,支持多种文件格式,自动转播客和生成总结,集成搜索引擎等功能

Open Notebook 是一款开源的 AI 笔记工具,支持多格式笔记管理,并能自动将笔记转换为博客或播客,适用于学术研究、教育、企业知识管理等多个场景。

546 0
来自: 多模态  版块
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
|

VMB:中科院联合多所高校推出多模态音乐生成框架,能够通过文本、图像和视频等多种输入生成音乐

VMB(Visuals Music Bridge)是由中科院联合多所高校机构推出的多模态音乐生成框架,能够从文本、图像和视频等多种输入模态生成音乐。该框架通过文本桥接和音乐桥接解决了数据稀缺、跨模态对齐弱和可控性有限的问题。

306 7
来自: 多模态  版块
|
9月前
|
人工智能 物联网 C语言
|

SVDQuant:MIT 推出的扩散模型后训练的量化技术,能够将模型的权重和激活值量化至4位,减少内存占用并加速推理过程

SVDQuant是由MIT研究团队推出的扩散模型后训练量化技术,通过将模型的权重和激活值量化至4位,显著减少了内存占用并加速了推理过程。该技术引入了高精度的低秩分支来吸收量化过程中的异常值,支持多种架构,并能无缝集成低秩适配器(LoRAs),为资源受限设备上的大型扩散模型部署提供了有效的解决方案。

500 5
来自: 计算机视觉  版块
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
|

Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型

谷歌最新推出的Gemini 2.0是一款原生多模态输入输出的AI模型,以Agent技术为核心,支持多种数据类型的输入与输出,具备强大的性能和多语言音频输出能力。本文将详细介绍Gemini 2.0的主要功能、技术原理及其在多个领域的应用场景。

926 20
来自: 多模态  版块
|
9月前
|
数据采集 人工智能 自然语言处理
|

FineWeb 2:开源的多语言预训练数据集,覆盖超过 1000 种语言

FineWeb 2 是由 Hugging Face 推出的多语言预训练数据集,覆盖超过 1000 种语言,支持多种 NLP 任务,如机器翻译和文本分类。该数据集通过定制化的数据处理流程,包括语言识别、去重、内容过滤和 PII 匿名化,提升了多语言模型的性能和泛化能力。

482 5
来自: 自然语言处理  版块
|
10月前
|
机器学习/深度学习 人工智能 监控
|

AutoTrain:Hugging Face 开源的无代码模型训练平台

AutoTrain 是 Hugging Face 推出的开源无代码模型训练平台,旨在简化最先进模型的训练过程。用户无需编写代码,只需上传数据即可创建、微调和部署自己的 AI 模型。AutoTrain 支持多种机器学习任务,并提供自动化最佳实践,包括超参数调整、模型验证和分布式训练。

856 4
|
28天前
|
SQL 人工智能 自然语言处理
|

魔搭社区模型速递(8.2-8.8)

🙋魔搭ModelScope本期社区进展:📟2268个模型📁165个数据集;🎨78个创新应用📄 13篇内容

191 0
|
5月前
|
人工智能 中间件 API
|

别让创意卡在工具链!MiniMax MCP Server:MiniMax 开源 MCP 服务打通多模态生成能力,视频语音图像一键全搞定

MiniMax MCP Server 是基于模型上下文协议的多模态生成中间件,支持通过文本指令调用视频生成、图像创作、语音合成及声音克隆等能力,兼容主流客户端实现跨平台调用,采用检索增强生成技术保障内容准确性。

473 3
来自: 多模态  版块
|
5月前
|
人工智能 自然语言处理 数据处理
|

还在手动验证文献引用?ScholarCopilot:开源AI学术写作工具,生成时实时插入文献引用

基于 Qwen-2.5-7B 模型的 ScholarCopilot 通过动态检索标记和联合优化技术,实现学术文本生成与文献引用的精准匹配,在 50 万篇论文库中实现 40.1% 的检索准确率,生成文本的学术严谨性评分达 16.2/25。

505 5
来自: 自然语言处理  版块
|
5月前
|
人工智能 算法 安全
|

OpenRouter 推出百万 token 上下文 AI 模型!Quasar Alpha:提供完全免费的 API 服务,同时支持联网搜索和多模态交互

Quasar Alpha 是 OpenRouter 推出的预发布 AI 模型,具备百万级 token 上下文处理能力,在代码生成、指令遵循和低延迟响应方面表现卓越,同时支持联网搜索和多模态交互。

397 1
来自: 多模态  版块
|
5月前
|
机器学习/深度学习 人工智能 搜索推荐
|

AutoGLM沉思:智谱AI推出首个能"边想边干"的自主智能体!深度研究+多模态交互,颠覆传统AI工作模式

AutoGLM沉思是由智谱AI推出的一款开创性AI智能体,它突破性地将深度研究能力与实际操作能力融为一体,实现了AI从被动响应到主动执行的跨越式发展。

388 16
来自: 多模态  版块
|
6月前
|
机器学习/深度学习 人工智能 数据库
|

Mureka V6:10语种AI音乐工厂!昆仑万维「声场黑科技」颠覆作曲

昆仑万维推出的Mureka V6 AI音乐创作基座模型,支持10种语言歌词生成和纯音乐创作,通过自研ICL技术实现声场优化,覆盖爵士/电子/流行等多元风格,为音乐爱好者和专业创作者提供高效工具。

306 11
来自: 多模态  版块
|
6月前
|
XML 人工智能 数据可视化
|

ReasonGraph:别让AI成黑箱!这个开源工具把大模型的脑回路画给你看

ReasonGraph是一款开源的可视化分析工具,能将大语言模型的复杂推理过程转化为直观图表,支持50+主流模型和多种推理方法,帮助开发者快速理解AI思考逻辑并优化模型表现。

274 0
来自: 自然语言处理  版块
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
|

DeepMesh:3D建模革命!清华团队让AI自动优化拓扑,1秒生成工业级网格

DeepMesh 是由清华大学和南洋理工大学联合开发的 3D 网格生成框架,基于强化学习和自回归变换器,能够生成高质量的 3D 网格,适用于虚拟环境构建、动态内容生成、角色动画等多种场景。

458 4
来自: 计算机视觉  版块
|
6月前
|
前端开发 搜索推荐
|

使用DeepSeek快速创建的个人网站

这是一份使用DeepSeek快速创建个人网站的10分钟指南。内容分为四个步骤:搭建基础架构(HTML框架)、设计核心内容区块(关于我、作品展示等)、快速配置样式(CSS美化页面)以及添加联系表单并部署到GitHub Pages。通过简单的代码和DeepSeek的智能辅助功能,用户可以轻松实现个性化调整,如更换主题色、增加模块或优化响应式设计。虽然整体流程简单高效,但可能因功能有限或美观度不足而需进一步扩展与改进。

552 11
|
6月前
|
机器学习/深度学习 数据格式
|

R1-Omni开源!多模态模型+RLVR,让各模态作用清晰可见

随着 DeepSeek R1 的推出,强化学习在大模型领域的潜力被进一步挖掘。Reinforcement Learning with Verifiable Reward (RLVR) 方法的出现,为多模态任务提供了全新的优化思路,无论是几何推理、视觉计数,还是经典图像分类和物体检测任务,RLVR 都展现出了显著优于传统监督微调(SFT)的效果。

333 12
|
6月前
|
机器学习/深度学习 存储 人工智能
|

SAFEARENA: 评估自主网络代理的安全性

基于大语言模型的智能体在解决基于网络的任务方面正变得越来越熟练。随着这一能力的增强,也随之带来了更大的被恶意利用的风险,例如在在线论坛上发布虚假信息,或在网站上销售非法物质。为了评估这些风险,我们提出了SAFEARENA,这是第一个专注于故意滥用网络代理的基准测试。SAFEARENA包含四个网站上共计500个任务,其中250个是安全的,250个是有害的。我们将有害任务分为五类:虚假信息、非法活动、骚扰、网络犯罪和社会偏见,旨在评估网络代理的真实滥用情况。我们对包括GPT-4o、Claude-3.5 Sonnet、Qwen-2-VL 72B和Llama-3.2 90B在内的领先基于大语言模型的网

267 11
|
6月前
|
机器学习/深度学习 人工智能 数据可视化
|

无需微调!扩散模型新突破:Attentive Eraser高效稳定移除目标物体

最近,扩散模型在生成模型领域异军突起,凭借其独特的生成机制在图像生成方面大放异彩,尤其在处理高维复杂数据时优势明显。然而,尽管扩散模型在图像生成任务中表现优异,但在图像目标移除任务中仍然面临诸多挑战。现有方法在移除前景目标后,可能会留下残影或伪影,难以实现与背景的自然融合。

159 9
|
7月前
|
机器学习/深度学习 存储 文字识别
|

阿里国际Ovis2系列模型开源:多模态大语言模型的新突破

Ovis是阿里巴巴国际化团队提出的新型多模态大模型架构,通过巧妙地将视觉和文本嵌入进行结构化对齐,为解决模态间嵌入策略差异这一局限性提供了方案。

455 2
|
7月前
|
人工智能 编解码 自然语言处理
|

Zonos:油管博主集体转粉!开源TTS神器Zonos爆火:克隆你的声音说5国语言,还能调喜怒哀乐

Zonos 是 ZyphraAI 推出的开源多语言 TTS 模型,支持语音克隆、情感控制和多种语言,适用于有声读物、虚拟助手等场景。

394 18
来自: 语音  版块
|
7月前
|
机器学习/深度学习 人工智能 并行计算
|

BEN2:一键快速抠图!自动移除图像和视频中的背景,支持在线使用

BEN2 是由 Prama LLC 开发的深度学习模型,专注于从图像和视频中快速移除背景并提取前景,支持高分辨率处理和GPU加速。

506 10
来自: 计算机视觉  版块
|
7月前
|
人工智能 搜索推荐 API
|

node-DeepResearch:开源复现版OpenAI Deep Research,支持多步推理和复杂查询的AI智能体

node-DeepResearch 是一个开源 AI 智能体项目,支持多步推理和复杂查询,帮助用户逐步解决问题。

738 27
来自: 自然语言处理  版块
|
8月前
|
人工智能 供应链 PyTorch
|

TimesFM 2.0:用 AI 预测流量、销量和金融市场等走势!谷歌开源超越统计方法的预测模型

TimesFM 2.0 是谷歌研究团队开源的时间序列预测模型,支持长达2048个时间点的单变量预测,具备零样本学习能力,适用于零售、金融、交通等多个领域。

726 23
来自: 科学计算  版块
|
8月前
|
人工智能 前端开发 API
|

Gemini Coder:基于 Google Gemini API 的开源 Web 应用生成工具,支持实时编辑和预览

Gemini Coder 是一款基于 Google Gemini API 的 AI 应用生成工具,支持通过文本描述快速生成代码,并提供实时代码编辑和预览功能,简化开发流程。

422 38
来自: 自然语言处理  版块
|
8月前
|
人工智能 数据处理
|

LatentSync:根据音频生成高分辨率、动态逼真的唇形同步视频

LatentSync 是由字节跳动与北京交通大学联合推出的端到端唇形同步框架,基于音频条件的潜在扩散模型,能够生成高分辨率、动态逼真的唇同步视频,适用于影视、教育、广告等多个领域。

686 19
来自: 计算机视觉  版块
|
8月前
|
机器学习/深度学习 人工智能 算法
|

HuatuoGPT-o1:开源的医学推理大模型,通过复杂推理和强化学习提升医学问题解决能力

HuatuoGPT-o1 是香港中文大学与深圳大数据研究院联合推出的医学高级推理大模型,通过复杂推理和强化学习提升医学问题解决能力。

490 8
来自: 自然语言处理  版块
|
9月前
|
人工智能 自然语言处理 前端开发
|

Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务

Director 是一个构建视频智能体的 AI 框架,用户可以通过自然语言命令执行复杂的视频任务,如搜索、编辑、合成和生成视频内容。该框架基于 VideoDB 的“视频即数据”基础设施,集成了多个预构建的视频代理和 AI API,支持高度定制化,适用于开发者和创作者。

403 9
来自: 计算机视觉  版块
|
9月前
|
人工智能 文字识别 测试技术
|

Florence-VL:微软和马里兰大学共同开源的多模态大语言模型

Florence-VL是由微软和马里兰大学共同开源的多模态大语言模型,结合生成式视觉基础模型Florence-2和深度-广度融合技术,实现视觉与语言理解的深度融合,适用于多种下游任务。

258 29
来自: 多模态  版块
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
|

GPT学术优化:专为学术研究和写作设计的多功能开源项目

GPT学术优化是一个专为学术研究和写作设计的多功能开源项目,集成了论文翻译、源代码解析、互联网信息获取、Latex文章校对、论文润色和摘要生成等多项实用功能。本文将详细介绍GPT学术优化的主要功能、技术原理以及如何运行该项目的教程。

351 11
来自: 自然语言处理  版块
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
|

Sketch2Lineart:AI绘画工具,自动将手绘草图转换成清晰的线条画

Sketch2Lineart是一款基于人工智能的绘画工具,能够自动将手绘草图转换成清晰的线条画。该工具支持多种功能,如草图转线稿、自动描述生成、细节调整和风格定制等,适用于艺术创作、产品设计、教育培训等多个领域。

748 60
来自: 计算机视觉  版块
|
10月前
|
人工智能 数据可视化 API
|

AI Agents Loop异步执行可视化Tutorial 借助AgentBoard工具可视化工作流

本文介绍了AI Agent的异步执行循环(Agent Loop),并展示了如何利用开源框架agentboard可视化这一过程。通过分析不同框架(如AutoGen、LangGraph、AutoAgent)对Agent Loop的抽象,文章详细说明了从简单的功能调用到复杂的多阶段执行流程的设计。此外,还提供了使用agentboard进行日志记录与流程可视化的具体示例,包括安装步骤、代码实现及运行方法,帮助开发者更高效地调试和优化AI Agent的应用。

523 4
来自: 多模态  版块
|
10月前
|
机器学习/深度学习 人工智能 缓存
|

最佳实践!使用 GraphRAG + GLM-4 对《红楼梦》全文构建中文增强检索

特别介绍`graphrag-practice-chinese`项目,这是一个针对中文优化的GraphRAG应用实例,通过改进文本切分策略、使用中文提示词及选择更适合中文的模型等手段,显著提升了处理中文内容的能力。项目不仅包括详细的搭建指南,还提供了《红楼梦》全文的索引构建与查询测试示例,非常适合个人学习和研究。

1945 1
来自: 自然语言处理  版块
|
10月前
|
存储 Kubernetes 调度
|

如何驱逐某个节点上到某些名称空间的pod到其他节点

在 Kubernetes (k8s) 中,驱逐某个节点上特定命名空间的 Pod 到其他节点可以通过以下步骤实现: ### 步骤一:找到要驱逐的 Pod 首先,你需要找到位于特定命名空间并且运行在目标节点上的 Pod。你可以使用 `kubectl get pods` 命令并指定 `-o wide` 和 `--namespace` 参数来获取这些信息。 ```bash kubectl get pods -o wide --namespace=<your-namespace> ``` 此命令将返回指定命名空间中的所有 Pod,并显示它们的详细信息,包括所在的节点名称。 ### 步骤二:标记

803 4
|
11月前
|
安全 Java 测试技术
|

Java“AccessControlException”解决

Java中的“AccessControlException”通常发生在尝试访问受限资源时,如文件或网络。解决方法包括:确保所需权限已授予,检查安全策略配置,使用doPrivileged块执行敏感操作。调整策略文件或代码以匹配实际需求。

566 1
ly~
|
11月前
|
域名解析 网络协议 Linux
|

如何测试 DNS 记录中的反向代理服务器是否生效?

本文介绍了三种测试反向代理服务器配置的方法。首先,通过命令行工具如 `ping`、`nslookup` 和 `dig` 检查域名解析是否指向正确的 IP 地址。其次,利用 Web 浏览器访问域名,验证页面加载正常且请求头信息无误。最后,借助网络抓包工具如 `Wireshark` 和 `tcpdump` 分析数据包,确保请求正确转发并返回预期响应。

887 2
|
4月前
|
机器学习/深度学习 算法 测试技术
|

DeepSeek-R1-0528:小更新大升级

今天,DeepSeek R1 开源发布了其“小版本”升级——DeepSeek-R1-0528。

498 24
|
5月前
|
存储 机器学习/深度学习 芯片
|

微软推出bitnet-b1.58-2B-4T:极致的量化,小巧而强大

随着大语言模型的发展,参数量逐渐扩大,大语言模型的训练和运行通常需要大量的计算资源,这也限制了大语言模型在一些场景尤其是端侧的应用,所以,探索剪枝,蒸馏等量化方式,已经成为大语言模型研究的一个重要方向。

310 3
|
5月前
|
机器学习/深度学习 编解码 缓存
|

通义万相2.1首尾帧模型开源!细节真实生动+过渡丝滑,指令遵循表现出色!

通义万相2.1首尾帧模型开源!细节真实生动+过渡丝滑,指令遵循表现出色!

713 7
|
5月前
|
人工智能 数据可视化 数据挖掘
|

AI竟能独立完成顶会论文!The AI Scientist-v2:开源端到端AI自主科研系统,自动探索科学假设生成论文

The AI Scientist-v2 是由 Sakana AI 等机构开发的端到端自主科研系统,通过树搜索算法与视觉语言模型反馈实现科学假设生成、实验执行及论文撰写全流程自动化,其生成论文已通过国际顶会同行评审。

318 34
来自: 自然语言处理  版块
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
|

用AI精准定位问题代码,调试时间直接砍半!LocAgent:斯坦福开源代码调试神器,多跳推理锁定问题代码

LocAgent是由斯坦福大学、耶鲁大学等顶尖机构联合开发的代码定位框架,通过将代码库转化为图结构并利用大语言模型的多跳推理能力,实现精准的问题代码定位。

392 1
来自: 自然语言处理  版块
|
5月前
|
人工智能 自然语言处理 Rust
|

【内附榜单】评估AI大模型的代码修复能力!Multi-SWE-bench:字节开源代码修复能力评估基准,覆盖7大主流编程语言

Multi-SWE-bench是首个覆盖Python外7种主流编程语言的代码修复基准,包含1632个真实GitHub问题样本,通过严格筛选与人工验证确保数据质量。

266 0
来自: 自然语言处理  版块
|
5月前
|
人工智能 搜索推荐 前端开发
|

OpenDeepSearch:搜索引擎革命!这个开源深度搜索工具让AI代理直接读懂网页,复杂问题一键拆解

OpenDeepSearch是基于开源推理模型的深度搜索工具,通过语义重排和多源整合优化检索效果,支持与AI代理无缝集成,提供快速和专业两种搜索模式。

375 10
来自: 自然语言处理  版块
|
6月前
|
机器学习/深度学习 人工智能 前端开发
|

魔搭社区模型速递(3.23-3.29)

🙋魔搭ModelScope本期社区进展:619个模型,93个数据集,151个创新应用,7篇内容。

237 4
|
6月前
|
人工智能 边缘计算 自然语言处理
|

DistilQwen2.5-R1:蒸馏黑科技!32B推理能力塞进3B小模型,推理速度狂飙300%

阿里巴巴最新发布的DistilQwen2.5-R1系列模型通过知识蒸馏技术,在保持高性能的同时大幅降低计算资源需求,7B模型性能甚至可媲美32B大模型。

217 11
来自: 自然语言处理  版块
|
6月前
|
人工智能 自然语言处理 API
|

Oliva:语音RAG革命!开源多智能体秒解复杂搜索,实时对讲颠覆传统

Oliva是一款基于Langchain和Superlinked的开源语音RAG助手,通过实时语音交互在Qdrant向量数据库中进行语义搜索,支持多智能体协作处理复杂查询任务。

297 4
来自: 语音  版块
|
6月前
|
小程序 JavaScript 关系型数据库
|

weixin118电影院订票选座系统设计及实现+ssm(文档+源码)_kaic

本文介绍了一款基于微信小程序的电影院订票选座系统。该系统采用WXML、WXS、JS小程序语言开发,结合微信开发者工具和MYSQL数据库,实现了便捷的订票选座功能。用户无需下载安装,通过微信即可快速访问,操作简单高效。系统分为用户与管理员两大模块,支持电影信息查询、在线选座、订单管理等功能,同时确保数据安全与用户体验。经过可行性分析、功能设计、测试等环节,系统表现出良好的稳定性、实用性和可扩展性,为用户提供了一个全面、便捷的订票平台。

199 18
|
6月前
|
数据采集 人工智能 数据可视化
|

SpatialLM:手机视频秒建3D场景!开源空间认知模型颠覆机器人训练

SpatialLM 是群核科技开源的空间理解多模态模型,能够通过普通手机拍摄的视频重建 3D 场景布局,赋予机器人类似人类的空间认知能力,适用于具身智能训练、自动导航、AR/VR 等领域。

477 5
来自: 多模态  版块

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

2
今日
14252
内容
6
活动
3583
关注
你好!
登录掌握更多精彩内容

相关产品

  • 人工智能平台 PAI
  • 文字识别
  • 智能语音交互