|
5月前
|
数据采集 人工智能 自然语言处理
|

模型时代的智能BI—Quick BI:阿里云的数据洞察与决策引擎

阿里云Quick BI是一款企业级智能BI工具,融合大模型技术实现自然语言交互、自动化洞察与预测分析。支持多源数据接入,提供50+图表类型及行业模板,助力敏捷业务分析与AI增强决策。相比Tableau、Power BI等竞品,Quick BI以云原生低成本和通义大模型优势脱颖而出,适用于零售、金融等领域,推动数据民主化与智能化转型。推荐已使用阿里云生态的企业采用,分阶段推广功能以最大化价值。

946 2
|
5月前
|
机器学习/深度学习 编解码 人工智能
|

Kimi开源MoE架构多模态推理模型,小激活参数,大能量!

最近Moonshot AI推出了 Kimi-VL,这是一个高效的开源混合专家(MoE)视觉-语言模型(VLM),它提供了先进的多模态推理、长上下文理解以及强大的代理能力——所有这些功能都只需激活其语言解码器中的2.8B参数(Kimi-VL-A3B)。

289 1
|
5月前
|
人工智能 自然语言处理 数据可视化
|

Mini DALL·E 3:设计师福音!开源AI绘画神器:对话式修图+智能问答,草图秒变商业大作

Mini DALL·E 3是由北京理工大学联合多所高校开发的交互式文生图框架,通过多轮对话实现高质量图像生成与编辑,结合LLM和T2I模型技术,无需额外训练即可生成符合描述的图像。

359 47
来自: 计算机视觉  版块
|
5月前
|
机器学习/深度学习 自然语言处理 人机交互
|

重磅发布|支持东方40语种+中国22方言的新SOTA语音大模型Dolphin开源啦!

在当今数字化时代,语音识别技术已成为人机交互的关键桥梁,广泛应用于智能客服、语音助手、会议转录等众多领域。

358 0
|
6月前
|
人工智能 自然语言处理 搜索推荐
|

WritingBench:阿里最新大模型写作能力多维测评工具,开源32B深度思考写作模型

近日,阿里研究团队联合中国人民大学和上海交通大学共同开源了WritingBench ——该评估基准覆盖6大领域、100个细分场景,共包含1239条评测数据,以期为生成式写作提供全面的评估。团队进一步发现,凭借思维链技术和动态评估体系的加持,基于Qwen开发的32B创作模型在创意型任务上表现接近顶尖模型R1,为高效能创作开辟了新路径。

428 5
|
6月前
|
人工智能 文字识别 异构计算
|

SmolDocling:256M多模态小模型秒转文档!开源OCR效率提升10倍

SmolDocling 是一款轻量级的多模态文档处理模型,能够将图像文档高效转换为结构化文本,支持文本、公式、图表等多种元素识别,适用于学术论文、技术报告等多类型文档。

495 1
来自: 多模态  版块
|
7月前
|
存储 人工智能 文字识别
|

MME-CoT:多模态模型推理能力终极评测!六大领域细粒度评估,港中大等机构联合推出

MME-CoT 是由港中文等机构推出的用于评估大型多模态模型链式思维推理能力的基准测试框架,涵盖数学、科学、OCR、逻辑、时空和一般场景等六个领域,提供细粒度的推理质量、鲁棒性和效率评估。

310 0
来自: 多模态  版块
|
7月前
|
人工智能 自然语言处理 Linux
|

NobodyWho:每个NPC都有独立灵魂!Godot插件实现本地LLM对话,离线生成多线剧情

NobodyWho 是一款为 Godot 游戏引擎设计的插件,支持在本地运行 LLM,实现互动小说创作,无需联网,确保隐私和高性能。

378 14
来自: 自然语言处理  版块
|
7月前
|
人工智能 自然语言处理 测试技术
|

Potpie.ai:比Copilot更狠!这个AI直接接管项目代码,自动Debug+测试+开发全搞定

Potpie.ai 是一个基于 AI 技术的开源平台,能够为代码库创建定制化的工程代理,自动化代码分析、测试和开发任务。

544 19
来自: 自然语言处理  版块
|
7月前
|
人工智能 自然语言处理 PyTorch
|

InspireMusic:阿里通义实验室开源的音乐生成模型,支持文本或音频生成多种风格的音乐

阿里通义实验室开源的音乐生成技术,支持通过简单描述快速生成多种风格的高质量音乐作品。

1152 4
来自: 多模态  版块
|
7月前
|
人工智能 编解码 文字识别
|

OCRmyPDF:16.5K Star!快速将 PDF 文件转换为可搜索、可复制的文档的命令行工具

OCRmyPDF 是一款开源命令行工具,专为将扫描的 PDF 文件转换为可搜索、可复制的文档。支持多语言、图像优化和多核处理。

840 17
来自: 多模态  版块
|
8月前
|
机器学习/深度学习 人工智能 算法
|

基于强化学习的专家优化系统

基于强化学习的专家优化系统

523 24
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
|

Baichuan-Omni-1.5:百川智能开源全模态理解与生成模型,支持文本、图像、音频和视频的多模态输入和输出

Baichuan-Omni-1.5 是百川智能开源的全模态理解模型,支持文本、图像、音频和视频的多模态输入和输出,显著提升多模态交互体验。

575 22
来自: 多模态  版块
|
8月前
|
数据采集 人工智能 自然语言处理
|

OpenCSG开源SmolTalk Chinese数据集

近年来,人工智能(AI)领域尤其是自然语言处理(NLP)技术的迅猛发展,正在深刻改变着各行各业的运作模式。从智能客服到内容生成,从自动翻译到智能搜索,NLP技术的广泛应用使得语言模型在全球范围内的重要性日益凸显。与此密切相关的预训练模型(Pre-trained Models),凭借在海量数据上的训练积累了丰富的知识,成为NLP技术进步的核心支柱。然而,预训练模型的成功在很大程度上依赖于其背后数据集的质量。

142 13
|
8月前
|
人工智能 自然语言处理 数据处理
|

FlexRAG:不再局限于文本的 RAG!中科院开源多模态 RAG 助手,支持多数据类型、上下文压缩和多种检索器类型

FlexRAG 是中科院推出的高性能多模态 RAG 框架,支持多数据类型、上下文压缩和多模态数据处理,显著提升生成模型的表现。

967 17
来自: 多模态  版块
|
9月前
|
人工智能 自然语言处理 Swift
|

ModernBERT-base:终于等到了 BERT 回归

BERT于 2018 年发布(史前人工智能!),但它至今仍被广泛使用,BERT的纯编码器架构使其成为每天出现的各种场景的理想选择,例如检索、分类和实体提取。

876 3
来自: 自然语言处理  版块
|
9月前
|
人工智能 自然语言处理 搜索推荐
|

Open Notebook:开源 AI 笔记工具,支持多种文件格式,自动转播客和生成总结,集成搜索引擎等功能

Open Notebook 是一款开源的 AI 笔记工具,支持多格式笔记管理,并能自动将笔记转换为博客或播客,适用于学术研究、教育、企业知识管理等多个场景。

546 0
来自: 多模态  版块
|
9月前
|
人工智能 物联网 C语言
|

SVDQuant:MIT 推出的扩散模型后训练的量化技术,能够将模型的权重和激活值量化至4位,减少内存占用并加速推理过程

SVDQuant是由MIT研究团队推出的扩散模型后训练量化技术,通过将模型的权重和激活值量化至4位,显著减少了内存占用并加速了推理过程。该技术引入了高精度的低秩分支来吸收量化过程中的异常值,支持多种架构,并能无缝集成低秩适配器(LoRAs),为资源受限设备上的大型扩散模型部署提供了有效的解决方案。

500 5
来自: 计算机视觉  版块
|
9月前
|
机器学习/深度学习 自然语言处理 安全
|

Llama 3.3开源!70B媲美405B性能,支持128K上下文

近期,Meta开源了Llama 3.3 多语言大型语言模型(LLM),Llama 3.3 是一个预训练并经过指令调优的生成模型,参数量为70B(文本输入/文本输出)。

1910 5
ly~
|
11月前
|
网络协议 应用服务中间件 Apache
|

如何在 DNS 记录中设置反向代理服务器?

要设置反向代理服务器,首先需安装配置软件(如 Nginx 或 Apache),并确保域名正确指向服务器 IP。接着,在 DNS 中设置 A 或 CNAME 记录,将域名指向反向代理服务器。然后编辑 Nginx 或 Apache 的配置文件,将请求转发至后端服务器。最后,通过浏览器访问域名测试配置是否成功,并使用工具检查请求流向和响应情况。

1005 3
|
2月前
|
人工智能 自然语言处理 算法
|

AFAC2025金融智能创新大赛启动仪式圆满成功,汇聚各方力量共启创新赛事

7月3日,在来自政府、高校、企业和行业协会的各界嘉宾共同见证下,2025科技智能创新大赛启动仪式暨AFAC2025金融智能创新大赛合作伙伴授牌仪式于上海举行,并取得圆满成功。

170 0
|
2月前
|
机器学习/深度学习 自然语言处理 算法
|

文心4.5系列模型,正式开源!

6月30日,百度文心大模型4.5正式开源,魔搭社区在开源首日快速接入文心大模型,提供真正可用、好用、可落地的大模型解决方案,现已面向广大企业、开发者下载体验!

155 1
|
3月前
|
人工智能 移动开发 物联网
|

ModelScope魔搭25年6月发布月报

从2022年11月的青涩发布,魔搭现今已进入第三个年头,成为中国最大最活跃的开源模型社区,与超过1600万的开发者同行。

200 6
|
4月前
|
物联网 开发工具 git
|

论文分类打榜赛Baseline:ms-swift微调InternLM实践

书生大模型实战营第5期已正式启动,本期实战营新增「论文分类打榜赛」,以帮助学员更好地掌握大模型技能。

224 12
|
5月前
|
机器学习/深度学习 人工智能 算法
|

小米7B参数推理大模型首次开源!Xiaomi MiMo:数学代码双杀,超越32B巨头

小米开源的MiMo推理大模型通过联动预训练与强化学习算法,在7B参数规模下实现数学推理与代码生成能力的突破性提升,技术报告显示其性能超越部分32B级模型。

679 74
来自: 自然语言处理  版块
|
6月前
|
机器学习/深度学习 人工智能 数据库
|

Mureka V6:10语种AI音乐工厂!昆仑万维「声场黑科技」颠覆作曲

昆仑万维推出的Mureka V6 AI音乐创作基座模型,支持10种语言歌词生成和纯音乐创作,通过自研ICL技术实现声场优化,覆盖爵士/电子/流行等多元风格,为音乐爱好者和专业创作者提供高效工具。

306 11
来自: 多模态  版块
|
6月前
|
XML 人工智能 数据可视化
|

ReasonGraph:别让AI成黑箱!这个开源工具把大模型的脑回路画给你看

ReasonGraph是一款开源的可视化分析工具,能将大语言模型的复杂推理过程转化为直观图表,支持50+主流模型和多种推理方法,帮助开发者快速理解AI思考逻辑并优化模型表现。

274 0
来自: 自然语言处理  版块
|
6月前
|
人工智能 BI API
|

Dify-Plus:企业级AI管理核弹!开源方案吊打SaaS,额度+密钥+鉴权系统全面集成

Dify-Plus 是基于 Dify 二次开发的企业级增强版项目,新增用户额度、密钥管理、Web 登录鉴权等功能,优化权限管理,适合企业场景使用。

886 3
来自: 多模态  版块
|
6月前
|
前端开发 搜索推荐
|

使用DeepSeek快速创建的个人网站

这是一份使用DeepSeek快速创建个人网站的10分钟指南。内容分为四个步骤:搭建基础架构(HTML框架)、设计核心内容区块(关于我、作品展示等)、快速配置样式(CSS美化页面)以及添加联系表单并部署到GitHub Pages。通过简单的代码和DeepSeek的智能辅助功能,用户可以轻松实现个性化调整,如更换主题色、增加模块或优化响应式设计。虽然整体流程简单高效,但可能因功能有限或美观度不足而需进一步扩展与改进。

552 11
|
6月前
|
机器学习/深度学习 数据格式
|

R1-Omni开源!多模态模型+RLVR,让各模态作用清晰可见

随着 DeepSeek R1 的推出,强化学习在大模型领域的潜力被进一步挖掘。Reinforcement Learning with Verifiable Reward (RLVR) 方法的出现,为多模态任务提供了全新的优化思路,无论是几何推理、视觉计数,还是经典图像分类和物体检测任务,RLVR 都展现出了显著优于传统监督微调(SFT)的效果。

333 12
|
6月前
|
存储 人工智能 API
|

AppAgentX:告别重复点击!自我进化式GUI代理自动生成高级操作,效率翻倍

AppAgentX 是西湖大学推出的新型自我进化式 GUI 代理框架,通过记忆和进化机制提升智能手机交互的效率和智能性,支持复杂任务和跨应用操作,显著优于现有方法。

359 0
来自: 多模态  版块
|
6月前
|
人工智能 自然语言处理 测试技术
|

URO-Bench:端到端语音对话模型评测黑马!多语言/多轮/副语言全维度一键开测

URO-Bench 是一款专为端到端语音对话模型设计的全面基准测试工具,涵盖多语言、多轮对话、副语言信息等多维度任务,帮助开发者全面评估模型性能。

361 1
来自: 语音  版块
|
6月前
|
机器学习/深度学习 人工智能 数据可视化
|

无需微调!扩散模型新突破:Attentive Eraser高效稳定移除目标物体

最近,扩散模型在生成模型领域异军突起,凭借其独特的生成机制在图像生成方面大放异彩,尤其在处理高维复杂数据时优势明显。然而,尽管扩散模型在图像生成任务中表现优异,但在图像目标移除任务中仍然面临诸多挑战。现有方法在移除前景目标后,可能会留下残影或伪影,难以实现与背景的自然融合。

159 9
|
7月前
|
人工智能 数据可视化 数据处理
|

PySpur:零代码构建AI工作流!开源可视化拖拽平台,支持多模态与RAG技术

PySpur 是一款开源的轻量级可视化 AI 智能体工作流构建器,支持拖拽式界面,帮助用户快速构建、测试和迭代 AI 工作流,无需编写复杂代码。它支持多模态数据处理、RAG 技术、文件上传、结构化输出等功能,适合非技术背景的用户和开发者快速上手。

454 5
来自: 自然语言处理  版块
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
|

结合DeepSeek-R1强化学习方法的视觉模型!VLM-R1:输入描述就能精确定位图像目标

VLM-R1 是基于强化学习技术的视觉语言模型,通过自然语言指令精确定位图像目标,支持复杂场景推理与高效训练。

484 0
来自: 多模态  版块
|
7月前
|
人工智能 文字识别 安全
|

Stirling-PDF:51.4K Star!用Docker部署私有PDF工作站,支持50多种PDF操作,从此告别在线工具

Stirling-PDF 是一款基于 Docker 的本地化 PDF 编辑工具,支持 50 多种 PDF 操作,包括合并、拆分、转换、压缩等,同时提供多语言支持和企业级功能,满足个人和企业用户的多样化需求。

527 6
来自: 自然语言处理  版块
|
7月前
|
XML 机器学习/深度学习 人工智能
|

CLaMP 3:音乐搜索AI革命!多模态AI能听懂乐谱/MIDI/音频,用27国语言搜索全球音乐

CLaMP 3是由清华大学团队开发的多模态、多语言音乐信息检索框架,支持27种语言,能够进行跨模态音乐检索、零样本分类和音乐推荐等任务。

289 1
来自: 多模态  版块
|
7月前
|
机器学习/深度学习 人工智能 异构计算
|

SkyReels-A1:解放动画师!昆仑开源「数字人制造机」:一张照片生成逼真虚拟主播,表情连眉毛颤动都可控

SkyReels-A1 是昆仑万维开源的首个 SOTA 级别表情动作可控的数字人生成模型,支持高保真肖像动画生成和精确的表情动作控制。

587 23
来自: 计算机视觉  版块
|
7月前
|
人工智能 安全 开发工具
|

Repomix:8.1K Star!轻松将整个代码库打包为AI友好格式的开源工具,使代码库更易于AI理解

Repomix 是一款强大的工具,能够将整个代码库打包成AI友好的单个文件,支持多种输出格式和安全检查。

539 9
来自: 自然语言处理  版块
|
7月前
|
人工智能 搜索推荐 API
|

node-DeepResearch:开源复现版OpenAI Deep Research,支持多步推理和复杂查询的AI智能体

node-DeepResearch 是一个开源 AI 智能体项目,支持多步推理和复杂查询,帮助用户逐步解决问题。

738 27
来自: 自然语言处理  版块
|
8月前
|
人工智能 前端开发 关系型数据库
|

过年了,用魔搭+魔笔打造您的 AI 春节贺卡生成器!

本文介绍了如何获取和利用现有的大模型资源,结合魔笔低代码,低成本、高效率地打造一个 AI 春节贺卡生成器。

550 17
|
8月前
|
人工智能 供应链 PyTorch
|

TimesFM 2.0:用 AI 预测流量、销量和金融市场等走势!谷歌开源超越统计方法的预测模型

TimesFM 2.0 是谷歌研究团队开源的时间序列预测模型,支持长达2048个时间点的单变量预测,具备零样本学习能力,适用于零售、金融、交通等多个领域。

726 23
来自: 科学计算  版块
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
|

DeepSeek Artifacts:在线实时预览的前端 AI 编程工具,基于DeepSeek V3快速生成React App

DeepSeek Artifacts是Hugging Face推出的免费AI编程工具,基于DeepSeek V3,支持快速生成React和Tailwind CSS代码,适合快速原型开发和前端组件构建。

2064 39
来自: 自然语言处理  版块
|
8月前
|
人工智能 前端开发 API
|

Gemini Coder:基于 Google Gemini API 的开源 Web 应用生成工具,支持实时编辑和预览

Gemini Coder 是一款基于 Google Gemini API 的 AI 应用生成工具,支持通过文本描述快速生成代码,并提供实时代码编辑和预览功能,简化开发流程。

422 38
来自: 自然语言处理  版块
|
8月前
|
人工智能 安全 API
|

OpenHands:能自主检索外部知识的 AI 编程工具,自动执行命令、网页浏览和生成代码等操作

OpenHands 是一款基于 AI 的编程工具,支持多智能体协作,能够自动生成代码、执行命令、浏览网页等,显著提升开发效率。

669 26
来自: 自然语言处理  版块
|
8月前
|
人工智能 数据处理
|

LatentSync:根据音频生成高分辨率、动态逼真的唇形同步视频

LatentSync 是由字节跳动与北京交通大学联合推出的端到端唇形同步框架,基于音频条件的潜在扩散模型,能够生成高分辨率、动态逼真的唇同步视频,适用于影视、教育、广告等多个领域。

686 19
来自: 计算机视觉  版块

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

1
今日
14251
内容
6
活动
3583
关注
你好!
登录掌握更多精彩内容

相关产品

  • 人工智能平台 PAI
  • 文字识别
  • 智能语音交互