|
9月前
|
人工智能 数据可视化 JavaScript
|

NodeTool:AI 工作流可视化构建器,通过拖放节点设计复杂的工作流,集成 OpenAI 等多个平台

NodeTool 是一个开源的 AI 工作流可视化构建器,通过拖放节点的方式设计复杂的工作流,无需编码即可快速原型设计和测试。它支持本地 GPU 运行 AI 模型,并与 Hugging Face、OpenAI 等平台集成,提供模型访问能力。

367 14
来自: 多模态  版块
|
9月前
|
机器学习/深度学习 数据采集 人工智能
|

基于可图Kolors的皮影戏风格LoRA训练&创作

可图Kolors-LoRA风格故事挑战赛比赛过程心得分享

287 8
|
9月前
|
机器学习/深度学习 人工智能 测试技术
|

O1-CODER:北交大推出的O1代码版开源项目,专注于编码任务

O1-CODER是由北京交通大学研究团队推出的开源项目,专注于编码任务。该项目结合强化学习和蒙特卡洛树搜索技术,提升模型的System-2思维能力,旨在生成更高效、逻辑性更强的代码。

253 24
来自: 自然语言处理  版块
|
9月前
|
人工智能 编解码 网络架构
|

GenCast:谷歌DeepMind推出的AI气象预测模型

GenCast是由谷歌DeepMind推出的革命性AI气象预测模型,基于扩散模型技术,提供长达15天的全球天气预报。该模型在97.2%的预测任务中超越了全球顶尖的中期天气预报系统ENS,尤其在极端天气事件的预测上表现突出。GenCast能在8分钟内生成预报,显著提高预测效率,并且已经开源,包括代码和模型权重,支持更广泛的天气预报社区和研究。

609 14
来自: 科学计算  版块
|
9月前
|
人工智能 JSON 数据管理
|

ShowUI:新加坡国立联合微软推出用于 GUI 自动化的视觉-语言-操作模型

ShowUI是由新加坡国立大学Show Lab和微软联合推出的视觉-语言-行动模型,旨在提升图形用户界面(GUI)助手的效率。该模型通过UI引导的视觉令牌选择和交错视觉-语言-行动流,有效减少计算成本并提高训练效率。ShowUI在小规模高质量数据集上表现出色,展现出在GUI自动化领域的潜力。

297 4
来自: 多模态  版块
|
10月前
|
机器学习/深度学习 人工智能 语音技术
|

Fugatto:英伟达推出的多功能AI音频生成模型

Fugatto是由英伟达推出的多功能AI音频生成模型,能够根据文本提示生成音频或视频,并修改现有音频文件。该模型基于增强型的Transformer模型,支持复杂的组合指令,具有强大的音频生成与转换能力,广泛应用于音乐创作、声音设计、语音合成等领域。

303 1
来自: 多模态  版块
|
10月前
|
机器学习/深度学习 人工智能 Python
|

MuCodec:清华、腾讯AI、港中文共同推出的超低比特率音乐编解码器

MuCodec是由清华大学深圳国际研究生院、腾讯AI实验室和香港中文大学联合开发的超低比特率音乐编解码器。它能够在0.35kbps至1.35kbps的比特率下实现高效的音乐压缩和高保真重建,适用于在线音乐流媒体服务、音乐下载、语言模型建设等多个应用场景。

212 1
来自: 多模态  版块
|
10月前
|
人工智能 机器人 信息无障碍
|

11月30日“2024 AI+硬件创新大赛”决赛-杭州西湖体育馆见!

探索AI硬件创新,28强团队决战杭州西湖体育馆

210 1
|
10月前
|
人工智能 JavaScript 数据可视化
|

深入探索 Flux Tools 在 AI 图像创作中的强大功能

Flux Tools 是由 Black Forest Labs 开发的一套先进 AI 图像编辑工具,集成了修补、扩展、深度映射和边缘检测等功能,为用户提供高精度的图像控制能力,广泛应用于照片编辑、数字艺术创作和设计工作等领域,极大提升了创作效率与自由度。

337 3
|
10月前
|
人工智能 开发框架 搜索推荐
|

今日 AI 开源|共 10 项| 复合 AI 模型,融合多个开源 AI 模型组合解决复杂推理问题

今日 AI 简报涵盖多项技术革新,包括多模态检索增强生成框架、高保真虚拟试穿、视频生成、生成式软件开发、上下文感知记忆管理等,展示了 AI 在多个领域的广泛应用和显著进步。

518 10
|
10月前
|
存储 前端开发 数据可视化
|

在实际项目中,如何选择使用 Flux 架构或传统的 MVC 架构

在实际项目中选择使用Flux架构或传统MVC架构时,需考虑项目复杂度、团队熟悉度和性能需求。Flux适合大型、高并发应用,MVC则适用于中小型、逻辑简单的项目。

183 6
|
10月前
|
JSON 文字识别 自然语言处理
|

转发文章

通过文档智能(Document Mind)解析文档支撑检索增强生成RAG 通过文档智能(Document Mind)将文档解析为结构化数据,结合语义理解,提取出文档层级树、样式信息以及版面信息,下游将解析的结果数据处理成文档切片,生成切块(Chunk)数据。 如图所示,文档智能支持将非结构化文档内容提取的信息输出为Markdown和Json格式,更方便构建语义分块策略。 解决问题:文档内容解析错误,相较于传统单页以电子解析文本或者OCR解析文本的方式,IDP则针对不同的文档类型,实现电子解析+OCR/NLP的细粒度混合版融合方案,通过电子解析+OCR/NLP中互相的优缺点弥补,提升解析的

120 4
|
11月前
|
API
|

ModelScope登录异常

144 0
|
11月前
|
人工智能 弹性计算 运维
|

触手可及:阿里云函数计算助力AI大模型的评测

阿里云推出的面向AI服务器的功能计算(Functional Computing, FC),专为AI应用提供弹性计算资源。该服务支持无服务器部署、自动资源管理和多语言支持,极大简化了AI应用的开发和维护。本文全面评测了FC for AI Server的功能特性、使用体验和成本效益,展示了其在高效部署、成本控制和安全性方面的优势,并通过具体应用案例和改进建议,展望了其未来发展方向。

428 4
|
12月前
|
区块链
|

C 标准库 - <locale.h>详解

`<locale.h>` 是 C 标准库中的头文件,用于处理地域设置(locale),影响程序的行为,如数字、货币和日期格式化。重要类型包括 `locale_t`;宏有 `LC_ALL`、`LC_COLLATE` 等;主要函数包括 `setlocale`、`newlocale`、`frelocale`、`duplocale`、`strcoll` 和 `mblen`。

306 12
|
2月前
|
人工智能 资源调度 数据可视化
|

ModelScope魔搭25年7月发布月报

七月流火,这个夏天火热的开场已然揭开。6月30号,我们在北京举办了首届魔搭开发者大会(ModelScope DevCon 2025),邀请了国内外知名的开源模型,以及头部开源工具的研发团队,与广大开发者共聚一堂进行分享。顶尖的AI 模型首次从线上 Hub走进线下盛会,为大家呈现了一场“模型全明星”盛会。同时我们还邀请了社区开发者参加我们的“搭友之夜”(aka 大规模面基大会)。大会分享场场爆满,现场只能用一句话来描述:“好~多~人~啊”,不提前占位根本挤不进去~~

191 2
|
3月前
|
安全 搜索推荐 数据安全/隐私保护
|

无缝体验设计、一键直达的奥秘

Apptrace 是一款强大的工具,支持传参安装与一键拉起功能,优化用户体验。本文通过四个实战案例展示其应用:1) 电商深度链接营销,实现商品页直达;2) 游戏邀请系统,追踪来源并自动奖励;3) 新闻个性化内容推送,提升打开速度;4) 企业应用无缝登录,保障安全高效。同时总结最佳实践,包括优雅降级、参数加密、统计分析等,助力企业提升用户转化率与体验流畅度。

117 1
|
4月前
|
人工智能 编解码 API
|

搭友来碰头|魔搭核心开发者共创会精彩回顾

周五,首期"搭友来碰头"——魔搭核心开发者共创会在 [杭州·阿里巴巴云谷园区] 圆满落幕。来自杭州、上海、南京、北京等各地的魔搭社区核心开发者齐聚一堂,共同探索从模型开源到技术突破的转化路径。

165 11
|
4月前
|
机器学习/深度学习 人工智能 机器人
|

魔搭社区模型速递(5.11-5.17)

🙋魔搭ModelScope本期社区进展:📟1656个模型,151个数据集,645个创新应用,📄 9 篇内容

257 11
|
4月前
|
开发框架 人工智能 安全
|

ModelScope魔搭25年5月发布月报

不知不觉间,日历已经翻过了立夏,而开源模型的世界中似乎并没有春夏秋冬。在刚刚过去的四月份,见证了开源社区又一次蓬勃发展的浪潮。以Qwen3家族为代表,一系列新模型的开源为整个生态注入了新的活力。通过全面覆盖多种规格的 dense 与 MoE 模型架构,Qwen3 首次在开源模型中引入“快思考与慢思考” 双模式的支持,获得了广大开发者的热烈欢迎,成为新一代开源大模型的标杆之作。

197 10
|
4月前
|
机器学习/深度学习
|

基于deepseek-v3来复现r1

101 0
|
4月前
|
传感器 人工智能 算法
|

聚焦“以技术集成支撑单亩价值创造”与“增加值分配机制区块链存证确权”两大核心本质

“振兴链-技术集成科技小院”以技术集成与区块链为核心,推动农业现代化。通过多维度技术整合(如精准农业、物联网等),突破资源约束,最大化单亩产值;同时利用区块链确权存证,建立透明分配机制,解决传统农业中收益不均问题。技术赋能生产,制度重塑分配,实现效率与公平的平衡,助力乡村振兴与产业升级。典型场景显示,该模式可显著提升单亩价值并确保增值公平分配。

130 10
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
|

魔搭社区模型速递(4.20-4.26)

魔搭ModelScope本期社区进展:2227个模型,270个数据集,167个创新应用,10篇内容

259 4
|
5月前
|
人工智能 自然语言处理 算法
|

"一丹一世界"一等奖 | 曙光_麦橘超然 创作分享

"一丹一世界"一等奖 | 曙光_麦橘超然 创作分享

107 4
|
5月前
|
人工智能 算法 数据可视化
|

机器人训练师狂喜!Infinite Mobility:上海AI Lab造物神器1秒生成可动家具,成本只要1分钱

上海AI Lab推出的Infinite Mobility采用程序化生成技术,可高效生成22类高质量可交互物体,单个生成仅需1秒且成本低至0.01元,已应用于机器人仿真训练等领域。

178 2
来自: 多模态  版块
|
5月前
|
机器学习/深度学习 算法 NoSQL
|

记录转大模型—InitCommit

嗯,写点东西记录一下转大模型的经历。

104 14
来自: 自然语言处理  版块
|
5月前
|
人工智能 自然语言处理 搜索推荐
|

AI对话像真人!交交:上海交大推出全球首个口语对话情感大模型,支持多语言与实时音色克隆

上海交通大学推出的交交是全球首个纯学术界自研的口语对话情感大模型,具备多语言交流、方言理解、角色扮演和情感互动等能力,通过创新技术实现端到端语音对话和实时音色克隆。

307 14
来自: 多模态  版块
|
5月前
|
机器学习/深度学习 人工智能 算法
|

GPT-4.5 竟成小丑!OpenAI 推出 GPT-4.1:百万级上下文多模态语言模型,性价比远超 GPT-4o mini

OpenAI最新发布的GPT-4.1系列语言模型通过混合专家架构与上下文优化,实现百万级token处理能力,在编码任务中准确率提升21.4%,推理成本降低83%,支持多模态内容理解与低延迟响应。

217 27
来自: 自然语言处理  版块
|
5月前
|
人工智能 文字识别 自动驾驶
|

突破自动驾驶"交规困境":高德&西交发布交规+高精地图基准MapDR,车道级交通规则在线理解,让AI更懂交规!

作为专业领先的出行和位置服务提供商,高德地图以数据准确率高、鲜度高著称。当前自动驾驶技术总是关注到矢量地图的构建,往往忽略了车道级驾驶规则的制作。对应图商而言,车道级的领航不仅需要有正确的车道级矢量表达,还要明确每条路的驾驶规则,保证引导的准确率。

166 2
|
5月前
|
人工智能 自然语言处理 测试技术
|

能够双向推理的LLM!Dream-7B:港大联合华为开源的扩散推理模型,能够同时考虑前后文信息

Dream-7B是由香港大学与华为诺亚方舟实验室联合研发的开源扩散大语言模型,采用独特的掩码扩散范式,在文本生成、数学推理和代码编写等任务中展现出卓越性能。

229 3
来自: 自然语言处理  版块
|
5月前
|
人工智能 并行计算 测试技术
|

从商业海报到二次元插画多风格通吃!HiDream-I1:智象未来开源文生图模型,17亿参数秒出艺术大作

HiDream-I1是智象未来团队推出的开源图像生成模型,采用扩散模型技术和混合专家架构,在图像质量、提示词遵循能力等方面表现优异,支持多种风格生成。

466 2
来自: 多模态  版块
|
5月前
|
机器学习/深度学习 人工智能 IDE
|

14B小模型代码成绩紧逼O3-Mini!DeepCoder-14B-Preview:基于Deepseek-R1蒸馏优化的开源代码生成模型

DeepCoder-14B-Preview是基于Deepseek-R1蒸馏优化的140亿参数模型,通过强化学习微调在LiveCodeBench达到60.6%准确率,开源训练数据与系统优化方案。

277 3
来自: 自然语言处理  版块
|
5月前
|
机器学习/深度学习 人工智能
|

OmniCam:浙大联合上海交大推出多模态视频生成框架,虚拟导演打造百万级影视运镜

OmniCam是由浙江大学与上海交通大学联合研发的多模态视频生成框架,通过LLM与视频扩散模型结合实现高质量视频生成,支持文本、轨迹和图像等多种输入模态。

114 1
来自: 多模态  版块
|
5月前
|
小程序 Java 关系型数据库
|

weixin163基于微信小程序的校园二手交易平台系统设计与开发ssm(文档+源码)_kaic

本文介绍了一款基于微信小程序的校园二手物品交易平台的开发与实现。该平台采用Java语言开发服务端,使用MySQL数据库进行数据存储,前端以微信小程序为载体,支持管理员和学生两种角色操作。管理员可管理用户、商品分类及信息、交易记录等,而学生则能注册登录、发布购买商品、参与交流论坛等。系统设计注重交互性和安全性,通过SSM框架优化开发流程,确保高效稳定运行,满足用户便捷交易的需求,推动校园资源共享与循环利用。

397 12
|
5月前
|
传感器 人工智能 机器人
|

杭州六小龙最新开源「空间理解模型」,保姆级教程来了!

前几天,“杭州六小龙”之一「群核科技」在GTC 2025大会开源了空间理解模型:SpatialLM。

190 3
|
6月前
|
人工智能 算法 语音技术
|

Video-T1:视频生成实时手术刀!清华腾讯「帧树算法」终结闪烁抖动

清华大学与腾讯联合推出的Video-T1技术,通过测试时扩展(TTS)和Tree-of-Frames方法,显著提升视频生成的连贯性与文本匹配度,为影视制作、游戏开发等领域带来突破性解决方案。

178 4
来自: 计算机视觉  版块
|
6月前
|
小程序 Java 关系型数据库
|

weixin116大学生就业平台微信小程序+ssm(文档+源码)_kaic

本文介绍了一款大学生就业平台微信小程序的开发过程,涵盖开发环境、系统设计、实现与测试等方面。该小程序基于微信平台特性,采用MYSQL数据库存储数据,确保系统稳定与安全,同时满足学生、企业和管理员不同权限用户的功能需求。通过简化操作流程,实现了招聘信息查看、简历投递等实用功能,旨在为用户提供便捷高效的求职体验,符合“操作简单,功能实用”的设计理念。

255 13
|
6月前
|
机器学习/深度学习 人工智能 缓存
|

BlockDance:扩散模型加速革命!复旦字节联手实现50%无损提速

BlockDance 是复旦大学与字节跳动联合推出的扩散模型加速方法,通过识别重用相邻时间步中的结构相似特征,减少冗余计算,最高可加速50%,同时保持生成质量。

187 27
来自: 科学计算  版块
|
6月前
|
存储 人工智能 人机交互
|

Multi-Agent Orchestrator:亚马逊开源AI智能体自动协作黑科技!重构人机交互逻辑,1秒精准分配任务

Multi-Agent Orchestrator 是亚马逊开源的多智能体框架,能够动态分配代理、维护上下文、支持多种代理类型,适用于客户服务、智能交通、物流配送等复杂场景。

228 9
来自: 自然语言处理  版块
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
|

RWKV-7革新序列建模,Impossible Videos探索超现实,Creation-MMBench点燃创意火花: 今日论文

由 RWKV 项目(Linux Foundation AI & Data)和 EleutherAI 等机构提出的 RWKV-7 "Goose",是一种全新的序列建模架构。它在30亿参数规模上刷新了多语言任务的下游性能纪录,媲美顶级英文语言模型,同时仅需恒定内存和推理时间。核心创新包括广义delta规则和上下文学习率优化,超越了传统Transformer的表达能力。作者还开源了3.1万亿token的多语言数据集和代码,助力社区研究。

114 3
|
6月前
|
机器学习/深度学习 自动驾驶 搜索推荐
|

今日热门论文推荐:多模态CoT综述、BlobCtrl、Being-0、DreamRenderer、WideRange4D 等

这篇调查论文是首个系统回顾多模态思维链(MCoT)推理的综述。论文阐明了相关基础概念和定义,提供了全面的分类法,并从不同角度对当前方法进行了深入分析。MCoT将思维链推理的优势扩展到多模态环境中,设计了各种方法和创新推理范式来解决图像、视频、语音、音频、3D和结构化数据等不同模态的独特挑战,在机器人技术、医疗保健、自动驾驶和多模态生成等应用中取得了广泛成功。

153 1
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
|

论文推荐:R1-Omni、VisualPRM、4D LangSplat、Vision-R1、GoT

简要介绍:由复旦大学、上海AI实验室等机构提出了首个统一多模态理解和生成的奖励模型UnifiedReward。该工作构建了大规模人类偏好数据集,包含图像和视频生成/理解任务,并利用该模型进行自动构建高质量偏好对数据,最终通过DPO优化视觉模型。实验结果表明,联合学习评估多样化视觉任务可以带来显著的相互益处。

224 1
|
6月前
|
机器学习/深度学习 人工智能 缓存
|

MHA2MLA:0.3%数据微调!复旦团队开源推理加速神器,KV缓存狂降96.87%

MHA2MLA是复旦大学、华东师范大学、上海AI Lab等机构联合推出的数据高效微调方法,通过引入多头潜在注意力机制(MLA),显著优化基于Transformer的LLM推理效率,降低推理成本。

196 1
来自: 科学计算  版块
|
6月前
|
机器学习/深度学习 人工智能 测试技术
|

IMAGPose:南理工突破性人体生成框架!多姿态适配+细节语义融合,刷新图像生成范式

IMAGPose 是南京理工大学推出的用于人体姿态引导图像生成的统一条件框架,解决了传统方法在姿态引导的人物图像生成中的局限性,支持多场景适应、细节与语义融合、灵活的图像与姿态对齐以及全局与局部一致性。

138 0
来自: 计算机视觉  版块

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

0
今日
14243
内容
6
活动
3579
关注
你好!
登录掌握更多精彩内容

相关产品

  • 人工智能平台 PAI
  • 文字识别
  • 智能语音交互