|
8月前
|
人工智能 并行计算 测试技术
|

从商业海报到二次元插画多风格通吃!HiDream-I1:智象未来开源文生图模型,17亿参数秒出艺术大作

HiDream-I1是智象未来团队推出的开源图像生成模型,采用扩散模型技术和混合专家架构,在图像质量、提示词遵循能力等方面表现优异,支持多种风格生成。

824 2
来自: 多模态  版块
|
8月前
|
人工智能 算法 安全
|

OpenRouter 推出百万 token 上下文 AI 模型!Quasar Alpha:提供完全免费的 API 服务,同时支持联网搜索和多模态交互

Quasar Alpha 是 OpenRouter 推出的预发布 AI 模型,具备百万级 token 上下文处理能力,在代码生成、指令遵循和低延迟响应方面表现卓越,同时支持联网搜索和多模态交互。

733 1
来自: 多模态  版块
|
8月前
|
人工智能 测试技术 定位技术
|

WorldScore:斯坦福开源世界生成模型评估新标杆:3000样本+九维指标,视频/4D/3D模型一网打尽

WorldScore是斯坦福大学提出的首个统一评估世界生成模型的基准测试,通过基于相机轨迹的布局规范和3000个多样化样本,全面评测生成内容的可控性、质量与动态性。

536 46
来自: 计算机视觉  版块
|
9月前
|
机器学习/深度学习 人工智能 API
|

GPT-4o-Transcribe:OpenAI 推出高性能语音转文本模型!错误率暴降90%+方言通杀,Whisper当场退役

GPT-4o-Transcribe 是 OpenAI 推出的高性能语音转文本模型,支持多语言和方言,适用于复杂场景如呼叫中心和会议记录,定价为每分钟 0.006 美元。

517 2
来自: 语音  版块
|
9月前
|
人工智能 监控 数据可视化
|

Manus再遭复刻!开源多智能体协作工具,实时查看每个AI员工的"脑回路"

LangManus 是一个基于分层多智能体系统的 AI 自动化框架,支持多种语言模型和工具集成,能够高效完成复杂任务,适用于人力资源、房产决策、旅行规划等多个场景。

1065 0
来自: 自然语言处理  版块
|
9月前
|
机器学习/深度学习 自然语言处理 小程序
|

MiniMax开源超长文本处理神器,魔搭社区助力开发者推理部署

Transfermor架构与生俱来的二次计算复杂度,及其所带来的上下文窗口瓶颈,一直为业界所关注。此前,MiniMax开源了MiniMax-01系列模型,采用创新的线性注意力架构,使得模型能够在100万个token长度的上下文窗口上进行预训练;而在推理时,实现了高效处理全球最长400万token的上下文,是目前最长上下文窗口的20倍。

553 0
|
9月前
|
机器学习/深度学习 存储 人工智能
|

SAFEARENA: 评估自主网络代理的安全性

基于大语言模型的智能体在解决基于网络的任务方面正变得越来越熟练。随着这一能力的增强,也随之带来了更大的被恶意利用的风险,例如在在线论坛上发布虚假信息,或在网站上销售非法物质。为了评估这些风险,我们提出了SAFEARENA,这是第一个专注于故意滥用网络代理的基准测试。SAFEARENA包含四个网站上共计500个任务,其中250个是安全的,250个是有害的。我们将有害任务分为五类:虚假信息、非法活动、骚扰、网络犯罪和社会偏见,旨在评估网络代理的真实滥用情况。我们对包括GPT-4o、Claude-3.5 Sonnet、Qwen-2-VL 72B和Llama-3.2 90B在内的领先基于大语言模型的网

439 11
|
10月前
|
机器学习/深度学习 人工智能 测试技术
|

MoBA:LLM长文本救星!月之暗面开源新一代注意力机制:处理1000万token能快16倍,已在Kimi上进行验证

MoBA 是一种新型注意力机制,通过块稀疏注意力和无参数门控机制,显著提升大型语言模型在长上下文任务中的效率。

622 3
来自: 自然语言处理  版块
|
10月前
|
人工智能 自然语言处理 数据可视化
|

AutoAgents:比LangChain更激进的AI开发神器!自然语言生成AI智能体军团,1句话搞定复杂任务

AutoAgents 是基于大型语言模型的自动智能体生成框架,能够根据用户设定的目标自动生成多个专家角色的智能体,通过协作完成复杂任务。支持动态生成智能体、任务规划与执行、多智能体协作等功能。

1612 91
来自: 自然语言处理  版块
|
10月前
|
人工智能 PyTorch 算法框架/工具
|

Sonic:自动对齐音频与唇部动作,一键合成配音动画!腾讯与浙大联合推出音频驱动肖像动画生成框架

Sonic 是由腾讯和浙江大学联合开发的音频驱动肖像动画框架,支持逼真的唇部同步、丰富的表情和头部动作、长时间稳定生成,并提供用户可调节性。

716 23
来自: 计算机视觉  版块
|
10月前
|
机器学习/深度学习 人工智能 并行计算
|

BEN2:一键快速抠图!自动移除图像和视频中的背景,支持在线使用

BEN2 是由 Prama LLC 开发的深度学习模型,专注于从图像和视频中快速移除背景并提取前景,支持高分辨率处理和GPU加速。

969 10
来自: 计算机视觉  版块
|
11月前
|
编解码 文字识别 语音技术
|

MiniCPM-o 2.6:流式全模态,端到端,多模态端侧大模型来了!

MiniCPM-o 2.6 是 MiniCPM-o 系列的最新、性能最佳模型。该模型基于 SigLip-400M、Whisper-medium-300M、ChatTTS-200M 和 Qwen2.5-7B 构建,共 8B 参数,通过端到端方式训练和推理。相比 MiniCPM-V 2.6,该模型在性能上有了显著提升,并支持了实时语音对话和多模态流式交互的新功能。

1664 70
|
11月前
|
人工智能 数据挖掘 API
|

R2R:开源的 RAG 集成系统,支持多模态处理、混合搜索、知识图谱构建等增强检索技术

R2R 是一款先进的 AI 检索增强生成平台,支持多模态内容处理、混合搜索和知识图谱构建,适用于复杂数据处理和分析的生产环境。

992 3
来自: 自然语言处理  版块
|
12月前
|
运维 前端开发 算法
|

开源中国【专访】 | CodeFuse:让研发变得更简单

CodeFuse 是蚂蚁集团自研的代码生成大模型,旨在简化研发流程,提供智能建议和实时支持。它能自动生成代码、添加注释、生成测试用例并优化代码。通过创新的 Rodimus 架构,CodeFuse 实现了“小体量,大能量”,显著提升了资源利用效率。其特色功能“图生代码”可将设计图一键转换为代码,准确率超过90%,大幅提高前端开发效率。此外,CodeFuse 还引入了“Code Graph”概念,帮助 LLM 更好地理解仓库级代码结构,缩短任务处理时间。未来,CodeFuse 将致力于全生命周期的研发支持,涵盖需求分析、代码生成到运维监测,推动行业技术迭代与创新。

600 3
|
1月前
|
存储 JSON 人工智能
|

MajorRAG聊天问答系统实现分析(3/3)

一个RAG项目,全文共三个部分:MajorRAG概述、MajorRAG文件内容提取实现分析、MajorRAG聊天问答系统实现分析。 1)第一次做RAG,欢迎带着指导意见评论 2)希望指出不足时可以附带替换方法 博客地址:https://zhangcraigxg.github.io

269 1
|
1月前
|
安全 Java 数据库连接
|

如何在Java代码中处理数据库连接异常

在Java中,合理处理数据库连接异常对程序稳定性至关重要。需捕获`ClassNotFoundException`和`SQLException`等具体异常,使用`try-with-resources`自动释放资源,结合日志记录与用户友好提示,并可引入重试机制应对网络波动,提升系统容错能力。

220 1
|
2月前
|
PyTorch 算法框架/工具 异构计算
|

75_TPU集成:Google Cloud加速

在大型语言模型(LLM)训练和推理的竞赛中,计算硬件的选择直接决定了研发效率和成本。Google的Tensor Processing Unit(TPU)作为专为AI计算设计的专用芯片,正逐渐成为大规模LLM开发的首选平台之一。随着2025年第七代TPU架构Ironwood的发布,Google在AI计算领域再次确立了技术领先地位。

493 0
|
2月前
|
缓存 边缘计算 监控
|

89_批量推理:异步API调用

在当今数据密集型应用和大模型部署的时代,批量推理已成为提升系统性能和资源利用率的关键技术。随着深度学习模型规模的不断扩大和应用场景的日益复杂,如何高效地处理大量推理请求成为技术团队面临的重要挑战。传统的同步API调用方式在面对高并发、大规模数据处理时,往往会遇到响应延迟高、资源利用不充分等问题。异步API调用作为一种更高效的处理模式,通过非阻塞操作和并发处理能力,为批量推理场景提供了理想的解决方案。

244 0
|
2月前
|
Prometheus 监控 Cloud Native
|

72_监控仪表盘:构建LLM开发环境的实时观测系统

在2025年的大模型(LLM)开发实践中,实时监控已成为确保模型训练效率和生产部署稳定性的关键环节。与传统软件开发不同,LLM项目面临着独特的监控挑战

249 0
|
4月前
|
人工智能 算法 测试技术
|

轻量高效,8B 性能强劲书生科学多模态模型Intern-S1-mini开源

继 7 月 26 日开源『书生』科学多模态大模型 Intern-S1 之后,上海人工智能实验室(上海AI实验室)在8月23日推出了轻量化版本 Intern-S1-mini。

711 50
|
4月前
|
人工智能 算法 开发者
|

开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告

开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告

410 10
|
4月前
|
数据采集 人工智能 定位技术
|

分享一个开源的MCP工具使用的AI Agent 支持常用的AI搜索/地图/金融/浏览器等工具

介绍一个开源可用的 MCP Tool Use 通用工具使用的 AI Agent (GitHub: https://github.com/AI-Agent-Hub/mcp-marketplace ,Web App https://agent.deepnlp.org/agent/mcp_tool_use,支持大模型从Open MCP Marketplace (http://deepnlp.org/store/ai-agent/mcp-server) 的1w+ 的 MCP Server的描述和 Tool Schema 里面,根据用户问题 query 和 工具 Tool描述的 相关性,选择出来可以满足

617 9
|
5月前
|
人工智能 自然语言处理 资源调度
|

魔搭社区模型速递(7.20-7.26)

魔搭ModelScope本期社区进展:1698个模型,216个数据集,103个创新应用, 7 篇内容

368 0
|
5月前
|
机器学习/深度学习 自然语言处理 算法
|

文心4.5系列模型,正式开源!

6月30日,百度文心大模型4.5正式开源,魔搭社区在开源首日快速接入文心大模型,提供真正可用、好用、可落地的大模型解决方案,现已面向广大企业、开发者下载体验!

340 1
|
7月前
|
人工智能 自然语言处理 搜索推荐
|

魔搭社区模型速递(4.27-5.10)

🙋魔搭ModelScope本期社区进展:📟2341个模型,206个数据集,🎨224个创新应用,📄 15篇内容

544 20
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
|

魔搭社区模型速递(4.20-4.26)

魔搭ModelScope本期社区进展:2227个模型,270个数据集,167个创新应用,10篇内容

412 4
|
8月前
|
人工智能 数据可视化 数据挖掘
|

AI竟能独立完成顶会论文!The AI Scientist-v2:开源端到端AI自主科研系统,自动探索科学假设生成论文

The AI Scientist-v2 是由 Sakana AI 等机构开发的端到端自主科研系统,通过树搜索算法与视觉语言模型反馈实现科学假设生成、实验执行及论文撰写全流程自动化,其生成论文已通过国际顶会同行评审。

565 34
来自: 自然语言处理  版块
|
8月前
|
机器学习/深度学习 人工智能 算法
|

超越 DeepSeek-R1!Seed-Thinking-v1.5:字节跳动开源MoE架构推理模型,200B总参数仅激活20B,推理效率提升5倍

字节跳动推出的200B参数混合专家模型,在AIME/Codeforces/GPQA等基准测试中实现多项突破,采用强化学习框架与流式推理系统,支持7大领域复杂推理任务。

574 13
来自: 自然语言处理  版块
|
8月前
|
机器学习/深度学习 人工智能
|

OmniCam:浙大联合上海交大推出多模态视频生成框架,虚拟导演打造百万级影视运镜

OmniCam是由浙江大学与上海交通大学联合研发的多模态视频生成框架,通过LLM与视频扩散模型结合实现高质量视频生成,支持文本、轨迹和图像等多种输入模态。

293 1
来自: 多模态  版块
|
8月前
|
机器学习/深度学习 人工智能 编解码
|

EasyControl Ghibli:在线体验一键生成宫崎骏动画风,开源AI模型让你的照片秒变吉卜力

EasyControl Ghibli是基于扩散模型的AI工具,通过条件注入技术将普通照片转化为吉卜力动画风格,仅需100张训练样本即可精准还原标志性光影与色调特征。

1198 11
来自: 计算机视觉  版块
|
8月前
|
机器学习/深度学习 自然语言处理 人机交互
|

重磅发布|支持东方40语种+中国22方言的新SOTA语音大模型Dolphin开源啦!

在当今数字化时代,语音识别技术已成为人机交互的关键桥梁,广泛应用于智能客服、语音助手、会议转录等众多领域。

593 0
|
9月前
|
存储 机器学习/深度学习 人工智能
|

TaoAvatar:手机拍出电影级虚拟人!阿里3D高斯黑科技让动捕设备下岗

阿里巴巴最新推出的TaoAvatar技术,通过3D高斯溅射实现照片级虚拟人实时渲染,支持多信号驱动与90FPS流畅运行,将彻底改变电商直播与远程会议体验。

638 8
来自: 计算机视觉  版块
|
9月前
|
人工智能 自然语言处理 数据可视化
|

autoMate:无需视觉模型!用DeepSeek-V3/R1就能实现自动化操作电脑,支持任何可视化界面

autoMate是一款基于AI和RPA的本地自动化工具,通过自然语言实现复杂任务的自动化操作,支持本地部署,确保数据安全和隐私,适合需要高效处理重复性工作的用户。

639 1
来自: 自然语言处理  版块
|
9月前
|
机器学习/深度学习 编解码 人工智能
|

魔搭社区模型速递(3.2-3.8)

🙋魔搭ModelScope本期社区进展:1340个模型,220个数据集,🎨91个创新应用,📄 8篇内容

556 9
|
9月前
|
人工智能 API 开发者
|

无需邀请码!MetaGPT 开源AI助手 OpenManus,实时反馈+模块化设计,开发者福音

OpenManus 是 MetaGPT 团队推出的开源 AI Agent 复刻版,支持多种语言模型和工具链,能够执行代码、处理文件、搜索网络信息等复杂任务,具备实时反馈机制和灵活的配置选项。

651 17
来自: 自然语言处理  版块
|
9月前
|
机器学习/深度学习 人工智能 机器人
|

阿里通义开源推理模型新王者!QwQ-32B:性能直逼671B的DeepSeek-R1

QwQ-32B 是阿里巴巴开源的新型推理模型,基于强化学习训练,具备强大的数学推理和编程能力,性能媲美更大参数量的模型。

930 8
来自: 自然语言处理  版块
|
9月前
|
编解码 人工智能 测试技术
|

CogView4开源发布!智谱AI文生图模型支持任意长度双语输入,汉字生成能力突出,可商用!

今天智谱AI正式发布并开源了最新的图像生成模型——CogView4。

719 10
|
10月前
|
人工智能 Serverless API
|

测评报告:零门槛、轻松部署您的专属 DeepSeek 模型

### 测评报告:零门槛、轻松部署您的专属 DeepSeek 模型 DeepSeek 是一款强大的推理模型,尤其擅长数学、代码和自然语言处理任务。由于算力限制,官方服务支持不稳定,阿里云提供了四种云上调用及部署方案,包括基于百炼调用API、PAI平台部署、函数计算部署和GPU云服务器部署。测评显示,PAI平台最具灵活性和易用性,但整体方案在文档指引、部署时间和成本方面仍有改进空间。建议优化文档和技术支持,提升用户体验。

659 3
|
10月前
|
人工智能 自然语言处理 数据可视化
|

YAYI-Ultra:中国企业终于等来『全能大脑』!开源企业级AI『混合专家』横扫金融舆情中医领域,最长生成20万字报告

YAYI-Ultra 是由中科闻歌研发的企业级大语言模型,具备强大的多领域专业能力和多模态内容生成能力,支持数学、代码、金融等多个领域的专家组合,缓解垂直领域迁移中的“跷跷板”现象。

472 10
来自: 自然语言处理  版块
|
11月前
|
人工智能 自然语言处理 语音技术
|

FilmAgent:多智能体共同协作制作电影,哈工大联合清华推出 AI 驱动的自动化电影制作工具

FilmAgent 是由哈工大与清华联合推出的AI电影自动化制作工具,通过多智能体协作实现从剧本生成到虚拟拍摄的全流程自动化。

2909 13
来自: 多模态  版块
|
11月前
|
机器学习/深度学习 人工智能 运维
|

CodeFuse团队2024年10篇论文总结

CodeFuse 是蚂蚁集团开发的多语言代码大型语言模型(LLM),基于海量高质量代码数据和多任务微调技术,已在内部研发人员的编码、测试、运维等场景中广泛应用。2024年,CodeFuse 在国际顶会如ICSE、ICDE、KDD等发表多篇论文,涵盖CodeLLM、机器学习、AI等领域,并开源多个自研大模型,总下载量近200万。项目持续迭代,欢迎贡献和建议。

504 11
|
11月前
|
人工智能 达摩院 并行计算
|

VideoRefer:阿里达摩院开源视频对象感知与推理框架,可集成 VLLM 提升其空间和时间理解能力

VideoRefer 是浙江大学与阿里达摩学院联合推出的视频对象感知与推理技术,支持细粒度视频对象理解、复杂关系分析及多模态交互,适用于视频剪辑、教育、安防等多个领域。

621 17
来自: 计算机视觉  版块
|
11月前
|
人工智能 搜索推荐 网络架构
|

TryOffAnyone:快速将模特服装图还原为平铺商品图,生成标准化的服装展示效果

TryOffAnyone 是一款基于 AI 技术的工具,能够将模特穿着服装的图像快速还原为平铺商品图,支持智能识别、自动优化等功能,适用于电商平台和虚拟试衣场景。

592 12
来自: 计算机视觉  版块
|
11月前
|
人工智能 搜索推荐
|

SoulChat2.0:低成本构建 AI 心理咨询师,华南理工开源心理咨询师数字孪生大语言模型

SoulChat2.0 是华南理工大学推出的心理咨询师数字孪生大语言模型,能够低成本、快速构建个性化咨询风格的心理健康大模型,辅助心理咨询师工作。

1621 9
来自: 自然语言处理  版块
|
12月前
|
机器学习/深度学习 人工智能 算法
|

Enhance-A-Video:上海 AI Lab 推出视频生成质量增强算法,显著提升 AI 视频生成的真实度和细节表现

Enhance-A-Video 是由上海人工智能实验室、新加坡国立大学和德克萨斯大学奥斯汀分校联合推出的视频生成质量增强算法,能够显著提升视频的对比度、清晰度和细节真实性。

598 8
来自: 计算机视觉  版块
|
23天前
|
机器学习/深度学习 人工智能 测试技术
|

NeurIPS 2025 | 浙大、浙工大等团队提出LRMs 自适应思考:简单任务快处理,复杂任务深分析

浙大、阿里云等提出首个LRM快慢思维控制方法,发现特定词可触发思维模式,结合PCA导向与自适应策略,实现无需训练的推理速度调控,在多模型上显著提升准确率并减少耗材。

121 1
|
2月前
|
存储 运维 监控
|

120_检查点管理:故障恢复 - 实现分布式保存机制

在大型语言模型(LLM)的训练过程中,检查点管理是确保训练稳定性和可靠性的关键环节。2025年,随着模型规模的不断扩大,从百亿参数到千亿参数,训练时间通常长达数周甚至数月,硬件故障、软件错误或网络中断等问题随时可能发生。有效的检查点管理机制不仅能够在故障发生时快速恢复训练,还能优化存储使用、提高训练效率,并支持实验管理和模型版本控制。

327 5
|
2月前
|
存储 消息中间件 监控
|

76_混合云环境:AWS与GCP互联

在当今数字化转型的浪潮中,混合云架构已成为企业IT基础设施的重要组成部分。截至2025年第一季度,全球云基础设施市场由三大云服务提供商主导:亚马逊云服务(AWS)占29%市场份额,微软Azure占22%,谷歌云平台(GCP)占12%。这三大提供商合计占据全球云市场约63%的份额。在这种情况下,企业越来越多地采用混合云策略,尤其是同时使用AWS和GCP这两个领先平台。

248 0

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

0
今日
14541
内容
6
活动
3813
关注
你好!
登录掌握更多精彩内容

相关产品

  • 人工智能平台 PAI
  • 文字识别
  • 智能语音交互