|
机器学习/深度学习 人工智能 自然语言处理
|

Granite 3.1:IBM 开源新一代可商用大语言模型,支持 128K 上下文长度、多语言和复杂任务处理

IBM 推出的 Granite 3.1 是一款新一代语言模型,具备强大的性能和更长的上下文处理能力,支持多语言和复杂任务处理。

567 0
来自: 自然语言处理  版块
|
人工智能 自然语言处理 搜索推荐
|

Open Notebook:开源 AI 笔记工具,支持多种文件格式,自动转播客和生成总结,集成搜索引擎等功能

Open Notebook 是一款开源的 AI 笔记工具,支持多格式笔记管理,并能自动将笔记转换为博客或播客,适用于学术研究、教育、企业知识管理等多个场景。

1158 0
来自: 多模态  版块
|
人工智能 文字识别 安全
|

Qwen开源视觉推理模型QVQ,更睿智地看世界!

在人类的思维中,语言和视觉紧密交织,塑造着我们感知和理解世界的方式。我们的推理能力深深植根于语言思维和视觉记忆之中。那么,当我们将这些能力赋予人工智能时,会发生什么呢?如今的大语言模型已经展现出卓越的推理能力,但我们不禁思考:它们能否通过掌握视觉理解的力量,攀登认知能力的新高峰?

1310 5
|
存储 缓存 物联网
|

MNN推理框架将大模型放进移动端设备,并达到SOTA推理性能!

随着移动端(手机/平板等)算力、内存、磁盘空间的不断增长,在移动端部署大模型逐渐成为可能。在端侧运行大模型,可以有一系列好处:去除网络延迟,加快响应速度;降低算力成本,便于大规模应用;不需数据上传,保护用户稳私。

2247 13
|
人工智能 自然语言处理 计算机视觉
|

AI大模型开启智能化新时代

12月19日下午,复旦大学计算机科学技术学院第十二期“步青讲坛”在江湾校区二号交叉学科楼E1006报告厅举行。本期讲坛特别邀请了阿里巴巴集团副总裁、IEEE Fellow叶杰平教授做题为《AI大模型开启智能化新时代》的精彩技术报告。

448 4

Qwen开源视觉推理模型QVQ,更睿智地看世界!

Qwen开源视觉推理模型QVQ,更睿智地看世界!

274 0

MNN推理框架将大模型放进移动端设备,并达到SOTA推理性能!

MNN推理框架将大模型放进移动端设备,并达到SOTA推理性能!

264 0

MNN推理框架将大模型放进移动端设备,并达到SOTA推理性能!

MNN推理框架将大模型放进移动端设备,并达到SOTA推理性能!

494 0
|
人工智能 自然语言处理 JavaScript
|

Univer:开源全栈 AI 办公工具,支持 Word、Excel、PPT 等文档处理和多人实时协作

Univer 是一款开源的 AI 办公工具,支持 Word、Excel 等文档处理的全栈解决方案。它具有强大的功能、高度的可扩展性和跨平台兼容性,适用于个人和企业用户,能够显著提高工作效率。

2041 9
来自: 多模态  版块
|
存储 人工智能 开发框架
|

Kheish:开源的多智能体开发框架,通过 YAML 配置工作流和多个 Agent 共同协作解决复杂任务

Kheish 是一个开源的多智能体协调平台,基于大型语言模型(LLM)设计,能够通过灵活配置多个智能体来解决复杂任务。平台支持模块化集成、聊天式提示、反馈循环等功能,适用于代码审计、法律文件分析、客户服务自动化等多种应用场景。

400 18
来自: 自然语言处理  版块
|
人工智能 自然语言处理 PyTorch
|

Bamba-9B:基于 Mamba2 架构的仅解码语言模型,旨在提高大型语言模型在推理时的效率

Bamba-9B 是由 IBM、普林斯顿大学、卡内基梅隆大学和伊利诺伊大学香槟分校联合推出的基于 Mamba2 架构的仅解码语言模型。该模型在开放数据集上训练,旨在提高大型语言模型的推理效率,特别是在处理长文本时的内存带宽瓶颈。Bamba-9B 在推理时相较于标准变换器模型展现出 2.5 倍的吞吐量提升和 2 倍的延迟加速。

365 12
来自: 自然语言处理  版块
|
人工智能 异构计算
|

DisPose:清华北大等多所高校联合推出基于人物图像增强视频生成技术,实现对人物动画的准确控制和一致性

DisPose是由北京大学、中国科学技术大学、清华大学和香港科技大学联合推出的增强人物图像控制动画质量的技术。该技术通过从骨骼姿态和参考图像中提取控制信号,生成密集运动场,并保持对不同体型的泛化能力,显著提升了人物图像动画的质量和一致性。

325 14
来自: 计算机视觉  版块
|
机器学习/深度学习 人工智能 PyTorch
|

HelloMeme:开源的面部表情与姿态迁移框架,将视频中的人物表情迁移到静态图像中生成动态视频

HelloMeme 是一个基于 Stable Diffusion 1.5 模型的面部表情与姿态迁移框架,通过集成空间编织注意力机制,实现了自然且物理合理的表情包视频生成。该框架具有强大的泛化能力和扩展性,适用于多种应用场景。

542 77
来自: 计算机视觉  版块
|
机器学习/深度学习 编解码 人工智能
|

InvSR:开源图像超分辨率生成模型,提升分辨率,修复老旧照片为超清图像

InvSR 是一个创新的图像超分辨率模型,基于扩散模型的逆过程恢复高分辨率图像。它通过深度噪声预测器和灵活的采样机制,能够高效地提升图像分辨率,适用于老旧照片修复、视频监控、医疗成像等多个领域。

2476 9
来自: 计算机视觉  版块
|
机器学习/深度学习 人工智能 编解码
|

CLEAR:新加坡国立大学推出线性注意力机制,使8K图像的生成速度提升6.3倍,显著减少了计算量和时间延迟

新加坡国立大学推出的CLEAR线性注意力机制,通过局部注意力窗口设计,显著提升了预训练扩散变换器生成高分辨率图像的效率,生成8K图像时提速6.3倍。

285 18
来自: 计算机视觉  版块
|
数据采集 人工智能 自动驾驶
|

VSI-Bench:李飞飞谢赛宁团队推出视觉空间智能基准测试集,旨在评估多模态大语言模型在空间认知和理解方面的能力

VSI-Bench是由李飞飞和谢赛宁团队推出的视觉空间智能基准测试集,旨在评估多模态大型语言模型(MLLMs)在空间认知和理解方面的能力。该基准测试集包含超过5000个问题-答案对,覆盖近290个真实室内场景视频,涉及多种环境,能够系统地测试和提高MLLMs在视觉空间智能方面的表现。

481 16
来自: 多模态  版块
|
机器学习/深度学习 异构计算 Python
|

HelloMeme:充分利用 SD1.5 基模的理解能力,实现表情与姿态的迁移

利用最新的 Diffusion 生成技术实现表情迁移

411 0

HelloMeme:充分利用 SD1.5 基模的理解能力,实现表情与姿态的迁移

HelloMeme:充分利用 SD1.5 基模的理解能力,实现表情与姿态的迁移

185 0
|
人工智能 监控 算法
|

3D-Speaker:阿里通义开源的多模态说话人识别项目,支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录

3D-Speaker是阿里巴巴通义实验室推出的多模态说话人识别开源项目,结合声学、语义和视觉信息,提供高精度的说话人识别和语种识别功能。项目包含工业级模型、训练和推理代码,以及大规模多设备、多距离、多方言的数据集,适用于多种应用场景。

3115 18
来自: 语音  版块
|
人工智能 运维 算法
|

资讯 | CodeFuse邀你12月28日参加OSC源创会年终盛典活动

2024年OSC源创会年终盛典将于12月28日在珠海举行,CodeFuse将在主论坛分享《CodeFuse基座模型介绍》并展示最新项目。欢迎扫码报名!

126 0
|
开发者
|

CodeFuse「编码挑战季」圆满收官!大奖揭晓!

感谢每一位参与者的热情支持!CodeFuse「编码挑战季」圆满结束,活动历时两个月,见证了大家对编码的热情和对技术的执着。我们公布了项目特别贡献奖获奖者,并开启了积分兑换奖品通道。已完成任务的小伙伴可通过私聊【CodeFuse 服务助手】兑换定制礼品。未来,CodeFuse将继续陪伴大家成长,期待下次活动再见!12月28日还有线下见面会,欢迎参加!🌟🎉🎁 (239字符)

142 0
|
机器学习/深度学习 人工智能 智能设计
|

VisionFM:通用眼科 AI 大模型,具备眼科疾病诊断能力,展现出专家级别的准确性

VisionFM 是一个多模态多任务的视觉基础模型,专为通用眼科人工智能设计。通过预训练大量眼科图像,模型能够处理多种眼科成像模态,并在多种眼科任务中展现出专家级别的智能性和准确性。

611 4
来自: 计算机视觉  版块
|
存储 人工智能 API
|

AgentScope:阿里开源多智能体低代码开发平台,支持一键导出源码、多种模型API和本地模型部署

AgentScope是阿里巴巴集团开源的多智能体开发平台,旨在帮助开发者轻松构建和部署多智能体应用。该平台提供分布式支持,内置多种模型API和本地模型部署选项,支持多模态数据处理。

6826 77
来自: 多模态  版块
|
人工智能 数据挖掘 vr&ar
|

LeviTor:蚂蚁集团开源3D目标轨迹控制视频合成技术,能够控制视频中3D物体的运动轨迹

LeviTor是由南京大学、蚂蚁集团等机构联合推出的3D目标轨迹控制视频合成技术,通过结合深度信息和K-means聚类点控制视频中3D物体的轨迹,无需显式的3D轨迹跟踪。

344 4
来自: 计算机视觉  版块
|
机器学习/深度学习 人工智能 物联网
|

AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营

12月14日,由中国软件行业校园招聘与实习公共服务平台携手魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行AIGC项目实战营·湖南大学站圆满结营。

468 58
|
人工智能 自然语言处理 小程序
|

魔搭社区每周速递(12.15-12.21)

🙋魔搭ModelScope本期社区进展:📟1914个模型,📁58个数据集,🎨78个创新应用,📄 8篇内容

425 4
|
存储 人工智能 编解码
|

多模态实时交互大模型浦语·灵笔 2.5 OmniLive开源:能看、能听、会记、会说!

2024年12月12日,多模态实时交互大模型书生·浦语灵笔2.5-OL(InternLM-XComposer2.5-OmniLive)开源,该模型可以通过视觉和听觉实时观察和理解外部世界,自动形成对观察到内容的长期记忆,并可通过语音与人类用户进行对话交谈,提供更自然的大模型交互体验。

816 4
|
机器学习/深度学习 存储 自然语言处理
|

RWKV-7:极先进的大模型架构,长文本能力极强

RWKV-7 是极先进的最新大模型架构,超越 attention / linear attention 范式,拥有强大的 in-context-learning(上下文学习)能力,可真正持续学习,在保持 100% RNN 的同时,拥有极强的长文本能力。

601 2

AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营

AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营

256 0

AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营

AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营

234 1
|
人工智能 自然语言处理
|

RWKV-7:RWKV系列开源最新的大模型架构,具有强大的上下文学习能力,超越传统的Attention范式

RWKV-7是RWKV系列的最新大模型架构版本,具有强大的上下文学习能力,超越了传统的attention和linear attention范式。本文详细介绍了RWKV-7的主要功能、技术原理及其在多语言处理、文本生成等领域的应用场景。

899 7
来自: 自然语言处理  版块
|
人工智能 Linux API
|

PromptWizard:微软开源 AI 提示词自动化优化框架,能够迭代优化提示指令和上下文示例,提升 LLMs 特定任务的表现

PromptWizard 是微软开源的 AI 提示词自动化优化框架,通过自我演变和自我适应机制,迭代优化提示指令和上下文示例,提升大型语言模型(LLMs)在特定任务中的表现。本文详细介绍了 PromptWizard 的主要功能、技术原理以及如何运行该框架。

1062 8
来自: 自然语言处理  版块
|
人工智能 自然语言处理 计算机视觉
|

StyleStudio:支持图像风格迁移的文生图模型,能将融合参考图像的风格和文本提示内容生成风格一致的图像

StyleStudio 是一种文本驱动的风格迁移模型,能够将参考图像的风格与文本提示内容融合。通过跨模态 AdaIN 机制、基于风格的分类器自由引导等技术,解决了风格过拟合、控制限制和文本错位等问题,提升了风格迁移的质量和文本对齐的准确性。

590 8
来自: 计算机视觉  版块
|
人工智能 前端开发 API
|

OpenAI 12天发布会内容全纪录!一文快速回顾获知亮点信息,原文附发布会中文字幕视频

OpenAI 于12月5日宣布将举行为期12天的系列发布活动,期间每天发布一个产品或样品,包括备受期待的AI视频生成工具Sora和新的推理模型。本文将介绍这12天的发布会每日的发布内容和相关亮点信息。

835 82
来自: 自然语言处理  版块
|
人工智能 内存技术
|

Gemini 2.0 Flash Thinking:谷歌推出实验性多模态推理模型,在快速生成的同时展示详细的思考过程

谷歌推出的实验性推理模型Gemini 2.0 Flash Thinking,展示了详细的思考过程,能够在多个领域快速解决问题,并提供推理路径。本文将详细介绍该模型的功能、技术原理及使用限制。

640 26
来自: 自然语言处理  版块
|
人工智能
|

AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性

AniDoc 是一款基于视频扩散模型的 2D 动画上色 AI 模型,能够自动将草图序列转换为彩色动画。该模型通过对应匹配技术和背景增强策略,实现了色彩和风格的准确传递,适用于动画制作、游戏开发和数字艺术创作等多个领域。

594 16
来自: 计算机视觉  版块
|
机器学习/深度学习 人工智能 自然语言处理
|

Genesis:卡内基梅隆大学联合 20 多所研究机构开源生成式物理引擎,能够模拟各种材料、物体和物理运动现象

Genesis是由卡内基梅隆大学联合20多所研究机构开源的生成式物理引擎,能够模拟世界万物,具有高度的物理准确性和快速的模拟速度,适用于机器人仿真、游戏开发、电影特效制作等多个领域。

612 21
来自: 计算机视觉  版块
|
人工智能 移动开发 前端开发
|

WeaveFox:蚂蚁集团推出 AI 前端智能研发平台,能够根据设计图直接生成源代码,支持多种客户端和技术栈

蚂蚁团队推出的AI前端研发平台WeaveFox,能够根据设计图直接生成前端源代码,支持多种应用类型和技术栈,提升开发效率和质量。本文将详细介绍WeaveFox的功能、技术原理及应用场景。

6311 68
来自: 多模态  版块
|
监控 数据可视化 架构师
|

为什么企业需要开展架构治理?

随着数字化转型加速,企业面临的技术和业务环境日益复杂,传统架构难以应对快速变化的需求。企业架构治理成为数字化转型的关键,通过确保技术与战略对接、优化资源利用、降低风险和复杂性,提升企业灵活性、效率和创新能力,支持快速响应市场变化,推动数字化转型成功。

572 7
|
人工智能 算法 决策智能
|

CompassArena上新!JudgeCopilot与新一代Bradley-Terry模型竞技体验

2024 年 5 月,上海人工智能实验室司南 OpenCompass 团队携手魔搭 ModelScope,联合推出了大模型评测平台——CompassArena(大模型竞技场),为大模型领域引入了一种全新的竞技模式。

309 6
|
自然语言处理 测试技术
|

社区供稿 | 引入隐式模型融合技术,中山大学团队推出 FuseChat-3.0

在大语言模型(LLM)领域,结合多个模型的优势以提升单个模型的能力已成为一大趋势。然而,以往的模型融合方法例如 FuseLLM[1], FuseChat-1.0/2.0[2] 等存在词表对齐困难、效率低下等问题。

262 12
|
人工智能 移动开发 前端开发
|

温暖接力:“追星星的AI”再出发,志愿者招募令!

孤独症儿童绘本创作工具二期迭代开发,缺人!

396 21
|
机器学习/深度学习 存储 自然语言处理
|

如何提升大模型的“深度思维能力”

本文探讨了如何通过模拟人类的思维过程来提升大模型的推理和规划能力。文章从人类的思维模式入手,分析了人类在面对复杂问题时的“增-减”信息循环,提出了通过增加相关信息和减少噪声来降低信息熵的方法。文章还讨论了如何生成逻辑自洽的推理路径,并通过实例说明了多结论问题的处理方法。最后,文章指出,通过现有的大模型进行针对性微调,可以逐步强化数据,提升模型的推理和规划能力。

1012 11
|
人工智能 算法 机器人
|

EMMA-X:新加坡科技设计大学推出具身多模态动作模型,使夹爪机器人具备空间推理和任务规划能力

EMMA-X是由新加坡科技设计大学推出的具身多模态动作模型,具备70亿参数,通过在链式思维推理数据上微调OpenVLA创建。该模型结合层次化的具身数据集,增强空间推理和任务规划能力。

464 3
来自: 多模态  版块
|
存储 人工智能 开发者
|

GitHub 推出免费版 GitHub Copilot:提供每月2,000次代码补全和50条聊天消息,支持多种主流大模型

GitHub 推出了 GitHub Copilot Free,提供每月 2,000 代码补全和 50 聊天消息,支持多种模型和功能,助力 1.5 亿开发者。

857 5
来自: 自然语言处理  版块
|
机器学习/深度学习 人工智能 算法
|

X-AnyLabeling:开源的 AI 图像标注工具,支持多种标注样式,适于目标检测、图像分割等不同场景

X-AnyLabeling是一款集成了多种深度学习算法的图像标注工具,支持图像和视频的多样化标注样式,适用于多种AI训练场景。本文将详细介绍X-AnyLabeling的功能、技术原理以及如何运行该工具。

3141 2
来自: 计算机视觉  版块
|
人工智能 文字识别 语音技术
|

Megrez-3B-Omni: 首个端侧全模态理解开源模型

Megrez-3B-Omni是由无问芯穹(Infinigence AI)研发的端侧全模态理解模型,基于无问大语言模型Megrez-3B-Instruct扩展,同时具备图片、文本、音频三种模态数据的理解分析能力。

715 3

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

0
今日
14543
内容
6
活动
3820
关注
你好!
登录掌握更多精彩内容

相关产品

  • 人工智能平台 PAI
  • 文字识别
  • 智能语音交互