|
4天前
|
数据采集 存储 自然语言处理
|

魔搭社区每周速递(12.22-12.28)

魔搭ModelScope本期社区进展:1039个模型,128个数据集,63个创新应用,6篇内容。

29 4
|
5天前
|
人工智能 自然语言处理 决策智能
|

DRT-o1:腾讯推出专注于文学翻译的 AI 模型,擅长理解比喻和隐喻等修辞手法,在翻译时保留原文的情感色彩

DRT-o1 是腾讯研究院推出的文学翻译系列 AI 模型,通过长链思考推理技术显著提升翻译质量,特别擅长处理比喻和隐喻等修辞手法。

34 2
来自: 自然语言处理  版块
|
5天前
|
人工智能 自然语言处理 监控
|

video-analyzer:开源视频分析工具,支持提取视频关键帧、音频转录,自动生成视频详细描述

video-analyzer 是一款开源视频分析工具,结合 Llama 的 11B 视觉模型和 OpenAI 的 Whisper 模型,能够提取视频关键帧、转录音频并生成详细描述,支持本地运行和多种应用场景

39 6
来自: 计算机视觉  版块
|
5天前
|
人工智能 自然语言处理 API
|

Mathtutor on Groq:AI 数学辅导工具,实时计算并展示解题过程,支持通过语音提出数学问题

Mathtutor on Groq 是一款基于 Groq 架构的 AI 数学辅导工具,支持语音输入数学问题,实时计算并渲染解题过程,适用于代数、微积分等领域的学习和教学辅助。

33 5
来自: 科学计算  版块
|
5天前
|
机器学习/深度学习 人工智能
|

DiTCtrl:腾讯推出多提示视频生成方法,通过多个提示生成连贯的视频内容,确保内容与提示一致

DiTCtrl 是一种基于多模态扩散变换器(MM-DiT)架构的多提示视频生成方法,能够在无需额外训练的情况下,实现多个文本提示之间的连贯视频生成,并保持内容和运动的一致性。

19 1
来自: 计算机视觉  版块
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
|

ModernBERT:英伟达开源的新一代编码器模型,性能超越 SOTA,通过去除填充和序列打包减少计算浪费,提高训练和推理的效率

ModernBERT 是由英伟达和 HuggingFace 等机构联合开源的新一代编码器模型,支持长上下文处理,性能超越 SOTA,适合多种自然语言处理任务。

37 7
来自: 自然语言处理  版块
|
5天前
|
人工智能 智能硬件
|

SPAR:智谱 AI 推出自我博弈训练框架,基于生成者和完善者两个角色的互动,提升了执行准确度和自我完善能力

SPAR 是智谱团队推出的自我博弈训练框架,旨在提升大型语言模型在指令遵循方面的能力,通过生成者和完善者的互动以及树搜索技术优化模型响应。

19 0
来自: 自然语言处理  版块
|
5天前
|
人工智能 开发框架 JavaScript
|

LowCodeEngine:阿里开源的企业级低代码开发平台,提供预制的 UI 组件和模板,覆盖完整的研发周期

LowCodeEngine 是阿里巴巴开源的低代码开发框架,旨在通过拖拽、配置等简单操作,帮助开发者快速构建复杂的系统页面,提升开发效率和质量。

42 4
来自: 多模态  版块
|
5天前
|
人工智能 自然语言处理 测试技术
|

DeepSeek V3:DeepSeek 开源的最新多模态 AI 模型,编程能力超越Claude,生成速度提升至 60 TPS

DeepSeek V3 是深度求索公司开源的最新 AI 模型,采用混合专家架构,具备强大的编程和多语言处理能力,性能超越多个竞争对手。

143 4
来自: 自然语言处理  版块
|
7天前
|
数据采集 人工智能 分布式计算
|

探索云端数据力量:MaxFrame的革命性实践

MaxFrame是阿里云自研的分布式计算框架,专为Python开发者设计,支持大规模数据处理和AI模型开发。本文介绍MaxFrame方案,评测其在分布式Pandas处理、大语言模型数据处理中的表现,分析产品开通使用步骤及功能满足度,并提出改进建议。对比其他工具,MaxFrame易用性高、性能优,但在功能丰富度上仍有提升空间。总结指出MaxFrame潜力巨大,未来有望更加完善。

58 24
|
7天前
|
存储 机器学习/深度学习 人工智能
|

轻松实现向量搜索:探索 Elastic-Embedding-Searcher 项目

elastic-embedding-searcher 是一个基于 Elasticsearch 的向量搜索框架,简化了向量数据的存储和检索过程。通过结合 Elasticsearch 的分布式能力与向量表示,项目实现了高效、精准的相似度检索。支持多种流行的嵌入模型(如 BERT、Word2Vec),并能够处理大规模数据集。该项目适用于文本相似度检索、问答系统及多语言处理等场景,开发者可以轻松集成并实现高效的数据检索。

48 2
|
7天前
|
人工智能 自然语言处理 Swift
|

ModernBERT-base:终于等到了 BERT 回归

BERT于 2018 年发布(史前人工智能!),但它至今仍被广泛使用,BERT的纯编码器架构使其成为每天出现的各种场景的理想选择,例如检索、分类和实体提取。

94 3
来自: 自然语言处理  版块
|
8天前
|
前端开发 算法 安全
|

一站式搭建相亲交友APP丨交友系统源码丨语音视频聊天社交软件平台系统丨开发流程步骤

本文详细介绍了一站式搭建相亲交友APP的开发流程,涵盖需求分析、技术选型、系统设计、编码实现、测试、部署上线及后期维护等环节。通过市场调研明确平台定位与功能需求,选择适合的技术栈(如React、Node.js、MySQL等),设计系统架构和数据库结构,开发核心功能如用户注册、匹配算法、音视频聊天等,并进行严格的测试和优化,确保系统的稳定性和安全性。最终,通过云服务部署上线,并持续维护和迭代,提供一个功能完善、安全可靠的社交平台。

67 6
|
8天前
|
索引 搜索推荐 UED
|

基于elasticsearch + huggingface model 实现语义检索

项目地址:https://github.com/skyterra/elastic-embedding-searcher。本项目利用Hugging Face模型生成文本的嵌入向量,并将其同步至Elasticsearch创建索引,支持通过余弦相似度进行高效的向量搜索,实现精准的内容检索与推荐功能。该项目为开发智能搜索应用提供了强大的后端支持。 (该简介有239个字符,包括标点和空格)

63 8
|
8天前
|
存储 人工智能 人机交互
|

PC Agent:开源 AI 电脑智能体,自动收集人机交互数据,模拟认知过程实现办公自动化

PC Agent 是上海交通大学与 GAIR 实验室联合推出的智能 AI 系统,能够模拟人类认知过程,自动化执行复杂的数字任务,如组织研究材料、起草报告等,展现了卓越的数据效率和实际应用潜力。

78 1
来自: 多模态  版块
|
8天前
|
数据采集 人工智能 自然语言处理
|

Midscene.js:AI 驱动的 UI 自动化测试框架,支持自然语言交互,生成可视化报告

Midscene.js 是一款基于 AI 技术的 UI 自动化测试框架,通过自然语言交互简化测试流程,支持动作执行、数据查询和页面断言,提供可视化报告,适用于多种应用场景。

96 1
来自: 多模态  版块
|
8天前
|
人工智能 自然语言处理 并行计算
|

ASAL:Sakana AI 联合 OpenAI 推出自动探索人工生命的系统,通过计算机模拟生命进化的过程

ASAL 是由 Sakana AI 联合 OpenAI 等机构推出的自动化搜索人工生命系统,基于基础模型实现多种搜索机制,扩展了人工生命研究的边界。

59 1
来自: 科学计算  版块
|
8天前
|
人工智能 vr&ar
|

TRELLIS:微软联合清华和中科大推出的高质量 3D 生成模型,支持局部控制和多种输出格式

TRELLIS 是由微软、清华大学和中国科学技术大学联合推出的高质量 3D 生成模型,能够根据文本或图像提示生成多样化的 3D 资产,支持多种输出格式和灵活编辑。

79 3
来自: 计算机视觉  版块
|
8天前
|
人工智能 API 数据库
|

Browser Use:开源 AI 浏览器助手,自动完成网页交互任务,支持多标签页管理、视觉识别和内容提取等功能

Browser Use 是一款专为大语言模型设计的智能浏览器工具,支持多标签页管理、视觉识别、内容提取等功能,并能记录和重复执行特定动作,适用于多种应用场景。

134 0
来自: 多模态  版块
|
8天前
|
机器学习/深度学习 人工智能 自然语言处理
|

Granite 3.1:IBM 开源新一代可商用大语言模型,支持 128K 上下文长度、多语言和复杂任务处理

IBM 推出的 Granite 3.1 是一款新一代语言模型,具备强大的性能和更长的上下文处理能力,支持多语言和复杂任务处理。

49 0
来自: 自然语言处理  版块
|
8天前
|
人工智能 自然语言处理 搜索推荐
|

Open Notebook:开源 AI 笔记工具,支持多种文件格式,自动转播客和生成总结,集成搜索引擎等功能

Open Notebook 是一款开源的 AI 笔记工具,支持多格式笔记管理,并能自动将笔记转换为博客或播客,适用于学术研究、教育、企业知识管理等多个场景。

67 0
来自: 多模态  版块
|
9天前
|
人工智能 文字识别 安全
|

Qwen开源视觉推理模型QVQ,更睿智地看世界!

在人类的思维中,语言和视觉紧密交织,塑造着我们感知和理解世界的方式。我们的推理能力深深植根于语言思维和视觉记忆之中。那么,当我们将这些能力赋予人工智能时,会发生什么呢?如今的大语言模型已经展现出卓越的推理能力,但我们不禁思考:它们能否通过掌握视觉理解的力量,攀登认知能力的新高峰?

222 5
|
9天前
|
存储 缓存 物联网
|

MNN推理框架将大模型放进移动端设备,并达到SOTA推理性能!

随着移动端(手机/平板等)算力、内存、磁盘空间的不断增长,在移动端部署大模型逐渐成为可能。在端侧运行大模型,可以有一系列好处:去除网络延迟,加快响应速度;降低算力成本,便于大规模应用;不需数据上传,保护用户稳私。

62 13
|
9天前
|
人工智能 自然语言处理 计算机视觉
|

AI大模型开启智能化新时代

12月19日下午,复旦大学计算机科学技术学院第十二期“步青讲坛”在江湾校区二号交叉学科楼E1006报告厅举行。本期讲坛特别邀请了阿里巴巴集团副总裁、IEEE Fellow叶杰平教授做题为《AI大模型开启智能化新时代》的精彩技术报告。

82 4
|
9天前
|
人工智能 自然语言处理 JavaScript
|

Univer:开源全栈 AI 办公工具,支持 Word、Excel、PPT 等文档处理和多人实时协作

Univer 是一款开源的 AI 办公工具,支持 Word、Excel 等文档处理的全栈解决方案。它具有强大的功能、高度的可扩展性和跨平台兼容性,适用于个人和企业用户,能够显著提高工作效率。

72 7
来自: 多模态  版块
|
9天前
|
存储 人工智能 开发框架
|

Kheish:开源的多智能体开发框架,通过 YAML 配置工作流和多个 Agent 共同协作解决复杂任务

Kheish 是一个开源的多智能体协调平台,基于大型语言模型(LLM)设计,能够通过灵活配置多个智能体来解决复杂任务。平台支持模块化集成、聊天式提示、反馈循环等功能,适用于代码审计、法律文件分析、客户服务自动化等多种应用场景。

66 18
来自: 自然语言处理  版块
|
9天前
|
人工智能 自然语言处理 PyTorch
|

Bamba-9B:基于 Mamba2 架构的仅解码语言模型,旨在提高大型语言模型在推理时的效率

Bamba-9B 是由 IBM、普林斯顿大学、卡内基梅隆大学和伊利诺伊大学香槟分校联合推出的基于 Mamba2 架构的仅解码语言模型。该模型在开放数据集上训练,旨在提高大型语言模型的推理效率,特别是在处理长文本时的内存带宽瓶颈。Bamba-9B 在推理时相较于标准变换器模型展现出 2.5 倍的吞吐量提升和 2 倍的延迟加速。

55 12
来自: 自然语言处理  版块
|
9天前
|
人工智能 异构计算
|

DisPose:清华北大等多所高校联合推出基于人物图像增强视频生成技术,实现对人物动画的准确控制和一致性

DisPose是由北京大学、中国科学技术大学、清华大学和香港科技大学联合推出的增强人物图像控制动画质量的技术。该技术通过从骨骼姿态和参考图像中提取控制信号,生成密集运动场,并保持对不同体型的泛化能力,显著提升了人物图像动画的质量和一致性。

70 13
来自: 计算机视觉  版块
|
9天前
|
机器学习/深度学习 人工智能 PyTorch
|

HelloMeme:开源的面部表情与姿态迁移框架,将视频中的人物表情迁移到静态图像中生成动态视频

HelloMeme 是一个基于 Stable Diffusion 1.5 模型的面部表情与姿态迁移框架,通过集成空间编织注意力机制,实现了自然且物理合理的表情包视频生成。该框架具有强大的泛化能力和扩展性,适用于多种应用场景。

129 77
来自: 计算机视觉  版块
|
9天前
|
机器学习/深度学习 编解码 人工智能
|

InvSR:开源图像超分辨率生成模型,提升分辨率,修复老旧照片为超清图像

InvSR 是一个创新的图像超分辨率模型,基于扩散模型的逆过程恢复高分辨率图像。它通过深度噪声预测器和灵活的采样机制,能够高效地提升图像分辨率,适用于老旧照片修复、视频监控、医疗成像等多个领域。

86 9
来自: 计算机视觉  版块
|
9天前
|
机器学习/深度学习 人工智能 编解码
|

CLEAR:新加坡国立大学推出线性注意力机制,使8K图像的生成速度提升6.3倍,显著减少了计算量和时间延迟

新加坡国立大学推出的CLEAR线性注意力机制,通过局部注意力窗口设计,显著提升了预训练扩散变换器生成高分辨率图像的效率,生成8K图像时提速6.3倍。

63 17
来自: 计算机视觉  版块
|
9天前
|
数据采集 人工智能 自动驾驶
|

VSI-Bench:李飞飞谢赛宁团队推出视觉空间智能基准测试集,旨在评估多模态大语言模型在空间认知和理解方面的能力

VSI-Bench是由李飞飞和谢赛宁团队推出的视觉空间智能基准测试集,旨在评估多模态大型语言模型(MLLMs)在空间认知和理解方面的能力。该基准测试集包含超过5000个问题-答案对,覆盖近290个真实室内场景视频,涉及多种环境,能够系统地测试和提高MLLMs在视觉空间智能方面的表现。

51 16
来自: 多模态  版块
|
10天前
|
机器学习/深度学习 异构计算 Python
|

HelloMeme:充分利用 SD1.5 基模的理解能力,实现表情与姿态的迁移

利用最新的 Diffusion 生成技术实现表情迁移

35 0
|
11天前
|
人工智能 监控 算法
|

3D-Speaker:阿里通义开源的多模态说话人识别项目,支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录

3D-Speaker是阿里巴巴通义实验室推出的多模态说话人识别开源项目,结合声学、语义和视觉信息,提供高精度的说话人识别和语种识别功能。项目包含工业级模型、训练和推理代码,以及大规模多设备、多距离、多方言的数据集,适用于多种应用场景。

112 18
来自: 语音  版块
|
11天前
|
人工智能 运维 算法
|

资讯 | CodeFuse邀你12月28日参加OSC源创会年终盛典活动

2024年OSC源创会年终盛典将于12月28日在珠海举行,CodeFuse将在主论坛分享《CodeFuse基座模型介绍》并展示最新项目。欢迎扫码报名!

11 0
|
11天前
|
开发者
|

CodeFuse「编码挑战季」圆满收官!大奖揭晓!

感谢每一位参与者的热情支持!CodeFuse「编码挑战季」圆满结束,活动历时两个月,见证了大家对编码的热情和对技术的执着。我们公布了项目特别贡献奖获奖者,并开启了积分兑换奖品通道。已完成任务的小伙伴可通过私聊【CodeFuse 服务助手】兑换定制礼品。未来,CodeFuse将继续陪伴大家成长,期待下次活动再见!12月28日还有线下见面会,欢迎参加!🌟🎉🎁 (239字符)

11 0
|
11天前
|
机器学习/深度学习 人工智能 智能设计
|

VisionFM:通用眼科 AI 大模型,具备眼科疾病诊断能力,展现出专家级别的准确性

VisionFM 是一个多模态多任务的视觉基础模型,专为通用眼科人工智能设计。通过预训练大量眼科图像,模型能够处理多种眼科成像模态,并在多种眼科任务中展现出专家级别的智能性和准确性。

49 4
来自: 计算机视觉  版块
|
11天前
|
存储 人工智能 API
|

AgentScope:阿里开源多智能体低代码开发平台,支持一键导出源码、多种模型API和本地模型部署

AgentScope是阿里巴巴集团开源的多智能体开发平台,旨在帮助开发者轻松构建和部署多智能体应用。该平台提供分布式支持,内置多种模型API和本地模型部署选项,支持多模态数据处理。

103 4
来自: 多模态  版块
|
11天前
|
人工智能 数据挖掘 vr&ar
|

LeviTor:蚂蚁集团开源3D目标轨迹控制视频合成技术,能够控制视频中3D物体的运动轨迹

LeviTor是由南京大学、蚂蚁集团等机构联合推出的3D目标轨迹控制视频合成技术,通过结合深度信息和K-means聚类点控制视频中3D物体的轨迹,无需显式的3D轨迹跟踪。

52 4
来自: 计算机视觉  版块
|
11天前
|
小程序 前端开发 数据挖掘
|

圈子论坛社区交友系统开源版小程序源码,自定义小程序管理社区圈子软件开发,打造受欢迎社交圈

通过获取开源版小程序源码、进行自定义小程序管理社区圈子软件开发以及注重用户体验和功能模块的设计,可以打造一个受欢迎的社交圈。同时,需要不断优化和完善系统,以满足用户不断变化的需求和期望。

39 0
|
11天前
|
机器学习/深度学习 人工智能 物联网
|

AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营

12月14日,由中国软件行业校园招聘与实习公共服务平台携手魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行AIGC项目实战营·湖南大学站圆满结营。

133 58
|
11天前
|
人工智能 自然语言处理 小程序
|

魔搭社区每周速递(12.15-12.21)

🙋魔搭ModelScope本期社区进展:📟1914个模型,📁58个数据集,🎨78个创新应用,📄 8篇内容

56 4
|
11天前
|
存储 人工智能 编解码
|

多模态实时交互大模型浦语·灵笔 2.5 OmniLive开源:能看、能听、会记、会说!

2024年12月12日,多模态实时交互大模型书生·浦语灵笔2.5-OL(InternLM-XComposer2.5-OmniLive)开源,该模型可以通过视觉和听觉实时观察和理解外部世界,自动形成对观察到内容的长期记忆,并可通过语音与人类用户进行对话交谈,提供更自然的大模型交互体验。

85 4
|
11天前
|
机器学习/深度学习 存储 自然语言处理
|

RWKV-7:极先进的大模型架构,长文本能力极强

RWKV-7 是极先进的最新大模型架构,超越 attention / linear attention 范式,拥有强大的 in-context-learning(上下文学习)能力,可真正持续学习,在保持 100% RNN 的同时,拥有极强的长文本能力。

67 2
|
12天前
|
人工智能 自然语言处理
|

RWKV-7:RWKV系列开源最新的大模型架构,具有强大的上下文学习能力,超越传统的Attention范式

RWKV-7是RWKV系列的最新大模型架构版本,具有强大的上下文学习能力,超越了传统的attention和linear attention范式。本文详细介绍了RWKV-7的主要功能、技术原理及其在多语言处理、文本生成等领域的应用场景。

91 7
来自: 自然语言处理  版块
|
12天前
|
人工智能 Linux API
|

PromptWizard:微软开源 AI 提示词自动化优化框架,能够迭代优化提示指令和上下文示例,提升 LLMs 特定任务的表现

PromptWizard 是微软开源的 AI 提示词自动化优化框架,通过自我演变和自我适应机制,迭代优化提示指令和上下文示例,提升大型语言模型(LLMs)在特定任务中的表现。本文详细介绍了 PromptWizard 的主要功能、技术原理以及如何运行该框架。

101 8
来自: 自然语言处理  版块
|
12天前
|
人工智能 自然语言处理 计算机视觉
|

StyleStudio:支持图像风格迁移的文生图模型,能将融合参考图像的风格和文本提示内容生成风格一致的图像

StyleStudio 是一种文本驱动的风格迁移模型,能够将参考图像的风格与文本提示内容融合。通过跨模态 AdaIN 机制、基于风格的分类器自由引导等技术,解决了风格过拟合、控制限制和文本错位等问题,提升了风格迁移的质量和文本对齐的准确性。

58 8
来自: 计算机视觉  版块
|
12天前
|
人工智能 前端开发 API
|

OpenAI 12天发布会内容全纪录!一文快速回顾获知亮点信息,原文附发布会中文字幕视频

OpenAI 于12月5日宣布将举行为期12天的系列发布活动,期间每天发布一个产品或样品,包括备受期待的AI视频生成工具Sora和新的推理模型。本文将介绍这12天的发布会每日的发布内容和相关亮点信息。

219 82
来自: 自然语言处理  版块
|
13天前
|
人工智能 内存技术
|

Gemini 2.0 Flash Thinking:谷歌推出实验性多模态推理模型,在快速生成的同时展示详细的思考过程

谷歌推出的实验性推理模型Gemini 2.0 Flash Thinking,展示了详细的思考过程,能够在多个领域快速解决问题,并提供推理路径。本文将详细介绍该模型的功能、技术原理及使用限制。

87 26
来自: 自然语言处理  版块
|
13天前
|
人工智能
|

AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性

AniDoc 是一款基于视频扩散模型的 2D 动画上色 AI 模型,能够自动将草图序列转换为彩色动画。该模型通过对应匹配技术和背景增强策略,实现了色彩和风格的准确传递,适用于动画制作、游戏开发和数字艺术创作等多个领域。

83 16
来自: 计算机视觉  版块

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

8
今日
13345
内容
6
活动
2818
关注
你好!
登录掌握更多精彩内容

相关产品

  • 人工智能平台 PAI
  • 文字识别
  • 智能语音交互