|
10月前
|
人工智能 API 语音技术
|

VideoCaptioner:北大推出视频字幕处理神器,AI自动生成+断句+翻译,1小时工作量5分钟搞定

VideoCaptioner 是一款基于大语言模型的智能视频字幕处理工具,支持语音识别、字幕断句、优化、翻译全流程处理,并提供多种字幕样式和格式导出。

1945 89
来自: 多模态  版块
|
10月前
|
人工智能 自然语言处理 架构师
|

Praison AI:LangChain危险了!这个低代码框架让AI智能体「自主协作」,1行代码搞定任务编排

Praison AI 是一个开源的多智能体框架,支持低代码创建和管理AI代理,提供多种流程类型和集成选项,适用于企业流程自动化、智能客服等场景。

459 18
来自: 自然语言处理  版块
|
10月前
|
人工智能 自然语言处理 测试技术
|

Potpie.ai:比Copilot更狠!这个AI直接接管项目代码,自动Debug+测试+开发全搞定

Potpie.ai 是一个基于 AI 技术的开源平台,能够为代码库创建定制化的工程代理,自动化代码分析、测试和开发任务。

898 19
来自: 自然语言处理  版块
|
10月前
|
人工智能 自然语言处理 人机交互
|

Social Media Agent:告别文案焦虑!AI自动生成高转化帖子,输入URL快速生成爆款文案

Social Media Agent 是一款由 LangChain 推出的 AI 社交媒体内容管理工具,支持 Twitter 和 LinkedIn 平台,能快速生成高质量的帖子。

537 17
来自: 自然语言处理  版块
|
10月前
|
机器学习/深度学习 人工智能 算法
|

ProtGPS:MIT再造生命科学新基建!蛋白质AI一键预测定位+设计新序列,登Nature子刊

ProtGPS 是麻省理工学院和怀特黑德研究所联合开发的蛋白质语言模型,能够预测蛋白质在细胞内的亚细胞定位,并设计具有特定亚细胞定位的新型蛋白质。

892 17
来自: 科学计算  版块
|
10月前
|
存储 人工智能 API
|

PDF to Podcast:英伟达开源黑科技!PDF 秒转播客/有声书,告别阅读疲劳轻松学习!

NVIDIA推出的PDF to Podcast工具,基于大型语言模型和文本到语音技术,将PDF文档转换为生动的音频内容。

696 14
来自: 多模态  版块
|
10月前
|
存储 人工智能 编解码
|

Pippo:Meta放出AI大招!单张照片秒转3D人像多视角视频,AI自动补全身体细节

Pippo 是 Meta 推出的图像到视频生成模型,能够从单张照片生成 1K 分辨率的多视角高清人像视频,支持全身、面部或头部的生成。

955 9
来自: 计算机视觉  版块
|
10月前
|
机器学习/深度学习 人工智能 测试技术
|

仅7B的模型数学推理能力完虐70B?MIT哈佛推出行动思维链COAT让LLM实现自我反思并探索新策略

Satori 是由 MIT 和哈佛大学等机构联合推出的 7B 参数大型语言模型,专注于提升推理能力,具备强大的自回归搜索和自我纠错功能。

443 6
来自: 自然语言处理  版块
|
10月前
|
数据可视化 API 开发者
|

R1类模型推理能力评测手把手实战

随着DeepSeek-R1模型的广泛应用,越来越多的开发者开始尝试复现类似的模型,以提升其推理能力。

706 3
|
10月前
|
人工智能 自然语言处理 测试技术
|

AxBench:斯坦福大学推出评估语言模型控制方法的基准测试框架

AxBench 是由斯坦福大学推出,用于评估语言模型可解释性方法的基准测试框架,支持概念检测和模型转向任务,帮助研究者系统地比较不同控制技术的有效性。

279 5
来自: 自然语言处理  版块
|
10月前
|
存储 人工智能 算法
|

Magic 1-For-1:北大联合英伟达推出的高质量视频生成量化模型,支持在消费级GPU上快速生成

北京大学、Hedra Inc. 和 Nvidia 联合推出的 Magic 1-For-1 模型,优化内存消耗和推理延迟,快速生成高质量视频片段。

569 3
来自: 计算机视觉  版块
|
10月前
|
人工智能 自然语言处理 数据可视化
|

Data Formulator:微软开源的数据可视化 AI 工具,通过自然语言交互快速创建复杂的数据图表

Data Formulator 是微软研究院推出的开源 AI 数据可视化工具,结合图形化界面和自然语言输入,帮助用户快速创建复杂的可视化图表。

1031 10
来自: 多模态  版块
|
10月前
|
人工智能 编解码 vr&ar
|

Lumina-Video:上海 AI Lab 开源视频生成框架,动态程度可控,支持多分辨率

Lumina-Video 是由上海 AI Lab 和香港中文大学联合推出的高效视频生成框架,支持高质量视频生成、动态程度控制和多分辨率生成。

481 4
来自: 计算机视觉  版块
|
10月前
|
人工智能 Rust 安全
|

DeepClaude:结合 DeepSeek R1 和 Claude AI 各自优势开发的 AI 应用平台,支持 API 调用和零延迟的即时响应

DeepClaude 是一个开源的 AI 应用开发平台,结合了 DeepSeek R1 和 Claude 模型的优势,提供即时响应、端到端加密和高度可配置的功能。

883 4
来自: 自然语言处理  版块
|
10月前
|
人工智能 自然语言处理 PyTorch
|

InspireMusic:阿里通义实验室开源的音乐生成模型,支持文本或音频生成多种风格的音乐

阿里通义实验室开源的音乐生成技术,支持通过简单描述快速生成多种风格的高质量音乐作品。

1678 4
来自: 多模态  版块
|
10月前
|
人工智能 自然语言处理 测试技术
|

Goedel-Prover:专为自动化数学问题的形式证明生成而设计的 LLM,快速解决形式化数学问题

Goedel-Prover 是一款由普林斯顿大学和清华大学等机构联合推出的开源模型,专注于自动化数学问题的形式证明生成。它通过将自然语言数学问题翻译成形式语言(如 Lean 4),显著提升了数学问题的证明效率。

508 4
来自: 科学计算  版块
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
|

ModelScope深度学习项目低代码开发

低代码开发平台通过丰富的预训练模型库、高度灵活的预训练模型和强大的微调训练功能,简化深度学习项目开发。以阿里魔搭为例,提供大量预训练模型,支持快速迭代与实时反馈,减少从头训练的时间和资源消耗。开发者可轻松调整模型参数,适应特定任务和数据集,提升模型性能。ModelScope平台进一步增强这些功能,提供模型搜索、体验、管理与部署、丰富的模型和数据资源、多模态任务推理及社区协作,助力高效、环保的AI开发。

554 65
|
10月前
|
并行计算 PyTorch 算法框架/工具
|

本地部署DeepSeek模型

要在本地部署DeepSeek模型,需准备Linux(推荐Ubuntu 20.04+)或兼容的Windows/macOS环境,配备NVIDIA GPU(建议RTX 3060+)。安装Python 3.8+、PyTorch/TensorFlow等依赖,并通过官方渠道下载模型文件。配置模型后,编写推理脚本进行测试,可选使用FastAPI服务化部署或Docker容器化。注意资源监控和许可协议。

5202 13
|
10月前
|
人工智能 算法 数据挖掘
|

AAAI 2025| S5VH: 基于选择性状态空间的高效自监督视频哈希

随着短视频、流媒体平台的爆发式增长,如何高效地索引和检索视频数据成为计算机视觉和多媒体领域的重要研究问题。视频哈希(Video Hashing) 是一种通过学习紧凑的二进制编码来高效索引和检索视频的技术,其核心目标是使哈希码的汉明距离(Hamming Distance)能够准确地反映视频之间的语义相似性。

206 18
|
10月前
|
机器学习/深度学习 自然语言处理
|

RWKV-7 2.9B 开源发布!纯 RNN 无 KV cache,支持世界所有语言

2025 年 2 月 11 日,RWKV 基金会正式发布 RWKV-7-World-2.9B-V3 模型(以下简称 RWKV-7-2.9B)。

353 17
|
10月前
|
人工智能 运维 Serverless
|

DeepSeek模型部署全过程实践,轻松上手就在阿里云

随着人工智能技术的不断发展,越来越多的企业和个人开始探索如何利用深度学习模型来提升业务效率和用户体验。阿里云推出的【零门槛、轻松部署您的专属 DeepSeek 模型】解决方案为用户提供了多种便捷的部署方式,包括**基于百炼 API 调用满血版、基于人工智能平台 PAl 部署、基于函数计算部署以及基于 GPU 云服务器部署**。本文将从多个维度对这些部署方式进行详细评测,并分享个人的实际体验和观点。

2179 26
|
10月前
|
存储 人工智能 算法
|

AAAI 2025| S5VH: 基于选择性状态空间的高效自监督视频哈希

AAAI 2025 论文 S5VH 提出基于选择性状态空间模型的高效自监督视频哈希方法,通过双向 Mamba 层和 Self-Local-Global 学习范式,显著提升视频检索性能与推理效率。

568 16
|
10月前
|
Java 关系型数据库 MySQL
|

ssm020基于ssm的人才招聘网站(文档+源码)_kaic

网络和科技的进步以及人们生活条件的提高都让计算机技术越来越平民化,深入日常生活中。网络更是成为生活的必备条件,大到国家单位、科研项目,小到大街小巷都充斥着网络的身影。在日常办公中,计算机起到了文字编辑、打印、信息检索、统计等的作用。使用计算机可以使日常繁杂的信息进行科学的加工,使信息变得更加的有序、可利用。计算机技术已成为热门。 正是因为网络、科技、计算机技术使现代人的生活和工作变得便利、轻松,给实体行业带来了巨大的冲击。人才招聘的日常工作也遇到了前所未有的挑战。现如今,对于招聘的管理有很多的局限性,究其原因是因为招聘管理的根本是信息的运动。在新时代的环境下,传统的管理方式不再满足用户的需求,

203 10
|
10月前
|
人工智能 安全 机器人
|

LangBot:无缝集成到QQ、微信等消息平台的AI聊天机器人平台

LangBot 是一个开源的多模态即时聊天机器人平台,支持多种即时通信平台和大语言模型,具备多模态交互、插件扩展和Web管理面板等功能。

2086 14
来自: 自然语言处理  版块
|
10月前
|
机器学习/深度学习 存储 人工智能
|

Satori:快速体验MIT与哈佛推出7B参数的推理专家模型,具备自回归搜索和自我纠错能力

Satori 是由 MIT 和哈佛大学等机构联合推出的 7B 参数大型语言模型,专注于提升推理能力,具备强大的自回归搜索和自我纠错功能。

257 5
来自: 自然语言处理  版块
|
10月前
|
人工智能 Linux 开发工具
|

Kiln AI:零代码实现微调模型!自动生成合成数据与微调模型的开源平台

Kiln AI 是一款开源的 AI 开发工具,支持零代码微调多种语言模型,生成合成数据,团队协作开发,自动部署。帮助用户快速构建高质量的 AI 模型。

1721 8
来自: 自然语言处理  版块
|
10月前
|
存储 人工智能 NoSQL
|

Airweave:快速集成应用数据打造AI知识库的开源平台,支持多源整合和自动同步数据

Airweave 是一个开源工具,能够将应用程序的数据同步到图数据库和向量数据库中,实现智能代理检索。它支持无代码集成、多租户支持和自动同步等功能。

682 14
来自: 多模态  版块
|
10月前
|
机器学习/深度学习 人工智能 编解码
|

FlashVideo:生成1080p视频仅需102秒,字节联合港大推出低成本高分辨率视频生成框架

FlashVideo 是字节跳动和香港大学联合推出的高分辨率视频生成框架,通过两阶段方法显著降低计算成本,快速生成高质量视频。

414 5
来自: 计算机视觉  版块
|
10月前
|
人工智能 安全 数据挖掘
|

MedRAX:专注于胸部X光检查的AI医学推理智能体,帮助医生快速解读胸部X光片

MedRAX 是一款专门用于胸部X光检查的医学推理AI智能体,整合了多种最先进的分析工具,支持多模态推理和动态任务分解。

693 10
来自: 多模态  版块
|
10月前
|
人工智能 计算机视觉 异构计算
|

LLaVA-Med:微软推出专为临床放射学优化和报告生成的多模态模型

LLaVA-Med是微软推出的小型多模态模型,专注于高效生成高质量的胸部X光放射学报告,支持快速临床部署。

621 7
来自: 多模态  版块
|
10月前
|
存储 人工智能 自然语言处理
|

ACE++:输入想法就能完成图像创作和编辑!阿里通义推出新版自然语言驱动的图像生成与编辑工具

ACE++ 是阿里巴巴通义实验室推出的升级版图像生成与编辑工具,支持多种任务,如高质量人物肖像生成、主题一致性保持和局部图像编辑。

750 8
来自: 计算机视觉  版块
|
10月前
|
存储 人工智能 数据库
|

Agno:18.7K Star!快速构建多模态智能体的轻量级框架,运行速度比LangGraph快5000倍!

Agno 是一个用于构建多模态智能体的轻量级框架,支持文本、图像、音频和视频等多种数据模态,能够快速创建智能体并实现高效协作。

2826 22
来自: 多模态  版块
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
|

DeepRant:一款专为国际游戏玩家设计的翻译工具,一键翻译聊天对话,无需切出游戏

专为游戏玩家设计的多语言快捷翻译工具,支持多种翻译模式和主流语言,基于Tauri和React开发。

738 12
来自: 自然语言处理  版块
|
10月前
|
人工智能 Rust PyTorch
|

Hibiki:实时语音翻译模型打破语言交流障碍!支持将语音实时翻译成其他语言的语音或文本

Hibiki 是由 Kyutai Labs 开发的实时语音翻译模型,能够将一种语言的语音实时翻译成另一种语言的语音或文本,支持高保真度和低延迟。

1244 18
来自: 语音  版块
|
10月前
|
人工智能 物联网 测试技术
|

FireRedASR:精准识别普通话、方言和歌曲歌词!小红书开源工业级自动语音识别模型

小红书开源的工业级自动语音识别模型,支持普通话、中文方言和英语,采用 Encoder-Adapter-LLM 和 AED 架构,实现 SOTA 性能。

3365 17
来自: 语音  版块
|
10月前
|
人工智能 PyTorch 算法框架/工具
|

Sonic:自动对齐音频与唇部动作,一键合成配音动画!腾讯与浙大联合推出音频驱动肖像动画生成框架

Sonic 是由腾讯和浙江大学联合开发的音频驱动肖像动画框架,支持逼真的唇部同步、丰富的表情和头部动作、长时间稳定生成,并提供用户可调节性。

701 23
来自: 计算机视觉  版块
|
10月前
|
人工智能 Linux iOS开发
|

exo:22.1K Star!一个能让任何人利用日常设备构建AI集群的强大工具,组成一个虚拟GPU在多台设备上并行运行模型

exo 是一款由 exo labs 维护的开源项目,能够让你利用家中的日常设备(如 iPhone、iPad、Android、Mac 和 Linux)构建强大的 AI 集群,支持多种大模型和分布式推理。

2384 101
来自: 科学计算  版块
|
10月前
|
人工智能 测试技术
|

Ola:清华联合腾讯等推出的全模态语言模型!实现对文本、图像、视频和音频的全面理解

Ola 是由清华大学、腾讯 Hunyuan 研究团队和新加坡国立大学 S-Lab 合作开发的全模态语言模型,支持文本、图像、视频和音频输入,并具备实时流式解码功能。

644 16
来自: 多模态  版块
|
10月前
|
人工智能 开发框架 数据可视化
|

Eino:字节跳动开源基于Golang的AI应用开发框架,组件化设计助力构建AI应用

Eino 是字节跳动开源的大模型应用开发框架,帮助开发者高效构建基于大模型的 AI 应用。支持组件化设计、流式处理和可视化开发工具。

1700 27
来自: 自然语言处理  版块
|
10月前
|
人工智能 算法 云计算
|

0元!使用魔搭免费算力,基于Qwen基座模型,复现DeepSeek-R1

近期,随着DeepSeek-R1爆火,学术界掀起一股复现DeepSeek-R1的浪潮,李飞飞等斯坦福大学和华盛顿大学的研究人员以不到50美元的云计算费用,成功训练出了一个名为s1的人工智能推理模型。

869 5
|
10月前
|
机器学习/深度学习 人工智能 并行计算
|

BEN2:一键快速抠图!自动移除图像和视频中的背景,支持在线使用

BEN2 是由 Prama LLC 开发的深度学习模型,专注于从图像和视频中快速移除背景并提取前景,支持高分辨率处理和GPU加速。

957 10
来自: 计算机视觉  版块
|
10月前
|
机器学习/深度学习 人工智能 编解码
|

Lumina-Image 2.0:上海 AI Lab 开源的统一图像生成模型,支持生成多分辨率、多风格的图像

Lumina-Image 2.0 是上海 AI Lab 开源的高效统一图像生成模型,参数量为26亿,基于扩散模型和Transformer架构,支持多种推理求解器,能生成高质量、多风格的图像。

869 17
来自: 计算机视觉  版块
|
10月前
|
人工智能 开发框架 机器人
|

AstrBot:轻松将大模型接入QQ、微信等消息平台,打造多功能AI聊天机器人的开发框架,附详细教程

AstrBot 是一个开源的多平台聊天机器人及开发框架,支持多种大语言模型和消息平台,具备多轮对话、语音转文字等功能。

5756 38
来自: 多模态  版块
|
10月前
|
人工智能 安全 开发工具
|

Repomix:8.1K Star!轻松将整个代码库打包为AI友好格式的开源工具,使代码库更易于AI理解

Repomix 是一款强大的工具,能够将整个代码库打包成AI友好的单个文件,支持多种输出格式和安全检查。

934 9
来自: 自然语言处理  版块
|
10月前
|
人工智能 测试技术
|

LIMO:上海交大推出高效推理方法,仅需817条训练样本就能激活大语言模型的复杂推理能力

LIMO 是由上海交通大学推出的一种高效推理方法,通过极少量的高质量训练样本激活大语言模型的复杂推理能力。

434 11
来自: 自然语言处理  版块
|
10月前
|
人工智能 资源调度 API
|

AnythingLLM:34K Star!一键上传文件轻松打造个人知识库,构建只属于你的AI助手,附详细部署教程

AnythingLLM 是一个全栈应用程序,能够将文档、资源转换为上下文,支持多种大语言模型和向量数据库,提供智能聊天功能。

7172 76
来自: 多模态  版块
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
|

JoyGen:用音频生成3D说话人脸视频,快速生成逼真的唇部同步视频

JoyGen 是京东和香港大学联合推出的音频驱动的3D说话人脸视频生成框架,支持多语言、高质量视觉效果和精确的唇部与音频同步。

696 14
来自: 计算机视觉  版块
|
10月前
|
机器学习/深度学习 物联网
|

可控文生图:EliGen控制实体的位置细节变化

为文生图模型增加额外的控制条件一直是AIGC社区研究的重点之一,如ControlNet, IP-Adapter等一直是热门可控生成方法。近期,魔搭社区联合浙江大学对实体级可控文生图进行了探索,并开发了EliGen模型。

328 11
|
10月前
|
Swift
|

DeepSeek开源Janus-Pro多模态理解生成模型,魔搭社区推理、微调最佳实践

Janus-Pro是DeepSeek最新开源的多模态模型,是一种新颖的自回归框架,统一了多模态理解和生成。

1001 19
|
10月前
|
存储 人工智能 缓存
|

DiffSplat:输入文本或图像,2秒内生成3D建模!北大联合字节开源3D建模生成框架

DiffSplat 是由北京大学和字节跳动联合推出的一个高效 3D 生成框架,能够在 1-2 秒内从文本提示或单视图图像生成高质量的 3D 高斯点阵,并确保多视图下的一致性。

603 19
来自: 计算机视觉  版块

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

0
今日
14531
内容
6
活动
3801
关注
你好!
登录掌握更多精彩内容

相关产品

  • 人工智能平台 PAI
  • 文字识别
  • 智能语音交互