modelscope_社区达人页

个人头像照片
modelscope
已加入开发者社区277

勋章 更多

个人头像照片
阿里博主
阿里博主
个人头像照片
江湖新秀
江湖新秀

成就

已发布313篇文章
149条评论
已回答0个问题
0条评论
已发布13个视频
github地址

我关注的人 更多

技术能力

兴趣领域
擅长领域
技术认证

暂时未有相关云产品技术能力~

暂无个人介绍

暂无精选文章
暂无更多信息

2025年03月

  • 03.18 14:41:38
    发表了文章 2025-03-18 14:41:38

    论文推荐:R1-Omni、VisualPRM、4D LangSplat、Vision-R1、GoT

    简要介绍:由复旦大学、上海AI实验室等机构提出了首个统一多模态理解和生成的奖励模型UnifiedReward。该工作构建了大规模人类偏好数据集,包含图像和视频生成/理解任务,并利用该模型进行自动构建高质量偏好对数据,最终通过DPO优化视觉模型。实验结果表明,联合学习评估多样化视觉任务可以带来显著的相互益处。
  • 03.18 14:39:00
    发表了文章 2025-03-18 14:39:00

    论文推荐:CoSTAast、Transformers without Normalization

    由马里兰大学团队提出的CoSTA*,针对多轮图像编辑任务设计了一种成本敏感的工具路径代理。该工作结合大语言模型(LLM)的子任务规划与A搜索算法,构建了一个高效的工具选择路径,不仅降低了计算成本,还提升了图像编辑质量。通过视觉语言模型评估子任务输出,CoSTA能在失败时快速调整路径,并在全新多轮图像编辑基准测试中超越现有最佳模型。
  • 03.18 14:19:13
    发表了文章 2025-03-18 14:19:13

    驱动“超真人”虚拟助手Maya的实时语音对话模型CSM-1b开源!

    3月14日,创造出病毒级虚拟助手 Maya 的Sesame团队开源了他们的语音生成模型 CSM-1b,可根据文本和音频输入生成 RVQ 音频代码。这意味着,我们每个人都可以0成本拥有一个真正的AI伴侣了,甚至可以自己动手搭建、测试和改进模型。
  • 03.18 14:15:59
    发表了文章 2025-03-18 14:15:59

    有效的思考:模型思考效率评测

    随着大语言模型的迅速发展,模型的推理能力得到了显著提升。特别是长推理模型(Long Reasoning Models),如OpenAI的o1、DeepSeek-R1、QwQ-32B和Kimi K1.5等,因其展现出类似人类的深度思考能力而备受关注。这些模型通过长时间推理(Inference-Time Scaling),能够在解码阶段不断思考并尝试新的思路来得到正确的答案。
  • 03.18 14:14:50
    发表了文章 2025-03-18 14:14:50

    热门论文推荐:TPDiff、Block Diffusion、Reangle-A-Video、GTR

    由新加坡国立大学Show Lab的Lingmin Ran和Mike Zheng Shou提出,TPDiff是一个创新的视频扩散模型框架,针对视频生成的高计算需求问题,通过分阶段逐步提高帧率优化了训练和推理效率。核心贡献包括提出“时间金字塔”方法和阶段式扩散训练策略,实验表明训练成本降低50%,推理效率提升1.5倍。
  • 03.14 16:52:21
    发表了文章 2025-03-14 16:52:21

    线上共学 | Mac本地玩转大模型

    本文介绍如何在Mac本地部署和使用大模型,包括基础运行、多模态扩展、交互优化、知识增强、定制进化等技术链路,并提供Ollama、Stable Diffusion、LM-Studio等工具的详细操作指南。
  • 03.14 10:30:00
    发表了文章 2025-03-14 10:30:00

    今日热门论文推荐:Seedream、LMM-R1、YuE、Gemini Embedding

    由Cohere、SEACrowd等机构联手打造,SEA-VL是一个面向东南亚地区的多文化视觉-语言数据集,填补了AI模型在该地区文化细微差别理解上的空白。该工作通过众包、爬取和生成三种方式收集了128万张文化相关图像,结合本地贡献者确保数据的高质量和多样性,推动了更具包容性的AI发展。
  • 03.13 11:13:15
    发表了文章 2025-03-13 11:13:15

    R1-Omni开源!多模态模型+RLVR,让各模态作用清晰可见

    随着 DeepSeek R1 的推出,强化学习在大模型领域的潜力被进一步挖掘。Reinforcement Learning with Verifiable Reward (RLVR) 方法的出现,为多模态任务提供了全新的优化思路,无论是几何推理、视觉计数,还是经典图像分类和物体检测任务,RLVR 都展现出了显著优于传统监督微调(SFT)的效果。
  • 03.13 11:10:45
    发表了文章 2025-03-13 11:10:45

    “同西游,见万相” 主题LoRA风格挑战赛来袭!万元奖金池+猫超卡+限定周边来赢!

    在通义万相Wan2.1的文生视频模型的基础上训练LoRA模型,以《西游记》的经典人物或故事为背景,描绘一个创作者心中的西游场景。参赛者根据自己的创意自定义故事内容,选择用任意的视觉风格和叙事手法进行演绎,展现 AI 在风格迁移、内容创意和叙事变化上的可能性。
  • 03.13 11:02:13
    发表了文章 2025-03-13 11:02:13

    今日热门论文推荐:EuroBERT、S2S-Arena、R1-Searcher

    由俄罗斯多家机构提出的RuCCoD,聚焦于俄语临床编码自动化的可行性研究。俄语作为生物医学资源有限的语言,该工作构建了一个包含超过1万实体和1500+独特ICD码的电子健康记录数据集,并测试了BERT、LLaMA和RAG等模型。实验表明,使用自动预测编码训练的模型显著优于医生手动标注,提升了准确性。这一成果为资源匮乏语言的临床效率和数据精度提供了宝贵洞见。
  • 03.13 10:59:08
    发表了文章 2025-03-13 10:59:08

    今日热门论文推荐:MM-Eureka、FedRand、EasyControl、FEA-Bench

    由Skolkovo科技学院等机构提出的这项研究,聚焦于人工智能文本检测(ATD)的可解释性提升。利用Sparse Autoencoders(SAE)从Gemma-2-2b模型中提取特征,该工作揭示了现代大语言模型(LLM)与人类文本的差异,尤其是在信息密集领域,展现了独特的写作风格,为ATD提供了新的见解和方法。
  • 03.11 10:25:10
    发表了文章 2025-03-11 10:25:10

    QwQ-32B,支持Function Call的推理模型,深度思考Agent的时代来了!

    近期,Qwen 发布了 QwQ-32B - 一个在许多基准测试中性能可与 DeepSeek-R1 相媲美的推理模型。
  • 03.11 10:22:57
    发表了文章 2025-03-11 10:22:57

    解读 | 金融长上下文基准测试FailSafeQA:解锁金融领域LLM真实的审慎性和容错性

    近年来,大型语言模型(LLMs)在金融领域的应用如火如荼,从风险分析到客户服务,它们正逐步改变行业的游戏规则。然而,这些模型是否真的足够“靠谱”?面对复杂的金融数据和多变的用户输入,它们还能保持精准和稳健吗?
  • 03.11 09:43:00
    发表了文章 2025-03-11 09:43:00

    腾讯开源HunyuanVideo-I2V图生视频模型+LoRA训练脚本,社区部署、推理实战教程来啦!

    继阿里的通义万相wan2.1模型之后,腾讯混元又出大招,重磅发布HunyuanVideo-I2V图生视频模型。
  • 03.10 11:16:32
    发表了文章 2025-03-10 11:16:32

    魔搭社区模型速递(3.2-3.8)

    🙋魔搭ModelScope本期社区进展:1340个模型,220个数据集,🎨91个创新应用,📄 8篇内容
  • 03.07 10:00:36
    发表了文章 2025-03-07 10:00:36

    QwQ-32B开源!更小尺寸,仅1/20参数性能比肩满血R1

    今天,通义千问开源了推理模型QwQ-32B
  • 03.06 11:16:03
    发表了文章 2025-03-06 11:16:03

    微软Phi-4系列开源:多模态与文本处理的创新突破

    微软近期推出 Phi-4-multimodal 和 Phi-4-mini,这些模型是 Microsoft Phi 系列小型语言模型 (SLM) 中的最新模型。Phi-4-multimodal 能够同时处理语音、视觉和文本,为创建创新且具有上下文感知能力的应用程序开辟了新的可能性。另一方面,Phi-4-mini 在基于文本的任务方面表现出色,以紧凑的形式提供高精度和可扩展性。
  • 03.06 11:14:19
    发表了文章 2025-03-06 11:14:19

    打造跨语言智能工具与应用,“万卷·丝路”专项课题开放申请

    随着共建“一带一路”进入高质量发展阶段,全球开发者对于多语言模型训练的需求不断增长,上海AI实验室联合大模型语料数据联盟成员发布了“万卷·丝路”多语言预训练语料库,为多语言大模型训练提供高质量数据支撑,助力全球开发者构建跨语言智能工具与应用。
  • 03.05 12:01:13
    发表了文章 2025-03-05 12:01:13

    CogView4开源发布!智谱AI文生图模型支持任意长度双语输入,汉字生成能力突出,可商用!

    今天智谱AI正式发布并开源了最新的图像生成模型——CogView4。
  • 03.05 11:59:25
    发表了文章 2025-03-05 11:59:25

    CLIPer:开创性框架提升CLIP空间表征,实现开放词汇语义分割突破

    对比语言-图像预训练(CLIP)在多种图像级任务上表现出强大的零样本分类能力,促使研究行人尝试将CLIP应用于像素级开放词汇语义分割,而无需额外训练。关键在于提升图像级CLIP的空间表征能力,例如,用自-自注意力图或基于视觉基础模型的自注意力图替换最后一层的自注意力图。本文提出了一种新颖的分层框架CLIPer,该框架分层提升了CLIP的空间表征能力。
  • 03.04 18:39:34
    发表了文章 2025-03-04 18:39:34

    高效部署通义万相Wan2.1:使用Gradio搭建WebUI体验实战

    随着通义万相Wan2.1 在社区的热度持续上涨,魔搭创空间的体验Demo(https://modelscope.cn/studios/Wan-AI/Wan-2.1)已经排起长队。
  • 03.04 18:37:22
    发表了文章 2025-03-04 18:37:22

    高效部署通义万相Wan2.1:ComfyUI文生/图生视频实战,工作流直取!

    通义万相Wan2.1开源不到一周,已登顶HuggingFace Model 和 Space 榜双榜首,在HuggingFace和ModelScope平台的累计下载量突破100万次,社区热度持续攀升!为响应小伙伴们对ComfyUI工作流运行Wan2.1的强烈需求,社区开发者整理了实战教程👇
  • 03.03 13:29:06
    发表了文章 2025-03-03 13:29:06

    魔搭社区模型速递(2.16-3.1)

    🙋魔搭ModelScope本期社区进展:📟2621个模型,Ovis2系列模型等,📁276个数据集,🎨203个创新应用,📄 12篇技术内容
  • 03.03 13:27:39
    发表了文章 2025-03-03 13:27:39

    人人都是应用开发者:AI时代的全栈产品经理实践

    本文试图最短路径、最轻模式来做一个应用,实现一个需求!仅需三大步+9小步,以下为手把手教学流程。
  • 03.03 13:26:29
    发表了文章 2025-03-03 13:26:29

    HumanOmni:首个专注人类中心场景的多模态大模型,视觉与听觉融合的突破!

    HumanOmni是业内首个理解以人为中心的场景,可以同时处理视觉信息、音频信息的多模态大模型。
  • 03.03 13:25:06
    发表了文章 2025-03-03 13:25:06

    无需微调!扩散模型新突破:Attentive Eraser高效稳定移除目标物体

    最近,扩散模型在生成模型领域异军突起,凭借其独特的生成机制在图像生成方面大放异彩,尤其在处理高维复杂数据时优势明显。然而,尽管扩散模型在图像生成任务中表现优异,但在图像目标移除任务中仍然面临诸多挑战。现有方法在移除前景目标后,可能会留下残影或伪影,难以实现与背景的自然融合。

2025年02月

  • 发表了文章 2025-09-05

    美团开源发布 LongCat-Flash-Chat:专为高效智能体任务设计,推理速度超100 tokens/s

  • 发表了文章 2025-09-05

    外滩大会报名 | 破局 AI 时代,洞察大模型开源开发全景、趋势与机遇

  • 发表了文章 2025-09-04

    魔搭勋章权益全面升级,免费工位+魔搭周边+GPU时长…统统安排!

  • 发表了文章 2025-09-03

    告别 “缸中之脑”:为何 Agent Runtime 至关重要?MuleRun 如何实现突破?

  • 发表了文章 2025-09-03

    拿下30个第1名的腾讯混元翻译模型,开源!

  • 发表了文章 2025-09-02

    开源SOTA:阶跃发布端到端语音大模型Step-Audio 2 mini!

  • 发表了文章 2025-09-01

    魔搭社区模型速递(8.23-8.30)

  • 发表了文章 2025-09-01

    InternVL3.5多模态大模型开源发布,1B-241B九种尺寸,支持跨平台GUI自动化与矢量图生成

  • 发表了文章 2025-09-01

    AI创作更自由: 魔搭FLowBench云端工作流上线AIGC专区!支持QwenImageEdit免费出图!

  • 发表了文章 2025-09-01

    混元开源又+1:视频音效可以自动生成了

  • 发表了文章 2025-08-29

    混元开源又+1:视频音效可以自动生成了

  • 发表了文章 2025-08-28

    通义万相开源14B数字人Wan2.2-S2V!影视级音频驱动视频生成,助力专业内容创作

  • 发表了文章 2025-08-28

    AI界的篮球赛AI-BA来了,NBA中国赛2025比赛门票等你来拿

  • 发表了文章 2025-08-28

    面壁开源多模态新旗舰MiniCPM-V 4.5,8B 性能超越 72B,高刷视频理解又准又快

  • 发表了文章 2025-08-28

    当AI学会跑跳抓:来云栖大会,参加一场“具身智能运动会”

  • 发表了文章 2025-08-26

    可调节推理预算,字节Seed团队开源大型语言模型 Seed-OSS 系列!

  • 发表了文章 2025-08-25

    轻量高效,8B 性能强劲书生科学多模态模型Intern-S1-mini开源

  • 发表了文章 2025-08-25

    魔搭社区模型速递(8.17-8.23)

  • 发表了文章 2025-08-21

    【千问海报大赛·地方风物】创意征集令!用AI解锁家乡新名片,万元奖金等你来战!

  • 发表了文章 2025-08-21

    开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告

正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息
正在加载, 请稍后...
滑动查看更多