|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
|

PeterCat:一键创建开源项目 AI 问答机器人,自动抓取 GitHub 仓库信息、文档和 issue 等构建知识库

PeterCat 是一款开源的智能答疑机器人,能够自动抓取 GitHub 上的文档和 issue 构建知识库,提供对话式答疑服务,帮助开发者和社区维护者高效解决技术问题。

636 7
来自: 自然语言处理  版块
|
11月前
|
索引 搜索推荐 UED
|

基于elasticsearch + huggingface model 实现语义检索

项目地址:https://github.com/skyterra/elastic-embedding-searcher。本项目利用Hugging Face模型生成文本的嵌入向量,并将其同步至Elasticsearch创建索引,支持通过余弦相似度进行高效的向量搜索,实现精准的内容检索与推荐功能。该项目为开发智能搜索应用提供了强大的后端支持。 (该简介有239个字符,包括标点和空格)

330 8
|
11月前
|
机器学习/深度学习 人工智能 PyTorch
|

HelloMeme:开源的面部表情与姿态迁移框架,将视频中的人物表情迁移到静态图像中生成动态视频

HelloMeme 是一个基于 Stable Diffusion 1.5 模型的面部表情与姿态迁移框架,通过集成空间编织注意力机制,实现了自然且物理合理的表情包视频生成。该框架具有强大的泛化能力和扩展性,适用于多种应用场景。

351 77
来自: 计算机视觉  版块
|
11月前
|

HelloMeme:充分利用 SD1.5 基模的理解能力,实现表情与姿态的迁移

HelloMeme:充分利用 SD1.5 基模的理解能力,实现表情与姿态的迁移

154 0
|
11月前
|
机器学习/深度学习 人工智能 智能设计
|

VisionFM:通用眼科 AI 大模型,具备眼科疾病诊断能力,展现出专家级别的准确性

VisionFM 是一个多模态多任务的视觉基础模型,专为通用眼科人工智能设计。通过预训练大量眼科图像,模型能够处理多种眼科成像模态,并在多种眼科任务中展现出专家级别的智能性和准确性。

498 4
来自: 计算机视觉  版块
|
11月前
|
机器学习/深度学习 算法 计算机视觉
|

《深度学习案例实战》新书出版——基于阿里魔搭平台

《深度学习案例实战》是一本实用的指南,涵盖多个领域的深度学习应用案例。本书旨在通过具体的案例讲解,阐述典型深度学习算法在图像分类、声音识别、语义分割、目标检测等各个领域的广泛应用。本书所涵盖的典型案例包括太阳黑子分类、气象预测、食物声音分类、智能厨房、智能冰箱食材检测、集体照人脸识别、遛狗绳识别、智能售药机药品检测、道路裂纹检测、学生教室行为检测等。这些案例旨在通过实际问题的解决,使读者能够深入理解深度学习算法的应用和实践。 本书特别关注两个关键技术:低代码开发平台摩搭ModelScope和深度学习加速器OpenVINO。摩搭平台为读者提供了一个便捷的开发环境,借助其丰富的预训练模型库和开发平

391 2
|
11月前
|
人工智能 编解码 机器人
|

NVILA:英伟达开源视觉语言大模型,高效处理高分辨率图像和长视频

NVILA是英伟达推出的视觉语言大模型,旨在高效处理高分辨率图像和长视频,同时保持高准确性。该模型通过“扩展-压缩”策略和多种优化技术,在多个领域如机器人导航和医疗成像中展现出广泛的应用潜力。

375 13
来自: 多模态  版块
|
11月前
|
存储 人工智能
|

Optimus-1:哈工大联合鹏城实验室推出挑战开放世界中长期任务的智能体框架

Optimus-1是由哈尔滨工业大学(深圳)和鹏城实验室联合推出的智能体框架,旨在解决开放世界环境中长期任务的挑战。该框架结合了结构化知识和多模态经验,通过混合多模态记忆模块、知识引导规划器和经验驱动反射器,显著提升了在Minecraft等环境中的长期任务性能。本文将详细介绍Optimus-1的主要功能、技术原理以及如何运行该框架。

287 7
来自: 多模态  版块
|
11月前
|
Web App开发 机器学习/深度学习 人工智能
|

Magic Copy:开源的 AI 抠图工具,在浏览器中自动识别图像进行抠图

Magic Copy 是一款开源的 AI 抠图工具,支持 Chrome 浏览器扩展。它基于 Meta 的 Segment Anything Model 技术,能够自动识别图像中的前景对象并提取出来,简化用户从图片中提取特定元素的过程,提高工作效率。

537 7
来自: 计算机视觉  版块
|
12月前
|
人工智能 编解码 BI
|

LEOPARD:腾讯AI Lab西雅图实验室推出的视觉语言模型

LEOPARD是由腾讯AI Lab西雅图实验室推出的视觉语言模型,专为处理含有大量文本的多图像任务设计。该模型通过自适应高分辨率多图像编码模块和大规模多模态指令调优数据集,在多个基准测试中表现卓越,适用于自动化文档理解、教育和学术研究、商业智能和数据分析等多个应用场景。

320 2
来自: 计算机视觉  版块
|
12月前
|
人工智能 自然语言处理 数据处理
|

LazyGraphRAG:微软推出的图形增强生成增强检索框架

LazyGraphRAG是微软研究院推出的图形增强生成增强检索框架,旨在大幅降低数据索引成本并提高查询效率。该框架结合了最佳优先搜索和广度优先搜索,支持本地和全局查询,适用于一次性查询、探索性分析和流数据处理。LazyGraphRAG将加入开源的GraphRAG库,为开发者和企业提供更高效的技术支持。

501 0
来自: 多模态  版块
|
12月前
|
人工智能 测试技术 Python
|

DynaSaur:Adobe 推出的大语言模型代理框架

Adobe Research 推出的 DynaSaur 是一个突破性的大语言模型代理框架,它允许代理动态创建和组合动作,通过生成和执行 Python 代码与环境互动,从而实现更灵活的问题解决。DynaSaur 不仅在 GAIA 基准测试中表现出色,还具有动态动作创建、动作积累与复用、环境互动等主要功能,适用于多种应用场景。

144 2
来自: 自然语言处理  版块
|
12月前
|
人工智能 编解码 测试技术
|

HART:麻省理工学院推出的自回归视觉生成模型

HART(Hybrid Autoregressive Transformer)是麻省理工学院推出的自回归视觉生成模型,能够直接生成1024×1024像素的高分辨率图像,质量媲美扩散模型。HART基于混合Tokenizer技术,显著提升了图像生成质量和计算效率,适用于数字艺术创作、游戏开发、电影和视频制作等多个领域。

288 1
来自: 计算机视觉  版块
|
12月前
|
前端开发 JavaScript 测试技术
|

Google提出的网页性能评价指标

Google推出的“网页指标”计划旨在优化网页用户体验,其中Core Web Vitals为核心指标,包括Largest Contentful Paint (LCP)、Interaction to Next Paint (INP)和Cumulative Layout Shift (CLS),分别衡量加载速度、互动性和视觉稳定性。这些指标采用第75百分位数评估,确保在不同设备和网络环境下提供一致的用户体验。

474 5
|
1月前
|
机器学习/深度学习 缓存 并行计算
|

90_推理优化:性能调优技术

随着大型语言模型(LLM)规模的不断扩大和应用场景的日益复杂,推理性能已成为制约模型实际部署和应用的关键因素。尽管大模型在各项任务上展现出了令人惊艳的能力,但其庞大的参数量和计算需求也带来了严峻的性能挑战。在资源受限的环境中,如何在保持模型效果的同时,最大化推理性能,成为了研究人员和工程师们亟待解决的核心问题。

117 0
|
2月前
|
Kubernetes Devops API
|

从零到面试高手:每个 DevOps 专业人士都必须知道的 20 个 Kubernetes 架构问答

Kubernetes 是当前 DevOps、云原生和 SRE 领域的关键技能。本文总结了 20 个高频面试问题,涵盖架构组件、工作原理及核心概念,助你轻松掌握 Kubernetes 基础,提升面试与实战能力。

210 2
|
2月前
|
算法 测试技术 决策智能
|

美团开源发布 LongCat-Flash-Chat:专为高效智能体任务设计,推理速度超100 tokens/s

9月1日,美团正式发布 LongCat-Flash-Chat,并同步开源。LongCat-Flash 采用创新性混合专家模型(Mixture-of-Experts, MoE)架构,总参数 560 B,激活参数 18.6B~31.3B(平均 27B),实现了计算效率与性能的双重优化。

196 1
|
3月前
|
人工智能 物联网 API
|

ModelScope魔搭25年8月发布月报

🔥 这个夏天,开源热潮比气温更燃!Qwen3、GLM4.5、混元、Wan2.2、Qwen-Image等重磅模型密集发布,MoE、多模态、Agent、生图视频全爆发,ModelScope 全程 Day0 支持,生态持续进化中!

279 0
|
4月前
|
机器学习/深度学习 弹性计算 测试技术
|

Kimi Playground与ModelScope MCP合作,共建更智能的Agent

月之暗面发布开源模型Kimi K2,参数总量达1T,激活参数32B,基于MoE架构,具备强大的代码能力与通用Agent任务处理能力。在多项基准测试中取得SOTA成绩,并已开源。ModelScope与Kimi Playground集成,支持一键同步MCP服务,方便开发者使用。

261 0
|
4月前
|
机器学习/深度学习 自然语言处理 API
|

RM-Gallery: 一站式奖励模型平台

近年来,大型语言模型(LLMs)发展迅速,比如 ChatGPT、Qwen、Claude、 Llama。这些模型最初的能力来自预训练规模的扩展(pre-training scaling),即通过 “next-token prediction” 的任务,在海量语料上训练,从而获得通用能力。但是面对具体场景,由于场景任务目标不一定和通用能力匹配(比如对齐场景),所以预训练模型表现会有一些不足。为了在预训练之后进一步优化大型语言模型,近年来的研究开始转向训练后和测试时的规模扩展,其中奖励模型起着关键作用。

184 2
|
5月前
|
人工智能 安全 算法
|

十万奖金等你来战!第二届“隐语杯”数据挑战赛报名正式启动!

近日,国家数据局举办了2025“数据要素×”首场新闻发布会。

220 9
|
6月前
|
人工智能 自然语言处理 数据安全/隐私保护
|

智源研究院发布开源中文互联网语料库CCI 4.0,新增高质量英文数据与合成数据

2025年5月6日,智源研究院在法国巴黎举行的GOSIM全球开源创新论坛上发布大型开源文本数据集CCI 4.0,为全球的大模型创新发展再次提供重要的开源资源,并积极推动全球开源合作。

217 10
|
6月前
|
人工智能 监控 前端开发
|

基于 Next.js 的书法字体生成工具架构设计与 SSR 优化实践

本项目是一款书法字体生成工具,采用 Next.js 14(App Router)与 Tailwind CSS 构建前端,阿里云 Serverless 部署后端。通过混合渲染策略(SSG/SSR/CSR)、Web Worker 异步计算及 CDN 字体分片加载优化性能。服务端借助阿里云函数计算处理计算密集型任务,将平均耗时从 1200ms 降至 280ms,支持 1000+ QPS。动态路由与 ARMS 监控提升工程化水平,未来计划引入 WebGPU 和 AI 字体风格迁移技术,进一步优化用户体验。

188 0
|
6月前
|
机器学习/深度学习
|

基于deepseek-v3来复现r1

118 0
|
6月前
|
人工智能 自然语言处理 搜索推荐
|

阶跃多模态再添一员:阶跃与 ACE Studio 联合开源音乐大模型 ACE-Step!

阶跃多模态再添一员:阶跃与 ACE Studio 联合开源音乐大模型 ACE-Step!

438 10
|
7月前
|
物联网 容器
|

“一丹一世界”三等奖 | 绮影录 创作分享

“一丹一世界”三等奖 | 绮影录 创作分享

179 2
|
7月前
|
前端开发 机器人 API
|

答疑机器人实践:AgentScope多智能体带你玩转多源召回

答疑机器人实践:AgentScope多智能体带你玩转多源召回

287 3
|
7月前
|
自然语言处理 Python
|

在下载modelscope[nlp]时会卡住

214 0
|
7月前
|
人工智能 自动驾驶 数据可视化
|

魔搭社区模型速递(3.30-4.12)

魔搭ModelScope本期社区进展:新增1911个模型,297个数据集,113个创新应用, 10篇内容。

373 3
|
7月前
|
机器学习/深度学习 编解码 人工智能
|

Kimi开源MoE架构多模态推理模型,小激活参数,大能量!

最近Moonshot AI推出了 Kimi-VL,这是一个高效的开源混合专家(MoE)视觉-语言模型(VLM),它提供了先进的多模态推理、长上下文理解以及强大的代理能力——所有这些功能都只需激活其语言解码器中的2.8B参数(Kimi-VL-A3B)。

387 1
|
7月前
|
数据采集 人工智能 Java
|

1天消化完Spring全家桶文档!DevDocs:一键深度解析开发文档,自动发现子URL并建立图谱

DevDocs是一款基于智能爬虫技术的开源工具,支持1-5层深度网站结构解析,能将技术文档处理时间从数周缩短至几小时,并提供Markdown/JSON格式输出与AI工具无缝集成。

258 1
来自: 自然语言处理  版块
|
7月前
|
人工智能 文字识别 自动驾驶
|

突破自动驾驶"交规困境":高德&西交发布交规+高精地图基准MapDR,车道级交通规则在线理解,让AI更懂交规!

作为专业领先的出行和位置服务提供商,高德地图以数据准确率高、鲜度高著称。当前自动驾驶技术总是关注到矢量地图的构建,往往忽略了车道级驾驶规则的制作。对应图商而言,车道级的领航不仅需要有正确的车道级矢量表达,还要明确每条路的驾驶规则,保证引导的准确率。

234 2
|
7月前
|
机器学习/深度学习 人工智能
|

OmniCam:浙大联合上海交大推出多模态视频生成框架,虚拟导演打造百万级影视运镜

OmniCam是由浙江大学与上海交通大学联合研发的多模态视频生成框架,通过LLM与视频扩散模型结合实现高质量视频生成,支持文本、轨迹和图像等多种输入模态。

160 1
来自: 多模态  版块
|
7月前
|
编解码 测试技术 计算机视觉
|

如何通过对应用程序界面截图中的功能做图像识别对比缺陷

105 0
来自:计算机视觉 版块
|
7月前
|
机器学习/深度学习 人工智能 监控
|

Amodal3R:3D重建领域新突破!这个模型让残破文物完美还原,3D重建结果助力文物修复

Amodal3R是一种创新的条件式3D生成模型,通过掩码加权多头交叉注意力机制和遮挡感知层,能够从部分可见的2D图像中重建完整3D形态,仅用合成数据训练即可实现真实场景的高精度重建。

316 13
来自: 计算机视觉  版块
|
8月前
|
存储 机器学习/深度学习 人工智能
|

TaoAvatar:手机拍出电影级虚拟人!阿里3D高斯黑科技让动捕设备下岗

阿里巴巴最新推出的TaoAvatar技术,通过3D高斯溅射实现照片级虚拟人实时渲染,支持多信号驱动与90FPS流畅运行,将彻底改变电商直播与远程会议体验。

514 8
来自: 计算机视觉  版块
|
8月前
|
机器学习/深度学习 人工智能 文字识别
|

今日论文推荐:MAPS、RoboFactory、OpenVLThinker等

由 AIRI 和 MIPT 等机构提出的这项工作,聚焦于视觉编码器生成的大量视觉 token 如何在保持高质量表征的同时减少计算成本。他们提出了一种自适应 token 削减方法,通过结合自编码器和 Gumbel-Softmax 选择机制,筛选出最具信息量的 token。实验表明,在 OCR 任务中可削减超 50% 的视觉上下文而不损失性能,为高效多模态推理开辟了新方向。

111 1
|
8月前
|
人工智能 并行计算 异构计算
|

MT-TransformerEngine:国产训练核弹!FP8+算子融合黑科技,Transformer训练速度飙升300%

MT-TransformerEngine 是摩尔线程开源的高效训练与推理优化框架,专为 Transformer 模型设计,通过算子融合、并行加速等技术显著提升训练效率,支持 FP8 混合精度训练,适用于 BERT、GPT 等大型模型。

376 10
来自: 科学计算  版块
|
8月前
|
机器学习/深度学习 人工智能 缓存
|

MHA2MLA:0.3%数据微调!复旦团队开源推理加速神器,KV缓存狂降96.87%

MHA2MLA是复旦大学、华东师范大学、上海AI Lab等机构联合推出的数据高效微调方法,通过引入多头潜在注意力机制(MLA),显著优化基于Transformer的LLM推理效率,降低推理成本。

253 1
来自: 科学计算  版块
|
8月前
|
机器学习/深度学习 人工智能 自动驾驶
|

今日热门论文推荐:MM-Eureka、FedRand、EasyControl、FEA-Bench

由Skolkovo科技学院等机构提出的这项研究,聚焦于人工智能文本检测(ATD)的可解释性提升。利用Sparse Autoencoders(SAE)从Gemma-2-2b模型中提取特征,该工作揭示了现代大语言模型(LLM)与人类文本的差异,尤其是在信息密集领域,展现了独特的写作风格,为ATD提供了新的见解和方法。

132 14
|
8月前
|
人工智能 物联网
|

VideoPainter:开源视频修复神器!双分支架构一键修复,对象身份永久在线

VideoPainter 是由香港中文大学、腾讯ARC Lab等机构联合推出的视频修复和编辑框架,基于双分支架构和预训练扩散模型,支持任意长度视频的修复与编辑,具备背景保留、前景生成、文本指导编辑等功能,为视频处理领域带来新的突破。

344 12
来自: 计算机视觉  版块
|
8月前
|
人工智能 API 开发者
|

无需邀请码!MetaGPT 开源AI助手 OpenManus,实时反馈+模块化设计,开发者福音

OpenManus 是 MetaGPT 团队推出的开源 AI Agent 复刻版,支持多种语言模型和工具链,能够执行代码、处理文件、搜索网络信息等复杂任务,具备实时反馈机制和灵活的配置选项。

546 17
来自: 自然语言处理  版块
|
8月前
|
人工智能 自然语言处理 PyTorch
|

Chat2SVG – 文本描述实现高质量矢量图形的生成框架

Chat2SVG 是一个创新的文本到矢量图形生成框架,结合大型语言模型和图像扩散模型,通过多阶段流程生成高质量的 SVG 图形,支持自然语言指令编辑,适用于设计、教育和艺术创作等领域。

257 8
来自: 自然语言处理  版块
|
8月前
|
API
|

有没有推荐的图生图大模型;自己本地部署,然后API实现传图生图

有没有推荐的图生图大模型;自己本地部署,然后API实现传图生图

545 0
|
9月前
|
人工智能 自然语言处理 搜索推荐
|

PhotoDoodle:设计师必备!AI一键生成装饰元素,30+样本复刻风格+无缝融合的开源艺术编辑框架

PhotoDoodle 是由字节跳动、新加坡国立大学等联合推出的艺术化图像编辑框架,能够通过少量样本学习艺术家的独特风格,实现照片涂鸦和装饰性元素生成。

282 1
来自: 多模态  版块
|
9月前
|
人工智能 自然语言处理 数据可视化
|

OneCode 接入 DeepSeek:开启代码开发新纪元

OneCode 接入 DeepSeek,带来自然语言聊天式基础建模、本地代码工程无缝结合、图生代码功能全线升级及 AI 模型代码直接导入等新特性,极大提升开发效率与体验。预计第二季度推出开源版本,进一步推动开发者社区的开放与创新。这些改进使开发更加高效、便捷和智能,助力代码开发进入新纪元。

129 0
来自: 自然语言处理  版块
|
9月前
|
人工智能 机器人 开发工具
|

LazyLLM:还在为AI应用开发掉头发?商汤开源智能体低代码开发工具,三行代码部署聊天机器人

LazyLLM 是一个低代码开发平台,可帮助开发者快速构建多智能体大语言模型应用,支持一键部署、跨平台操作和多种复杂功能。

315 3
来自: 多模态  版块
|
9月前
|
安全 开发工具 数据库
|

免费源码资源源码站同城搭子系统源码多人语音聊天全套源码

对于免费源码资源,可访问GitHub、GitLab、SourceForge等开源平台,或通过开发者论坛、博客获取。同城搭子系统源码涉及社交、活动管理等功能,建议从开源社区搜索或购买商业源码。多人语音聊天源码较复杂,可在GitHub等平台搜索开源项目,或使用第三方SDK。务必注意版权、安全及技术支持。

356 1

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

0
今日
14407
内容
6
活动
3698
关注
你好!
登录掌握更多精彩内容

相关产品

  • 人工智能平台 PAI
  • 文字识别
  • 智能语音交互