|
10月前
|
算法 人机交互 UED
|

响应时间指标的探索

本文探讨了响应时间在人机交互中的重要性及发展。从1968年Rober B.Miller首次定义响应时间的多个维度,到1991年Stuart K.Card等人提出的立即响应时间常数,再到1993年Jakob Nielsen将响应时间划分为三个关键阈值,直至2020年Google提出的RAIL模型,强调了以用户为中心的性能衡量标准。这些研究为提升用户体验提供了理论基础和技术指导。

817 5
|
11月前
|
存储 C语言
|

C语言:普通局部变量、普通全局变量、静态局部变量、静态全局变量的区别

C语言中,普通局部变量在函数内部定义,作用域仅限于该函数;普通全局变量在所有函数外部定义,作用域为整个文件;静态局部变量在函数内部定义但生命周期为整个程序运行期;静态全局变量在所有函数外部定义,但仅在定义它的文件内可见。

733 10
|
11月前
|
人工智能 自然语言处理 PyTorch
|

Text2Video Huggingface Pipeline 文生视频接口和文生视频论文API

文生视频是AI领域热点,很多文生视频的大模型都是基于 Huggingface的 diffusers的text to video的pipeline来开发。国内外也有非常多的优秀产品如Runway AI、Pika AI 、可灵King AI、通义千问、智谱的文生视频模型等等。为了方便调用,这篇博客也尝试了使用 PyPI的text2video的python库的Wrapper类进行调用,下面会给大家介绍一下Huggingface Text to Video Pipeline的调用方式以及使用通用的text2video的python库调用方式。

840 4
|
12月前
|
人工智能 运维 IDE
|

CodeFuse 开源一周年,焕新出发!

CodeFuse 是蚂蚁集团推出的开源项目,旨在通过大型代码语言模型(Code LLMs)支持软件开发生命周期各阶段,包括设计、编码、测试、部署等。自2023年9月开源以来,CodeFuse 不断迭代,推出了一系列创新产品和技术,如 CodeFuse IDE、muAgent 2.0 框架及 CGE 和 Rodimus 模型。项目已在蚂蚁集团内部广泛应用,并在多个行业会议上展示分享。未来,CodeFuse 将继续深耕开源,推出更多创新产品,并加强社区互动与合作。欢迎访问 CodeFuse 官网和 GitHub 项目主页了解更多详情。

443 0
|
3月前
|
人工智能 弹性计算 自然语言处理
|

从0到1部署大模型,计算巢模型市场让小白秒变专家

阿里云计算巢模型市场依托阿里云弹性计算资源,支持私有化部署,集成通义千问、通义万象、Stable Diffusion等领先AI模型,覆盖大语言模型、文生图、多模态、文生视频等场景。模型部署在用户云账号下,30分钟极速上线,保障数据安全与权限自主控制,适用于企业级私有部署及快速原型验证场景。

313 9
|
4月前
|
数据采集 人工智能 自然语言处理
|

阶跃星辰联合光影焕像开源 3D 大模型 Step1X-3D,高保真+可控!

阶跃星辰联合光影焕像开源 3D 大模型 Step1X-3D,高保真+可控!

182 4
|
5月前
|
机器学习/深度学习 人工智能 编解码
|

告别潜在空间的黑箱操作,直接在原始像素空间建模!PixelFlow:港大团队开源像素级文生图模型

香港大学与Adobe联合研发的PixelFlow模型,通过流匹配和多尺度生成技术实现像素级图像生成,在256×256分辨率任务中取得1.98的FID分数,支持端到端训练并突破传统模型对预训练VAE的依赖。

188 36
来自: 多模态  版块
|
5月前
|
人工智能 搜索推荐 开发者
|

GPT-4o测评准确率竟不到1%!BrowseComp:OpenAI开源AI代理评测新基准,1266道高难度网络检索问题

OpenAI最新开源的BrowseComp基准包含1266个高难度网络检索问题,覆盖影视、科技、艺术等九大领域,其最新Deep Research模型以51.5%准确率展现复杂信息整合能力,为AI代理的浏览能力评估建立新标准。

273 4
来自: 自然语言处理  版块
|
5月前
|
机器学习/深度学习 人工智能 编解码
|

月之暗面开源16B轻量级多模态视觉语言模型!Kimi-VL:推理仅需激活2.8B,支持128K上下文与高分辨率输入

月之暗面开源的Kimi-VL采用混合专家架构,总参数量16B推理时仅激活2.8B,支持128K上下文窗口与高分辨率视觉输入,通过长链推理微调和强化学习实现复杂任务处理能力。

351 5
来自: 多模态  版块
|
5月前
|
机器学习/深度学习 人工智能 文件存储
|

Llama Nemotron:英伟达开源基于Llama架构优化的推理模型,253B参数持平DeepSeek R1!

NVIDIA推出的Llama Nemotron系列推理模型,基于Llama架构优化,包含Nano/Super/Ultra三款,在数学推理、编程和工具调用等任务中展现卓越性能。

154 5
来自: 自然语言处理  版块
|
5月前
|
机器学习/深度学习 人工智能 IDE
|

14B小模型代码成绩紧逼O3-Mini!DeepCoder-14B-Preview:基于Deepseek-R1蒸馏优化的开源代码生成模型

DeepCoder-14B-Preview是基于Deepseek-R1蒸馏优化的140亿参数模型,通过强化学习微调在LiveCodeBench达到60.6%准确率,开源训练数据与系统优化方案。

283 3
来自: 自然语言处理  版块
|
5月前
|
人工智能 调度 UED
|

这个AI能把PSD变视频!人物/场景/道具任意组合!SkyReels-A2:昆仑万维推出的可控多元素视频生成框架

SkyReels-A2是昆仑万维推出的创新视频生成框架,通过扩散模型和图像-文本联合嵌入技术,实现多元素精准组合与高质量视频输出。

235 25
来自: 多模态  版块
|
5月前
|
机器学习/深度学习 人工智能 编解码
|

EasyControl Ghibli:在线体验一键生成宫崎骏动画风,开源AI模型让你的照片秒变吉卜力

EasyControl Ghibli是基于扩散模型的AI工具,通过条件注入技术将普通照片转化为吉卜力动画风格,仅需100张训练样本即可精准还原标志性光影与色调特征。

864 11
来自: 计算机视觉  版块
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
|

32B小模型竟能吊打百亿参数?GLM-4-Air-0414:智谱AutoGLM沉思背后的模型,智能体开发迎来新纪元

GLM-4-Air-0414是智谱公司推出的320亿参数开源基座模型,通过优化预训练数据和对齐策略,在工具调用、联网搜索和代码生成等智能体任务中展现出卓越性能。

317 15
|
5月前
|
人工智能 算法
|

Runway Gen-4:AI视频生成新纪元!高保真特效一键生成影视级内容

Runway Gen-4是新一代AI视频生成模型,通过参考图和文字指令即可生成具有物理真实感、叙事连贯性的高质量视频内容,支持与实拍素材无缝融合。

344 9
来自: 计算机视觉  版块
|
5月前
|
人工智能
|

Hi3DGen:2D照片秒变高精度模型,毛孔级细节完爆Blender!港中文×字节×清华联手打造3D生成黑科技

Hi3DGen是由香港中文大学、字节跳动和清华大学联合研发的高保真3D几何生成框架,通过法线图中间表示实现细节丰富的3D模型生成,其双阶段生成流程显著提升了几何保真度。

565 32
来自: 计算机视觉  版块
|
6月前
|
机器学习/深度学习 人工智能 Rust
|

MoshiVis:语音视觉实时交互开源!7B模型秒懂图像,无障碍革命来袭

MoshiVis 是 Kyutai 推出的开源多模态语音模型,结合视觉与语音输入,支持实时交互,适用于无障碍应用、智能家居控制等多个场景。

281 28
来自: 语音  版块
|
6月前
|
设计模式 人工智能 API
|

Cursor 上线最新 AI 模型 Claude 3.7 Max:200k上下文+200次工具调用!史上最强代码助手硬核上线

Claude 3.7 Max 是 Cursor 推出的最新 AI 模型,支持 200k 上下文窗口和 200 次工具调用,专为复杂代码任务设计,适合硬核开发者和大型项目。

590 6
来自: 自然语言处理  版块
|
6月前
|
存储 人工智能 JSON
|

Evolving Agents:开源Agent革命!智能体动态进化框架上线,复杂任务一键协同搞定

Evolving Agents 是一个开源的AI Agent管理与进化框架,支持智能代理之间的通信与协作,能够根据语义理解需求动态进化,适用于文档处理、医疗保健、金融分析等多个领域。

270 26
来自: 自然语言处理  版块
|
6月前
|
人工智能 自然语言处理 数据可视化
|

autoMate:无需视觉模型!用DeepSeek-V3/R1就能实现自动化操作电脑,支持任何可视化界面

autoMate是一款基于AI和RPA的本地自动化工具,通过自然语言实现复杂任务的自动化操作,支持本地部署,确保数据安全和隐私,适合需要高效处理重复性工作的用户。

468 1
来自: 自然语言处理  版块
|
6月前
|
机器学习/深度学习 编解码 人工智能
|

魔搭社区模型速递(3.2-3.8)

🙋魔搭ModelScope本期社区进展:1340个模型,220个数据集,🎨91个创新应用,📄 8篇内容

367 9
|
6月前
|
机器学习/深度学习 人工智能 算法
|

PRefLexOR:MIT自进化AI框架上线!动态知识图谱+跨域推理,重塑自主思考

PRefLexOR 是 MIT 团队推出的新型自学习 AI 框架,结合偏好优化和强化学习,通过递归推理和多步反思,动态生成知识图谱,支持跨领域推理和自主学习。

287 3
来自: 自然语言处理  版块
|
6月前
|
机器学习/深度学习 异构计算
|

CLIPer:开创性框架提升CLIP空间表征,实现开放词汇语义分割突破

对比语言-图像预训练(CLIP)在多种图像级任务上表现出强大的零样本分类能力,促使研究行人尝试将CLIP应用于像素级开放词汇语义分割,而无需额外训练。关键在于提升图像级CLIP的空间表征能力,例如,用自-自注意力图或基于视觉基础模型的自注意力图替换最后一层的自注意力图。本文提出了一种新颖的分层框架CLIPer,该框架分层提升了CLIP的空间表征能力。

193 5
|
6月前
|
机器学习/深度学习 人工智能 编解码
|

AIMv2:苹果开源多模态视觉模型,自回归预训练革新图像理解

AIMv2 是苹果公司开源的多模态自回归预训练视觉模型,通过图像和文本的深度融合提升视觉模型的性能,适用于多种视觉和多模态任务。

214 5
来自: 多模态  版块
|
7月前
|
安全 开发工具 数据库
|

免费源码资源源码站同城搭子系统源码多人语音聊天全套源码

对于免费源码资源,可访问GitHub、GitLab、SourceForge等开源平台,或通过开发者论坛、博客获取。同城搭子系统源码涉及社交、活动管理等功能,建议从开源社区搜索或购买商业源码。多人语音聊天源码较复杂,可在GitHub等平台搜索开源项目,或使用第三方SDK。务必注意版权、安全及技术支持。

227 1
|
7月前
|
人工智能 分布式计算 监控
|

AgentSociety:告别纸上谈兵!AI社会模拟器预判政策漏洞:输入新规秒看30年后社会形态

AgentSociety 是清华大学推出的基于大语言模型的社会模拟器,通过构建类人心智的智能体模拟复杂社会行为,适用于政策沙盒测试、危机预警等场景。

301 6
来自: 多模态  版块
|
7月前
|
人工智能 自然语言处理 PyTorch
|

Sa2VA:别再用PS抠图了!字节跳动开源Sa2VA:一句话自动分割视频,连头发丝都精准

Sa2VA 是由字节跳动等机构联合推出的多模态大语言模型,结合 SAM2 和 LLaVA 实现对图像和视频的精确分割和对话功能。

403 15
来自: 计算机视觉  版块
|
7月前
|
人工智能 NoSQL Redis
|

Collaborative Gym:斯坦福人机协作框架开源!异步交互+三方感知,让你的AI学会主动补位

介绍Collaborative Gym,一个专注于人机协作的框架,支持异步交互和多种任务环境。

201 14
来自: 自然语言处理  版块
|
7月前
|
存储 人工智能 编解码
|

Pippo:Meta放出AI大招!单张照片秒转3D人像多视角视频,AI自动补全身体细节

Pippo 是 Meta 推出的图像到视频生成模型,能够从单张照片生成 1K 分辨率的多视角高清人像视频,支持全身、面部或头部的生成。

472 9
来自: 计算机视觉  版块
|
7月前
|
人工智能 自然语言处理 数据可视化
|

Data Formulator:微软开源的数据可视化 AI 工具,通过自然语言交互快速创建复杂的数据图表

Data Formulator 是微软研究院推出的开源 AI 数据可视化工具,结合图形化界面和自然语言输入,帮助用户快速创建复杂的可视化图表。

681 10
来自: 多模态  版块
|
7月前
|
存储 人工智能 NoSQL
|

Airweave:快速集成应用数据打造AI知识库的开源平台,支持多源整合和自动同步数据

Airweave 是一个开源工具,能够将应用程序的数据同步到图数据库和向量数据库中,实现智能代理检索。它支持无代码集成、多租户支持和自动同步等功能。

379 14
来自: 多模态  版块
|
7月前
|
人工智能 JSON 数据管理
|

做了一个非结构化数据处理助手,可以自由处理网页、处理文本、音视频等等

Supametas.AI 是一款专注于非结构化数据处理的工具,支持从多种来源(API、网页、文件、图像、音频、视频)提取并标准化输出为JSON和Markdown格式。它与LLM RAG无缝集成,提供用户友好界面和数据隐私保障,帮助企业快速将AI想法落地,提升开发效率。适用于AI医疗、法律、营销、SEO、客服等多个领域,助力企业加速项目成功和迭代。 网址:[https://supametas.ai](https://supametas.ai/)

308 7
来自: 多模态  版块
|
7月前
|
API 开发工具 Python
|

阿里云PAI部署DeepSeek及调用

本文介绍如何在阿里云PAI EAS上部署DeepSeek模型,涵盖7B模型的部署、SDK和API调用。7B模型只需一张A10显卡,部署时间约10分钟。文章详细展示了模型信息查看、在线调试及通过OpenAI SDK和Python Requests进行调用的步骤,并附有测试结果和参考文档链接。

3465 11
|
7月前
|
自然语言处理 安全 搜索推荐
|

阿里通义等提出Chronos:慢思考RAG技术助力新闻时间线总结

在数字化时代,新闻信息的指数级增长使得从海量文本中提取和整理历史事件的时间线变得至关重要。为了应对这一挑战,阿里巴巴通义实验室与上海交通大学的中断者提出了一种基于Agent的新闻时间线摘要新框架——CH RONOS,源自希腊神话中的时间之神柯罗诺斯,该框架通过迭代多轮的自我提问方式,结合检索增强生成技术,从互联网上检索相关事件信息,并生成时间顺序的新闻摘要,为新闻时间线摘要生成提供了一种全新的解决方案。

331 44
|
7月前
|
人工智能 测试技术
|

QVQ-72B-Preview:阿里通义千问最新多模态推理模型,视觉推理助力复杂图像理解

阿里云通义千问团队开源的多模态推理模型 QVQ-72B-Preview,专注于提升视觉推理能力,支持复杂图像理解和逐步推理。

466 6
来自: 多模态  版块
|
8月前
|
存储 人工智能 自然语言处理
|

OmniThink:浙大联合阿里通义开源 AI 写作框架,基于深度思考扩展知识边界,实时展示思考过程

OmniThink 是浙江大学与阿里通义实验室联合开发的机器写作框架,通过模拟人类迭代扩展和反思过程,生成高质量长篇文章,显著提升知识密度和内容深度。

457 12
来自: 自然语言处理  版块
|
8月前
|
人工智能 编解码 测试技术
|

Mini-InternVL:轻量级多模态大模型,4B 参数量媲美 InternVL2-76B

Mini-InternVL 是上海AI Lab联合清华等机构推出的轻量级多模态大模型,支持高效推理、跨领域适应和动态分辨率输入,适用于多种场景。

480 12
来自: 多模态  版块
|
8月前
|
人工智能 文字识别 异构计算
|

NVIDIA-Ingest:英伟达开源智能文档提取及结构化工具,支持 GPU 加速和并行处理

NVIDIA-Ingest 是英伟达开源的智能文档提取工具,支持 PDF、Word、PPT 等多种格式,提供并行处理和 GPU 加速,适用于企业内容管理和生成式应用。

299 18
来自: 多模态  版块
|
8月前
|
自然语言处理 前端开发 开发者
|

使用 modelscope-studio 构建你的 Gradio 应用

modelscope-studio是一个基于 Gradio 的三方组件库,它可以为开发者提供更定制化的界面搭建能力和更丰富的组件使用形式。

525 26
|
8月前
|
人工智能 编解码 自然语言处理
|

AGUVIS:指导模型实现 GUI 自动化训练框架,结合视觉-语言模型进行训练,实现跨平台自主 GUI 交互

AGUVIS 是香港大学与 Salesforce 联合推出的纯视觉 GUI 自动化框架,能够在多种平台上实现自主 GUI 交互,结合显式规划和推理,提升复杂数字环境中的导航和交互能力。

333 8
来自: 多模态  版块
|
8月前
|
人工智能 自然语言处理 测试技术
|

AutoRAG:自动优化 RAG 管道工具,自动评估各种 RAG 模块组合,快速找到最优的 RAG 管道

AutoRAG 是一款自动优化 RAG(Retrieval-Augmented Generation)管道的工具,帮助用户找到最适合其数据和应用场景的最佳 RAG 管道。

420 12
来自: 自然语言处理  版块
|
9月前
|
人工智能 自然语言处理 决策智能
|

DRT-o1:腾讯推出专注于文学翻译的 AI 模型,擅长理解比喻和隐喻等修辞手法,在翻译时保留原文的情感色彩

DRT-o1 是腾讯研究院推出的文学翻译系列 AI 模型,通过长链思考推理技术显著提升翻译质量,特别擅长处理比喻和隐喻等修辞手法。

284 2
来自: 自然语言处理  版块
|
9月前
|

MNN推理框架将大模型放进移动端设备,并达到SOTA推理性能!

MNN推理框架将大模型放进移动端设备,并达到SOTA推理性能!

382 0
|
9月前
|
存储 人工智能 编解码
|

多模态实时交互大模型浦语·灵笔 2.5 OmniLive开源:能看、能听、会记、会说!

2024年12月12日,多模态实时交互大模型书生·浦语灵笔2.5-OL(InternLM-XComposer2.5-OmniLive)开源,该模型可以通过视觉和听觉实时观察和理解外部世界,自动形成对观察到内容的长期记忆,并可通过语音与人类用户进行对话交谈,提供更自然的大模型交互体验。

505 4
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
|

Genesis:卡内基梅隆大学联合 20 多所研究机构开源生成式物理引擎,能够模拟各种材料、物体和物理运动现象

Genesis是由卡内基梅隆大学联合20多所研究机构开源的生成式物理引擎,能够模拟世界万物,具有高度的物理准确性和快速的模拟速度,适用于机器人仿真、游戏开发、电影特效制作等多个领域。

412 21
来自: 计算机视觉  版块
|
9月前
|
机器学习/深度学习 人工智能 文字识别
|

POINTS 1.5:腾讯微信开源的多模态大模型,超越了业界其他的开源视觉语言模型,具备强大的视觉和语言处理能力

POINTS 1.5是腾讯微信推出的多模态大模型,基于LLaVA架构,具备强大的视觉和语言处理能力。它在复杂场景的OCR、推理能力、关键信息提取等方面表现出色,是全球10B以下开源模型中的佼佼者。

420 58
来自: 多模态  版块

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

0
今日
14252
内容
6
活动
3583
关注
你好!
登录掌握更多精彩内容

相关产品

  • 人工智能平台 PAI
  • 文字识别
  • 智能语音交互