视觉智能-最新-阿里云开发者社区

阿里云OpenVI

|

5月前

|

人工智能图形学计算机视觉

|

视频

置顶

通义万相

通义妙谈 -图像模型玩转更多可能！通义万相新升级一个包罗万象的“应用广场”！

“买家秀”秒变“卖家秀”，AI一键更换商品模特，虚拟模特功能等你解锁🔒 “小草图”秒变“大制作”，AI涂鸦作画让你的草图“一秒”成画🖌️ “2-4图”生成“个人写真”，AI虚拟分身在线创作，在家也是巴厘岛🏖️ 阿里云的微博视频全网征集灵魂画手，几笔生成精美大作，精美礼物等你来拿

389 1 1

来自：通义万相版块

阿里云OpenVI

|

5月前

|

人工智能图形学计算机视觉

|

视频

置顶

通义万相

通义万相—涂鸦作画功能上线~欢迎体验

通义万相应用广场中新增功能：涂鸦作画~用户可试试在画板上涂鸦并结合描述生成画作，快来体验吧~

13327 9 9

来自：通义万相版块

阿里云OpenVI

|

5月前

|

人工智能图形学计算机视觉

|

视频

置顶

通义万相

通义万相—写真馆功能上线，欢迎体验~

通义万相应用广场中新增功能：写真馆~用户上传2-4张真人照片，即可获得专属写真大片，快来体验吧~

847 5 7

来自：通义万相版块

阿里云OpenVI

|

5月前

|

人工智能图形学计算机视觉

|

视频

置顶

通义万相

通义万相—虚拟模特功能上线，欢迎体验~

通义万相应用广场中新增功能：虚拟模特~用户可上传真人实拍商品展示图，获取模特大片。快来体验吧~

10581 6 6

来自：通义万相版块

阿里云OpenVI

|

6月前

|

视频

置顶

通义万相

通义妙谈-阿里云图像生成大模型通义万相，Composer算法实现绘图精准可控

11087 8 10

来自：通义万相版块

阿里云OpenVI

|

6月前

|

物联网开发者异构计算

|

博文

置顶

facechain人物写真应用自8月11日开源了第一版证件照生成后。目前在github（GitHub - modelscope/facechain: FaceChain is a deep-learning toolchain for generating your Digital-Twin.）上已有5.7K的star，论文链接：FaceChain: A Playground for Identity-Preserving Portrait Generation：https://arxiv.org/abs/2308.14256。

556 4 4

morning_sun_lee

|

8月前

|

人工智能编解码算法

|

博文

置顶

【IJCAI 2023】流感知优化之 DAMO-StreamNet 论文解读

传统视频目标检测（Video Object Detection, VOD）是离线（offline）的检测任务，即仅考虑算法的检测精度，未考虑算法的延时。流感知（Streaming Perception）任务作为VOD的一个细分方向，采用流平均精度（Streaming Average Precision, sAP）指标，衡量算法的在线（online）检测能力，即同时衡量算法的精度和延时。本文针对现有的流感知工作在训练方式和模型感受野两方面的不足，提出了DAMO-StreamNet，在保证算法实时性的前提下，实现了SOTA的性能。

736 3 4

小小开发楠楠子

|

8月前

|

机器学习/深度学习人工智能自然语言处理

|

博文

置顶

ChatGPT最强专业学习资料集锦

本文旨在整理一份可供参考和学习的专业ChatGPT相关资料，包括ChatGPT相关论文、Github项目、以及当前市场上出现的ChatGPT相关产品等。

798 3 5

不阔以太晚睡

|

8月前

|

机器学习/深度学习搜索推荐计算机视觉

|

博文

置顶

【阿里云OpenVI-人脸感知理解系列之人脸识别】基于Transformer的人脸识别新框架TransFace ICCV-2023论文深入解读

本文介绍阿里云开放视觉智能团队被计算机视觉顶级国际会议ICCV 2023接收的论文 "TransFace: Calibrating Transformer Training for Face Recognition from a Data-Centric Perspective"。TransFace旨在探索ViT在人脸识别任务上表现不佳的原因，并从data-centric的角度去提升ViT在人脸识别任务上的性能。

1696 341 342

来自：人脸人体版块

KlondikeKing

|

8月前

|

机器学习/深度学习编解码算法

|

博文

置顶

【阿里云OpenVI-视觉生产系列之图片上色】照片真实感上色算法DDColor ICCV2023论文深入解读

图像上色是老照片修复的一个关键步骤，本文介绍发表在 ICCV 2023 上的最新上色论文 DDColor

1897 10 10

来自：视觉生产版块

vicky_oy0522

|

8月前

|

AI芯片

|

博文

置顶

AIGC视频生成/编辑技术调研报告

随着图像生成领域的研究飞速发展，基于diffusion的生成式模型取得效果上的大突破。在图像生成/编辑产品大爆发的今天，视频生成/编辑技术也引起了学术界和产业界的高度关注。该分享主要介绍视频生成/编辑的研究现状，包括不同技术路线的优劣势，以及该领域当下面临的核心问题与挑战。

1307 2 2

来自：视觉生产版块

游客gwiurm4mq5kag

|

7月前

|

机器学习/深度学习人工智能达摩院

|

博文

置顶

AIGC玩转卡通化技术实践

伴随着持续不断的AIGC浪潮，越来越多的AI生成玩法正在被广大爱好者定义和提出，图像卡通化（动漫化）基于其还原效果高，风格种类丰富等特点而备受青睐。早在几年前，伴随着GAN网络的兴起，卡通化就曾经风靡一时。而今，伴随着AIGC技术的兴起和不断发展，扩散生成模型为卡通化风格和提供了更多的创意和生成的可能性。本文就将详细介绍达摩院开放视觉团队的卡通化技术实践。

56745 4 4

来自：视觉生产版块

游客dpk6alxjjvtj2

|

7月前

|

机器学习/深度学习编解码人工智能

|

博文

置顶

被低估且误解的换脸技术：揭秘换脸技术本身的领域及行业价值

本文主要用尽量简单白话的描述来剖析下AI换脸技术的原理，做一个科普文章，了解下当前换脸技术的发展现状及其局限性。

559 2 2

来自：人脸人体版块

1935077051276755

|

7月前

|

编解码人工智能移动开发

|

博文

置顶

AIGC图像分辨率太低？快来试试像素感知扩散超分模型，你想要的细节都在这里

阿里巴巴最新自研的像素感知扩散超分模型已经开源，它把扩散模型强大的生成能力和像素级控制能力相结合，能够适应从老照片修复到AIGC图像超分的各种图像增强任务和各种图像风格，并且能够控制生成强度和增强风格。这项技术的直接应用之一是AIGC图像的后处理增强和二次生成，能够带来可观的效果提升。

634 4 4

marquezx

|

7月前

|

自然语言处理测试技术计算机视觉

|

博文

置顶

OpenVI-感知理解系列之GAP骨骼点动作识别 ICCV23顶会论文深入解读

本文介绍了ICCV23中稿论文 GAP: Generative Action Description Prompts for Skeleton-based Action Recognition

713 2 2

来自：图像理解版块

小小开发楠楠子

|

7月前

|

机器学习/深度学习人工智能达摩院

|

博文

置顶

港大阿里“视觉AI任意门”，一键向场景中无缝传送物体

本文主要展示了阿里和港大的AI版「任意门」，实现零样本的图像嵌入。

947 3 3

y22d5jdczpqg6

|

7月前

|

人工智能自动驾驶算法

|

博文

置顶

本地生活技术雷达——生成式AI（Generative AI）在阿里本地生活的应用与思考

本地生活技术雷达是由本地生活技术中心战略管理&PMO团队开展的，定期扫描和评估新兴技术的战略研究工作。目的是对技术趋势进行前瞻性预判，提出新技术布局建议，在技术驱动业务创新和业务增长、践行社会责任等方面有一些实质性探索。本篇尝试探讨 1）理解AI范式——从分析型（Analytical AI）到生成式（Generative AI）的拐点在2022年，其对人类社会以及商业模式的长期影响； 2）生成式AI（文生文、文生图、图生图等）在本地业务目前场景的应用和未来的方向。欢迎技术、产品、运营、战略、管理层、国内国际等各种视角的指点和碰撞！

39241 8 9

aqi00

|

6小时前

|

编解码 Linux Windows

|

博文

FFmpeg开发笔记（十一）Windows环境给FFmpeg集成vorbis和amr

在Windows环境下，为FFmpeg集成音频编解码库，包括libogg、libvorbis和opencore-amr，涉及下载源码、配置、编译和安装步骤。首先，安装libogg，通过配置、make和make install命令完成，并更新PKG_CONFIG_PATH。接着，安装libvorbis，同样配置、编译和安装，并修改pkgconfig文件。之后，安装opencore-amr。最后，重新配置并编译FFmpeg，启用ogg和amr支持，通过ffmpeg -version检查是否成功。整个过程需确保环境变量设置正确，并根据路径添加相应库。

6 1 1

来自：视频分割版块

aqi00

|

6小时前

|

编解码 Linux

|

博文

FFmpeg开发笔记（十二）Linux环境给FFmpeg集成libopus和libvpx

在《FFmpeg开发实战》一书中，介绍了如何在Linux环境下为FFmpeg集成libopus和libvpx，以支持WebM格式的Opus和VP8/VP9编码。首先，下载并安装libopus。接着，下载并安装libvpx。最后，在FFmpeg源码目录下，重新配置FFmpeg，启用libopus和libvpx，编译并安装。通过`ffmpeg -version`检查版本信息，确认libopus和libvpx已启用。

7 1 1

来自：视频分割版块

aqi00

|

7小时前

|

编解码 Linux

|

博文

FFmpeg开发笔记（十）Linux环境给FFmpeg集成vorbis和amr

在Linux环境下，为FFmpeg添加对AAC、MP3、OGG和AMR音频格式的支持，需安装libogg、libvorbis和opencore-amr库。首先，从官方源下载各库的最新源码，如libogg-1.3.5、libvorbis-1.3.7和opencore-amr-0.1.6，然后解压并依次执行`./configure`、`make`和`make install`进行编译安装。接着，在FFmpeg源码目录中，使用`./configure`命令重新配置，并重新编译安装FFmpeg。最后，验证FFmpeg版本信息确认已启用ogg和amr支持。

7 0 0

来自：视频分割版块

花开富贵111

|

2天前

|

问答

在视觉智能平台中如下问题如何解决？

12 1 1

蓝易云

|

2天前

|

监控 Linux KVM

|

博文

kvm和vmware有什么区别？如何选择？

最终的选择取决于你的组织需求、预算和技术偏好。在做出决策之前，最好进行详细的比较和评估，以确保选择适合你的虚拟化环境。

12 3 3

陈幕白

|

2天前

|

问答

这个支持识别行驶证背面不？

9 2 0

三分钟热度的鱼

|

2天前

|

文字识别传感器

|

问答

在文字识别OCR根据图片识别信息并填充失败，如何解决？

9 1 0

三分钟热度的鱼

|

2天前

|

文字识别

|

问答

文字识别OCR的自定义模板入口在哪？

6 0 0

三分钟热度的鱼

|

2天前

|

问答

在图像搜索我的申请已经通过了，但是不小心又点了一次申请就被关闭权限了，怎么处理？

3 0 0

三分钟热度的鱼

|

2天前

|

问答

图像搜索先首月免费开通了商品图片，退订后商品图片后再开通布料图片的首月还会收费吗？

11 2 0

三分钟热度的鱼

|

2天前

|

对象存储

|

问答

图像搜索的图片底库如何创建？不使用oss这种方式。一次性上传几万张图片。

4 1 0

三分钟热度的鱼

|

2天前

|

问答

图像搜索这个回调接口返回的内容字段有哪些啊？

4 1 0

三分钟热度的鱼

|

2天前

|

问答

图像搜索的increment.meta文件方式同步数据一万条大概需要执行多久啊？

3 1 0

三分钟热度的鱼

|

2天前

|

问答

图像搜索这个是什么问题啊？

9 1 0

三分钟热度的鱼

|

2天前

|

问答

图像搜索的increment.meta支持intAttr2和StrAttr2吗？

10 1 0

三分钟热度的鱼

|

2天前

|

API

|

问答

在图像搜索我api搜索的时候，不传categoryId值搜不到结果，怎么回事？

11 1 0

三分钟热度的鱼

|

2天前

|

问答

图像搜索报错是什么原因？

7 1 0

三分钟热度的鱼

|

2天前

|

问答

图像搜索收费只能包月么？有么有别的续费？

13 1 0

三分钟热度的鱼

|

2天前

|

问答

图像搜索这个是按月收费的有点太贵了有没有按次数收费的？

8 1 0

三分钟热度的鱼

|

2天前

|

问答

图像搜索报错是什么原因？

6 1 0

三分钟热度的鱼

|

2天前

|

问答

图像搜索报这个错是什么问题？

6 1 0

花开富贵111

|

3天前

|

问答

在视觉智能平台中直接用人脸库的人脸图片去识别对比 1:n 但是识别不到这个图片的结果怎么办?

21 1 0

花开富贵111

|

3天前

|

数据安全/隐私保护

|

问答

在视觉智能平台中有视频去水印的接口吗？

14 1 0

花开富贵111

|

3天前

|

问答

在视觉智能平台中抠图效果不是很好呀，有更好的产品吗？

16 1 0

花开富贵111

|

3天前

|

小程序

|

问答

在视觉智能平台中想用小程序调用阿里云的垃圾分类识别接口，有微信小程序端的请求签名文件吗？

13 0 0

花开富贵111

|

3天前

|

问答

视觉智能开放平台的商品理解客户如何查询这个服务谁在用吗？

12 1 0

花开富贵111

|

3天前

|

问答

在视觉智能平台中文本条数是指的什么，比如说博客文章审核这种该怎么算呢？

16 1 0

花开富贵111

|

3天前

|

问答

在视觉智能平台中图片审核计费是按张数来算吗？

15 1 0

花开富贵111

|

3天前

|

问答

在视觉智能平台中人脸对比1：N的是只买通用预付资源包就可以了吗？

15 1 0

花开富贵111

|

3天前

|

API

|

问答

在视觉智能平台中镜头解析API返回的是帧，这个怎么换算成具体的秒数，还是不用换算，直接就可以剪辑？

15 1 0

花开富贵111

|

3天前

|

问答

在视觉智能平台中如下问题为什么失败吗，是不是视频太大了？

12 0 0

花开富贵111

|

3天前

|

问答

在视觉智能平台中如下问题如何解决？

12 0 0

花开富贵111

|

3天前

|

问答

在视觉智能平台中活体校验改选择那个产品？

13 1 0

最新

通义万相

官方博客

问答

视频

通义妙谈 -图像模型玩转更多可能！通义万相新升级 一个包罗万象的“应用广场”！

通义万相—涂鸦作画功能上线~欢迎体验

通义万相—写真馆功能上线，欢迎体验~

通义万相—虚拟模特功能上线，欢迎体验~

通义妙谈-阿里云图像生成大模型通义万相，Composer算法实现绘图精准可控

facechain人物写真生成工业级开源

【IJCAI 2023】流感知优化之 DAMO-StreamNet 论文解读

ChatGPT最强专业学习资料集锦

【阿里云OpenVI-人脸感知理解系列之人脸识别】基于Transformer的人脸识别新框架TransFace ICCV-2023论文深入解读

【阿里云OpenVI-视觉生产系列之图片上色】照片真实感上色算法DDColor ICCV2023论文深入解读

AIGC视频生成/编辑技术调研报告

AIGC玩转卡通化技术实践

被低估且误解的换脸技术： 揭秘换脸技术本身的领域及行业价值

AIGC图像分辨率太低？快来试试像素感知扩散超分模型，你想要的细节都在这里

OpenVI-感知理解系列之GAP骨骼点动作识别 ICCV23顶会论文深入解读

港大阿里“视觉AI任意门”，一键向场景中无缝传送物体

本地生活技术雷达——生成式AI（Generative AI）在阿里本地生活的应用与思考

FFmpeg开发笔记（十一）Windows环境给FFmpeg集成vorbis和amr

FFmpeg开发笔记（十二）Linux环境给FFmpeg集成libopus和libvpx

FFmpeg开发笔记（十）Linux环境给FFmpeg集成vorbis和amr

在视觉智能平台中如下问题如何解决？

kvm和vmware有什么区别？如何选择？

这个支持识别行驶证背面不？

在文字识别OCR根据图片识别信息并填充失败，如何解决？

文字识别OCR的自定义模板入口在哪？

在图像搜索我的申请已经通过了，但是不小心又点了一次申请就被关闭权限了，怎么处理？

图像搜索先首月免费开通了商品图片，退订后商品图片后再开通布料图片的首月还会收费吗？

图像搜索的图片底库如何创建？不使用oss这种方式。一次性上传几万张图片。

图像搜索这个回调接口返回的内容字段有哪些啊 ？

图像搜索的increment.meta文件方式同步数据一万条大概需要执行多久啊？

图像搜索这个是什么问题啊？

图像搜索的increment.meta支持intAttr2和StrAttr2吗？

在图像搜索我api搜索的时候，不传categoryId值搜不到结果，怎么回事？

图像搜索报错是什么原因？

图像搜索收费只能包月么？有么有别的续费？

图像搜索这个是按月收费的 有点太贵了 有没有按次数收费的？

图像搜索报错是什么原因？

图像搜索报这个错是什么问题？

在视觉智能平台中直接用人脸库的人脸图片去识别对比 1:n 但是识别不到这个图片的结果怎么办?

在视觉智能平台中有视频去水印的接口吗？

在视觉智能平台中抠图效果不是很好呀，有更好的产品吗？

在视觉智能平台中想用小程序调用阿里云的垃圾分类识别接口，有微信小程序端的请求签名文件吗？

视觉智能开放平台的商品理解客户如何查询这个服务谁在用吗？

在视觉智能平台中文本条数是指的什么，比如说博客文章审核这种该怎么算呢？

在视觉智能平台中图片审核计费是按张数来算吗？

在视觉智能平台中人脸对比1：N的是只买通用预付资源包就可以了吗？

在视觉智能平台中镜头解析API返回的是帧，这个怎么换算成具体的秒数，还是不用换算，直接就可以剪辑？

在视觉智能平台中如下问题为什么失败吗，是不是视频太大了？

在视觉智能平台中如下问题如何解决？

在视觉智能平台中活体校验改选择那个产品？

视觉智能

活跃用户

相关产品

通义妙谈 -图像模型玩转更多可能！通义万相新升级一个包罗万象的“应用广场”！

被低估且误解的换脸技术：揭秘换脸技术本身的领域及行业价值

图像搜索这个回调接口返回的内容字段有哪些啊？

图像搜索这个是按月收费的有点太贵了有没有按次数收费的？