|
9月前
|
人工智能 图形学 计算机视觉
|
置顶
通义万相

通义妙谈 -图像模型玩转更多可能!通义万相新升级 一个包罗万象的“应用广场”!

“买家秀”秒变“卖家秀”,AI一键更换商品模特,虚拟模特功能等你解锁🔒 “小草图”秒变“大制作”,AI涂鸦作画让你的草图“一秒”成画🖌️ “2-4图”生成“个人写真”,AI虚拟分身在线创作,在家也是巴厘岛🏖️ 阿里云的微博视频 全网征集灵魂画手,几笔生成精美大作,精美礼物等你来拿

804 2
来自: 通义万相  版块
|
9月前
|
人工智能 图形学 计算机视觉
|
置顶
通义万相

通义万相—涂鸦作画功能上线~欢迎体验

通义万相应用广场中新增功能:涂鸦作画~用户可试试在画板上涂鸦并结合描述生成画作,快来体验吧~

13576 10
来自: 通义万相  版块
|
9月前
|
人工智能 图形学 计算机视觉
|
置顶
通义万相

通义万相—写真馆功能上线,欢迎体验~

通义万相应用广场中新增功能:写真馆~用户上传2-4张真人照片,即可获得专属写真大片,快来体验吧~

1182 5
来自: 通义万相  版块
|
9月前
|
人工智能 图形学 计算机视觉
|
置顶
通义万相

通义万相—虚拟模特功能上线,欢迎体验~

通义万相应用广场中新增功能:虚拟模特~用户可上传真人实拍商品展示图,获取模特大片。快来体验吧~

10791 7
来自: 通义万相  版块
|
10月前
|
置顶
通义万相

通义妙谈-阿里云图像生成大模型通义万相,Composer算法实现绘图精准可控

通义妙谈-阿里云图像生成大模型通义万相,Composer算法实现绘图精准可控

12018 8
来自: 通义万相  版块
|
10月前
|
物联网 开发者 异构计算
|
置顶

facechain人物写真生成工业级开源

facechain人物写真应用自8月11日开源了第一版证件照生成后。目前在github(GitHub - modelscope/facechain: FaceChain is a deep-learning toolchain for generating your Digital-Twin.)上已有5.7K的star,论文链接:FaceChain: A Playground for Identity-Preserving Portrait Generation:https://arxiv.org/abs/2308.14256。

698 4
|
12月前
|
人工智能 编解码 算法
|
置顶

【IJCAI 2023】流感知优化之 DAMO-StreamNet 论文解读

传统视频目标检测(Video Object Detection, VOD)是离线(offline)的检测任务,即仅考虑算法的检测精度,未考虑算法的延时。流感知(Streaming Perception)任务作为VOD的一个细分方向,采用流平均精度(Streaming Average Precision, sAP)指标,衡量算法的在线(online)检测能力,即同时衡量算法的精度和延时。本文针对现有的流感知工作在训练方式和模型感受野两方面的不足,提出了DAMO-StreamNet,在保证算法实时性的前提下,实现了SOTA的性能。

894 3
|
12月前
|
机器学习/深度学习 人工智能 自然语言处理
|
置顶

ChatGPT最强专业学习资料集锦

本文旨在整理一份可供参考和学习的专业ChatGPT相关资料,包括ChatGPT相关论文、Github项目、以及当前市场上出现的ChatGPT相关产品等。

959 3
|
12月前
|
机器学习/深度学习 搜索推荐 计算机视觉
|
置顶

【阿里云OpenVI-人脸感知理解系列之人脸识别】基于Transformer的人脸识别新框架TransFace ICCV-2023论文深入解读

本文介绍 阿里云开放视觉智能团队 被计算机视觉顶级国际会议ICCV 2023接收的论文 "TransFace: Calibrating Transformer Training for Face Recognition from a Data-Centric Perspective"。TransFace旨在探索ViT在人脸识别任务上表现不佳的原因,并从data-centric的角度去提升ViT在人脸识别任务上的性能。

2004 341
来自: 人脸人体  版块
|
12月前
|
机器学习/深度学习 编解码 算法
|
置顶

【阿里云OpenVI-视觉生产系列之图片上色】照片真实感上色算法DDColor ICCV2023论文深入解读

图像上色是老照片修复的一个关键步骤,本文介绍发表在 ICCV 2023 上的最新上色论文 DDColor

2516 10
来自: 视觉生产  版块
|
12月前
|
AI芯片
|
置顶

AIGC视频生成/编辑技术调研报告

随着图像生成领域的研究飞速发展,基于diffusion的生成式模型取得效果上的大突破。在图像生成/编辑产品大爆发的今天,视频生成/编辑技术也引起了学术界和产业界的高度关注。该分享主要介绍视频生成/编辑的研究现状,包括不同技术路线的优劣势,以及该领域当下面临的核心问题与挑战。

1451 2
来自: 视觉生产  版块
|
11月前
|
机器学习/深度学习 人工智能 达摩院
|
置顶

AIGC玩转卡通化技术实践

伴随着持续不断的AIGC浪潮,越来越多的AI生成玩法正在被广大爱好者定义和提出,图像卡通化(动漫化)基于其还原效果高,风格种类丰富等特点而备受青睐。早在几年前,伴随着GAN网络的兴起,卡通化就曾经风靡一时。而今,伴随着AIGC技术的兴起和不断发展,扩散生成模型为卡通化风格和提供了更多的创意和生成的可能性。本文就将详细介绍达摩院开放视觉团队的卡通化技术实践。

56890 4
来自: 视觉生产  版块
|
11月前
|
机器学习/深度学习 编解码 人工智能
|
置顶

被低估且误解的换脸技术: 揭秘换脸技术本身的领域及行业价值

本文主要用尽量简单白话的描述来剖析下AI换脸技术的原理,做一个科普文章,了解下当前换脸技术的发展现状及其局限性。

811 2
来自: 人脸人体  版块
|
11月前
|
编解码 人工智能 移动开发
|
置顶

AIGC图像分辨率太低?快来试试像素感知扩散超分模型,你想要的细节都在这里

阿里巴巴最新自研的像素感知扩散超分模型已经开源,它把扩散模型强大的生成能力和像素级控制能力相结合,能够适应从老照片修复到AIGC图像超分的各种图像增强任务和各种图像风格,并且能够控制生成强度和增强风格。这项技术的直接应用之一是AIGC图像的后处理增强和二次生成,能够带来可观的效果提升。

770 4
|
11月前
|
自然语言处理 测试技术 计算机视觉
|
置顶

OpenVI-感知理解系列之GAP骨骼点动作识别 ICCV23顶会论文深入解读

本文介绍了ICCV23中稿论文 GAP: Generative Action Description Prompts for Skeleton-based Action Recognition

908 2
来自: 图像理解  版块
|
11月前
|
机器学习/深度学习 人工智能 达摩院
|
置顶

港大阿里“视觉AI任意门”,一键向场景中无缝传送物体

本文主要展示了阿里和港大的AI版「任意门」,实现零样本的图像嵌入。

1103 3
|
11月前
|
人工智能 自动驾驶 算法
|
置顶

本地生活技术雷达——生成式AI(Generative AI)在阿里本地生活的应用与思考

本地生活技术雷达是由本地生活技术中心战略管理&PMO团队开展的,定期扫描和评估新兴技术的战略研究工作。目的是对技术趋势进行前瞻性预判,提出新技术布局建议,在技术驱动业务创新和业务增长、践行社会责任等方面有一些实质性探索。 本篇尝试探讨 1)理解AI范式——从分析型(Analytical AI)到生成式(Generative AI)的拐点在2022年,其对人类社会以及商业模式的长期影响; 2)生成式AI(文生文、文生图、图生图等)在本地业务目前场景的应用和未来的方向。 欢迎技术、产品、运营、战略、管理层、国内国际等各种视角的指点和碰撞!

39435 8
|
2天前
|
JavaScript 前端开发 Java
|

FFmpeg开发笔记(四十七)寒冬下安卓程序员的几个技术转型发展方向

IT寒冬使APP开发门槛提升,安卓程序员需转型。选项包括:深化Android开发,跟进Google新技术如Kotlin、Jetpack、Flutter及Compose;研究Android底层框架,掌握AOSP;转型Java后端开发,学习Spring Boot等框架;拓展大前端技能,掌握JavaScript、Node.js、Vue.js及特定框架如微信小程序、HarmonyOS;或转向C/C++底层开发,通过音视频项目如FFmpeg积累经验。每条路径都有相应的书籍和技术栈推荐,助你顺利过渡。

13 3
来自: 视频分割  版块
|
3天前
|
Web App开发 Android开发
|

FFmpeg开发笔记(四十六)利用SRT协议构建手机APP的直播Demo

实时数据传输在互联网中至关重要,不仅支持即时通讯如QQ、微信的文字与图片传输,还包括音视频通信。一对一通信常采用WebRTC技术,如《Android Studio开发实战》中的App集成示例;而一对多的在线直播则需部署独立的流媒体服务器,使用如SRT等协议。SRT因其优越的直播质量正逐渐成为主流。本文档概述了SRT协议的使用,包括通过OBS Studio和SRT Streamer进行SRT直播推流的方法,并展示了推流与拉流的成功实例。更多细节参见《FFmpeg开发实战》一书。

15 1
来自: 视频分割  版块
|
6天前
|
监控 开发工具 Android开发
|

结合GB/T28181规范探讨Android平台设备接入模块心跳实现

本文介绍了GB28181标准中的状态信息报送机制,即心跳机制,用于监控设备与服务器间的连接状态。根据国标GB/T28181-2016,设备在异常时需立即发送状态信息,在正常状态下则按固定间隔(默认60秒)定期发送。若连续三次(默认值)未收到心跳,则视为离线。文章展示了在Android平台的GB28181设备接入模块(SmartGBD)中,如何调整心跳间隔为20秒及超时次数为3次,并给出了心跳消息的示例和异常处理代码片段。对于希望深入了解或遇到问题的开发者,作者提供了进一步交流的机会。

8 0
|
6天前
|
传感器 API Android开发
|

Android摄像头采集选Camera1还是Camera2?

Camera1与Camera2是Android平台上的两种摄像头API。Camera1(API1)在Android 5.0后被标记为过时,新项目应优先选用Camera2(API2)。Camera2提供了更精细的控制选项,如曝光时间、ISO感光度等;支持多摄像头管理;采用异步操作提高应用响应速度;并支持RAW图像捕获及实时图像处理。此外,它还具备更好的适配性和扩展性,适用于各类应用场景,如相机应用开发、视频通话和计算机视觉等。因此,在现代Android开发中推荐使用Camera2。

8 0
|
6天前
|
编解码 开发工具 Android开发
|

Android平台RTMP直播推送模块技术接入说明

大牛直播SDK跨平台RTMP直播推送模块,始于2015年,支持Windows、Linux(x64_64架构|aarch64)、Android、iOS平台,支持采集推送摄像头、屏幕、麦克风、扬声器、编码前、编码后数据对接,功能强大,性能优异,配合大牛直播SDK的SmartPlayer播放器,轻松实现毫秒级的延迟体验,满足大多数行业的使用场景。RTMP直播推送模块数据源,支持编码前、编码后数据对接

8 0
|
6天前
|
开发工具 Android开发 开发者
|

Android平台如何不推RTMP|不发布RTSP流|不实时录像|不回传GB28181数据时实时快照?

本文介绍了一种在Android平台上实现实时截图快照的方法,尤其适用于无需依赖系统接口的情况,如在RTMP推送、RTSP服务或GB28181设备接入等场景下进行截图。通过底层模块(libSmartPublisher.so)实现了截图功能,封装了`SnapShotImpl.java`类来管理截图流程。此外,提供了关键代码片段展示初始化SDK实例、执行截图、以及在Activity销毁时释放资源的过程。此方案还考虑到了快照数据的灵活处理需求,符合GB/T28181-2022的技术规范。对于寻求更灵活快照机制的开发者来说,这是一个值得参考的设计思路。

18 1
|
6天前
|
编解码 开发工具 C#
|

Windows电脑如何启动RTSP服务实现本地摄像头数据共享

本文介绍如何利用大牛直播SDK中的轻量级RTSP服务,在Windows平台上轻松采集摄像头数据并生成本地RTSP流。通过SDK提供的SmartPublisherDemo工具,用户能简便地选择摄像头、配置分辨率与帧率,并启动RTSP服务。此外,还支持音频采集、多端口服务以及动态水印等功能。生成的RTSP URL可用于其他终端拉流播放,无需额外部署服务器。该服务适配多种应用场景,如安防监控、电子教室等,并兼容Windows 7及以上版本。对于希望集成此功能的开发者,SDK提供了C++及C#接口,并支持多种编译模式。

20 0
|
6天前
|
编解码 API 开发工具
|

Android平台轻量级RTSP服务模块二次封装版调用说明

本文介绍了Android平台上轻量级RTSP服务模块的二次封装实践,旨在简化开发流程,让开发者能更专注于业务逻辑。通过`LibPublisherWrapper`类提供的API,可在应用中轻松初始化RTSP服务、配置视频参数(如分辨率、编码类型)、启动与停止RTSP服务及流发布,并获取RTSP会话数量。此外,还展示了如何处理音频和视频数据的采集与推送。最后,文章提供了从启动服务到销毁资源的完整示例,帮助开发者快速集成实时流媒体功能。

9 0
|
6天前
|
编解码 Linux 开发工具
|

Linux平台x86_64(麒麟|统信UOS)|aarch64(飞腾)如何实现摄像头|屏幕和麦克风|扬声器采集推送RTMP服务或轻量级RTSP服务

国产化操作系统的发展,减少了外部依赖,更符合国家安全标准,并可提升自主研发能力,促进产业链发展,满足定制开发能力,减少了外部技术封锁的风险,提高了国际竞争力,推动了产业升级。目前大牛直播SDK针对Linux平台x86_64架构和aarch64架构的RTMP推送模块和轻量级RTSP服务模块

21 0
|
6天前
|
编解码 Linux 开发工具
|

大牛直播SDK跨平台RTMP直播推送模块技术设计和功能列表

大牛直播SDK是一款跨平台RTMP直播推送模块,支持Windows、Linux(x64_64与aarch64架构)、Android及iOS平台。该SDK功能全面,包括摄像头、屏幕、麦克风等数据采集与推送,并支持编码前后数据对接。其架构设计优秀,确保低延迟与高效率,结合SmartPlayer播放器实现毫秒级延迟体验。具备全自研框架,易于扩展且支持多种数据源接入,如外部YUV/RGB/H.264等格式。此外,各平台支持特性丰富,如Windows平台支持多摄像头合成,Android与iOS平台支持前后摄像头实时切换等。大牛直播SDK还提供了多个示例项目以帮助开发者快速上手。

21 0
|
6天前
|
编解码 开发工具 C#
|

[大牛直播SDK]Windows平台RTMP直播推送模块功能设计

大牛直播SDK采用全自研框架,具备高度可扩展性与自适应算法,显著降低延迟并提高采集编码效率。SDK以模块化设计,支持RTMP推流及多种音视频编码格式(如AAC、SPEEX、H.264、H.265),并能与播放器SDK组合实现丰富功能,包括流媒体转发、内置RTSP服务等。提供了详尽的参数配置选项,支持多摄像头、屏幕采集与水印叠加,并兼容Windows 7及以上操作系统。该SDK以C++/C#双接口形式提供,集成简便,同时包含调试与发布版本库,便于开发者快速上手。此外,支持断网重连、实时预览及多种编码前后的数据对接需求。

16 0
|
7天前
|
编解码 网络协议 开发工具
|

Android平台RTSP|RTMP直播播放器技术接入说明

大牛直播SDK自2015年发布RTSP、RTMP直播播放模块,迭代从未停止,SmartPlayer功能强大、性能强劲、高稳定、超低延迟、超低资源占用。无需赘述,全自研内核,行业内一致认可的跨平台RTSP、RTMP直播播放器。本文以Android平台为例,介绍下如何集成RTSP、RTMP播放模块。

19 0
|
7天前
|
编解码 开发工具 Android开发
|

Android平台轻量级RTSP服务模块技术接入说明

为满足内网无纸化/电子教室等内网超低延迟需求,避免让用户配置单独的服务器,大牛直播SDK在推送端发布了轻量级RTSP服务SDK。 轻量级RTSP服务解决的核心痛点是避免用户或者开发者单独部署RTSP或者RTMP服务,实现本地的音视频数据(如摄像头、麦克风),编码后,汇聚到内置RTSP服务,对外提供可供拉流的RTSP URL,轻量级RTSP服务,适用于内网环境下,对并发要求不高的场景,支持H.264/H.265,支持RTSP鉴权、单播、组播模式,考虑到单个服务承载能力,我们支持同时创建多个RTSP服务,并支持获取当前RTSP服务会话连接数。

24 0
|
7天前
|
编解码 监控 安全
|

GB/T28181规范扫盲和使用场景探讨

GB28181(GB/T 28181-2022)是中国国家标准,规定了安全防范视频监控联网系统的信息传输、交换、控制技术要求。此标准支持设备接入、音视频传输及控制指令交互等功能,适用于各类监控设备如执法记录仪和移动监控系统。技术实现涉及协议栈构建、音视频编码及数据传输等环节。广泛应用在执法记录、移动监控和铁路巡检等领域。例如,海康威视iSecure Center和萤石云平台均支持GB28181协议,实现设备管理和视频传输。此外,大牛直播SDK推出的SmartGBD为Android终端提供了便捷的GB28181接入解决方案,支持多种数据类型接入,增强了设备的互操作性。

15 0

视觉智能

为开发者提供高易用、普惠的视觉API服务,帮助企业快速建立视觉智能技术应用能力的综合性视觉AI能力平台。适用于数字营销、互联网娱乐、安防、手机应用、泛金融身份认证等行业。

6
今日
12415
内容
3
活动
642
关注
你好!
登录掌握更多精彩内容

相关产品

  • 视觉智能开放平台