阿里云高校计划视觉AI五天训练营 Day1 视觉生产技术简介

本文涉及的产品
视觉智能开放平台,视频通用资源包5000点
视觉智能开放平台,图像通用资源包5000点
视觉智能开放平台,分割抠图1万点
简介: 第一天的内容主要介绍了视觉生产技术的概念以及阿里的视觉智能开放平台。展示了一系列通过人工智能生成的视觉产品。通过AI算法,实现了视觉产品的从无到有,由虚入实,增删改查。感受到了人工智能给视觉生产带来的快捷和便利。

阿里云高校计划视觉AI五天训练营 Day1 视觉生产技术简介

1.视觉生产定义和分类

视觉生产的定义:通过一个/一系列视觉过程,产生新的视觉表达。

截屏2020-10-30 下午3.24.03.png

视觉生产的分类:

  • 生产: 从0到1
  • 拓展:从1到N
  • 摘要:从N到1
  • 升维:从An到An+1 (比如从二维到三维,从图片到视频)
  • 增强/变换: 从A到B
  • 插入/合成:A+B=C
  • 擦除:C-A=B

视觉生产通用基础框架:

截屏2020-10-30 下午5.11.23.png

视觉生产的五个关键维度:

  1. 可看 满足视觉/美学表现
  2. 合理 合乎语义/内容逻辑
  3. 多样 保证结果的丰富性
  4. 可控 提供用户预期的抓手
  5. 可用 带来用户/商业的价值

2.精细理解

精细理解——分割抠图

1.识别:通过AI人工智能识别画面中所描述的是什么。是人?是物?

2.检测:识别画面中的场景在哪?

3.分割:识别+检测,精准的分别物和场景,知道每一个像素是什么。

分割抠图——难点

  • 复杂背景
  • 遮挡
  • 发丝精扣
  • 边缘反色
  • 透明材质
  • 多尺度/目标

主要难点:数据严重不足,标注成本高

分割抠图——模型框架

截屏2020-10-30 下午5.28.34.png

3.视觉生成——从无到有

鹿班的框架流程(平面图片生产)

截屏2020-10-30 下午5.34.51.png

alibabawood框架流程(视频生成)

截屏2020-10-30 下午5.38.27.png

4.视频编辑——移花接木

视频内容植入

截屏2020-10-30 下午5.40.06.png

技术难点:在不干扰原本所表达内容的情况下合理的插入广告。

视频内容的擦除

截屏2020-10-30 下午5.48.28.png

视频画幅的变换

截屏2020-10-30 下午6.02.01.png

视觉增强——视频增强

截屏2020-10-30 下午6.02.58.png

视觉增强——人脸修复增强

精细化的修复人像,还原面部细节

截屏2020-10-30 下午6.16.32.png

5.视觉制造——由虚入实

目前实体制造产业所面临的问题:

1.效率低下:多次打样,多次沟通

2.协同差:设计,营销,产生脱节

3.定制难:无法实现柔性生产

核心逻辑

截屏2020-10-30 下午6.24.42.png

6.视觉智能开放平台

截屏2020-10-30 下午6.27.29.png

7.总结心得

第一天的内容主要介绍了视觉生产技术的概念以及阿里的视觉智能开放平台。展示了一系列通过人工智能生成的视觉产品。通过AI算法,实现了视觉产品的从无到有,由虚入实,增删改查。感受到了人工智能给视觉生产带来的快捷和便利。

目录
相关文章
|
3天前
|
人工智能 自然语言处理 API
构建可落地的企业AI Agent,背后隐藏着怎样的技术密码?
三桥君深入解析企业AI Agent技术架构,涵盖语音识别、意图理解、知识库协同、语音合成等核心模块,探讨如何实现业务闭环与高效人机交互,助力企业智能化升级。
47 6
|
2天前
|
人工智能 编解码 搜索推荐
16个AI Logo 设计工具大盘点:技术解析、Logo格式对比与实用推荐
本文介绍了品牌标志(Logo)的重要性,并盘点了多款免费且好用的 Logo 生成工具,分析其输出尺寸、格式及适用场景,帮助无设计基础的用户选择合适工具,高效制作满足不同用途的 Logo。
47 0
|
19天前
|
机器学习/深度学习 人工智能 自然语言处理
AI产品经理的技术必修课:从工具应用到系统设计
AI产品经理的技术必修课:从工具应用到系统设计
211 84
|
27天前
|
机器学习/深度学习 人工智能 自然语言处理
当无人机遇上Agentic AI:新的应用场景及挑战
本文简介了Agentic AI与AI Agents的不同、Agentic无人机的概念、应用场景、以及所面临的挑战
138 5
当无人机遇上Agentic AI:新的应用场景及挑战
|
2月前
|
人工智能 数据挖掘
🔔阿里云百炼智能体和工作流可以发布为组件了,AI应用变成“搭积木”
本文介绍了如何通过智能体组件化设计快速生成PPT。首先,创建一个“PPT大纲生成”智能体并发布为组件,该组件可根据用户输入生成结构清晰的大纲。接着,在新的智能体应用中调用此组件与MCP服务(如ChatPPT),实现从大纲到完整PPT的自动化生成。整个流程模块化、复用性强,显著降低AI开发门槛,提升效率。非技术人员也可轻松上手,满足多样化场景需求。
288 0
🔔阿里云百炼智能体和工作流可以发布为组件了,AI应用变成“搭积木”
|
2月前
|
人工智能 数据挖掘 大数据
“龟速”到“光速”?算力如何加速 AI 应用进入“快车道”
阿里云将联合英特尔、蚂蚁数字科技专家,带来“云端进化论”特别直播。
130 11
|
2月前
|
数据采集 机器学习/深度学习 人工智能
代理IP:企业AI应用的隐形加速器与合规绞索
代理IP作为企业AI应用的重要基础设施,既是效率提升的加速器,也可能成为合规风险的来源。它通过技术演进重塑数据采集、模型训练与安全防护等核心环节,如智能路由、量子加密和边缘计算等创新方案显著优化性能。然而,全球法规(如GDPR)对数据流动提出严格要求,促使企业开发自动化合规审计系统应对挑战。未来,代理IP将向智能路由3.0、PaaS服务及量子网络方向发展,成为连接物理与数字世界的神经网络。企业在享受其带来的效率增益同时,需构建技术、法律与伦理三位一体的防护体系以规避风险。
70 0
|
5天前
|
XML 人工智能 测试技术
在AI应用中Prompt撰写重要却难掌握,‘理解模型与行业知识是关键’:提升迫在眉睫
本文三桥君探讨Prompt优化技巧对AI应用的重要性。内容涵盖理解大语言模型、行业Know-how及Prompt撰写方法,助力提升AI输出质量与应用效率。
98 58
|
2天前
|
人工智能 自然语言处理 数据可视化
Open WebUI 和 Dify 在构建企业AI应用时的主要区别
本文对比了企业AI应用构建中的两大开源工具——Open WebUI与Dify,在技术架构、核心能力及适用场景方面的差异。Open WebUI适合轻量级对话场景,侧重本地部署与基础功能;而Dify则聚焦复杂业务流程,提供可视化工作流编排与端到端RAG支持。文章结合典型用例与落地建议,助力企业合理选型并实现高效AI集成。