阿里云高校计划视觉AI五天训练营 Day1 视觉生产技术简介

本文涉及的产品
视觉智能开放平台,视频通用资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,图像通用资源包5000点
简介: 第一天的内容主要介绍了视觉生产技术的概念以及阿里的视觉智能开放平台。展示了一系列通过人工智能生成的视觉产品。通过AI算法,实现了视觉产品的从无到有,由虚入实,增删改查。感受到了人工智能给视觉生产带来的快捷和便利。

阿里云高校计划视觉AI五天训练营 Day1 视觉生产技术简介

1.视觉生产定义和分类

视觉生产的定义:通过一个/一系列视觉过程,产生新的视觉表达。

截屏2020-10-30 下午3.24.03.png

视觉生产的分类:

  • 生产: 从0到1
  • 拓展:从1到N
  • 摘要:从N到1
  • 升维:从An到An+1 (比如从二维到三维,从图片到视频)
  • 增强/变换: 从A到B
  • 插入/合成:A+B=C
  • 擦除:C-A=B

视觉生产通用基础框架:

截屏2020-10-30 下午5.11.23.png

视觉生产的五个关键维度:

  1. 可看 满足视觉/美学表现
  2. 合理 合乎语义/内容逻辑
  3. 多样 保证结果的丰富性
  4. 可控 提供用户预期的抓手
  5. 可用 带来用户/商业的价值

2.精细理解

精细理解——分割抠图

1.识别:通过AI人工智能识别画面中所描述的是什么。是人?是物?

2.检测:识别画面中的场景在哪?

3.分割:识别+检测,精准的分别物和场景,知道每一个像素是什么。

分割抠图——难点

  • 复杂背景
  • 遮挡
  • 发丝精扣
  • 边缘反色
  • 透明材质
  • 多尺度/目标

主要难点:数据严重不足,标注成本高

分割抠图——模型框架

截屏2020-10-30 下午5.28.34.png

3.视觉生成——从无到有

鹿班的框架流程(平面图片生产)

截屏2020-10-30 下午5.34.51.png

alibabawood框架流程(视频生成)

截屏2020-10-30 下午5.38.27.png

4.视频编辑——移花接木

视频内容植入

截屏2020-10-30 下午5.40.06.png

技术难点:在不干扰原本所表达内容的情况下合理的插入广告。

视频内容的擦除

截屏2020-10-30 下午5.48.28.png

视频画幅的变换

截屏2020-10-30 下午6.02.01.png

视觉增强——视频增强

截屏2020-10-30 下午6.02.58.png

视觉增强——人脸修复增强

精细化的修复人像,还原面部细节

截屏2020-10-30 下午6.16.32.png

5.视觉制造——由虚入实

目前实体制造产业所面临的问题:

1.效率低下:多次打样,多次沟通

2.协同差:设计,营销,产生脱节

3.定制难:无法实现柔性生产

核心逻辑

截屏2020-10-30 下午6.24.42.png

6.视觉智能开放平台

截屏2020-10-30 下午6.27.29.png

7.总结心得

第一天的内容主要介绍了视觉生产技术的概念以及阿里的视觉智能开放平台。展示了一系列通过人工智能生成的视觉产品。通过AI算法,实现了视觉产品的从无到有,由虚入实,增删改查。感受到了人工智能给视觉生产带来的快捷和便利。

目录
打赏
0
0
0
0
1
分享
相关文章
AI大模型进阶系列(01)看懂AI大模型的主流技术 | AI对普通人的本质影响是什么
本文分享了作者在AI领域的创作心得与技术见解,涵盖从获奖经历到大模型核心技术的深入解析。内容包括大模型推理过程、LLM类型、prompt工程参数配置及最佳实践,以及RAG技术和模型微调的对比分析。同时探讨了AI对社会和个人的影响,特别是在deepseek出现后带来的技术革新与应用前景。适合希望了解AI大模型技术及其实际应用的读者学习参考。
探讨 AI 驱动自适应数据采集技术
在当今互联网环境下,网页结构动态变化日益复杂,传统数据采集技术面临巨大挑战。本文探讨了基于AI算法的自适应数据采集方法,结合爬虫代理、Cookie与User-Agent设置等关键技术,应对动态页面变更。通过Python示例代码,展示如何稳定抓取目标网站数据,并分析该技术的优势、挑战及实际应用注意事项,为未来数据采集提供了新思路。
97 44
AI驱动的开源治理——社会综合治理智慧化系统的技术突破
通过AI识别与智能监控精准捕捉不文明行为,生成证据链并分级预警,识别精度达98%;跨部门联动平台打破信息孤岛,实现多部门高效协作,事件处置时间缩短至5分钟;多场景适配的开源架构支持景区、校园等多样化需求,灵活部署边缘计算优化性能。试点成效显著,大幅提升治理效能。
33 14
AI智能导诊系统开发技术解析
智能导诊系统基于人工智能、大数据和医疗信息化技术,优化患者就医流程,提升资源匹配效率。其核心功能包括智能分诊、症状自评与风险评估及就医路径规划,通过自然语言处理、医学知识图谱、多模态交互等技术实现精准服务。系统可将门诊误挂率从23%降至6%,并显著提高急危重症识别效率,为患者提供全流程导航支持。
AI大模型进阶系列(03) prompt 工程指南 | 实战核心技术有哪些?
本文深入讲解了AI大模型中的prompt工程。文章分析了role角色(system、user、assistant)的意义,message多轮会话记忆机制,以及prompt的核心三要素(上下文背景、输入内容、输出指示)。同时介绍了多种提示优化技术,如少样本提示、CoT链式思考、prompt chaining链式提示、思维树ToT提示等,还展示了让AI生成提示词的方法,为实际应用提供了全面指导。
开源AI守护后厨——餐饮厨房视频安全系统的技术解析
餐饮厨房视频安全系统是一套融合开源AI技术与视频监控的智能化解决方案,涵盖实时检测、行为监测、数据分析、公众透明化及反馈闭环五大模块。系统通过YOLOv8、ResNet等算法实现后厨卫生与操作规范的精准监控,识别率达97%,问题响应时间缩短至秒级。同时支持后厨直播与监管对接,提升消费者信任和管理效率。其灵活开源的特点,为食品行业安全管理提供了高效、透明的新路径,未来可扩展至食品加工等领域。
如何把技术创新从“无限可能”,聚焦到精选的几个?“TRIZ技术进化AI助手”不妨一试
企业创新面临诸多“坑”,尤其在技术竞争中常遇“卡脖子”问题。法思诺推出TRIZ技术进化AI助手,基于阿奇舒勒理论,集成几十条技术进化路线,从时间、空间和界面三大维度助力研发人员识别问题、分析现状并提供三条进化路线参考。该工具可有效帮助企业节约资源、规避风险,探索不同技术路径。通过测试如触觉传感器等35项我国“卡脖子”关键技术,验证其有效性。真创新,不平凡!欢迎试用与交流。
36.7K star!拖拽构建AI流程,这个开源LLM应用框架绝了!
`Flowise` 是一款革命性的低代码LLM应用构建工具,开发者通过可视化拖拽界面,就能快速搭建基于大语言模型的智能工作流。该项目在GitHub上线不到1年就斩获**36.7K星标**,被开发者誉为"AI时代的乐高积木"。
AI职场突围战:夸克应用+生成式人工智能认证,驱动“打工人”核心竞争力!
在AI浪潮推动下,生成式人工智能(GAI)成为职场必备工具。文中对比了夸克、豆包、DeepSeek和元宝四大AI应用,夸克以“超级入口”定位脱颖而出。同时,GAI认证为职场人士提供系统学习平台,与夸克结合助力职业发展。文章还探讨了职场人士如何通过加强学习、关注技术趋势及培养合规意识,在AI时代把握机遇。
AI-ClothingTryOn:服装店老板连夜下架试衣间!基于Gemini开发的AI试衣应用,一键生成10种穿搭效果
AI-ClothingTryOn是基于Google Gemini技术的虚拟试衣应用,支持人物与服装照片智能合成,可生成多达10种试穿效果版本,并提供自定义提示词优化功能。
111 17
AI-ClothingTryOn:服装店老板连夜下架试衣间!基于Gemini开发的AI试衣应用,一键生成10种穿搭效果
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等