达摩院视觉AI训练营-DAY1

简介: DAY1-达摩院视觉AI技术应用搜索-学习笔记

第一课为 视觉生产技术的搜索和应用,由达摩院的谢宣松(星瞳)老师讲解。主要对视觉生产以及子部分应用进行了介绍。以下为大致内容:

定义和分类
精细理解
视觉生产
视觉编辑
视觉增强
视觉制造
视觉开放平台
二、视觉生产的定义和分类
1.jpg

主要通过AI技术进行生成
2.png

4.jpg
框架中最核心的是生产引擎
5.jpg

最终要的是产品的落地,是否可有商业价值

二、精细理解
在做一件事之前需要理解它
6.png

66.png

三、视觉生产
---从无到有
7.png

视觉生成的意思即指对图片或者视频进行生成
88.png

8.png

四、视觉编辑
9.png

10.jpg

11.jpg

五、视觉增强
---视频高清化---GAN生成对抗网络

12.jpg

13.png

六、视觉制造
---由商品成品图生成制造相关图纸
---由数字到实体
14.png

七、视觉智能开放平台
---万剑归宗
阿里平台---产业落地、技术沉淀聚合
15.png

八、个人总结
1、应用方面讲的很到位,扩展了认识
2、希望有实例可以动手操作:

目录
相关文章
|
4天前
|
人工智能 编解码 安全
[译][AI OpenAI-doc] 视觉
学习如何使用 GPT-4 来理解图像。具有视觉功能的 GPT-4 Turbo 允许模型接收图像并回答与之相关的问题。了解图像上传、处理、成本计算、模型限制等详细信息。
|
12天前
|
人工智能 编解码 安全
揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD
【4月更文挑战第14天】清华大学与新加坡国立大学团队针对大型多模态模型(LMMs)在处理高分辨率图像时的局限,提出新模型LLaVA-UHD。该模型通过图像模块化、压缩和空间模式组织策略,有效提升了处理任意比例和高分辨率图像的能力。实验显示,LLaVA-UHD在9个基准测试中超越现有模型,且在TextVQA任务上准确率提升6.4%,同时训练时间更短。然而,模型训练成本高、泛化能力待优化是未来需解决的问题。
21 8
揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD
|
1月前
|
人工智能 UED
“视觉AI任意门”AnyDoor,只需点两下鼠标就可以实现任意场景物体交换
【2月更文挑战第17天】“视觉AI任意门”AnyDoor,只需点两下鼠标就可以实现任意场景物体交换
75 1
“视觉AI任意门”AnyDoor,只需点两下鼠标就可以实现任意场景物体交换
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
探索无限:Sora与AI视频模型的技术革命 - 开创未来视觉艺术的新篇章
探索无限:Sora与AI视频模型的技术革命 - 开创未来视觉艺术的新篇章
59 1
|
1月前
|
机器学习/深度学习 人工智能 知识图谱
LeCun视觉世界模型论文,揭示AI学习物理世界的关键
【2月更文挑战第16天】LeCun视觉世界模型论文,揭示AI学习物理世界的关键
18 2
LeCun视觉世界模型论文,揭示AI学习物理世界的关键
|
3月前
|
机器学习/深度学习 存储 人工智能
如何在本地部署视觉AI系统呢
如何在本地部署视觉AI系统呢
|
3月前
|
存储 机器学习/深度学习 人工智能
视觉AI的公共云服务有哪些优势
视觉AI的公共云服务有哪些优势
|
3月前
|
人工智能 API 开发工具
视觉AI的公共云
视觉AI的公共云
|
4月前
|
机器学习/深度学习 人工智能 达摩院
阿里巴巴达摩院“绿色能源AI”解决方案
阿里巴巴达摩院决策智能实验室致力于研究决策智能系统需要的国际前沿技术,提升业务运营效率和收益、降低成本。在电力能源行业构建出“绿色能源AI”方案,与国家电网、南方电网等企业合作落地多个项目。代表作软件是行业领先的MindOpt优化求解器、智能电力预测eForecaster、MindOpt Studio决策开发云平台。研究方向包含机器学习、数学建模、优化求解、 时序预测、因果分析、决策方案可解释性、决策推理大模型等。本篇是达摩院“绿色能源AI"方案的介绍幻灯片图,供大家了解方案的能力。
537 1
|
4月前
|
人工智能 编解码 文字识别