赫本、紫霞仙子、林黛玉……纵你百变,阿里AI一眼看穿

简介: 化妆术拥有着让人类“改头换面”的神奇力量,遇到人工智能后,依旧奏效吗?

--------点击屏幕右侧或者屏幕底部“+订阅”,关注我,随时分享机器智能最新行业动态及技术干货------------

化妆术,被称作是亚洲“第四大邪术”,拥有着让人类“改头换面”的神奇力量。人类世界里随意横行的“障眼法”,遇到人工智能后,依旧奏效吗?阿里巴巴的图像 AI 团队就曾做过一个实验:

他们邀请了一位仿妆达人通过化妆挑战支付宝的刷脸闸机。精心妆扮之后,她接连成为 “赫本”“紫霞仙子”“林黛玉”,然而这三次“整容”般的化妆术在 AI 面前依然失效了 —— 闸机以 100% 的准确率全部成功识别。

为什么让人类肉眼无法辨别的化妆术在 AI 面前就原形毕露?

image.png

下面让我们细细道来。

不解风情的 AI,天生自带“卸妆水”

原来,这是因为 AI 与人类之间有着完全不同的认知逻辑。

我们都知道计算机使用二进制进行存储和运算,计算机对图片的理解也不例外。人类在大千世界里看到的纷纷扰扰,在计算机的眼里最后都会变成简单的“0”和“1”。

以下面这张美女图为例,计算机以 RGB 通道的方式理解图片,RGB 可以表现 1677 万种颜色,使得 AI 能够直观的感知图片中的细节变化。

1.png

左侧为实体照片,右图为 AI 编码后的图像,AI 真乃灵魂画手是也

接着 AI 会从每个像素开始去理解,不同部位之间的边缘过度和明暗变化等特征,例如发现人的眉眼边界,肤色明暗变换。

image.png

在“灵魂画手”的画笔下,美女一步步失去“美貌”

然后运用统计的方法对低层特征进行组合重绘,形成更高层次的特征,把人脸的某个特质部位或者整张人脸勾勒出来,最后完成快速比对。

6.png

整个过程中,每一步都建立在数字的基础上,每一步AI都像是个“冒得感情”的数学高手。细挑的柳叶眉、性感的大波浪,含羞的咬唇妆……这些人类眼中千姿百态的美,在 AI 看来,也不过在数值大小存在差异的数字而已。

image.png

两张图的比对,颜值爆表的女神和相貌平平的路人,最终 AI 这里并不会有太大区别。

而“化妆术”本质是人类对色彩的灵活运用,并没有改变人类脸部的关键特征,因而很难逃过 AI 的双眼。

这样的一种极简主义的表达,在人类看来不免略显残酷。然而就是在这样简单直接的理解之上,科学家们所设计的深度学习模型在识别率上才得以超越人类。

2.png

在应用领域,阿里巴巴研发的图像 AI ——拍立淘,目前已经可以识别超过 100 万种实体,建成了世界最大的商品图搜系统。

也许有人会诧异,别说 100 万种实体,就算是 1 万种,记忆高手也很难记全,AI 又是如何做到的?

3.png

秘诀在于 AI 有着人类难以望其项背的三大能力:

  1. 更广泛的认知来源。一般来说,人类只能通过周围环境和社交活动来获得新的认知,而通过大规模学习标注好的数据,AI 可以识别越来越多的实体,并且 “看”得越多,AI 识别得越好。
  2. 更细致的认知能力。除非长时间观看,人类很难关注到单张图片的每个细节信息。而 AI 不会错过任何一个细节:每个像素点都会被平等地对待,每个像素点都得到相同的处理过程,每个像素点之间都会用相同的方法用于特征提取,最终形成一套可以被快速复制,支持高并发的实体识别系统。
  3. 更敏捷的认知迭代。AI 能够不断根据新的数据调整自己,纠正已有偏差的参数,做到在整体所有图片上最好的识别效果。例如阿里的图像 AI,就建成了可以支持以支持数十亿图片分类训练的超大平台。凭借集群化的大规模训练,AI 甚至可以做到一日之内看完普通人类数十年内看到的景象。

这样循环往复的训练下,AI 识别的实体数就能够超出人类的认知范围。

image.png

用了 60 年,AI 才学会人类与生俱来的“天赋”

AI 的这种能力不是生来就有的,甚至在计算机诞生之初,都不具备视觉功能。

对人类而言,“认人”似乎是与生俱来的本能:刚出生几天的婴儿就能模仿父母的表情,我们可以毫不费力地从照片中找到熟悉的面孔,即便是暗淡灯光下,我们仍能认出楼梯末端的朋友;

这让我们甚至难以意识到这是亿万年来进化而来的神奇能力:只凭极少细节就分辨彼此。

然而,计算机并没有几亿年的演化时间教它辨别色彩、轮廓和形状等特征。“认人识物”这项对人类而言轻而易举的能力,对计算机而言却是步步维艰。

世界上第一台照相机出现在 1839 年,在计算机诞生的 20 世级 40 年代,照相机已经成为了一种大众技术。但让计算机和照相机实现真正意义上的交融,却让人类科学家付出了 10 年努力。

中间的鸿沟在于把图片翻译成计算机能理解的语言。直至 1959 年,计算机终于第一次“解码”了来自人类世界里的图像,美国科学家 Russell 研制了一台灰度处理器,可以把图片信息为二进制机器所理解的语言。

要让AI真正完成认知上的超越,仅给机器装上“眼睛”是不够的,还要赋予AI像人类一样的大脑。

这项工作的重大进展来自神经生物学的启发。1981 年,神经生物学家大卫·休伯尔和托斯坦·维厄瑟尔发现人类视觉系统是一个分级的结构,人工智能科学家可以仿照人类大脑的认知结构,以人造神经元作为神经细胞,用不同方式连接的神经元代替不同的视皮层区域,以此赋予 AI 像人类一样的思考能力。

4.png

世界上第一款现代意义上卷神经网络的发明者 Lecun,并成功教计算机识别出数字

神经网络的发明,推动了视觉 AI 在 2012 年完成了革命性的突破。这年,搭载神经网络的 AI ImageNet 大规模视觉识别竞赛(ILSVRC)上一骑绝尘,首次在识别准确率上完成了对人类的超越。

至此,人类给计算机装上的这双“眼睛”终于有了媲美人类认知的能力,但识别万物只是计算机 AI 发展的第一阶段。

从“看见”到“看懂”,我们在路上

对于我们人类而言,视觉不仅仅是为了看见,而是为了对看见的事物做出反应,更好地理解这个世界。因此,阿里科学家的也希望能够赋予计算机这样的能力。

image.png

视觉对话技术有望帮助视障人士再造一双 AI 眼,通过提问阿里 AI,盲人可以随时了解自身所处的周围环境

阿里图像 AI 正在加大投入对视觉对话方向的研究,这项技术需要综合集成图像识别、关系推理与自然语言理解三大能力。

它要求 AI 不仅能够有效识别图片里的实体以及它们之间的关系,还要推理出图片所描述的事件内容,同时顺畅与人类讨论,最终推动 AI 拥有对真实视觉世界的理解与推断能力。

前不久,谷歌运用 1000 块 TPU 重建了完整果蝇大脑神经图,整整 40 万亿像素,这是目前 AI 在神经元研究上的最新进步。

果蝇被作为试验动物,它的大脑神经元为 10 万个,而人类大脑的中的神经元多达 1000 亿个。在人类的大脑面前,目前的 AI 还只像个孩子。

回顾计算机视觉技术的重要突破,都来自于人类将自身能力成功的“复制”给了 AI。人类越了解自身,就越能创造出更高级的 AI。最终在 AI 强大的进化能力下,也会帮助人类扩展出新的认知。

image.png

原文链接:
https://mp.weixin.qq.com/s/Kah7RMHkW5WQRsDAZxbesw

目录
相关文章
|
4月前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
2045 123
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
4月前
|
人工智能 Java 开发者
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
JManus是阿里开源的Java版OpenManus,基于Spring AI Alibaba框架,助力Java开发者便捷应用AI技术。支持多Agent框架、网页配置、MCP协议及PLAN-ACT模式,可集成多模型,适配阿里云百炼平台与本地ollama。提供Docker与源码部署方式,具备无限上下文处理能力,适用于复杂AI场景。当前仍在完善模型配置等功能,欢迎参与开源共建。
1996 58
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
|
4月前
|
人工智能 数据处理 云栖大会
云栖现场|让评测与标注成为AI进化引擎!阿里发布全新评测平台,3大创新评测集亮相
云栖现场|让评测与标注成为AI进化引擎!阿里发布全新评测平台,3大创新评测集亮相
594 9
云栖现场|让评测与标注成为AI进化引擎!阿里发布全新评测平台,3大创新评测集亮相
|
9月前
|
机器学习/深度学习 人工智能 编解码
AI视频生成也能自动补全!Wan2.1 FLF2V:阿里通义开源14B视频生成模型,用首尾两帧生成过渡动画
万相首尾帧模型是阿里通义开源的14B参数规模视频生成模型,基于DiT架构和高效视频压缩VAE,能够根据首尾帧图像自动生成5秒720p高清视频,支持多种风格变换和细节复刻。
1872 9
AI视频生成也能自动补全!Wan2.1 FLF2V:阿里通义开源14B视频生成模型,用首尾两帧生成过渡动画
|
6月前
|
人工智能 搜索推荐 API
AI-Compass DeepSearch深度搜索生态:集成阿里ZeroSearch、字节DeerFlow、MindSearch等前沿平台,实现超越传统关键词匹配的智能信息检索革命
AI-Compass DeepSearch深度搜索生态:集成阿里ZeroSearch、字节DeerFlow、MindSearch等前沿平台,实现超越传统关键词匹配的智能信息检索革命
AI-Compass DeepSearch深度搜索生态:集成阿里ZeroSearch、字节DeerFlow、MindSearch等前沿平台,实现超越传统关键词匹配的智能信息检索革命
|
5月前
|
机器学习/深度学习 数据采集 人工智能
阿里开源即封神,一上线就斩获4000+ star背后的真相,WebAgent多步骤智能网搜神器,颠覆你对AI的信息检索印象!
WebAgent 是阿里巴巴开源的多步骤智能网搜神器,包含 WebWalker、WebDancer、WebSailor 等模块,支持复杂推理与长上下文信息检索,GitHub 已获 4.7k star,颠覆传统 AI 搜索方式。
729 1
|
7月前
|
人工智能 IDE 程序员
阿里也出手了!灵码AI IDE问世
各位程序员小伙伴们,是不是还在为写代码头秃?别担心,阿里云带着它的通义灵码 AI IDE 来拯救你啦!
2936 3
|
7月前
|
人工智能 IDE 程序员
阿里也出手了!灵码AI IDE问世
各位程序员小伙伴们,是不是还在为写代码头秃?别担心,阿里云带着它的通义灵码 AI IDE 来拯救你啦! 相信不少小伙伴已经在VSCode、JetBrains IDE等主流开发工具中安装过通义灵码这款插件。 通义灵码插件全网总下载量超 1500 万,开发者采纳代码行数超 30 亿且每月增速 20%-30%。 今天我们要说的不是这款插件,而是阿里刚出的“为AI而生的灵码IDE”。
882 0
|
11月前
|
机器学习/深度学习 人工智能 编解码
阿里开源AI视频生成大模型 Wan2.1:14B性能超越Sora、Luma等模型,一键生成复杂运动视频
Wan2.1是阿里云开源的一款AI视频生成大模型,支持文生视频和图生视频任务,具备强大的视觉生成能力,性能超越Sora、Luma等国内外模型。
3668 2
阿里开源AI视频生成大模型 Wan2.1:14B性能超越Sora、Luma等模型,一键生成复杂运动视频