谷歌要用AI把你的自拍做成表情包

简介:
本文来自AI新媒体量子位(QbitAI)


这一次,谷歌把人工智能用到了最日常的领域:表情包。

谷歌开发了一款让用户在机器学习聊天应用Allo里,用自己的照片生成定制表情贴纸的工具。这个“表情贴纸”,也就相当于我们在微信里用的表情包。

在用手机完成自拍后,谷歌的图像识别算法便可自动分析用户的面部,将每一个特征记录下来,绘制成漫画。这些漫画的风格则来自美国画家、作家、设计师Lamar Abrams,她为Cartoon Network创作了广受好评的《Steven Universe》。

当然,这款工具还提供了数百种眼镜、鼻子、脸型、发型和眼镜供用户选择。谷歌认为,这款工具大约可以生成563 quadrillion(百万的四次方)张不同的脸。一旦生成原型漫画,用户便可进行微调,可以改变发型,也可以更换眼镜。之后,系统便可自动为你生成22张定制贴纸。

该工具最早是谷歌内部的一个研究项目,目的是了解机器学习是否可以用于利用自拍即时生成卡通图片。但谷歌通讯项目用户界面负责人Jason Cornwell表示,为某人制作卡通形象并非最终目标。“如何开发一款工具,使之不仅能够映射你的样貌,还能呈现你渴望的展示方式。”Cornwell问道,“这是个有趣的问题。这不仅事关机器学习和计算机视觉,还事关人类表达。于是,我们请来了Jennifer,让她提供一种艺术方向来呈现你可能想要的自我表达方式。”

Cornwell指的是Jennifer Daniel,这位艺术总监曾经为《彭博商业周刊》和《纽约时报》制作过很多信息图标和视觉化元素。正如丹尼尔所说,“插图让我们引入了自拍所无法表达的情感状态。”

从定义上看,自拍是自身形象的理想化,而表情符号则是自身感受的提炼和夸张。“目标不是精确,而是让人们可以创作一些感觉像自己的东西。”Cornwell说。所以,他们在测试期间向用户提出的问题包括:你是否从这张图片中看到了自己?你的朋友能否认出你?

这个项目也凸显出谷歌的长期目标:该公司希望探索各种方式将机器学习技术应用到各种给用户体验中。谷歌的逻辑是:如果他们能够在机器学习领域获得领导地位,便可以把这项技术变成应用和网站的必备功能,它的产品也将超过竞争对手。

在此过程中,Allo已经成为各种新型机器学习应用的测试场。“我们希望借助Allo尝试各种方式,用机器学习来改进聊天过程。”Cornwell说,“包括在合适的时候说合适的话,以及在合适的时候传递合适的表情。”

这听起来似乎有些令人担忧,难道Allo试图取代我们作为聊天主体?事实上,谷歌只是希望借助这些技术加强用户的能力,而不是取而代之。例如,当有人向你发送消息时,Allo将根据你的对话历史为你推荐一键回复内容。也可以在群聊时,利用机器学习算法推荐有趣的GIF动图。

Cornwell表示,谷歌还在思考其他艺术与机器学习融合的方式,但他拒绝透露细节信息。不过,Daniel承认,该公司还将提供由其他艺术家设计的其他风格的动画表情。

丹尼尔指出,该项目代表了艺术与技术全新融合。毕竟,我们刚刚开始挖掘人工智能在艺术领域的能力。如果达芬奇活到今天,很难想象《蒙娜丽莎》会是一幅油画,反而有可能是一个面向所有观众的定制自画像——为所有人都赋予神秘的微笑。但现在还没有看到这么酷的东西,可能需要谷歌这样的公司来推动这种技术。

这或许正是Daniel所能为谷歌提供的帮助:“我对科技与艺术的交融很感兴趣,我们希望有这样一个平台让我们不仅可以创造内容,还可以创造产品本身。”(完)

本文作者:李杉 
原文发布时间: 2017-05-12
相关文章
|
1月前
|
机器学习/深度学习 人工智能 算法
整合海量公共数据,谷歌开源AI统计学专家DataGemma
【10月更文挑战第28天】谷歌近期开源了DataGemma,一款AI统计学专家工具,旨在帮助用户轻松整合和利用海量公共数据。DataGemma不仅提供便捷的数据访问和处理功能,还具备强大的数据分析能力,支持描述性统计、回归分析和聚类分析等。其开源性质和广泛的数据来源使其成为AI研究和应用的重要工具,有助于加速研究进展和推动数据共享。
62 6
|
8天前
|
机器学习/深度学习 人工智能 自然语言处理
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
谷歌最新推出的Gemini 2.0是一款原生多模态输入输出的AI模型,以Agent技术为核心,支持多种数据类型的输入与输出,具备强大的性能和多语言音频输出能力。本文将详细介绍Gemini 2.0的主要功能、技术原理及其在多个领域的应用场景。
104 20
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
|
15天前
|
人工智能 编解码 网络架构
GenCast:谷歌DeepMind推出的AI气象预测模型
GenCast是由谷歌DeepMind推出的革命性AI气象预测模型,基于扩散模型技术,提供长达15天的全球天气预报。该模型在97.2%的预测任务中超越了全球顶尖的中期天气预报系统ENS,尤其在极端天气事件的预测上表现突出。GenCast能在8分钟内生成预报,显著提高预测效率,并且已经开源,包括代码和模型权重,支持更广泛的天气预报社区和研究。
109 14
GenCast:谷歌DeepMind推出的AI气象预测模型
|
7天前
|
人工智能 自然语言处理 API
Multimodal Live API:谷歌推出新的 AI 接口,支持多模态交互和低延迟实时互动
谷歌推出的Multimodal Live API是一个支持多模态交互、低延迟实时互动的AI接口,能够处理文本、音频和视频输入,提供自然流畅的对话体验,适用于多种应用场景。
48 3
Multimodal Live API:谷歌推出新的 AI 接口,支持多模态交互和低延迟实时互动
|
22天前
|
机器学习/深度学习 数据中心 芯片
【AI系统】谷歌 TPU 历史发展
本文详细介绍了谷歌TPU的发展历程及其在AI领域的应用。TPU是谷歌为加速机器学习任务设计的专用集成电路,自2016年首次推出以来,经历了多次迭代升级,包括TPU v1、v2、v3、v4及Edge TPU等版本。文章分析了各代TPU的技术革新,如低精度计算、脉动阵列、专用硬件设计等,并探讨了TPU在数据中心和边缘计算中的实际应用效果,以及谷歌如何通过TPU推动移动计算体验的进步。
54 1
【AI系统】谷歌 TPU 历史发展
|
11天前
|
人工智能 小程序 JavaScript
【一步步开发AI运动小程序】十四、主包超出2M大小限制,如何将插件分包发布?
本文介绍了如何从零开始开发一个AI运动小程序,重点讲解了通过分包技术解决程序包超过2M限制的问题。详细步骤包括在uni-app中创建分包、配置`manifest.json`和`pages.json`文件,并提供了分包前后代码大小对比,帮助开发者高效实现AI运动功能。
|
17天前
|
人工智能 自然语言处理 安全
谷歌版贾维斯即将问世,最强Gemini 2.0加持!AI自主操控电脑时代来临
谷歌发布的Gemini 2.0标志着AI新时代的到来,被誉为“谷歌版贾维斯”。该系统在自然语言处理、图像识别及自主操控电脑等方面取得重大进展,尤其在多模态数据处理上表现出色,能更准确理解用户需求并执行复杂任务。尽管存在对AI自主操控可能带来的负面影响的担忧,谷歌强调Gemini 2.0旨在辅助而非替代人类工作,且已采取多项措施保障其安全性和可靠性。
25 5
|
22天前
|
机器学习/深度学习 人工智能 芯片
【AI系统】谷歌 TPU v3 POD 形态
TPU v3 是 TPU v2 的增强版,主要改进包括:MXU 数量翻倍至 4 个,时钟频率提升 30%,内存带宽扩大 30%,容量翻倍,芯片间带宽增加 30%,可连接节点数增至 4 倍。TPU v3 通过采用水冷系统,不仅提高了功率,还优化了温度管理,显著提升了计算能力和能效。TPU v3 Pod 由 1024 个 TPU v3 组成,算力达 100 PFLOPS,适用于大规模神经网络训练。
31 2
|
22天前
|
机器学习/深度学习 缓存 芯片
【AI系统】谷歌 TPU v1-脉动阵列
本文详细分析了谷歌TPU v1的架构与设计,重点介绍了其核心组件如DDR3 DRAM、矩阵乘法单元(MXU)、累加器及控制指令单元,特别是MXU中脉动阵列的工作机制。通过对比TPU v1与CPU、GPU在服务器环境中的表现,展示了TPU v1在提升神经网络计算吞吐量方面的显著优势,尤其是在低延迟和高能效方面。
48 3
|
21天前
|
机器学习/深度学习 人工智能 芯片
【AI系统】谷歌 TPU v4 与光路交换
TPU v4 是谷歌在 TPU v3 发布四年后推出的最新一代 AI 加速器,采用了 7nm 工艺,MXU 数量翻倍,内存容量和带宽显著提升。TPU v4 引入了 Sparse Core 以优化稀疏计算,首次采用了 3D Torus 互联方式,通过 Palomar 光路开关芯片减少系统延迟和功耗。TPU v4 Pod 实现了 1.126 Exaflops 的 BF16 峰值算力,展现了谷歌在大规模并行计算领域的突破。然而,TPU v4 也面临着系统成熟度低、拓扑僵硬和负载均衡问题等挑战。
56 0
下一篇
DataWorks