2023 Google 开发者大会 – AI 领域的技术更新

简介: Google 开发者大会是 Google 面向开发者和科技爱好者展示最新产品和平台的年度盛会。2023 Google 开发者大会 (Google I/O Connect | China) 为开发者提供丰富的学习资源,实践操作和现场演示,提供与谷歌专家互动、与其他开发者交流的契机,助力开发提效,释放团队创造力,简化工作流程,以开放式集成解决方案为开发者效力,共同构建创新生态,开启美好未来。

大会介绍

Google 开发者大会是 Google 面向开发者和科技爱好者展示最新产品和平台的年度盛会。2023 Google 开发者大会 (Google I/O Connect | China) 为开发者提供丰富的学习资源,实践操作和现场演示,提供与谷歌专家互动、与其他开发者交流的契机,助力开发提效,释放团队创造力,简化工作流程,以开放式集成解决方案为开发者效力,共同构建创新生态,开启美好未来。


28d522869d30a84180beee471852a416_f45434caea654cb3a60ebfdb90fc335b.png


使用 MediaPipe 轻松实现设备端机器学习

a64c7ea13c4456d730681a263964c01f_38740004b9fc449c878bda407ec64dc2.png


Media Pipe 和设备端机器学习

Media Pipe这是一个用于构建和部署跨平台设备端机器学习解决方案的低代码/无代码框架。它可以将将机器学习集成到你的移动端、Web和物联网应用程序中。


设备端机器学习是机器学习的一种,它可以在用户设备端运行,例如智能手机或网络浏览器,而无需将用户数据发送到服务器处理。


Media Pipe解决手势识别问题

它将图像作为输入并返回图像中找到的手势,如:竖起大拇指。这项任务实际上需要将四种不同的机器学习模型连接在一起:


①从图像中检查手

②检测手部关键点

③创建手势的嵌入向量

④将这个嵌入式归类为竖起大拇指

除此之外还能实现很多其他的事情。如:如何在GPU上高效运行整个流程或者不熟在不同的平台上。


但是MediaPipe将这些复杂的工作进行抽象,提供了一个流水线可以为你将模型连接在一起,因此咱们无需费心协调所有这些模型,只需要简单的API交互。


21241f0693b64169d44eb26b176f097e_645c667432d24620896868ae3f3464c1.png


MediaPipe目前支持哪些平台

5931cf0d9bd391849a8bafbecd32f747_d6cc27ddce7b450faeb6e76c24b21cdd.png


目前支持Android、Web和Python,很快也会推出IOS支持。


MediaPipe Studio

MediaPipe Studio是一款Web应用程序,可以直接在浏览器中尝试MediaPipe的所有设备端机器学习解决方案,对于手势识别,正在添加双手手势支持,即将落地。MediaPipe Studio还提供了除了手势识别,还有其他有关于机器学习相关的解决方案,如:图像分割、面部识别、文本和音视频解决方案等等。


定制解决方案以适用自己的用例

可以使用MediaPipe Model Maker解决这一问题,MediaPipe Model MakerI从构建之初就旨在成为一个用于定制MediaPipe提供的解决方案的本地库。


以解决手势识别问题为例,步骤如下:


收集一个 用手作出石头布和剪刀三种手势的训练数据集

获得数据集后就可以开始使用Model Maker训练自定义模型来识别这些手势

使用Google Colab的免费GPU更快地训练模型

首先你需要导入手势识别器模块

然后加载石头剪刀布数据集并开始训练自定义模型

可以用模型在训练过程中没有看过的测试数据集来检查模型的准确性

最后你可以使用MediaPipe Tasks将其导出以部署在设备上

MediaPipe Studio使我们能在Web浏览器中尝试这些解决方案,以便获得关于将设备端机器学习

集成到应用程序中的灵感,其中许多解决方案都可以使用自己的数据集进行定制 。


AI模型领域的发展

其一是目前发现一种称为模型蒸馏的技术可以用来,将这些通用的大型模型提炼为可以在设备上运行,并专处理一定数量任务的较小模型,推出对图像中的面孔,进行风格化的实验性设备端解决方案,例如你可以使用它将你的照片转换为卡通风格。

88415c612f5d237e98d3e767ff4dbb8d_21122f27614548bba04cf5a07e3007db.png


其二是正在试验的另一个生成式Al模型,是基于扩散的图像生成模型,MediaPipe为我们提供现成的设备端机器学习解决方案,可以将其轻松集成到你的移动或网络应用,在部分的Android手机上已实现在几秒钟内从文本提示生成图像。

其三是已能在Android 上部署大语言模型,让它帮助你用自然语言完成一些任务,例如总结一次长对话,或根据给定主题撰写正式电子邮件,虽然设备端生成式Al还处于早期阶段,但在不久的将来会越来越好。

小结

2023 Google 开发者大会给我们展示了许多的技术,Media Pipe将机器学习复杂的工作进行抽象,提供了一个流水线可以帮你将模型连接在一起,开发者可利用该产品套件轻松地将设备端机器学习解决方案集成到不同平台(Android、Web、桌面等)的应用中,同时AI模型已经可以初步部署在Android 上,越来越多的AI模型可以在日常生活中帮助到我们。我们还可以使用自己的训练数据集轻松自定义部分解决方案,只需几行代码即可,在可以在未来我们或许会实现“零代码”!


对MediaPipe、机器学习或者其他开发工具感兴趣的小伙伴,可以前往CSDN专题页,观看 2023 Google 开发者大会主旨演讲和专题演讲的回放视频,了解更多科技新知、前沿案例。CSDN

目录
相关文章
|
10天前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术深度解析:从基础到应用的全面介绍
人工智能(AI)技术的迅猛发展,正在深刻改变着我们的生活和工作方式。从自然语言处理(NLP)到机器学习,从神经网络到大型语言模型(LLM),AI技术的每一次进步都带来了前所未有的机遇和挑战。本文将从背景、历史、业务场景、Python代码示例、流程图以及如何上手等多个方面,对AI技术中的关键组件进行深度解析,为读者呈现一个全面而深入的AI技术世界。
67 10
|
3天前
|
机器学习/深度学习 人工智能 物联网
AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营
12月14日,由中国软件行业校园招聘与实习公共服务平台携手魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行AIGC项目实战营·湖南大学站圆满结营。
AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营
|
7天前
|
人工智能 安全 算法
深度剖析 打造大模型时代的可信AI:技术创新与安全治理并重
2024年12月11日,由中国计算机学会计算机视觉专委会主办的“打造大模型时代的可信AI”论坛在上海举行。论坛汇聚了来自多家知名学术机构和企业的顶尖专家,围绕AI的技术风险与治理挑战,探讨如何在大模型时代确保AI的安全性和可信度,推动技术创新与安全治理并行。论坛重点关注计算机视觉领域的最新进展,提出了多项技术手段和治理框架,为AI的健康发展提供了有力支持。
43 8
深度剖析 打造大模型时代的可信AI:技术创新与安全治理并重
|
7天前
|
机器学习/深度学习 人工智能 运维
阿里云技术公开课直播预告:基于阿里云 Elasticsearch 构建 AI 搜索和可观测 Chatbot
阿里云技术公开课预告:Elastic和阿里云搜索技术专家将深入解读阿里云Elasticsearch Enterprise版的AI功能及其在实际应用。
阿里云技术公开课直播预告:基于阿里云 Elasticsearch 构建 AI 搜索和可观测 Chatbot
|
7天前
|
机器学习/深度学习 传感器 人工智能
AI视频监控系统在养老院中的技术实现
AI视频监控系统在养老院的应用,结合了计算机视觉、深度学习和传感器融合技术,实现了对老人体征、摔倒和异常行为的实时监控与分析。系统通过高清摄像头和算法模型,能够准确识别老人的动作和健康状况,并及时向护理人员发出警报,提高护理质量和安全性。
44 14
|
8天前
|
传感器 机器学习/深度学习 人工智能
AI视频监控卫士技术介绍:智能化河道管理解决方案
AI视频监控卫士系统,通过高清摄像头、智能传感器和深度学习技术,实现河道、水库、城市水务及生态保护区的全天候、全覆盖智能监控。系统能够自动识别非法行为、水质变化和异常情况,并实时生成警报,提升管理效率和精准度。
45 13
|
6天前
|
存储 人工智能 运维
AI-Native的路要怎么走?一群技术“老炮儿”指明了方向
上世纪70年代,沃兹尼亚克、乔布斯等人成立Homebrew Computer Club,推动个人电脑普及。如今,创原会承袭这一精神,由CNCF执行董事Priyanka Sharma等构建,聚焦云原生和AI技术,汇聚各行业技术骨干,探索前沿科技。2024年创原会年度峰会达成“全面拥抱AI-Native”共识,解决算力与存储瓶颈,推动AI原生应用开发,助力千行万业智能化转型,成为行业创新风向标。
|
7天前
|
人工智能 计算机视觉
幻觉不一定有害,新框架用AI的幻觉优化图像分割技术
在图像分割领域,传统方法依赖大量手动标注数据,效率低下且难以适应复杂场景。为解决这一问题,研究人员提出了“任务通用可提示分割”方法,利用多模态大型语言模型(MLLM)生成实例特定提示。然而,MLLM常出现幻觉,影响分割精度。为此,研究团队开发了“Prompt-Mask Cycle”(ProMaC)框架,通过迭代生成和验证提示及掩码,有效利用幻觉信息,提高了分割精度和效率。实验结果表明,ProMaC在多个基准数据集上表现出色,为图像分割技术的发展提供了新思路。
23 6
|
13天前
|
机器学习/深度学习 人工智能 监控
AI视频监控技术的核心优势与实践
AI视频监控技术结合了计算机视觉、深度学习和大数据分析,能够实时分析监控画面,识别异常行为和场景变化。其核心在于从“被动记录”转型为“主动识别”,提升监控效率并减少安全隐患。主要应用场景包括泳池管理、健身器械区域、人员密度预警和异常事件检测。系统架构支持多种摄像头设备,采用边缘计算和Docker部署,具备实时性、高准确率和扩展性等优势。未来将优化复杂场景适应性和实时计算负载,进一步提高系统性能。
|
2天前
|
人工智能 安全 图形学
【AI落地应用实战】篡改检测技术前沿探索——从基于检测分割到大模型
在数字化洪流席卷全球的当下,视觉内容已成为信息交流与传播的核心媒介,然而,随着PS技术和AIGC技术的飞速发展,图像篡改给视觉内容安全带来了前所未有的挑战。 本文将探讨篡改检测技术的现实挑战,分享篡改检测技术前沿和最新应用成果。