超级实习生Ian Goodfellow留给谷歌地图的算法被完善,识别800亿街景图文字(附论文)

简介:

识别并提取图片有效信息是谷歌地图发展的新方向之一


谷歌地图每天都会向数百万人提供有用的向导、实时交通信息和商业信息。 为了提供最好的用户体验,这些信息必须不断地反映持续变化的世界。 虽然街景汽车每天收集数百万张图片,但是无法手动分析迄今为止收集的超过800亿张高分辨率图片,以便为谷歌地图找到新的或更新的信息。Google地面实况团队(Ground Truth team)的目标之一是使我们可以自动从含有地理位置信息的图片中提取信息,从而改进谷歌地图。

在《从街景图片中提取基于注意力的结构化信息》论文中(后台回复“谷歌”下载论文全文),我们描述了在许多国家使用深度神经网络自动地从非常具有挑战性的街景图片中准确读取街道名称的方法。 我们的算法在具有挑战性的法国街头标志(FSNS)数据集上实现了84.2%的准确性,显著优于以前的最先进的系统。 重要的是,我们的系统很容易扩展,以便从街景图片中提取其他类型的信息,现在,它可以帮助我们从商店门面图片中自动提取商店名称。 我们很激动地宣布,这个模型现在是开源的!

来自FSNS数据集的街道名称示例,由我们的系统正确标记。 同一个标识最多提供四个视图。

自然环境中的文本识别是一个具有挑战性的计算机视觉和机器学习问题。虽然传统的光学字符识别(OCR)系统主要集中在从扫描的文档中提取文本,但是由于自然场景获取的文本存在视觉伪像(如失真,遮挡,方向模糊,杂乱的背景或不同的视角)而更具挑战性。解决这一研究挑战的努力源自2008年,当时我们使用神经网络来模糊掉街景图片中的面孔和车牌,以保护用户的隐私。从这个初步研究中,我们意识到,使用足够多的带标签的数据,我们不仅可以使用机器学习来保护用户的隐私,还可以通过获取最新的相关信息来自动改进谷歌地图。

实习生牵起街景数字数据集阅读方法项目


2014年,谷歌的地面实况小组发布了最新的街景数字(SVHN)数据集阅读方法,该方法由当时的暑期实习生(现为Google员工)Ian Goodfellow实施。这项工作不仅具有学术意义,而且对制作更为准确的谷歌地图至关重要。今天,全球有三分之一以上的地址由于采用了这一系统而得到改进。在一些国家,如巴西,该算法已经改善了谷歌地图中90%以上的地址,大大提高了我们地图的可用性。

理所当然地,下一个步骤是将这些技术扩展到街道名称。为了解决这个问题,我们创建并发布了法国街名标志数据集(FSNS),这是一个超过100万个街道名称的大型训练数据集。 FSNS数据集是一项多年努力,旨在允许任何人在具有挑战性和真实用途的情况下改进其OCR模型。 FSNS数据集比SVHN大得多,更具挑战性,因为对街道标志的准确识别可能需要组合许多不同图片的信息。

这些是由我们的系统通过选择,或结合对图片的理解而正确标记的具有挑战性的标识示例。 第二个例子本身是极具挑战性的,但该模型在之前学习了一种语言模型,使之能够消除模糊性并正确阅读街道名称。

通过这个训练集,谷歌实习生Zbigniew Wojna 2016年花了一个暑假,开发了一个深度学习模型架构,自动标注了新的街景图片。 我们的新模型有一个非常有意思的优点,它可以将文本标准化,与我们的命名习惯保持一致,并且可以忽略无关的外部文本。

在这个例子中,模型并没有被混淆,因为有两个街道名称,正确地将“Av”标准化为“Avenue”,并正确地忽略了数字“1600”

项目触角仍在不断延伸中


虽然这个模型是准确的,但确实显示了15.8%的错误率。然而,在分析错误案例后,我们发现其中48%是由于地面实况错误,突出表明该模型与标签质量相一致。(对错误率的完整分析可以在我们的论文中找到)。

这个新系统与提取街道号码的系统相结合,使我们能够直接从图片创建新的地址,我们以前不知道街道的名称或地址的位置。现在,只要街景汽车在新建的道路上行驶,我们的系统就可以分析成千上万的被捕获的图片,提取街道名称和数字,并在谷歌地图上自动正确创建和定位新地址。

但是,自动创建谷歌地图的地址是不够的——我们还希望能够通过店铺名称为商家提供导航。在2015年,我们发表了《街景图片大规模发现商家》的文章,提出了一种在街景图片中准确识别商店店面标志的方法。然而,一旦检测到商店门面,仍然需要准确地提取其名称以供使用——模型必须确定哪个文本是商家名称,哪个文本是不相关的。我们将其称为从图片中提取“结构化文本”。它不仅仅是文本,它还是附有语义的文本。

使用不同的训练数据,用于读取街道名称的模型架构也可用于从商家外观图片中精确地提取商家名称。在这种特殊情况下,我们能够仅仅提取商家名称,来验证谷歌地图中是否已经存在该商家,从而使我们能够获得更准确和最新的商家列表。

缺失位置信息的情况下,系统能够预测图片中商店的名称为“Zelina Pneus” 模型没有被商店所卖的轮胎品牌(Firestone)所迷惑。

在超过800亿的街景视图图片中应用这些大型模型需要大量的计算能力。 这就是为什么地面实况团队是今年早些时候宣布的谷歌 TPU的第一个用户,这样大大降低了我们的计算成本。

人们依靠谷歌地图的准确性来获得帮助。 在保持谷歌地图与城市不断变化的环境保持一致的同时,道路和商家提出了一个远未解决的技术挑战,地面实况团队的目标是推动机器学习中的划时代的创新, 为十多亿谷歌地图用户创造更好的体验。

原文发布时间为:2017-5-4

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关文章
|
1月前
|
存储 机器学习/深度学习 编解码
双选择性信道下正交啁啾分复用(OCDM)的低复杂度均衡算法研究——论文阅读
本文提出统一相位正交啁啾分复用(UP-OCDM)方案,利用循环矩阵特性设计两种低复杂度均衡算法:基于带状近似的LDL^H分解和基于BEM的迭代LSQR,将复杂度由$O(N^3)$降至$O(NQ^2)$或$O(iNM\log N)$,在双选择性信道下显著提升高频谱效率与抗多普勒性能。
152 0
双选择性信道下正交啁啾分复用(OCDM)的低复杂度均衡算法研究——论文阅读
|
3月前
|
机器学习/深度学习 算法 数据挖掘
没发论文的注意啦!重磅更新!GWO-BP-AdaBoost预测!灰狼优化、人工神经网络与AdaBoost集成学习算法预测研究(Matlab代码实现)
没发论文的注意啦!重磅更新!GWO-BP-AdaBoost预测!灰狼优化、人工神经网络与AdaBoost集成学习算法预测研究(Matlab代码实现)
144 0
|
2月前
|
传感器 资源调度 算法
DDMA-MIMO雷达多子带相干累积目标检测算法——论文阅读
本文提出一种多子带相干累积(MSCA)算法,通过引入空带和子带相干处理,解决DDMA-MIMO雷达的多普勒模糊与能量分散问题。该方法在低信噪比下显著提升检测性能,实测验证可有效恢复目标速度,适用于车载雷达高精度感知。
394 4
DDMA-MIMO雷达多子带相干累积目标检测算法——论文阅读
|
2月前
|
机器学习/深度学习 算法 算法框架/工具
256KB内存约束下的设备端训练:算法与系统协同设计——论文解读
MIT与MIT-IBM Watson AI Lab团队提出一种创新方法,在仅256KB SRAM和1MB Flash的微控制器上实现深度神经网络训练。该研究通过量化感知缩放(QAS)、稀疏层/张量更新及算子重排序等技术,将内存占用降至141KB,较传统框架减少2300倍,首次突破设备端训练的内存瓶颈,推动边缘智能发展。
206 6
|
3月前
|
人工智能 算法 安全
【博士论文】基于局部中心量度的聚类算法研究(Matlab代码实现)
【博士论文】基于局部中心量度的聚类算法研究(Matlab代码实现)
125 0
|
5月前
|
算法 数据安全/隐私保护
基于Logistic-Map混沌序列的数字信息加解密算法matlab仿真,支持对文字,灰度图,彩色图,语音进行加解密
本项目实现了一种基于Logistic Map混沌序列的数字信息加解密算法,使用MATLAB2022A开发并包含GUI操作界面。支持对文字、灰度图像、彩色图像和语音信号进行加密与解密处理。核心程序通过调整Logistic Map的参数生成伪随机密钥序列,确保加密的安全性。混沌系统的不可预测性和对初值的敏感依赖性是该算法的核心优势。示例展示了彩色图像、灰度图像、语音信号及文字信息的加解密效果,运行结果清晰准确,且完整程序输出无水印。
基于Logistic-Map混沌序列的数字信息加解密算法matlab仿真,支持对文字,灰度图,彩色图,语音进行加解密
|
7月前
|
机器学习/深度学习 人工智能 JSON
这个AI把arXiv变成代码工厂,快速复现顶会算法!Paper2Code:AI论文自动转代码神器,多智能体框架颠覆科研复现
Paper2Code是由韩国科学技术院与DeepAuto.ai联合开发的多智能体框架,通过规划、分析和代码生成三阶段流程,将机器学习论文自动转化为可执行代码仓库,显著提升科研复现效率。
861 19
这个AI把arXiv变成代码工厂,快速复现顶会算法!Paper2Code:AI论文自动转代码神器,多智能体框架颠覆科研复现
|
11月前
|
机器学习/深度学习 自然语言处理 算法
调研180多篇论文,这篇综述终于把大模型做算法设计理清了
《A Systematic Survey on Large Language Models for Algorithm Design》综述了过去三年大型语言模型(LLMs)在算法设计中的应用。LLMs通过自然语言处理技术,助力生成、优化和验证算法,在优化、机器学习、数学推理等领域展现出广泛应用前景。尽管存在资源需求高、结果不确定等挑战,LLMs仍为算法设计带来新机遇。论文地址:https://arxiv.org/abs/2410.14716。
351 14
|
自然语言处理 算法 安全
计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-16
计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-16
计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-16
|
机器学习/深度学习 安全 算法
计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-23(下)
计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-23(下)

热门文章

最新文章