Facebook的新AI「Rosetta」会识别表情包,还会删帖丨论文

简介:

这些表情包,都见过吧?

平时斗图、发朋友圈、发微博、知乎抖机灵最离不开它们了。

不过,表情包上的那些网络金句都是.jpg或者.gif的图片格式,无法被搜索、无法被计算机监测,字太小不清晰的时候还会让视力不好的同学看不清楚。

总之,图片版的文字有种种不方便的地方。

所以Facebook干脆出了一个能识别表情包的AI,名叫Rosetta,看看你们发的消息里配的表情包都是些啥。

3617268e133841437577aaa921ea6c2e84786a56

Facebook官方博客给到的例子是一个西班牙语的企鹅表情包。

虽然图上的西班牙文看不太懂,不过可以脑补一下,表情包上本来只有白色加粗大字,Rosetta用蓝色框选出表情包上的文字,然后识别出来,文字上面那一行是它的识别结果。

当然,不止表情包,还有各类其他图片。如果发小黄图或者其他什么不友善的图片被Rosetta发现,它就会启动删帖大法。

Rosetta模型

Rosetta如何识别图片上的文字呢?

不是普通的OCR,而是用Faster R-CNN识别出有字的区域后,再进行文字识别。

具体步骤如下:

 ●  训练一个可以将图像表示为卷积特征映射的CNN;
 ●  训练一个区域提议网络(region proposal network,RPN),将图片分为宽5高7共35个小特征图作为输入,RPN找到一些看起来有文字的目标区输出;

 ●  从每个区域特征图中提取信息,用分类器识别,之后按提案置信度排序,选择最靠谱的提案。

9d0dd1ac9a8c4180499b03e57b7af00848bff17f

上面这张图则表明了两步模型结构:

第一步是用Faster R-CNN检测字符;

第二步是用有CTC(Connectionist Temporal Classification)损失的ResNet-18完全卷积模型来进行文字识别。

上面两个模型独立训练。

而在训练中,Facebook用上了Caffe2支持的、最近开源的Detectron framework。

另外他们还用上了LSTM来提高模型准确性。

28c7b6c9d4ff62c7a817984d7766949513e46d68

最终的文本识别模型结构

有特殊的训练技巧

考虑到低学习率会让模型欠拟合,而高学习率会导致模型发散,Facebook调整了训练程序:

一是先只用比较短的单词来训练,最多只有五六个字母,之后从少到多,用更长的单词来训练,逐步增强单词的长度;

二是从低学习率开始,保证模型不会发散,之后再逐步提高学习率,保证模型稳定。确保稳定之后再降低学习率。

1b4bb99745af201843dd7015ee62eaf188b176b9

“我们不要手动搞数据集!”

由于Rosetta并不是一个纯英文识别AI,它需要学的语言种类太多,单单训练英文识别都要大量数据,何况Facebook的全球用户来自各国,会使用各种不同的语言了。

于是,Facebook除了用人类手工标注的数据之外,还找了一些机器生成的数据集,也就是,找一个AI数据民工,强行给一些无辜的图片加字。

这个AI数据民工来自牛津大学VGG实验室2016年发表在CVPR上的论文《 Synthetic Data for Text Localisation in Natural Images》,可以给正常的自然景物照片上,添加一些蛇精病一样的文字。

5d8cf144e59f9a95523cdf42fc4a28e13a2d15ba

这样,批量生产的带字图片就自带了标注,一个AI生产数据,喂给另一个AI来训练,自给自足。如果以后的模型都用AI生产的数据来喂养的话,估计几十年后不少模型的卖点就变成了:

“人类标注,手动调参,纯天然原生态,古早味模型。”

不仅能认表情包

除了识别表情包和删帖,Rosetta还可以用来实现照片搜索、识别菜谱、辅助视力障碍者认知图片等功能,而且这些功能并不仅仅适用于英文,连阿拉伯语都可以识别。

只不过,阿拉伯语是从右往左写的,所以Facebook在处理阿拉伯语的时候多加了一道从左往右翻过来的步骤。


原文发布时间为:2018-09-12

本文作者:关注前沿科技

本文来自云栖社区合作伙伴“量子位”,了解相关信息可以关注“量子位”。

相关文章
|
5月前
|
机器学习/深度学习 人工智能 监控
AI算法分析,智慧城管AI智能识别系统源码
AI视频分析技术应用于智慧城管系统,通过监控摄像头实时识别违法行为,如违规摆摊、垃圾、违章停车等,实现非现场执法和预警。算法平台检测街面秩序(出店、游商、机动车、占道)和市容环境(垃圾、晾晒、垃圾桶、路面不洁、漂浮物、乱堆物料),助力及时处理问题,提升城市管理效率。
119 4
AI算法分析,智慧城管AI智能识别系统源码
|
5月前
|
机器学习/深度学习 人工智能 监控
AI威胁检测与识别
AI在网络安全中扮演关键角色,实现实时监控、异常检测、高级威胁识别和自动化响应。通过机器学习和深度学习,AI能分析大量数据,预测攻击,智能支持决策,并评估风险。然而,随着攻击手段进化,AI系统的抗攻击性研究和持续升级至关重要。
102 2
|
7天前
|
人工智能 自然语言处理 算法
几款宝藏级AI阅读工具推荐!论文分析、文档总结必备神器!
【10月更文挑战第7天】几款宝藏级AI阅读工具推荐!论文分析、文档总结必备神器!
25 1
几款宝藏级AI阅读工具推荐!论文分析、文档总结必备神器!
|
1天前
|
人工智能 自然语言处理 IDE
|
5月前
|
机器学习/深度学习 数据采集 人工智能
【专栏】AI在软件测试中的应用,如自动执行测试用例、识别缺陷和优化测试设计
【4月更文挑战第27天】本文探讨了AI在软件测试中的应用,如自动执行测试用例、识别缺陷和优化测试设计。AI辅助工具利用机器学习、自然语言处理和图像识别提高效率,但面临数据质量、模型解释性、维护更新及安全性挑战。未来,AI将更注重用户体验,提升透明度,并在保护隐私的同时,通过联邦学习等技术共享知识。AI在软件测试领域的前景广阔,但需解决现有挑战。
909 6
|
1月前
|
人工智能 开发者
Nature曝惊人内幕:论文被天价卖出喂AI!出版商狂赚上亿,作者0收入
【9月更文挑战第8天】《自然》杂志近日揭露,学术出版商如泰勒·弗朗西斯与微软签订千万美元合约,及威利获高额报酬,将论文提供给科技巨头训练AI模型,引发学界对版权与收益分配的热议。此现象反映了AI对高质量数据的渴求,但亦使研究人员担忧成果被无偿商用,且可能影响学术独立性。尽管AI训练使用学术资源能提升模型科学性,助力科研进展,但如何保障作者权益及维持学术纯粹性仍是亟待解决的问题。https://www.nature.com/articles/d41586-024-02599-9
39 4
|
3月前
|
人工智能 对象存储
【阿里云AI助理】自家产品提供错误答案。阿里云OSS 资源包类型: 下行流量 地域: 中国内地通用 下行流量包规格: 300 GB 套餐: 下行流量包(中国内地) ,包1年。那么这个是每月300GB,1年是3600GB的流量;还是1年只有300GB的流量?
自家产品提供错误答案。阿里云OSS 资源包类型: 下行流量 地域: 中国内地通用 下行流量包规格: 300 GB 套餐: 下行流量包(中国内地) ,包1年。那么这个是每月300GB,1年是3600GB的流量;还是1年只有300GB的流量?
118 1
|
3月前
|
人工智能 数据安全/隐私保护 计算机视觉
旷视开源的AI人像视频生成太炸了!输入照片即可模仿任意表情包
【7月更文挑战第6天】旷视科技开源AI模型MegActor,以照片生成逼真人像视频,模仿表情包。基于条件扩散模型,解决身份泄露和背景干扰问题,使用合成数据、图像分割、CLIP编码及风格迁移技术。虽有视频质量、隐私风险及计算资源限制,但对动画和虚拟偶像行业带来革新。[链接](https://arxiv.org/abs/2405.20851)
97 3
|
4月前
|
机器学习/深度学习 人工智能 搜索推荐
AI技术在情感识别方面有哪些具体应用
AI在元宇宙学习中扮演关键角色,通过数据收集分析用户习惯、兴趣,提供个性化推荐。情感识别调整教学策略,智能评估反馈学习效果,实时互动解答问题,自适应学习系统匹配个体需求。同时,注重隐私安全保护,打造高效、精准、个性化的学习环境。
|
3月前
|
人工智能
AI绘画,Stable Diffusion如何使用中文简体包,黑色页面切换参数http://127.0.0.1:7860/?__theme=dark 两个__,中文包下载和安装
AI绘画,Stable Diffusion如何使用中文简体包,黑色页面切换参数http://127.0.0.1:7860/?__theme=dark 两个__,中文包下载和安装