估值40亿美元的Dropbox又为用户带来新功能:AI识别扫描文档

本文涉及的产品
票证核验,票证核验 50次/账号
通用文字识别,通用文字识别 200次/月
小语种识别,小语种识别 200次/月
简介:

 

云文件同步和共享服务商Dropbox今天披露了更多支持光学字符识别(OCR)功能的技术细节,已经为Dropbox Business付费的企业员工可以在Android和iOS应用程序中使用该功能。

具体操作是这样的,使用移动设备上的相机扫描文档后,光学字符识别功能将会启动。然后,应用程序会根据需要裁剪或旋转文档,然后将其保存为Dropbox中的PDF。8月,该公司表示正在使用计算机视觉来检测应用程序扫描文档。

与人工智能深度学习结合的OCR技术已经不是新鲜事了。GitHub 上的开源软件可以用于两者结合,Google在Google街景图像中也运用了机器学习和OCR技术。OCR系统的初始版本采用市售软件开发工具包(SDK)。Dropbox选择运行自己的数据包以节省资金并提高准确性,因为市售系统主要是为实际的硬件扫描仪构建的,而不是为移动设备上使用相机的扫描仪。Dropbox利用用户数据训练系统。

Dropbox的软件工程师Brad NeubergNeuberg表示,Dropbox需要收集用户上传一部分图像或文件,例如收据、发票、信件等。为了收集这个集合,公司事先征得了用户的同意。如果用户同意,那么这些文件信息一定会被保密。Dropbox对用户捐赠的数据采取各种安全措施,比如绝不会将数据保留在本地部署的服务器上,保持持续并广泛的审计、部署强大的身份验证访问数据措施等。

为了预测文档中特定单词的剪切文本,Dropbox通过卷积神经网络,然后是双向长时间短期记忆(LSTM)网络发送图像,最后连接时间分类(CTC)系统。该系统部分依赖于Google的TensorFlow开源深入学习框架。为了加强这个系统,Dropbox借鉴了虚构的数据 ,然后以简单的方式进行了转换。

Dropbox已经脱离了亚马逊网络服务(AWS)的公共云端,并运行自己的数据中心基础架构。此外,Dropbox已经开始使用图形处理单元(GPU)加速的G2 虚拟机(VM)实例对其模型进行了培训 ,并存储了一些数据在AWS S3服务中。为了进一步改进模型,Dropbox训练了小数量的图像单词。然后,从预测单个词跳转到处理整个文档。

云文件同步和共享服务商Dropbox今天披露了更多支持光学字符识别(OCR)功能的技术细节,已经为Dropbox Business付费的企业员工可以在Android和iOS应用程序中使用该功能。

具体操作是这样的,使用移动设备上的相机扫描文档后,光学字符识别功能将会启动。然后,应用程序会根据需要裁剪或旋转文档,然后将其保存为Dropbox中的PDF。8月,该公司表示正在使用计算机视觉来检测应用程序扫描文档。

与人工智能深度学习结合的OCR技术已经不是新鲜事了。GitHub上的开源软件可以用于两者结合,Google在Google街景图像中也运用了机器学习和OCR技术。OCR系统的初始版本采用市售软件开发工具包(SDK)。Dropbox选择运行自己的数据包以节省资金并提高准确性,因为市售系统主要是为实际的硬件扫描仪构建的,而不是为移动设备上使用相机的扫描仪。Dropbox利用用户数据训练系统。

Dropbox的软件工程师Brad NeubergNeuberg表示,Dropbox需要收集用户上传一部分图像或文件,例如收据、发票、信件等。为了收集这个集合,公司事先征得了用户的同意。如果用户同意,那么这些文件信息一定会被保密。Dropbox对用户捐赠的数据采取各种安全措施,比如绝不会将数据保留在本地部署的服务器上,保持持续并广泛的审计、部署强大的身份验证访问数据措施等。

为了预测文档中特定单词的剪切文本,Dropbox通过卷积神经网络,然后是双向长时间短期记忆(LSTM)网络发送图像,最后连接时间分类(CTC)系统。该系统部分依赖于Google的TensorFlow开源深入学习框架。为了加强这个系统,Dropbox借鉴了虚构的数据 ,然后以简单的方式进行了转换。

Dropbox已经脱离了亚马逊网络服务(AWS)的公共云端,并运行自己的数据中心基础架构。此外,Dropbox已经开始使用图形处理单元(GPU)加速的G2虚拟机(VM)实例对其模型进行了培训,并存储了一些数据在AWS S3服务中。为了进一步改进模型,Dropbox训练了小数量的图像单词。然后,从预测单个词跳转到处理整个文档。


 


  

本文转自d1net(转载)

目录
相关文章
|
8月前
|
机器学习/深度学习 人工智能 监控
AI算法分析,智慧城管AI智能识别系统源码
AI视频分析技术应用于智慧城管系统,通过监控摄像头实时识别违法行为,如违规摆摊、垃圾、违章停车等,实现非现场执法和预警。算法平台检测街面秩序(出店、游商、机动车、占道)和市容环境(垃圾、晾晒、垃圾桶、路面不洁、漂浮物、乱堆物料),助力及时处理问题,提升城市管理效率。
149 4
AI算法分析,智慧城管AI智能识别系统源码
|
8月前
|
机器学习/深度学习 人工智能 监控
AI威胁检测与识别
AI在网络安全中扮演关键角色,实现实时监控、异常检测、高级威胁识别和自动化响应。通过机器学习和深度学习,AI能分析大量数据,预测攻击,智能支持决策,并评估风险。然而,随着攻击手段进化,AI系统的抗攻击性研究和持续升级至关重要。
148 2
|
7天前
|
人工智能 资源调度 JavaScript
PPTAgent:中科院开源AI工具,自动将文档转化为高质量PPT
PPTAgent 是中科院推出的自动生成演示文稿框架,基于两阶段编辑方法,支持智能分析、大纲生成、幻灯片生成与评估,适用于教育、企业培训等多种场景。
168 18
PPTAgent:中科院开源AI工具,自动将文档转化为高质量PPT
|
25天前
|
人工智能 Serverless API
《智能导购 AI 助手构建》解决方案评测:极具吸引力的产品,亟待完善的教程文档
《智能导购 AI 助手构建》解决方案评测:极具吸引力的产品,亟待完善的教程文档
109 8
《智能导购 AI 助手构建》解决方案评测:极具吸引力的产品,亟待完善的教程文档
|
28天前
|
人工智能 数据库连接 API
在部署《主动式智能导购 AI 助手构建》解决方案的过程中,整体体验还是相对顺畅的,但确实遇到了一些问题,文档提供的引导也有所不足,以下是详细的体验评估
在部署《主动式智能导购 AI 助手构建》解决方案的过程中,整体体验还是相对顺畅的,但确实遇到了一些问题,文档提供的引导也有所不足,以下是详细的体验评估
|
3月前
|
人工智能 自然语言处理 算法
几款宝藏级AI阅读工具推荐!论文分析、文档总结必备神器!
【10月更文挑战第8天】几款宝藏级AI阅读工具推荐!论文分析、文档总结必备神器!
234 1
|
3月前
|
人工智能 自然语言处理 搜索推荐
【通义】AI视界|微软Copilot Studio推出新功能,帮助企业更便捷地构建和部署AI代理
本文介绍了近期科技领域的五大重要动态:马斯克旗下xAI发布首个API,苹果内部研究显示ChatGPT比Siri准确率高25%,微软Copilot Studio推出新功能,霍尼韦尔与谷歌合作引入Gemini AI,浑水创始人建议买入科技七巨头股票。更多资讯请访问【通义】。
|
3月前
|
人工智能 开发者 Python
python读取word文档 | AI应用开发
在RAG系统中,构建知识库时需读取多种外部文档,其中Word文档较为常见。本文介绍如何使用`python-docx`库读取Word文档(.docx格式)中的标题、段落、表格和图片等内容。首先通过`pip install python-docx`安装库,然后利用提供的接口提取所需信息。尽管该库功能强大,但在识别标题样式时需自定义逻辑,并且仅提供图片的URI而非直接加载。示例代码展示了读取文本、识别标题、读取表格及获取图片URI的方法。【10月更文挑战第2天】
122 2
|
8月前
|
机器学习/深度学习 数据采集 人工智能
【专栏】AI在软件测试中的应用,如自动执行测试用例、识别缺陷和优化测试设计
【4月更文挑战第27天】本文探讨了AI在软件测试中的应用,如自动执行测试用例、识别缺陷和优化测试设计。AI辅助工具利用机器学习、自然语言处理和图像识别提高效率,但面临数据质量、模型解释性、维护更新及安全性挑战。未来,AI将更注重用户体验,提升透明度,并在保护隐私的同时,通过联邦学习等技术共享知识。AI在软件测试领域的前景广阔,但需解决现有挑战。
1072 6

热门文章

最新文章