使用 MongoDB 构建 AI:Devnagri 通过机器翻译帮助 13 亿人享受网络生活

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
简介: 为什么选择MongoDB:灵活度高,性能卓越

Himanshu Sharma (Devnagri 的首席执行官)在一次日本之行中发现,日本与自己的祖国印度有许多相似之处。虽然大多数日本人不会说英语,但他们却可以很好地使用以英语为主要语言的互联网。而这背后的关键就是翻译,确切地说,是早期的自动化机器翻译。于是,Himanshu Sharma 便萌生了一个想法:建立印度首个由人工智能 (AI) 提供支持的翻译平台,也就是 Devnagri。

“在印度,90% 的印度人(将近 13 亿人口)都不能用英语流利地沟通。我们希望填补这一空白,让那些不讲英语的人也能用自己的母语访问互联网。有超过 22 种语言在印度传播,但在互联网上,以这些语言呈现的数据却只占 0.1%。”Sharma 表示。“我们希望这些人同样能够用自己的母语获得知识和教育,并更好地融入数字化生态系统。我们还希望帮助企业和政府触达那些因为语言障碍而无法上网的人们。”

image.png

打造印度首个机器翻译平台

Sharma 及 Devnagri 团队开发了一个由 AI 提供支持的翻译平台,该平台可接收不同行业领域的多种文件格式。该平台的概念类似于谷歌翻译,但该平台并不是普通的消费者工具,平台将重点放在对印度百姓日常生活影响最大的四个关键行业:线上学习、银行、电商和媒体出版。Devnagri 为该平台提供 API 接口和即插即用的解决方案,方便用户动态地翻译各种应用程序和网站。

Sharma 解释说:“我们的平台建立在我们自有的定制转换模型的基础上,而这个模型则是基于 MarianNMT 神经机器翻译框架。我们使用文档内容语料库来训练模型,把它们拆分成句子,然后存储在 MongoDB Atlas 中。我们使用语境学习进行训练,并通过人类反馈强化学习 (RLHF) 来增强训练,进一步提高精确度。”

Sharma 继续补充道:“我们使用 Google Vertex AI 来处理我们的 MLops 管道,包括模型训练和推理。另外,我们还使用 Google Tensor Processing Units (TPU) 来托管我们的模型,这样我们就能为用户实时翻译各种内容,例如网页、PDF、文件、Web 和移动应用以及图像,等等。”

虽然基于转换程序的定制模型很好地满足了公司的需求,但现成模型近年来的发展促使 Devnagri 的工程师们踏上了寻找新解决方案的道路。他们开始评估是否可以转向 OpenAI GPT-4 和 Llama-2-7b 基础模型并使用 Devnagri 四年来积累的机器翻译数据优化这些模型。

为什么选择MongoDB:灵活度高,性能卓越

Devnagri 选择了 MongoDB 作为机器翻译模型的数据库平台。MongoDB 会存储每一个句子片段的英语原文,机器翻译的译文和经过人工验证的句子译文(如适用)。Sharma 解释道:“我们使用存储在 MongoDB 中的句子来训练我们的模型和支持实时推理。MongoDB 的文档数据模型极具灵活性,非常适合用来存储我们的机器学习模型翻译的各种结构化和非结构化内容。”

Himanshu Sharma,Devnagri
联合创始人兼首席执行官

我们还使用了 MongoDB 的可扩展型分布式架构。这样一来,我们的模型就能在云中的多个节点上并行处理读写请求,从而大幅提高训练和推理吞吐量。在 MongoDB 的帮助下,我们不仅加快了产品推向市场的速度,还优化了产品的质量。

后续行动

目前,Devnagri 的客户已覆盖印度 100 多个品牌和政府部门。Devnagri 还加入了 MongoDB AI 创新者计划。通过该计划,Devnagri 的数据科学团队能获取免费 Atlas 积分以支撑其后续机器翻译的试验和开发,并享受技术指导和了解最佳实践。

如果您想构建由 AI 提供支持的应用,最好的入门方式是在 MongoDB Atlas 上注册一个帐户。注册后,请使用 Atlas 数据库和 Atlas Vector Search创建免费的 MongoDB 实例,然后即可加载自己的数据或我们的示例数据集,并探索平台的各种功能。

相关文章
|
7天前
|
编解码 Java 程序员
写代码还有专业的编程显示器?
写代码已经十个年头了, 一直都是习惯直接用一台Mac电脑写代码 偶尔接一个显示器, 但是可能因为公司配的显示器不怎么样, 还要接转接头 搞得桌面杂乱无章,分辨率也低,感觉屏幕还是Mac自带的看着舒服
|
9天前
|
存储 缓存 关系型数据库
MySQL事务日志-Redo Log工作原理分析
事务的隔离性和原子性分别通过锁和事务日志实现,而持久性则依赖于事务日志中的`Redo Log`。在MySQL中,`Redo Log`确保已提交事务的数据能持久保存,即使系统崩溃也能通过重做日志恢复数据。其工作原理是记录数据在内存中的更改,待事务提交时写入磁盘。此外,`Redo Log`采用简单的物理日志格式和高效的顺序IO,确保快速提交。通过不同的落盘策略,可在性能和安全性之间做出权衡。
1568 10
|
1月前
|
弹性计算 人工智能 架构师
阿里云携手Altair共拓云上工业仿真新机遇
2024年9月12日,「2024 Altair 技术大会杭州站」成功召开,阿里云弹性计算产品运营与生态负责人何川,与Altair中国技术总监赵阳在会上联合发布了最新的“云上CAE一体机”。
阿里云携手Altair共拓云上工业仿真新机遇
|
12天前
|
人工智能 Rust Java
10月更文挑战赛火热启动,坚持热爱坚持创作!
开发者社区10月更文挑战,寻找热爱技术内容创作的你,欢迎来创作!
784 27
|
2天前
|
移动开发 JavaScript 前端开发
💻揭秘!如何用 Vue 3 实现酷炫的色彩魔方游戏✨
本文分享了开发基于Canvas技术的小游戏"色彩魔方挑战"的完整过程。游戏旨在考验玩家的观察力和耐心,通过随机生成的颜色矩阵和一个变化点,玩家需在两幅画布中找出不同的颜色点。文章详细讲解了游戏的核心功能,包括随机颜色矩阵生成、点的闪烁提示、自定义配色方案等。此外,作者展示了使用Vue 3和TypeScript开发的代码实现,带领读者一步步深入了解游戏的逻辑与细节。
103 68
|
2天前
|
存储 前端开发 JavaScript
🚀前端轻松实现网页内容转换:一键复制、保存图片及生成 Markdown
在现代前端开发中,提升用户的交互体验至关重要。本文将详细介绍如何使用 HTML2Canvas 和 Turndown 两个强大的 JavaScript 库,实现将网页选中文本转化为图片并保存或复制到剪贴板,或将内容转换为 Markdown 格式。文章包含核心代码实现、技术细节和功能拓展方向,为开发者提供了一个轻量级的解决方案,提升用户体验。
100 68
|
16天前
|
Linux 虚拟化 开发者
一键将CentOs的yum源更换为国内阿里yum源
一键将CentOs的yum源更换为国内阿里yum源
849 5
|
9天前
|
存储 SQL 关系型数据库
彻底搞懂InnoDB的MVCC多版本并发控制
本文详细介绍了InnoDB存储引擎中的两种并发控制方法:MVCC(多版本并发控制)和LBCC(基于锁的并发控制)。MVCC通过记录版本信息和使用快照读取机制,实现了高并发下的读写操作,而LBCC则通过加锁机制控制并发访问。文章深入探讨了MVCC的工作原理,包括插入、删除、修改流程及查询过程中的快照读取机制。通过多个案例演示了不同隔离级别下MVCC的具体表现,并解释了事务ID的分配和管理方式。最后,对比了四种隔离级别的性能特点,帮助读者理解如何根据具体需求选择合适的隔离级别以优化数据库性能。
232 4
|
2天前
|
人工智能
云端问道12期-构建基于Elasticsearch的企业级AI搜索应用陪跑班获奖名单公布啦!
云端问道12期-构建基于Elasticsearch的企业级AI搜索应用陪跑班获奖名单公布啦!
121 1
|
6天前
|
并行计算 PyTorch TensorFlow
Ubuntu安装笔记(一):安装显卡驱动、cuda/cudnn、Anaconda、Pytorch、Tensorflow、Opencv、Visdom、FFMPEG、卸载一些不必要的预装软件
这篇文章是关于如何在Ubuntu操作系统上安装显卡驱动、CUDA、CUDNN、Anaconda、PyTorch、TensorFlow、OpenCV、FFMPEG以及卸载不必要的预装软件的详细指南。
475 2