使用 MongoDB 构建 AI:Devnagri 通过机器翻译帮助 13 亿人享受网络生活

本文涉及的产品
云数据库 Tair(兼容Redis),内存型 2GB
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
简介: 为什么选择MongoDB:灵活度高,性能卓越

Himanshu Sharma (Devnagri 的首席执行官)在一次日本之行中发现,日本与自己的祖国印度有许多相似之处。虽然大多数日本人不会说英语,但他们却可以很好地使用以英语为主要语言的互联网。而这背后的关键就是翻译,确切地说,是早期的自动化机器翻译。于是,Himanshu Sharma 便萌生了一个想法:建立印度首个由人工智能 (AI) 提供支持的翻译平台,也就是 Devnagri。

“在印度,90% 的印度人(将近 13 亿人口)都不能用英语流利地沟通。我们希望填补这一空白,让那些不讲英语的人也能用自己的母语访问互联网。有超过 22 种语言在印度传播,但在互联网上,以这些语言呈现的数据却只占 0.1%。”Sharma 表示。“我们希望这些人同样能够用自己的母语获得知识和教育,并更好地融入数字化生态系统。我们还希望帮助企业和政府触达那些因为语言障碍而无法上网的人们。”

image.png

打造印度首个机器翻译平台

Sharma 及 Devnagri 团队开发了一个由 AI 提供支持的翻译平台,该平台可接收不同行业领域的多种文件格式。该平台的概念类似于谷歌翻译,但该平台并不是普通的消费者工具,平台将重点放在对印度百姓日常生活影响最大的四个关键行业:线上学习、银行、电商和媒体出版。Devnagri 为该平台提供 API 接口和即插即用的解决方案,方便用户动态地翻译各种应用程序和网站。

Sharma 解释说:“我们的平台建立在我们自有的定制转换模型的基础上,而这个模型则是基于 MarianNMT 神经机器翻译框架。我们使用文档内容语料库来训练模型,把它们拆分成句子,然后存储在 MongoDB Atlas 中。我们使用语境学习进行训练,并通过人类反馈强化学习 (RLHF) 来增强训练,进一步提高精确度。”

Sharma 继续补充道:“我们使用 Google Vertex AI 来处理我们的 MLops 管道,包括模型训练和推理。另外,我们还使用 Google Tensor Processing Units (TPU) 来托管我们的模型,这样我们就能为用户实时翻译各种内容,例如网页、PDF、文件、Web 和移动应用以及图像,等等。”

虽然基于转换程序的定制模型很好地满足了公司的需求,但现成模型近年来的发展促使 Devnagri 的工程师们踏上了寻找新解决方案的道路。他们开始评估是否可以转向 OpenAI GPT-4 和 Llama-2-7b 基础模型并使用 Devnagri 四年来积累的机器翻译数据优化这些模型。

为什么选择MongoDB:灵活度高,性能卓越

Devnagri 选择了 MongoDB 作为机器翻译模型的数据库平台。MongoDB 会存储每一个句子片段的英语原文,机器翻译的译文和经过人工验证的句子译文(如适用)。Sharma 解释道:“我们使用存储在 MongoDB 中的句子来训练我们的模型和支持实时推理。MongoDB 的文档数据模型极具灵活性,非常适合用来存储我们的机器学习模型翻译的各种结构化和非结构化内容。”

Himanshu Sharma,Devnagri
联合创始人兼首席执行官

我们还使用了 MongoDB 的可扩展型分布式架构。这样一来,我们的模型就能在云中的多个节点上并行处理读写请求,从而大幅提高训练和推理吞吐量。在 MongoDB 的帮助下,我们不仅加快了产品推向市场的速度,还优化了产品的质量。

后续行动

目前,Devnagri 的客户已覆盖印度 100 多个品牌和政府部门。Devnagri 还加入了 MongoDB AI 创新者计划。通过该计划,Devnagri 的数据科学团队能获取免费 Atlas 积分以支撑其后续机器翻译的试验和开发,并享受技术指导和了解最佳实践。

如果您想构建由 AI 提供支持的应用,最好的入门方式是在 MongoDB Atlas 上注册一个帐户。注册后,请使用 Atlas 数据库和 Atlas Vector Search创建免费的 MongoDB 实例,然后即可加载自己的数据或我们的示例数据集,并探索平台的各种功能。

相关文章
|
2月前
|
2月前
|
安全 网络架构
MPLS线路构建稳定、高效网络的优选方案
【10月更文挑战第17天】MPLS线路构建稳定、高效网络的优选方案
54 5
|
17天前
|
SQL 安全 前端开发
PHP与现代Web开发:构建高效的网络应用
【10月更文挑战第37天】在数字化时代,PHP作为一门强大的服务器端脚本语言,持续影响着Web开发的面貌。本文将深入探讨PHP在现代Web开发中的角色,包括其核心优势、面临的挑战以及如何利用PHP构建高效、安全的网络应用。通过具体代码示例和最佳实践的分享,旨在为开发者提供实用指南,帮助他们在不断变化的技术环境中保持竞争力。
|
2月前
|
运维 供应链 安全
SD-WAN分布式组网:构建高效、灵活的企业网络架构
本文介绍了SD-WAN(软件定义广域网)在企业分布式组网中的应用,强调其智能化流量管理、简化的网络部署、弹性扩展能力和增强的安全性等核心优势,以及在跨国企业、多云环境、零售连锁和制造业中的典型应用场景。通过合理设计网络架构、选择合适的网络连接类型、优化应用流量优先级和定期评估网络性能等最佳实践,SD-WAN助力企业实现高效、稳定的业务连接,加速数字化转型。
SD-WAN分布式组网:构建高效、灵活的企业网络架构
|
16天前
|
机器学习/深度学习 人工智能 安全
AI与网络安全:防御黑客的新武器
在数字化时代,网络安全面临巨大挑战。本文探讨了人工智能(AI)在网络安全中的应用,包括威胁识别、自动化防御、漏洞发现和预测分析,展示了AI如何提升防御效率和准确性,成为对抗网络威胁的强大工具。
|
21天前
|
监控 安全 网络安全
企业网络安全:构建高效的信息安全管理体系
企业网络安全:构建高效的信息安全管理体系
55 5
|
20天前
|
机器学习/深度学习 TensorFlow 算法框架/工具
利用Python和TensorFlow构建简单神经网络进行图像分类
利用Python和TensorFlow构建简单神经网络进行图像分类
45 3
|
28天前
|
机器学习/深度学习 人工智能 物联网
5G与AI融合:智能网络的新纪元
【10月更文挑战第25天】
49 3
|
29天前
|
数据采集 存储 机器学习/深度学习
构建高效的Python网络爬虫
【10月更文挑战第25天】本文将引导你通过Python编程语言实现一个高效网络爬虫。我们将从基础的爬虫概念出发,逐步讲解如何利用Python强大的库和框架来爬取、解析网页数据,以及存储和管理这些数据。文章旨在为初学者提供一个清晰的爬虫开发路径,同时为有经验的开发者提供一些高级技巧。
20 1
|
2月前
|
消息中间件 监控 网络协议
Python中的Socket魔法:如何利用socket模块构建强大的网络通信
本文介绍了Python的`socket`模块,讲解了其基本概念、语法和使用方法。通过简单的TCP服务器和客户端示例,展示了如何创建、绑定、监听、接受连接及发送/接收数据。进一步探讨了多用户聊天室的实现,并介绍了非阻塞IO和多路复用技术以提高并发处理能力。最后,讨论了`socket`模块在现代网络编程中的应用及其与其他通信方式的关系。
114 3