Himanshu Sharma (Devnagri 的首席执行官)在一次日本之行中发现,日本与自己的祖国印度有许多相似之处。虽然大多数日本人不会说英语,但他们却可以很好地使用以英语为主要语言的互联网。而这背后的关键就是翻译,确切地说,是早期的自动化机器翻译。于是,Himanshu Sharma 便萌生了一个想法:建立印度首个由人工智能 (AI) 提供支持的翻译平台,也就是 Devnagri。
“在印度,90% 的印度人(将近 13 亿人口)都不能用英语流利地沟通。我们希望填补这一空白,让那些不讲英语的人也能用自己的母语访问互联网。有超过 22 种语言在印度传播,但在互联网上,以这些语言呈现的数据却只占 0.1%。”Sharma 表示。“我们希望这些人同样能够用自己的母语获得知识和教育,并更好地融入数字化生态系统。我们还希望帮助企业和政府触达那些因为语言障碍而无法上网的人们。”
打造印度首个机器翻译平台
Sharma 及 Devnagri 团队开发了一个由 AI 提供支持的翻译平台,该平台可接收不同行业领域的多种文件格式。该平台的概念类似于谷歌翻译,但该平台并不是普通的消费者工具,平台将重点放在对印度百姓日常生活影响最大的四个关键行业:线上学习、银行、电商和媒体出版。Devnagri 为该平台提供 API 接口和即插即用的解决方案,方便用户动态地翻译各种应用程序和网站。
Sharma 解释说:“我们的平台建立在我们自有的定制转换模型的基础上,而这个模型则是基于 MarianNMT 神经机器翻译框架。我们使用文档内容语料库来训练模型,把它们拆分成句子,然后存储在 MongoDB Atlas 中。我们使用语境学习进行训练,并通过人类反馈强化学习 (RLHF) 来增强训练,进一步提高精确度。”
Sharma 继续补充道:“我们使用 Google Vertex AI 来处理我们的 MLops 管道,包括模型训练和推理。另外,我们还使用 Google Tensor Processing Units (TPU) 来托管我们的模型,这样我们就能为用户实时翻译各种内容,例如网页、PDF、文件、Web 和移动应用以及图像,等等。”
虽然基于转换程序的定制模型很好地满足了公司的需求,但现成模型近年来的发展促使 Devnagri 的工程师们踏上了寻找新解决方案的道路。他们开始评估是否可以转向 OpenAI GPT-4 和 Llama-2-7b 基础模型并使用 Devnagri 四年来积累的机器翻译数据优化这些模型。
为什么选择MongoDB:灵活度高,性能卓越
Devnagri 选择了 MongoDB 作为机器翻译模型的数据库平台。MongoDB 会存储每一个句子片段的英语原文,机器翻译的译文和经过人工验证的句子译文(如适用)。Sharma 解释道:“我们使用存储在 MongoDB 中的句子来训练我们的模型和支持实时推理。MongoDB 的文档数据模型极具灵活性,非常适合用来存储我们的机器学习模型翻译的各种结构化和非结构化内容。”
Himanshu Sharma,Devnagri
联合创始人兼首席执行官我们还使用了 MongoDB 的可扩展型分布式架构。这样一来,我们的模型就能在云中的多个节点上并行处理读写请求,从而大幅提高训练和推理吞吐量。在 MongoDB 的帮助下,我们不仅加快了产品推向市场的速度,还优化了产品的质量。
后续行动
目前,Devnagri 的客户已覆盖印度 100 多个品牌和政府部门。Devnagri 还加入了 MongoDB AI 创新者计划。通过该计划,Devnagri 的数据科学团队能获取免费 Atlas 积分以支撑其后续机器翻译的试验和开发,并享受技术指导和了解最佳实践。
如果您想构建由 AI 提供支持的应用,最好的入门方式是在 MongoDB Atlas 上注册一个帐户。注册后,请使用 Atlas 数据库和 Atlas Vector Search创建免费的 MongoDB 实例,然后即可加载自己的数据或我们的示例数据集,并探索平台的各种功能。