使用 MongoDB 构建 AI:Devnagri 通过机器翻译帮助 13 亿人享受网络生活

本文涉及的产品
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云原生数据库 PolarDB MySQL 版,通用型 2核8GB 50GB
简介: 为什么选择MongoDB:灵活度高,性能卓越

Himanshu Sharma (Devnagri 的首席执行官)在一次日本之行中发现,日本与自己的祖国印度有许多相似之处。虽然大多数日本人不会说英语,但他们却可以很好地使用以英语为主要语言的互联网。而这背后的关键就是翻译,确切地说,是早期的自动化机器翻译。于是,Himanshu Sharma 便萌生了一个想法:建立印度首个由人工智能 (AI) 提供支持的翻译平台,也就是 Devnagri。

“在印度,90% 的印度人(将近 13 亿人口)都不能用英语流利地沟通。我们希望填补这一空白,让那些不讲英语的人也能用自己的母语访问互联网。有超过 22 种语言在印度传播,但在互联网上,以这些语言呈现的数据却只占 0.1%。”Sharma 表示。“我们希望这些人同样能够用自己的母语获得知识和教育,并更好地融入数字化生态系统。我们还希望帮助企业和政府触达那些因为语言障碍而无法上网的人们。”

image.png

打造印度首个机器翻译平台

Sharma 及 Devnagri 团队开发了一个由 AI 提供支持的翻译平台,该平台可接收不同行业领域的多种文件格式。该平台的概念类似于谷歌翻译,但该平台并不是普通的消费者工具,平台将重点放在对印度百姓日常生活影响最大的四个关键行业:线上学习、银行、电商和媒体出版。Devnagri 为该平台提供 API 接口和即插即用的解决方案,方便用户动态地翻译各种应用程序和网站。

Sharma 解释说:“我们的平台建立在我们自有的定制转换模型的基础上,而这个模型则是基于 MarianNMT 神经机器翻译框架。我们使用文档内容语料库来训练模型,把它们拆分成句子,然后存储在 MongoDB Atlas 中。我们使用语境学习进行训练,并通过人类反馈强化学习 (RLHF) 来增强训练,进一步提高精确度。”

Sharma 继续补充道:“我们使用 Google Vertex AI 来处理我们的 MLops 管道,包括模型训练和推理。另外,我们还使用 Google Tensor Processing Units (TPU) 来托管我们的模型,这样我们就能为用户实时翻译各种内容,例如网页、PDF、文件、Web 和移动应用以及图像,等等。”

虽然基于转换程序的定制模型很好地满足了公司的需求,但现成模型近年来的发展促使 Devnagri 的工程师们踏上了寻找新解决方案的道路。他们开始评估是否可以转向 OpenAI GPT-4 和 Llama-2-7b 基础模型并使用 Devnagri 四年来积累的机器翻译数据优化这些模型。

为什么选择MongoDB:灵活度高,性能卓越

Devnagri 选择了 MongoDB 作为机器翻译模型的数据库平台。MongoDB 会存储每一个句子片段的英语原文,机器翻译的译文和经过人工验证的句子译文(如适用)。Sharma 解释道:“我们使用存储在 MongoDB 中的句子来训练我们的模型和支持实时推理。MongoDB 的文档数据模型极具灵活性,非常适合用来存储我们的机器学习模型翻译的各种结构化和非结构化内容。”

Himanshu Sharma,Devnagri
联合创始人兼首席执行官

我们还使用了 MongoDB 的可扩展型分布式架构。这样一来,我们的模型就能在云中的多个节点上并行处理读写请求,从而大幅提高训练和推理吞吐量。在 MongoDB 的帮助下,我们不仅加快了产品推向市场的速度,还优化了产品的质量。

后续行动

目前,Devnagri 的客户已覆盖印度 100 多个品牌和政府部门。Devnagri 还加入了 MongoDB AI 创新者计划。通过该计划,Devnagri 的数据科学团队能获取免费 Atlas 积分以支撑其后续机器翻译的试验和开发,并享受技术指导和了解最佳实践。

如果您想构建由 AI 提供支持的应用,最好的入门方式是在 MongoDB Atlas 上注册一个帐户。注册后,请使用 Atlas 数据库和 Atlas Vector Search创建免费的 MongoDB 实例,然后即可加载自己的数据或我们的示例数据集,并探索平台的各种功能。

相关文章
|
1月前
|
云安全 人工智能 安全
Dify平台集成阿里云AI安全护栏,构建AI Runtime安全防线
阿里云 AI 安全护栏加入Dify平台,打造可信赖的 AI
|
1月前
|
云安全 人工智能 自然语言处理
阿里云x硅基流动:AI安全护栏助力构建可信模型生态
阿里云AI安全护栏:大模型的“智能过滤系统”。
|
1月前
|
人工智能 Java Nacos
基于 Spring AI Alibaba + Nacos 的分布式 Multi-Agent 构建指南
本文将针对 Spring AI Alibaba + Nacos 的分布式多智能体构建方案展开介绍,同时结合 Demo 说明快速开发方法与实际效果。
1482 55
|
1月前
|
人工智能 测试技术 API
构建AI智能体:二、DeepSeek的Ollama部署FastAPI封装调用
本文介绍如何通过Ollama本地部署DeepSeek大模型,结合FastAPI实现API接口调用。涵盖Ollama安装、路径迁移、模型下载运行及REST API封装全过程,助力快速构建可扩展的AI应用服务。
527 6
|
1月前
|
人工智能 API 开发工具
构建AI智能体:一、初识AI大模型与API调用
本文介绍大模型基础知识及API调用方法,涵盖阿里云百炼平台密钥申请、DashScope SDK使用、Python调用示例(如文本情感分析、图像文字识别),助力开发者快速上手大模型应用开发。
919 16
构建AI智能体:一、初识AI大模型与API调用
|
30天前
|
存储 机器学习/深度学习 人工智能
构建AI智能体:三、Prompt提示词工程:几句话让AI秒懂你心
本文深入浅出地讲解Prompt原理及其与大模型的关系,系统介绍Prompt的核心要素、编写原则与应用场景,帮助用户通过精准指令提升AI交互效率,释放大模型潜能。
370 5
|
1月前
|
存储 人工智能 前端开发
超越问答:深入理解并构建自主决策的AI智能体(Agent)
如果说RAG让LLM学会了“开卷考试”,那么AI智能体(Agent)则赋予了LLM“手和脚”,使其能够思考、规划并与真实世界互动。本文将深入剖析Agent的核心架构,讲解ReAct等关键工作机制,并带你一步步构建一个能够调用外部工具(API)的自定义Agent,开启LLM自主解决复杂任务的新篇章。
292 6
|
1月前
|
机器学习/深度学习 人工智能 监控
上海拔俗AI软件定制:让技术真正为你所用,拔俗网络这样做
在上海,企业正通过AI软件定制破解通用化难题。该模式以业务场景为核心,量身打造智能解决方案,涵盖场景化模型开发、模块化架构设计与数据闭环优化三大技术维度,推动技术与业务深度融合,助力企业实现高效、可持续的数字化转型。
|
1月前
|
人工智能 JSON 前端开发
完整项目实战:使用 Playwright MCP 构建网页交互 AI 助手教程
这篇教程完整展示了如何构建一个智能网页操作助手。通过集成Playwright与MCP协议,实现了用自然语言指令驱动浏览器自动化的完整解决方案,涵盖系统架构、核心实现和部署流程,为开发智能网页助手提供了实用指南。

推荐镜像

更多