构建自己 AI 翻译助手取代谷歌翻译

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
文档翻译,文档翻译 1千页
NLP自然语言处理_高级版,每接口累计50万次
简介: 构建自己 AI 翻译助手取代谷歌翻译

本文分享一种方式通过使用 Hugging Face LLM 和 Python 不受限制地翻译长文档。

在全球化的今天,与来自不同国家和文化的人交流变得越来越重要,而对于技术人员来说,阅读英文资料是常见的需求。通常语言障碍往往会降低学习英文资料的效率。虽然谷歌翻译成为弥补这一不足的流行工具,但它有其局限性,特别是在准确翻译较长的文本时。

真的很烦把一小部分文本复制/粘贴到谷歌翻译中,等待结果,复制到文件中,重复的复制、粘贴,所以为什么不使用现在最流行的方式 AI 助理来解决问题?

有人可能担心使用第三方服务翻译敏感信息的隐私和安全问题。在本文中,将探索使用 Hugging Face 构建自己的人工智能翻译应用程序的替代解决方案。通过构建自己的翻译应用程序,确保数据的隐私和安全,同时还可以实现较长文本的体面准确翻译。

最终应用的结果是这样的:

image.png

安装依赖项

需要的包并不多,访问 Hugging Face 模型、创建大块的长文本和图形界面。但首先,作为良好实践,为新的 Python 项目创建一个虚拟环境。创建一个全新的目录 AI_Translator 并运行 venv 创建指令:


python3 -m venv venv

激活虚拟环境:


source venv/bin/activate #for mac
venv\Scripts\activate  #for windows users

激活 venv 后安装下面依赖性:


pip  install mkl mkl-include   # Mac 用户的 CPU 使用率需要
pip install torch==1.11.0 torchvision==0.12.0 torchaudio==0.11.0  # 核心
pip install transformers
pip install langchain==0.0.173
pip install streamlit
pip install streamlit-extras

如果要使用的模型使用 Tensorflow 来创建权重,则还必须安装 Tensorflow


pip install tensorflow

下载语言模型

应用程序的核心是语言翻译模型,这里的目标语言(中文)和原始文本语言(English),翻译模型是按照特定顺序训练的:

image.png

上面是一个翻译的模型:从英文到中文。 在Hugging Face Hub 翻译模型中,通常只有一对和一对的翻译,而这是个特定的顺序。从英文到中文(en-to-zh) 。

可以在 Helsinki 语言技术研究组的 Hugging Face 库中找到一组适合的翻译模型。

这里有 1440 个语言模型,想要一个从英文到中文的翻译模型:所以需要查找到以 en-to-zh 结尾的模型。

正如图中所看到的,这个模型卡片告诉我们在 PyTorch 和 Tensorflow 中都有可用的权重。

  1. 创建子文件夹 model_zh
  2. 转到模型卡的文件选项卡并下载下面列出的所有文件:对于目录 model_zh 中的中文模型下载,需要下载如下:


README.md
config.json
generation_config.json
pytorch_model.bin
source.spm
target.spm
tokenizer_config.json
vocab.json

一旦所有文件都下载到它们的相关子文件夹中,准备工作就完成了。

测试模型

如果模型的权重为 .h5 格式,则需要安装 tensorflow(如上例所示)


pip install tensorflow

调用模型时需要指定 tensorflow 框架,使用参数 from_tf=True,如下:


repo_id = "Helsinki-NLP/opus-mt-en-zh"
model_tt0zh = AutoModelForSeq2SeqLM.from_pretrained(repo_id, from_tf=True)

创建一个名为 test-en-zh.py 的新文件:在开始创建用户界面之前,将使用它来测试带有 pytorch 模型的翻译管道的功能。该文件的代码如下(随后将进行解释)


import torch
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
from transformers import pipeline
import datetime
#LOCAL MODEL EN-IT
#---------------------------------
#  Helsinki-NLP/opus-mt-en-zh
Model_ZH = './model_zh/'   #torch
#---------------------------------
English = "Imagine a world where AI-driven technologies enable us to communicate more effectively, analyze enormous amounts of textual data, and make informed decisions in just seconds. A world where chatbots comprehend our intentions and respond with human-like clarity. This world is no longer a far-off dream, but an approaching reality, due to the remarkable advancements in AI technologies such as ChatGPT and LangChain. In this article, we will dive into the groundbreaking innovations of ChatGPT and LangChain, examine their potential applications, and uncover how they are transforming the AI landscape."
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM     
tokenizer_tt0zh = AutoTokenizer.from_pretrained(Model_ZH)  
print('===>初始化AI语言模型...')
#repo_id = "Helsinki-NLP/opus-mt-en-zh"
#model_tt0zh = AutoModelForSeq2SeqLM.from_pretrained(repo_id, from_tf=True)
model_tt0zh = AutoModelForSeq2SeqLM.from_pretrained(Model_ZH)  #Helsinki-NLP/opus-mt-en-zh
print("===>pipeline")
TToZH = pipeline("translation", model=model_tt0zh, tokenizer=tokenizer_tt0zh)
print("===>翻译正在进行中")
start = datetime.datetime.now() 
finaltext = TToZH(English)
stop = datetime.datetime.now() 
elapsed = stop - start
print(f'===>翻译完成于: {elapsed}...\n')
print(finaltext[0]['translation_text'])
print(f"\n===>翻译内容包含单词 {len(English.split(' '))} 个")

导入模型交互的核心:pytorchtransformers 库。然后为本地下载的模型设置检查点,存储它的路径 Model_ZH = './model_zh/'

要翻译的字符串存储在变量 English 中。然后,为分词器、模型和要执行的管道初始化对转换器库的调用:请注意,为分词器和模型传递了路径(Model_ZH 变量)。管道实例化为:


TToZH = pipeline("translation", model=model_tt0zh, tokenizer=tokenizer_tt0zh)

如果运行代码,将看到如下内容:

image.png

创建前端界面

创建一个名为 translationer.py 的新文件,在这里将使用 Streamlit 库来创建 Web 界面。

Streamlit 是一个无需了解任何前端技术(如 HTML 和 CSS)即可构建 Web 应用程序的库。如果想了解更多信息,请在此处查看清晰的文档


import streamlit as st
import torch
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
from transformers import pipeline
from langchain.text_splitter import CharacterTextSplitter
import datetime
############# 在前端显示图像 #################
st.set_page_config(page_title="私人AI翻译助理",
                   page_icon='♾️',
                   layout="centered",  #or wide
                   initial_sidebar_state="expanded",
                   menu_items={
                        'Get Help': 'https://docs.streamlit.io/library/api-reference',
                        'Report a bug': "https://www.extremelycoolapp.com/bug",
                        'About': "一个懂你的AI翻译助理"
                                },
                   )
# 
#LOCAL MODEL EN-ZH
#---------------------------------
#  Helsinki-NLP/opus-mt-en-zh
Model_ZH = './model_zh/'   #torch
#---------------------------------

上述代码主要导入库、模型和 streamlit 页面的一般设置。如果模型是 .h5 模型,请记住导入 tensorflow


### HEADER section
st.header("私人AI翻译助理:帮你把英文翻译成中文")
English = st.text_area("", height=240, key="original",placeholder="请输入或者黏贴英文内容...")
col1, col2, col3 = st.columns([2,5,2])
btn_translate = col2.button("✅ 开始翻译", use_container_width=True, type="primary", key='start')

基本结构在这里完成,创建了 3 列并指定了 3 的比率。


col1, col2, col3 = st.columns([2,5,2])
btn_translate = col2.button("✅ 开始翻译", use_container_width=True, type="primary", key='start')

只有在按下名为 btn_translate 的按钮时才会调用翻译管道。

arduino

复制代码

if btn_translate:
    if English:
    else:
        st.warning("请输入您需要翻译的文本内容!", icon="⚠️")

2 个嵌套的 if 语句检查单击的按钮(如果 btn_translate)以及英文文本是否为空,即变量 English 是否为空。后面使用 text-splitter 将长文本分成更小的部分,这样就不会溢出最大数量的标记。

pipeline 的调用和上一节测试代码一样,只是需要迭代。将文本分块,因此必须为每个块获取翻译管道的结果,然后将它们拼接起来:


# 遍历块并连接翻译
finaltext = ''
start = datetime.datetime.now() #not used now but useful
print('[bold yellow] 翻译进行中...')
for item in texts:
   line = TToIT(item.page_content)[0]['translation_text']
   finaltext = finaltext+line+'\n'

最后,可以在 text_area 部件中显示翻译的最终文本:


st.text_area(label="中文翻译:", value=finaltext, height=350)

完整的代码如下:


import streamlit as st
import torch
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
from transformers import pipeline
from langchain.text_splitter import CharacterTextSplitter
import datetime
############# 在前端显示图像 #################
st.set_page_config(page_title="私人AI翻译助理",
                   page_icon='♾️',
                   layout="centered",  #or wide
                   initial_sidebar_state="expanded",
                   menu_items={
                        'Get Help': 'https://docs.streamlit.io/library/api-reference',
                        'Report a bug': "https://www.extremelycoolapp.com/bug",
                        'About': "一个懂你的AI翻译助理"
                                },
                   )
# 
#LOCAL MODEL EN-ZH
#---------------------------------
#  Helsinki-NLP/opus-mt-en-zh
Model_ZH = './model_zh/'   #torch
#---------------------------------
### HEADER section
st.header("私人AI翻译助理:帮你把英文翻译成中文")
English = st.text_area("", height=240, key="original",placeholder="请输入或者黏贴英文内容...")
col1, col2, col3 = st.columns([2,5,2])
btn_translate = col2.button("✅ 开始翻译", use_container_width=True, type="primary", key='start')
if btn_translate:
    if English:
        Model_ZH = './model_zh/'   #torch
        with st.spinner('AI翻译助理准备中...'):
            st.success(' AI翻译助理开始翻译', icon="🆗")
            # 用于分块的文本分离器函数
            text_splitter = CharacterTextSplitter(        
                separator = "\n\n",
                chunk_size = 300,
                chunk_overlap  = 0,
                length_function = len,
            )
            # 将文档分块
            st.success(' 文档块文本...', icon="🆗")
            texts = text_splitter.create_documents([English])
            from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
            # 初始化翻译从英文到中文
            tokenizer_tt0zh = AutoTokenizer.from_pretrained(Model_ZH)
            st.success(' 初始AI语言模型...', icon="🆗")
            model_tt0zh = AutoModelForSeq2SeqLM.from_pretrained(Model_ZH)  #Helsinki-NLP/opus-mt-en-zh  or #Helsinki-NLP/opus-mt-it-zh
            TToZH = pipeline("translation", model=model_tt0zh, tokenizer=tokenizer_tt0zh)
            # 遍历块并连接翻译
            finaltext = ''
            start = datetime.datetime.now()
            print('[bold yellow]翻译进行中...')
            for item in texts:
                line = TToZH(item.page_content)[0]['translation_text']
                finaltext = finaltext+line+'\n'
            stop = datetime.datetime.now() 
            elapsed = stop - start
            st.success(f'翻译完成于 {elapsed}', icon="🆗")
            print(f'[bold underline green1] Translation generated in [reverse dodger_blue2]{elapsed}[/reverse dodger_blue2]...')
            st.text_area(label="中文翻译:", value=finaltext, height=350)
            st.markdown(f'翻译完成于: **{elapsed}**')
            st.markdown(f"翻译内容包含单词 {len(English.split(' '))} 个")
    else:
        st.warning("请输入您需要翻译的文本内容!", icon="⚠️")

接下来执行命令:


streamlit run translationer.py

打开浏览器就可以体验自己构建的 AI 翻译助理了。

image.png

image.png

image.png


相关文章
|
2天前
|
人工智能 开发框架 算法
Qwen-Agent:阿里通义开源 AI Agent 应用开发框架,支持构建多智能体,具备自动记忆上下文等能力
Qwen-Agent 是阿里通义开源的一个基于 Qwen 模型的 Agent 应用开发框架,支持指令遵循、工具使用、规划和记忆能力,适用于构建复杂的智能代理应用。
33 10
Qwen-Agent:阿里通义开源 AI Agent 应用开发框架,支持构建多智能体,具备自动记忆上下文等能力
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
PeterCat:一键创建开源项目 AI 问答机器人,自动抓取 GitHub 仓库信息、文档和 issue 等构建知识库
PeterCat 是一款开源的智能答疑机器人,能够自动抓取 GitHub 上的文档和 issue 构建知识库,提供对话式答疑服务,帮助开发者和社区维护者高效解决技术问题。
31 7
PeterCat:一键创建开源项目 AI 问答机器人,自动抓取 GitHub 仓库信息、文档和 issue 等构建知识库
|
3天前
|
人工智能 自然语言处理 决策智能
DRT-o1:腾讯推出专注于文学翻译的 AI 模型,擅长理解比喻和隐喻等修辞手法,在翻译时保留原文的情感色彩
DRT-o1 是腾讯研究院推出的文学翻译系列 AI 模型,通过长链思考推理技术显著提升翻译质量,特别擅长处理比喻和隐喻等修辞手法。
32 2
DRT-o1:腾讯推出专注于文学翻译的 AI 模型,擅长理解比喻和隐喻等修辞手法,在翻译时保留原文的情感色彩
|
8天前
|
人工智能 Serverless API
aliyun解决方案评测|主动式智能导购AI助手构建
《主动式智能导购AI助手构建》方案结合百炼大模型与函数计算,提供高效智能导购服务。然而,实际体验中发现官方教程的说明顺序有待优化,特别是关于百炼大模型服务开通及API-key的使用指引不够清晰,导致初次使用者需查阅额外资料。此外,架构设计和实践原理在部署过程中逐步展现,有助于理解,但针对生产环境的具体指导还需进一步完善以满足实际需求。为优化用户体验,建议调整文档中的步骤顺序,确保新手能更顺畅地完成部署和测试。
96 27
|
1天前
|
人工智能 分布式计算 数据处理
MaxCompute Data + AI:构建 Data + AI 的一体化数智融合
本次分享将分为四个部分讲解:第一部分探讨AI时代数据开发范式的演变,特别是MaxCompute自研大数据平台在客户工作负载和任务类型变化下的影响。第二部分介绍MaxCompute在资源大数据平台上构建的Data + AI核心能力,提供一站式开发体验和流程。第三部分展示MaxCompute Data + AI的一站式开发体验,涵盖多模态数据管理、交互式开发环境及模型训练与部署。第四部分分享成功落地的客户案例及其收益,包括互联网公司和大模型训练客户的实践,展示了MaxFrame带来的显著性能提升和开发效率改进。
|
11天前
|
人工智能 自然语言处理 监控
解决方案评测:主动式智能导购AI助手构建
作为一名数据工程师,我体验了主动式智能导购AI助手构建解决方案,并进行了详细评测。该方案通过百炼大模型和函数计算实现智能推荐与高并发处理,部署文档详尽但部分细节如模型调优需改进。架构设计清晰,前端支持自然语言处理与语音识别,中间件确保实时数据同步。生产环境部署顺畅,但在系统监控方面可进一步优化。总体而言,该方案在零售行业具有显著应用潜力,值得尝试。
47 17
|
10天前
|
数据采集 机器学习/深度学习 人工智能
基于AI的网络流量分析:构建智能化运维体系
基于AI的网络流量分析:构建智能化运维体系
69 13
|
12天前
|
人工智能 Serverless API
尽享红利,Serverless构建企业AI应用方案与实践
本次课程由阿里云云原生架构师计缘分享,主题为“尽享红利,Serverless构建企业AI应用方案与实践”。课程分为四个部分:1) Serverless技术价值,介绍其发展趋势及优势;2) Serverless函数计算与AI的结合,探讨两者融合的应用场景;3) Serverless函数计算AIGC应用方案,展示具体的技术实现和客户案例;4) 业务初期如何降低使用门槛,提供新用户权益和免费资源。通过这些内容,帮助企业和开发者快速构建高效、低成本的AI应用。
57 12
|
9天前
|
人工智能 容灾 关系型数据库
【AI应用启航workshop】构建高可用数据库、拥抱AI智能问数
12月25日(周三)14:00-16:30参与线上闭门会,阿里云诚邀您一同开启AI应用实践之旅!
|
12天前
|
人工智能 自然语言处理 搜索推荐
主动式智能导购AI助手构建测评
主动式智能导购AI助手构建解决方案测评
29 4