前言
随着近几年,NLP技术越来越多的呈现在众人眼前,也逐渐的被应用在了更多领域,其中为网站赋能部分有着很多有趣的应用,随着Serverless的发展,我们不妨将Serverless与NLP技术进一步结合,并将它赋能在我们的网站之上,让我们的网站更有趣,例如:
- 当我们写了一个博客,我们通常要写一下摘要和关键词,便于更多人可以快速找到这篇文章,并且知道文章的大体内容等;
- 我们可以基于Serverless技术与NLP技术进行结合,让Serverless为我们写诗一首,发给喜欢的人,或者送给我们自己;
本文将会基于百度智能云的CFC以及阿里云的函数计算来做实践。希望通过本文,读者可以对不同云厂商的FaaS平台有更加深入的了解,可以在不同的FaaS平台来实现更多有趣的应用场景。
赋能网站SEO
对文本进行自动摘要和关键词的提取,属于自然语言处理的范畴,提取摘要的一个好处是可以让阅读者通过最少的信息判断出这个文章对自己是否有意义或者价值,是否需要进行更加详细的阅读;提取关键词的好处是可以让文章与文章之间产生关联,同时也可以让读者通过关键词快速定位到和该关键词相关的文章内容;同时文本摘要和关键词提取又都可以和传统的CMS进行结合,通过对文章/新闻等发布功能进行改造,可以同步提取关键词和摘要,放到HTML页面中,作为Description和Keywords,在一定程度上有利于搜索引擎收录,属于SEO优化的范畴;
关键词提取
关键词提取的方法很多,但是最常见的应该就是TF-IDF了。通过jieba实现基于TF-IDF关键词提取的方法:
jieba.analyse.extract_tags(text, topK=5, withWeight=False, allowPOS=('n', 'vn', 'v'))
文本摘要
文本摘要的方法有很多,就广义上来划分就包括了提取式和生成式。所谓提取式就是在文章中通过TextRank
等算法,找出关键句然后进行拼装,形成摘要,这种方法相对来说比较简单,但是很难提取出真是的语义等;另一种方法是生成式,所谓生成式就是通过深度学习等方法,对文本语义进行提取再生成摘要。可以认为前者生成的摘要,所有句子来自原文,后者则是独立生成。
为了简化难度,本文将采用提取式来实现文本摘要功能,通过SnowNLP这个第三方库,实现基于TextRank
的文本摘要功能,由于是第三方库,所以相对来说比较容易实现,以《海底两万里》部分内容作为原文,进行摘要生成:
原文:
这些事件发生时,我刚从美国内布拉斯加州的贫瘠地区做完一项科考工作回来。我当时是巴黎自然史博物馆的客座教授,法国政府派我参加这次考察活动。我在内布拉斯加州度过了半年时间,收集了许多珍贵资料,满载而归,3月底抵达纽约。我决定5月初动身回法国。于是,我就抓紧这段候船逗留时间,把收集到的矿物和动植物标本进行分类整理,可就在这时,斯科舍号出事了。
我对当时的街谈巷议自然了如指掌,再说了,我怎能听而不闻、无动于衷呢?我把美国和欧洲的各种报刊读了又读,但未能深入了解真相。神秘莫测,百思不得其解。我左思右想,摇摆于两个极端之间,始终形不成一种见解。其中肯定有名堂,这是不容置疑的,如果有人表示怀疑,就请他们去摸一摸斯科舍号的伤口好了。
我到纽约时,这个问题正炒得沸反盈天。某些不学无术之徒提出设想,有说是浮动的小岛,也有说是不可捉摸的暗礁,不过,这些个假设通通都被推翻了。很显然,除非这暗礁腹部装有机器,不然的话,它怎能如此快速地转移呢?
同样的道理,说它是一块浮动的船体或是一堆大船残片,这种假设也不能成立,理由仍然是移动速度太快。
那么,问题只能有两种解释,人们各持己见,自然就分成观点截然不同的两派:一派说这是一个力大无比的怪物,另一派说这是一艘动力极强的“潜水船”。
哦,最后那种假设固然可以接受,但到欧美各国调查之后,也就难以自圆其说了。有哪个普通人会拥有如此强大动力的机械?这是不可能的。他在何地何时叫何人制造了这么个庞然大物,而且如何能在建造中做到风声不走漏呢?
看来,只有政府才有可能拥有这种破坏性的机器,在这个灾难深重的时代,人们千方百计要增强战争武器威力,那就有这种可能,一个国家瞒着其他国家在试制这类骇人听闻的武器。继夏斯勃步枪之后有水雷,水雷之后有水下撞锤,然后魔道攀升反应,事态愈演愈烈。至少,我是这样想的。
通过SnowNLP提供的算法:
# -*- coding: utf-8 -*-
from snownlp import SnowNLP
text = "上面的原文内容,此处省略"
s = SnowNLP(text)
print("。".join(s.summary(5)))
输出结果:
自然就分成观点截然不同的两派:一派说这是一个力大无比的怪物。这种假设也不能成立。我到纽约时。说它是一块浮动的船体或是一堆大船残片。另一派说这是一艘动力极强的“潜水船”
初步来看效果并不是很好,我们接下来通过自己来计算句子权重,实现一个简单的摘要功能,这个就需要jieba
:
# -*- coding: utf-8 -*-
import re
import jieba.analyse
import jieba.posseg
class TextSummary:
def __init__(self, text):
self.text = text
def splitSentence(self):
sectionNum = 0
self.sentences = []
for eveSection in self.text.split("\n"):
if eveSection:
sentenceNum = 0
for eveSentence in re.split("!|。|?", eveSection):
if eveSentence:
mark = []
if sectionNum == 0:
mark.append("FIRSTSECTION")
if sentenceNum == 0:
mark.append("FIRSTSENTENCE")
self.sentences.append({
"text": eveSentence,
"pos": {
"x": sectionNum,
"y": sentenceNum,
"mark": mark
}
})
sentenceNum = sentenceNum + 1
sectionNum = sectionNum + 1
self.sentences[-1]["pos"]["mark"].append("LASTSENTENCE")
for i in range(0, len(self.sentences)):
if self.sentences[i]["pos"]["x"] == self.sentences[-1]["pos"]["x"]:
self.sentences[i]["pos"]["mark"].append("LASTSECTION")
def getKeywords(self):
self.keywords = jieba.analyse.extract_tags(self.text, topK=20, withWeight=False, allowPOS=('n', 'vn', 'v'))
def sentenceWeight(self):
# 计算句子的位置权重
for sentence in self.sentences:
mark = sentence["pos"]["mark"]
weightPos = 0
if "FIRSTSECTION" in mark:
weightPos = weightPos + 2
if "FIRSTSENTENCE" in mark:
weightPos = weightPos + 2
if "LASTSENTENCE" in mark:
weightPos = weightPos + 1
if "LASTSECTION" in mark:
weightPos = weightPos + 1
sentence["weightPos"] = weightPos
# 计算句子的线索词权重
index = ["总之", "总而言之"]
for sentence in self.sentences:
sentence["weightCueWords"] = 0
sentence["weightKeywords"] = 0
for i in index:
for sentence in self.sentences:
if sentence["text"].find(i) >= 0:
sentence["weightCueWords"] = 1
for keyword in self.keywords:
for sentence in self.sentences:
if sentence["text"].find(keyword) >= 0:
sentence["weightKeywords"] = sentence["weightKeywords"] + 1
for sentence in self.sentences:
sentence["weight"] = sentence["weightPos"] + 2 * sentence["weightCueWords"] + sentence["weightKeywords"]
def getSummary(self, ratio=0.1):
self.keywords = list()
self.sentences = list()
self.summary = list()
# 调用方法,分别计算关键词、分句,计算权重
self.getKeywords()
self.splitSentence()
self.sentenceWeight()
# 对句子的权重值进行排序
self.sentences = sorted(self.sentences, key=lambda k: k['weight'], reverse=True)
# 根据排序结果,取排名占前ratio%的句子作为摘要
for i in range(len(self.sentences)):
if i < ratio * len(self.sentences):
sentence = self.sentences[i]
self.summary.append(sentence["text"])
return self.summary
这段代码主要是通过tf-idf
实现关键词提取,然后通过关键词提取对句子尽心权重赋予,最后获得到整体的结果,运行:
testSummary = TextSummary(text)
print("。".join(testSummary.getSummary()))
可以得到结果:
Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/yb/wvy_7wm91mzd7cjg4444gvdjsglgs8/T/jieba.cache
Loading model cost 0.721 seconds.
Prefix dict has been built successfully.
看来,只有政府才有可能拥有这种破坏性的机器,在这个灾难深重的时代,人们千方百计要增强战争武器威力,那就有这种可能,一个国家瞒着其他国家在试制这类骇人听闻的武器。于是,我就抓紧这段候船逗留时间,把收集到的矿物和动植物标本进行分类整理,可就在这时,斯科舍号出事了。同样的道理,说它是一块浮动的船体或是一堆大船残片,这种假设也不能成立,理由仍然是移动速度太快
通过这个结果可以看到,整体效果要比刚才的好一些。
部署上线
将项目进行进一步的整理,并将其部署在百度智能云的函数计算CFC上。
创建函数:
配置触发器:
此时,我们对上面的测试代码进行整理,在测试代码中增加函数入口:
# -*- coding: utf-8 -*-
import json
def handler(event, context):
nlp = NLPAttr(json.loads(event['body'])['text'])
return {
"keywords": nlp.getKeywords(),
"summary": "。".join(nlp.getSummary())
}
然后,需要安装jieba依赖,我们可以在和百度智能云CFC Python Runtime相同的操作系统下,来进行依赖的安装操作:
安装完成之后,我们将依赖和业务逻辑打包,并且上传到同区域的对象存储(BOS)中:
然后选择通过BOS上传代码,选择好对应的存储桶和对象:
体验测试
完成之后,我们找到触发器的地址:
并且通过本地发起测试请求:
可以看到,已经按照预期,输出了我们的目标结果。至此,我们的文本摘要/关键词提取的API已经部署完成。
为你写诗小工具
古诗词是中国文化殿堂的瑰宝,记得曾经在韩国做Exchange Student的时候,看到他们学习我们的古诗词,有中文的还有翻译版的,自己发自内心的骄傲,甚至也会在某些时候背起一些耳熟能详的诗词。这一部分将会将会通过深度学习与Serverless的融合,让Serverless为我们生成古诗词。
古诗词生成实际上是文本生成,或者说是生成式文本。关于基于深度学习的文本生成,最入门级的读物包括Andrej Karpathy的博客。他使用例子生动讲解了Char-RNN(Character based Recurrent Neural Network)如何用于从文本数据集里学习,然后自动生成像模像样的文本。
上图直观展示了Char-RNN的原理。以要让模型学习写出“hello”为例,Char-RNN的输入输出层都是以字符为单位。输入“h”,应该输出“e”;输入“e”,则应该输出后续的“l”。输入层我们可以用只有一个元素为1的向量来编码不同的字符,例如,h被编码为“1000”、“e”被编码为“0100”,而“l”被编码为“0010”。使用RNN的学习目标是,可以让生成的下一个字符尽量与训练样本里的目标输出一致。在图一的例子中,根据前两个字符产生的状态和第三个输入“l”预测出的下一个字符的向量为<0.1, 0.5, 1.9, -1.1>,最大的一维是第三维,对应的字符则为“0010”,正好是“l”。这就是一个正确的预测。但从第一个“h”得到的输出向量是第四维最大,对应的并不是“e”,这样就产生代价。学习的过程就是不断降低这个代价。学习到的模型,对任何输入字符可以很好地不断预测下一个字符,如此一来就能生成句子或段落。
项目构建
本文项目构建参考了Github已有项目:https://github.com/norybaby/poet。通过Clone代码,并且安装相关依赖:
pip3 install tensorflow==1.14 word2vec numpy
通过训练:
python3 train.py
可以通过TensorBoard进行一些变量的可视化:
此时会生成多个模型在output_poem文件夹下,我们只需要保留最好的即可,例如我的训练之后生成的json文件,由于我们之后需要将模型等文件放到NAS,所以best_model以及latest_model对应的路径需要进行对应的修改,例如:
{
"best_model": "/mnt/auto/model/poem/best_model/model-20390",
"best_valid_ppl": 21.441762924194336,
"latest_model": "/mnt/auto/model/poem/save_model/model-20390",
"params": {
"batch_size": 16,
"cell_type": "lstm",
"dropout": 0.0,
"embedding_size": 128,
"hidden_size": 128,
"input_dropout": 0.0,
"learning_rate": 0.005,
"max_grad_norm": 5.0,
"num_layers": 2,
"num_unrollings": 64
},
"test_ppl": 25.83984375
}
此时,我只需要保存`output_poem/best_model/model-20390`模型即可。
部署上线
为项目增加函数入口:
def handler(environ, start_response):
path = environ['PATH_INFO'].replace("/api", "")
if path == "/":
return Response(start_response, getPage())
else:
try:
request_body_size = int(environ.get('CONTENT_LENGTH', 0))
except (ValueError):
request_body_size = 0
tempBody = environ['wsgi.input'].read(request_body_size).decode("utf-8")
requestBody = json.loads(tempBody)
if path == "/poem":
return Response(start_response, writer.hide_words(requestBody.get("content", "我是江昱")))
同时也要注意模型文件的位置,并且整个项目所需要的依赖:
tensorflow==1.13.1
numpy==1.19.2
pillow==8.0.1
word2vec==0.11.1
体验的html页面:
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>Serverless为你写诗</title>
<meta name="viewport" content="width=device-width, initial-scale=1">
<link rel="stylesheet" href="http://activity.serverlessfans.com/auto_poem/style.css">
<script>
function get_poem() {
document.getElementById("content").value = document.getElementById("content").value
document.getElementById("poem_result").hidden = false
const xmlhttp = window.XMLHttpRequest ? new XMLHttpRequest() : new ActiveXObject("Microsoft.XMLHTTP")
xmlhttp.onreadystatechange = function () {
if (xmlhttp.readyState == 4 && xmlhttp.status == 200) {
document.getElementById("poem_result_area").innerText = xmlhttp.responseText
document.getElementById("poem_button").hidden = true
}
}
var url = window.location.href + "poem"
xmlhttp.open("POST", url, true);
xmlhttp.setRequestHeader("Content-type", "application/json");
xmlhttp.send(JSON.stringify({
content: document.getElementById("content").value,
}));
}
</script>
</head>
<body bgcolor="#636EFD">
<header class="hero">
<div class="hero-inner">
<div class="hero-text">
<h2>全自动脱单服务</h2>
<p>Serverless 为你写诗。</p>
<div id="poem_result" hidden><p>生成结果:<span id="poem_result_area">古诗词撰写中,如果长期没出结果请点击"点击重新生成古诗</span></p>
</div>
<div class="hero-form">
<div class="hero-form-input">
<input class="hero-email-input" id="content" placeholder="输入四个字,让我帮你写诗">
<button class="hero-form-submit" onclick="get_poem()" id="poem_button">写诗啦</button>
</div>
</div>
</div>
<div class="hero-image">
<img id="picture" src="http://activity.serverlessfans.com/auto_poem/undraw_Newsletter_re_wrob.svg"/>
</div>
</div>
</header>
</body>
</html>
为了更方便安装依赖以及部署到线上,将会采用Serverless Devs工具:
ServerlessBookPoemNLPCase:
Component: fc
Provider: alibaba
Access: anycodes_release
Properties:
Region: cn-hongkong
Service:
Name: serverless-book-case
Description: Serverless 实践图书案例
Vpc:
SecurityGroupId: sg-j6c45wkv4vf4ghg104mc
VSwitchIds:
- vsw-j6c797ywau90y6y03ohbq
VpcId: vpc-j6c9lk4av0859r4e0tff7
Log: Auto
Nas: Auto
Function:
Name: ai-nlp-poem
Description: ai写诗
CodeUri:
Src: ./src
Excludes:
- src/.fun
- src/model
Handler: index.handler
Environment:
- Key: PYTHONUSERBASE
Value: /mnt/auto/.fun/python
MemorySize: 3072
Runtime: python3
Timeout: 60
Triggers:
- Name: Poem
Type: HTTP
Parameters:
AuthType: ANONYMOUS
Methods:
- GET
- POST
- PUT
Domains:
- Domain: poem.nlp.case.serverless.fun
Protocol:
- HTTP
Routes:
- Path: '/*'
首先需要进行依赖的安装:
s ServerlessBookPoemNLPCase install docker
安装之后,将依赖和模型文件夹同步到NAS:
s ServerlessBookPoemNLPCase nas sync ./src/model
s ServerlessBookPoemNLPCase nas sync ./src/.fun
完成之后,我们需要对进行项目部署:
s ServerlessBookPoemNLPCase deploy
体验测试
项目部署完成之后,我们通过地址,进行测试,打开浏览器,输入我们绑定的域名:
我们写入要藏头的四个字,例如“为你写诗”:
至此,我们完成了一个基于人工智能与Serverless的为你写诗的小工具。
总结
通过Serveless架构做API相对来说是非常容易和非常方便的,通过Serverless架构可以实现API的插拔行,组件化。希望通过我的抛砖引玉,可以让各位读者有更多的思路和启发,将更多的AI内容,融入到自己的生活生产中,让Serverless在各个领域发挥更大价值