早上起床后不想动，让 Python 来帮你朗读网页吧-阿里云开发者社区

早上起床后不想动，让 Python 来帮你朗读网页吧

2018-09-12 3686

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

是不是有的时候懒得自己看新闻？那么不妨试试用 Python 来朗读给你听吧。

网页转换成语音，步骤无外乎：

网页正文识别，获取到正文的文本内容；

文本转语音，通过接口将文本转换成语音文件；

语音文件的发声，即将语音文件读出；

1 网页正文识别

之所以用 Python，就是因为 Python 有着丰富的库，网页正文识别也不在话下。这里我尝试了 readability、goose3。

1.1 readability

readability 支持 Python3，使用 pip install readability-lxml 安装即可。

readability 使用起来也很方便：

import requests
from readability import Document


response = requests.get('http://news.china.com/socialgd/10000169/20180616/32537640_all.html')

doc = Document(response.text)

print(doc.title())

但是 readability 提取到的正文内容不是文本，里面仍包含 HTML 标签。

当然也可以结合其他组件再对 HTML 进行处理，如 html2text，我们这里就不再延伸，有兴趣的可以自行尝试。

1.2 goose3

Goose 本来是一个用 Java 编写的文章提取器，后来就有了 Python 实现版： goose3 。

使用起来也很方便，同时对中文支持也不错。使用 pip install goose3 即可安装。

>>> from goose3 import Goose

>>> from goose3.text import StopWordsChinese

>>> url = 'http://news.china.com/socialgd/10000169/20180616/32537640_all.html'

>>> g = Goose({'stopwords_class': StopWordsChinese})

>>> article = g.extract(url=url)

>>> print(article.cleaned_text[:150])

北京时间6月15日23:00(圣彼得堡当地时间18:00)，2018年世界杯B组一场比赛在圣彼得堡球场展开角逐，伊朗1比0险胜摩洛哥，伊朗前锋阿兹蒙半场结束前错过单刀机会，鲍哈杜兹第95分钟自摆乌

龙。这是伊朗20年来首度在世界杯决赛圈取胜。


本届世界杯，既相继出现替补便进球，贴补梅开二度以及东道主

可以看出网页正文提取效果还不错，基本满足我们的要求，可以使用！

注意：goose 还有另外一个 Python2 的版本：Python-Goose，使用方法和 goose3 基本一样。

2 文本转语音

文本转语音，百度、阿里、腾讯、讯飞等都有提供 REST API 接口，阿里和腾讯的申请相对时间较长，阿里的貌似还要收费，百度和讯飞的在线申请后即可使用。

没办法，好的东西得来总是要曲折一些。其中百度的没有调用量的限制（其实默认是 200000 次/天），讯飞有每天 500 次的限制。

这里我们使用百度的 REST API 接口中的语言合成接口，一方面原因是百度的调用次数没有限制，另一方面，我大致看了下讯飞的接口文档，接口限制还是比较多的。还有就是百度提供了 REST API 的 Python 封装，使用也更方便。

2.1 baidu-aip 的使用

百度提供了 Python SDK，使用 pip install baidu-aip 可以直接安装。接口的使用可以参考接口文档：http://ai.baidu.com/docs#/TTS-Online-Python-SDK/top。

使用示例如下：

from aip import AipSpeech
"""

你的 APPID AK SK 

均可在服务控制台中的应用列表中查看。

"""

APP_ID = '你的 App ID'

API_KEY = '你的 Api Key'

SECRET_KEY = '你的 Secret Key'

client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)

result = client.synthesis('你好，你在做什么', 'zh', 3, {
'vol': 5,

})
# 识别正确返回语音二进制 错误则返回dict 参照下面错误码
if not isinstance(result, dict):
with open('auido.mp3', 'wb') as f:

f.write(result)

接口参数：

参数	类型	描述	必传
tex	String	合成的文本，使用UTF-8编码，请注意文本长度必须小于1024字节	是
lang	String	语言选择,填写zh	是
ctp	String	客户端类型选择，web端填写1	是
cuid	String	用户唯一标识，用来区分用户，填写机器 MAC 地址或 IMEI 码，长度为60以内	否
spd	String	语速，取值0-9，默认为5中语速	否
pit	String	音调，取值0-9，默认为5中语调	否
vol	String	音量，取值0-15，默认为5中音量	否
per	String	发音人选择,0为女声，1为男声，3为情感合成-度逍遥，4为情感合成-度丫丫，默认为普通女	否

接口对单次传入的文本进行了限制，合成文本长度必须小于 1024 字节，如果文本长度过长，就需要进行切割处理，采用多次请求的方式，分别转换成语音文件，最后再将多个语音文件合并成一个。

2.2 文本切割

可以使用如下代码将文本分割成多个长度为 500 的文本列表

# 将文本按 500 的长度分割成多个文本

text_list = [text[i:i+500] for i in range(0, len(text), 500)]

我们使用 pydub 来处理生成的音频文件。使用 pip install pydub 即可安装。

另外还 Ubuntu 环境需要安装依赖的，使用 sudo apt-get install libav-tools 安装即可，而在 Windows 环境需要到 https://ffmpeg.zeranoe.com/builds/ 下载 FFmpeg，并将其配置到环境变量中。

若还有问题，可以参考官网配置：https://github.com/jiaaro/pydub。

# 合并音频文件
def merge_voice(file_list):

voice_dict = {}

song = None
for i,f in enumerate(file_list):
if i == 0:

song = AudioSegment.from_file(f,"mp3")
else:
# 拼接音频文件

song += AudioSegment.from_file(f,"mp3")
# 删除临时音频

os.unlink(f)

# 导出合并后的音频文件，格式为MP3格式

file_name = str(uuid.uuid1()) + ".mp3"

song.export(file_name, format="mp3")
return file_name

这里有一个测试时生成的文件，大家可以试听一下：

Python 朗读世界杯新闻来自AI派00:0003:11

通过百度的接口，我们可以将文字转化成音频文件，下面的问题就是如何播放音频文件。

3 音频文件播放

网上获取到 Python 播放 wav 文件的方式由好几种，包括 pyaudio、pygame、winsound、playsound。不过测试下来，只有 playsound 成功。其他方式有兴趣的可以试下，有问题可以留言交流。

使用 pip install playsound 安装后即可使用。

使用也很简单：

>>> from playsound import playsound

>>> playsound('/path/to/a/sound/file/you/want/to/play.mp3')

说明：音频的播放需要在图形化页面下运行，因为命令行模式下，没有播放声音的出口。

python page2voice.py -u "https://so.gushiwen.org/shiwenv_c244fc77f6fb.aspx"

运行后，代码就会自动解析网页并进行朗读啦。

4 总结

至此，网页到音频的转换就结束了，当然程序没有这么完美，比如中英文混合的网页解析和转换的结果就不怎么理想，但是纯中文的新闻页面效果还是不错的。

2c2997c29018d9ee9a526e45e0053617d8c986bc

Python借助AI已经火的不能再火了，如果你想学习Python或者AI，你可以加入我的知识星球。 【AI派】知识星球是我主打的一个实战的付费社区，在这里，你能获得

带着大家使用Python做AI相关（如数据分析、机器学习、推荐系统等）的项目

不定期布置相关作业，监督大家学习

学习、工作中的任何疑问随时可以向我提问

更好氛围的微信技术交流群

免费的学习资料

结识更多的朋友

原文发布时间为：2018-09-12

本文作者： AI派

本文来自云栖社区合作伙伴“ ”，了解相关信息可以关注“ AI派”。

早上起床后不想动，让 Python 来帮你朗读网页吧

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

直播

下载

镜像站

技术资料

早上起床后不想动，让 Python 来帮你朗读网页吧

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像