# --*-- coding:utf-8 --*--
import urllib2
from bs4
import BeautifulSoup
def getUrlList(url):
html=urllib2.urlopen(url)
html=html.
read()
return html
url=
'http://www.pythontab.com/html/pythonhexinbiancheng/index.html'
url_list=[url]
for i
in
range(
2,
22):
url_list.append(
'http://www.pythontab.com/html/pythonhexinbiancheng/%s.html' %i)
for j
in url_list:
html=getUrlList(j)
soup=BeautifulSoup(html,
'html.parser')
title_list=soup.select(
'#catlist > li > a')
for title
in title_list:
tname = title.get_text().replace(
'*',
'').replace(
'/',
'').replace(
',',
'')
#获取标题名称
links = title.get(
'href')
#获取内容url
title_p=getUrlList(links)
soup1=BeautifulSoup(title_p,
'html.parser')
jc=soup1.select(
'div.content > p ')
text=[]
for k
in jc:
text.append(k.get_text().encode(
'utf-8'))
print text
with
open(
'pythontab/%s.txt' %tname,
'wb+')
as f:
for a
in text:
f.write(a)
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。