备案控制台

开发者社区开发与运维文章正文

Python爬虫(应朋友之邀)-功能实现版

2018-11-03 1135

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

环境：win10 py37

工具：pyCharm anaconda

主要包：BeautifulSoup,re

代码：

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import re
from urllib import request

from bs4 import BeautifulSoup

html = request.urlopen("http://data.eastmoney.com/report/20181101/APPISWTR4upPASearchReport.html")
bs = BeautifulSoup(html, "html.parser")
print("title")
print(bs.title)

print("meta")
links = bs.find_all("meta")
count = 0
for link in links:
    count = count + 1
    print(count)
    attrs = link.attrs
    if "name" in attrs.keys():
        print("name:", attrs['name'])
    if "http-equiv" in attrs.keys():
        print("httpEquiv:", attrs['http-equiv'])
    if "content" in attrs.keys():
        print("content:", attrs['content'])

print("p")
ps = bs.find_all("p")
index = -1
for p in ps:
    contents = p.contents
    if len(contents) > 0:
        content = contents[0]
        if str(content).__contains__("盈利预测"):
            index = ps.index(p)
            break
needContent = ""
if index != -1:
    index = index + 2
    needContent = str(ps[index])
print(needContent)

match1 = re.search(r'[\u4e00-\u9fa5]{4}20[0-9]{2}[\u4e00-\u9fa5]-20[0-9]{2}[\u4e00-\u9fa5]', needContent)
match2 = re.search(r'EPS为.*元', needContent)
match3 = re.search(r'([\u4e00-\u9fa5]{4}“).*”[\u4e00-\u9fa5]{2}', needContent)
print(match1.group())
print(match2.group())
print(match3.group())

文章标签：

Python

索引

Web App开发

数据采集

关键词：

Python爬虫

Python功能

爬虫python

爬虫功能

Python功能实现

swinblacksea

目录

相关文章

小白学大数据

|

1月前

|

数据采集 Web App开发数据安全/隐私保护

实战：Python爬虫如何模拟登录与维持会话状态

实战：Python爬虫如何模拟登录与维持会话状态

小白学大数据

216 1 1

小白学大数据

|

2月前

|

数据采集 Web App开发自然语言处理

新闻热点一目了然：Python爬虫数据可视化

新闻热点一目了然：Python爬虫数据可视化

小白学大数据

386 6 6

Star时光

|

2月前

|

设计模式缓存监控

Python装饰器：优雅增强函数功能

Python装饰器：优雅增强函数功能

Star时光

269 101 101

Star时光

|

2月前

|

缓存测试技术 Python

Python装饰器：优雅地增强函数功能

Python装饰器：优雅地增强函数功能

Star时光

210 99 99

Star时光

|

2月前

|

存储缓存测试技术

Python装饰器：优雅地增强函数功能

Python装饰器：优雅地增强函数功能

Star时光

186 98 98

我们是幸福一家人

|

2月前

|

缓存 Python

Python中的装饰器：优雅地增强函数功能

Python中的装饰器：优雅地增强函数功能

我们是幸福一家人

203 103 105

蒋星熠Jaxonic

|

1月前

|

数据采集监控数据库

Python异步编程实战：爬虫案例

🌟 蒋星熠Jaxonic，代码为舟的星际旅人。从回调地狱到async/await协程天堂，亲历Python异步编程演进。分享高性能爬虫、数据库异步操作、限流监控等实战经验，助你驾驭并发，在二进制星河中谱写极客诗篇。

蒋星熠Jaxonic

218 3 3

Python异步编程实战：爬虫案例

蓝易云

|

2月前

|

数据采集存储 XML

Python爬虫技术：从基础到实战的完整教程

最后强调: 父母法律法规限制下进行网络抓取活动; 不得侵犯他人版权隐私利益; 同时也要注意个人安全防止泄露敏感信息.

蓝易云

679 19 19

小白学大数据

|

1月前

|

数据采集存储 JSON

Python爬虫常见陷阱：Ajax动态生成内容的URL去重与数据拼接

Python爬虫常见陷阱：Ajax动态生成内容的URL去重与数据拼接

小白学大数据

101 1 1

winx_19970108018

|

1月前

|

数据采集存储 JavaScript

解析Python爬虫中的Cookies和Session管理

Cookies与Session是Python爬虫中实现状态保持的核心。Cookies由服务器发送、客户端存储，用于标识用户；Session则通过唯一ID在服务端记录会话信息。二者协同实现登录模拟与数据持久化。

winx_19970108018

218 0 0

热门文章

最新文章

基于python大数据的台风灾害分析及预测系统

基于python大数据的青少年网络使用情况分析及预测系统

基于Python大数据的热门游戏推荐系统

实战：Python爬虫如何模拟登录与维持会话状态

Prompt 工程实战：如何让 AI 生成高质量的 aiohttp 异步爬虫代码

Python爬虫技术：从基础到实战的完整教程

反爬虫机制深度解析：从基础防御到高级对抗的完整技术实战

爬虫与自动化技术深度解析：从数据采集到智能运维的完整实战指南

新闻热点一目了然：Python爬虫数据可视化

解析Python爬虫中的Cookies和Session管理

无头浏览器技术：Python爬虫如何精准模拟搜索点击

如何通过requests和time模块限制爬虫请求速率？

Python爬虫如何应对贝壳网的IP封禁与人机验证？

Python爬虫解析动态网页：从渲染到数据提取

解决requests爬虫IP连接初始问题的方案。

自动化爬虫：requests定时爬取前程无忧最新职位

Python爬虫自动化：批量抓取网页中的A链接

Python爬虫Cookie管理最佳实践：存储、清理与轮换

爬虫IP代理效率优化：策略解析与实战案例

Haskell编程中，利用HTTP爬虫实现IP抓取

相关课程

更多

Python爬虫实战

Python开发基础入门

Python常用数据科学库

Python网络爬虫实战

Python完全自学手册图文教程

Python基础快速入门实战教程

相关电子书

更多

From Python Scikit-Learn to Sc

Data Pre-Processing in Python:

双剑合璧-Python和大数据计算平台的结合

推荐镜像

更多

python-release

下一篇

阿里云负载均衡收费标准：ALB、NLB和CLB价格，包括LCU费用、实例费和公网带宽价格