开发者社区> 冯建> 正文

自学人工智能:1-2 使用python写爬虫

简介: 用python结合selenium模块写爬虫程序简单多了,还可直接驱动浏览器,比无头浏览器更加直观,同时加深了自己对爬虫的理解。
+关注继续查看

前言

用python结合selenium模块写爬虫程序简单多了,还可直接驱动浏览器,比无头浏览器更加直观,同时加深了自己对爬虫的理解

场景

工作原因要采集1688网站上的店铺信息(突然意识到这文章是发布在阿里云栖社区,明目张胆采集马爸爸家店铺信息是不是不太好),另外访问频繁,经常需要验证码,python这时可以大显身手。

准备

部分代码

from selenium import webdriver   # 导入webdriver包  
driver = webdriver.Firefox()    # 初始化一个火狐浏览器实例,记得安装火狐浏览器 
driver.maximize_window()        # 最大化浏览器,根据需要 
driver.get("https://www.1688.com")  # 通过get()方法,打开一个url站点  
driver.quit()     #关闭并退出浏览器

然后通过css选择器、xpath等定位目标位置。
由于数据需要入库,平时经常使用mysql数据库,百度了一番,引入pymysql模块

import pymysql
# 打开数据库连接
db = pymysql.connect("localhost","testuser","test123","TESTDB" )
# 使用 cursor() 方法创建一个游标对象 cursor
cursor = db.cursor()
# 使用 execute()  方法执行 SQL 查询 
cursor.execute("SELECT VERSION()")
# 使用 fetchone() 方法获取单条数据.
data = cursor.fetchone()
print ("Database version : %s " % data)
# 关闭数据库连接
db.close()

再完善代码,就可以完成店铺信息初步采集。

补充:验证码处理

一开始,尝试自己写代码识别图片验证码,首先对图片进行处理:二值化、降噪,这两步容易实现,
接着分割字符时,对于字母类型连在一起的不知道如何正确处理,于是取内容部分的宽度进行等分。
到了识别环节,查阅资料得知:有可以直接拿来用的识别库;还可以通过机器学习来训练识别验证码。
考虑到自己基础薄弱,机器学习来训练实践起来难度高,再者短期内这些知识使用频率不高,最终放弃自己写代码识别验证码。

最后的解决方案:

偷懒,选用了第三方的图片识别服务,提交验证码图片到服务商,返回正确的结果。-,-

总结

程序虽然简单,确实感受到了python代码的简洁效率,需要使用的功能,直接引入模块查询使用方法就能帮助快速完成功能。
现在仅仅会使用前辈提供的模块,通过python来实现自己想要的小功能,背后的逻辑、python的编程思维,还需逐步理解深入。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
Python入门 Python自学路线 Python如何学习
Python入门 Python自学路线 Python如何学习
41 0
给想自学python的同学们提的10条建议
文章只有1061字,但是对于初学python的朋友们意义非凡,希望点进来的朋友们能够看到最后,但如果是大佬的话就算了吧!
25 0
Python自学篇——快递分拣程序
Python自学篇——快递分拣程序
52 0
原创|怎么自学Python,大概要多久?思路推荐
原创|怎么自学Python,大概要多久?思路推荐
48 0
Python基础知识篇(自学必备)
Python基础知识篇(自学必备)
44 0
Python应该如何系统地自学?(零基础入门必看)
Python应该如何系统地自学?(零基础入门必看)
51 0
python自学,这几个网站就够了
python自学,这几个网站就够了
53 0
【编程自学】我写了4个 “原创” 文档,从Excel到mysql再到Python,让你进阶数据科学家!
【编程自学】我写了4个 “原创” 文档,从Excel到mysql再到Python,让你进阶数据科学家!
46 0
+关注
冯建
人工智能领域默默探索学习中,寻志同道合的朋友
文章
问答
视频
文章排行榜
最热
最新
相关电子书
更多
给运维工程师的Python实战课
立即下载
Python 脚本速查手册
立即下载
ACE 区域技术发展峰会:Flink Python Table API入门及实践
立即下载