手把手视频:万能开源Hawk抓取动态网站

简介:

Hawk是沙漠之鹰历时五年开发的开源免费网页抓取工具(爬虫),无需编程,全部可视化。

自从上次发布Hawk 2.0过了小半年,可是还是有不少朋友通过邮件或者微信的方式询问如何使用。看文档还是不如视频教学方便,沙漠君决定录播几段视频来帮助大家~

软件最新的下载地址(或点击原文)

https://github.com/ferventdesert/Hawk/releases

image_1bdqbq892h7j5sh1epmig6ufp.png-104.3kB

下面是视频内容,在腾讯视频可以开启高清,实测清晰度尚可,当然你也可以在百度云盘中下载以下全部视频。

http://pan.baidu.com/s/1dE5D40h

1. 使用Hawk抓取百度百家新闻

这是抓取百度百家新闻(http://baijia.baidu.com/)完整的例子,你可以了解到:

  • 如何抓取动态页面和超级模式
  • 如何获取网页正文信息
  • 如何导出抓取的数据

image_1bdqbeavkq5q1kct1unnljm19e79.png-274.7kB
内置的播放器无法调节清晰度。可在PC访问:

https://v.qq.com/x/page/a03878tihmx.html

2. Hawk答疑

这是一个综述,对大家感兴趣的话题答疑解惑,包括:

  • 如何使用手气不错(相比1.0版本优化很多)
  • 文档在哪里?
  • 如何连接数据库
  • 其他一些使用上的问题

可在PC访问:

https://v.qq.com/x/page/n0387axmgg5.html

3. 历史视频

这些视频都是针对1.0在2016年上半年录制的,由于网站改版,或增加了防爬虫(如链家),因此在使用上会有较大区别,仅供各位用户参考。

4. 如何下载工程案例

Hawk本身提供了一系列例子(虽然基本都是2016年上半年的),不少已经过期了。

有些朋友直接用“右键另存为”下载,这样保存的是html页面,有两种方法可以下载:

  • 如果你会用git, 在shell里直接执行

    git clone git@github.com:ferventdesert/Hawk-Projects.git

  • 手动下载整个文件夹: 在首页上Download ZIP

4. 欢迎共同改进Hawk

为什么要重提再度改进Hawk呢?

  • 高不成低不就: 因为如果一件好用的工具分数是0.8的话,Hawk正好在0.74,因为一些其实很简单的问题,用户就卡在那里无从下手。
  • 可用性/UI设计急需提高: 特别需要懂产品/UI的朋友一起协助
  • 软件依然有不少bugs
  • etlpy(Python版本的Hawk)开发虽完成,但有相当陡峭的学习曲线

万里长征走了9500里,却在最后的一段路上止步不前,给世人留下一个半吊子,终究是不好的。所以2017年一个重要的任务便是进一步完善它,走完剩下的500里。

因此,如果你对Hawk,爬虫或是软件设计感兴趣的话,可以考虑和沙漠君一起改进它。只要你有任何靠谱的建议,都可以告诉我,我会集中起来一起改进。也许你可能获得不了什么经济上的补偿(沙漠君也没有),但总比网络上各种野路子收费软件强很多。我们做了一件能帮助几十万甚至百万人的事情。

虽然工作非常忙,因此各种回复不及时,不过有任何问题依然可以给我发邮件:

buptzym@qq.com

最后祝使用Hawk愉快!


作者:热情的沙漠
出处:http://www.cnblogs.com/buptzym/
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。

分类: 开源项目

本文转自FerventDesert博客园博客,原文链接:http://www.cnblogs.com/buptzym/p/6718190.html,如需转载请自行联系原作者
目录
相关文章
|
6月前
|
数据采集 数据挖掘 Go
踏入网页抓取的旅程:使用 grequests 构建 Go 视频下载器
使用 Go 和 grequests 构建 Bilibili 视频下载器,结合爬虫代理 IP 提高下载稳定性与速度。通过获取视频信息、构建下载链接、设置代理IP及异步请求,实现视频的本地保存。代码示例展示了如何运用 grequests 请求选项配置代理及处理请求。
踏入网页抓取的旅程:使用 grequests 构建 Go 视频下载器
|
2月前
|
前端开发 JavaScript 开发工具
web应用开发工具
【9月更文挑战第1天】web应用开发工具
52 3
|
开发工具 数据安全/隐私保护 git
三行代码搭建一个全能书籍系统(wiki)
三行代码搭建一个全能书籍系统(wiki)
三行代码搭建一个全能书籍系统(wiki)
|
前端开发 JavaScript 算法
前端老司机 70+ 实用工具网站分享(建议收藏!)🔥🔥(上)
前言 大家好,我是HoMeTown,好的工具,可以帮助我们大幅提高编程效率,今天给大家分享一下我平时收集到的一些工具,目录已经分好了。
192 0
|
JSON 前端开发 JavaScript
前端老司机 70+ 实用工具网站分享(建议收藏!)🔥🔥(下)
前言 大家好,我是HoMeTown,好的工具,可以帮助我们大幅提高编程效率,今天给大家分享一下我平时收集到的一些工具,目录已经分好了。
128 0
|
文字识别 搜索推荐 前端开发
PyHubWeekly | 第二十二期:利用Python搭建一款无广告、保护隐私的Google搜索引擎
PyHubWeekly每周定期更新,精选GitHub上优质的Python项目/小工具。 我把PyHubWeekly托管到了Github,感兴趣的可以搜索Github项目PyHubWeekly[1],如果喜欢,麻烦给个Star支持一下吧。此外,欢迎大家通过提交issue来投稿和推荐自己的项目~
PyHubWeekly | 第二十二期:利用Python搭建一款无广告、保护隐私的Google搜索引擎
|
Web App开发 前端开发 JavaScript
【前端第一课】前端的基本概念;安装各类开发软件;git使用方法
【前端第一课】前端的基本概念;安装各类开发软件;git使用方法
|
数据采集 Python Web App开发
带你读《Python网络爬虫从入门到实践(第2版)》之三:静态网页抓取
使用Python编写网络爬虫程序获取互联网上的大数据是当前的热门专题。本书基础部分(第1~7章)主要介绍爬虫的三个步骤——获取网页、解析网页和存储数据,并通过诸多示例的讲解,让读者能够从基础内容开始系统性地学习爬虫技术,并在实践中提升Python爬虫水平。进阶部分(第8~13章)包括多线程的并发和并行爬虫、分布式爬虫、更换IP等,帮助读者进一步提升爬虫水平。项目实践部分(第14~17章)使用本书介绍的爬虫技术对几个真实的网站进行抓取,让读者能在读完本书后根据自己的需求写出爬虫程序。
|
Web App开发 Python
4款基于Django框架的开源软件推荐
Django是一款高性能的Python web框架,鼓励快速开发和干净、务实的设计。Django项目是一个定制框架,它源自一个在线新闻Web站点,于2005年以开源的形式被释放出来。Django的重点是尽可能地自动化,坚持DRY原则。
4854 0
|
Web App开发 数据采集 Windows
Python爬虫入门教程 47-100 mitmproxy安装与安卓模拟器的配合使用-手机APP爬虫部分
1. 准备下载软件 介绍一款爬虫辅助工具mitmproxy ,mitmproxy 就是用于MITM的proxy,MITM中间人攻击。说白了就是服务器和客户机中间通讯多增加了一层。跟Fiddler和Charles最大的不同就是,mitmproxy可以进行二次开发,尤其可以对接python。
2890 0