手把手视频:万能开源Hawk抓取动态网站

简介:

Hawk是沙漠之鹰历时五年开发的开源免费网页抓取工具(爬虫),无需编程,全部可视化。

自从上次发布Hawk 2.0过了小半年,可是还是有不少朋友通过邮件或者微信的方式询问如何使用。看文档还是不如视频教学方便,沙漠君决定录播几段视频来帮助大家~

软件最新的下载地址(或点击原文)

https://github.com/ferventdesert/Hawk/releases

image_1bdqbq892h7j5sh1epmig6ufp.png-104.3kB

下面是视频内容,在腾讯视频可以开启高清,实测清晰度尚可,当然你也可以在百度云盘中下载以下全部视频。

http://pan.baidu.com/s/1dE5D40h

1. 使用Hawk抓取百度百家新闻

这是抓取百度百家新闻(http://baijia.baidu.com/)完整的例子,你可以了解到:

  • 如何抓取动态页面和超级模式
  • 如何获取网页正文信息
  • 如何导出抓取的数据

image_1bdqbeavkq5q1kct1unnljm19e79.png-274.7kB
内置的播放器无法调节清晰度。可在PC访问:

https://v.qq.com/x/page/a03878tihmx.html

2. Hawk答疑

这是一个综述,对大家感兴趣的话题答疑解惑,包括:

  • 如何使用手气不错(相比1.0版本优化很多)
  • 文档在哪里?
  • 如何连接数据库
  • 其他一些使用上的问题

可在PC访问:

https://v.qq.com/x/page/n0387axmgg5.html

3. 历史视频

这些视频都是针对1.0在2016年上半年录制的,由于网站改版,或增加了防爬虫(如链家),因此在使用上会有较大区别,仅供各位用户参考。

4. 如何下载工程案例

Hawk本身提供了一系列例子(虽然基本都是2016年上半年的),不少已经过期了。

有些朋友直接用“右键另存为”下载,这样保存的是html页面,有两种方法可以下载:

  • 如果你会用git, 在shell里直接执行

    git clone git@github.com:ferventdesert/Hawk-Projects.git

  • 手动下载整个文件夹: 在首页上Download ZIP

4. 欢迎共同改进Hawk

为什么要重提再度改进Hawk呢?

  • 高不成低不就: 因为如果一件好用的工具分数是0.8的话,Hawk正好在0.74,因为一些其实很简单的问题,用户就卡在那里无从下手。
  • 可用性/UI设计急需提高: 特别需要懂产品/UI的朋友一起协助
  • 软件依然有不少bugs
  • etlpy(Python版本的Hawk)开发虽完成,但有相当陡峭的学习曲线

万里长征走了9500里,却在最后的一段路上止步不前,给世人留下一个半吊子,终究是不好的。所以2017年一个重要的任务便是进一步完善它,走完剩下的500里。

因此,如果你对Hawk,爬虫或是软件设计感兴趣的话,可以考虑和沙漠君一起改进它。只要你有任何靠谱的建议,都可以告诉我,我会集中起来一起改进。也许你可能获得不了什么经济上的补偿(沙漠君也没有),但总比网络上各种野路子收费软件强很多。我们做了一件能帮助几十万甚至百万人的事情。

虽然工作非常忙,因此各种回复不及时,不过有任何问题依然可以给我发邮件:

buptzym@qq.com

最后祝使用Hawk愉快!


作者:热情的沙漠
出处:http://www.cnblogs.com/buptzym/
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。

分类: 开源项目

本文转自FerventDesert博客园博客,原文链接:http://www.cnblogs.com/buptzym/p/6718190.html,如需转载请自行联系原作者
目录
相关文章
|
7月前
|
数据采集 数据挖掘 Go
踏入网页抓取的旅程:使用 grequests 构建 Go 视频下载器
使用 Go 和 grequests 构建 Bilibili 视频下载器,结合爬虫代理 IP 提高下载稳定性与速度。通过获取视频信息、构建下载链接、设置代理IP及异步请求,实现视频的本地保存。代码示例展示了如何运用 grequests 请求选项配置代理及处理请求。
踏入网页抓取的旅程:使用 grequests 构建 Go 视频下载器
|
6天前
|
监控 前端开发 安全
如何开发一个网站:全面解析与实战指南
在数字化时代,网站是企业和个人展示形象、传播信息的关键平台。本文提供从规划、设计、开发、上线到后期维护的全方位网站开发指南,涵盖明确目标、分析用户、设定功能需求、设计风格、技术选型、测试部署及优化升级等内容,帮助你打造既美观又实用的网站。
20 4
|
4月前
|
数据采集 XML Web App开发
6个强大且流行的Python爬虫库,强烈推荐!
6个强大且流行的Python爬虫库,强烈推荐!
|
3月前
|
数据采集 JavaScript 前端开发
构建简易Python爬虫:抓取网页数据入门指南
【8月更文挑战第31天】在数字信息的时代,数据抓取成为获取网络资源的重要手段。本文将引导你通过Python编写一个简单的网页爬虫,从零基础到实现数据抓取的全过程。我们将一起探索如何利用Python的requests库进行网络请求,使用BeautifulSoup库解析HTML文档,并最终提取出有价值的数据。无论你是编程新手还是有一定基础的开发者,这篇文章都将为你打开数据抓取的大门。
|
7月前
|
数据采集 数据挖掘 调度
异步爬虫实践攻略:利用Python Aiohttp框架实现高效数据抓取
本文介绍了如何使用Python的Aiohttp框架构建异步爬虫,以提升数据抓取效率。异步爬虫利用异步IO和协程技术,在等待响应时执行其他任务,提高效率。Aiohttp是一个高效的异步HTTP客户端/服务器框架,适合构建此类爬虫。文中还展示了如何通过代理访问HTTPS网页的示例代码,并以爬取微信公众号文章为例,说明了实际应用中的步骤。
|
数据采集 机器人 Python
Python爬虫|反爬初体验
几种简单高效的反爬虫方法总结。
Python爬虫|反爬初体验
|
前端开发 JavaScript 算法
前端老司机 70+ 实用工具网站分享(建议收藏!)🔥🔥(上)
前言 大家好,我是HoMeTown,好的工具,可以帮助我们大幅提高编程效率,今天给大家分享一下我平时收集到的一些工具,目录已经分好了。
197 0
|
JSON 前端开发 JavaScript
前端老司机 70+ 实用工具网站分享(建议收藏!)🔥🔥(下)
前言 大家好,我是HoMeTown,好的工具,可以帮助我们大幅提高编程效率,今天给大家分享一下我平时收集到的一些工具,目录已经分好了。
131 0
|
文字识别 搜索推荐 前端开发
PyHubWeekly | 第二十二期:利用Python搭建一款无广告、保护隐私的Google搜索引擎
PyHubWeekly每周定期更新,精选GitHub上优质的Python项目/小工具。 我把PyHubWeekly托管到了Github,感兴趣的可以搜索Github项目PyHubWeekly[1],如果喜欢,麻烦给个Star支持一下吧。此外,欢迎大家通过提交issue来投稿和推荐自己的项目~
PyHubWeekly | 第二十二期:利用Python搭建一款无广告、保护隐私的Google搜索引擎
下一篇
无影云桌面