手把手视频:万能开源Hawk抓取动态网站

简介:

Hawk是沙漠之鹰历时五年开发的开源免费网页抓取工具(爬虫),无需编程,全部可视化。

自从上次发布Hawk 2.0过了小半年,可是还是有不少朋友通过邮件或者微信的方式询问如何使用。看文档还是不如视频教学方便,沙漠君决定录播几段视频来帮助大家~

软件最新的下载地址(或点击原文)

https://github.com/ferventdesert/Hawk/releases

image_1bdqbq892h7j5sh1epmig6ufp.png-104.3kB

下面是视频内容,在腾讯视频可以开启高清,实测清晰度尚可,当然你也可以在百度云盘中下载以下全部视频。

http://pan.baidu.com/s/1dE5D40h

1. 使用Hawk抓取百度百家新闻

这是抓取百度百家新闻(http://baijia.baidu.com/)完整的例子,你可以了解到:

  • 如何抓取动态页面和超级模式
  • 如何获取网页正文信息
  • 如何导出抓取的数据

image_1bdqbeavkq5q1kct1unnljm19e79.png-274.7kB
内置的播放器无法调节清晰度。可在PC访问:

https://v.qq.com/x/page/a03878tihmx.html

2. Hawk答疑

这是一个综述,对大家感兴趣的话题答疑解惑,包括:

  • 如何使用手气不错(相比1.0版本优化很多)
  • 文档在哪里?
  • 如何连接数据库
  • 其他一些使用上的问题

可在PC访问:

https://v.qq.com/x/page/n0387axmgg5.html

3. 历史视频

这些视频都是针对1.0在2016年上半年录制的,由于网站改版,或增加了防爬虫(如链家),因此在使用上会有较大区别,仅供各位用户参考。

4. 如何下载工程案例

Hawk本身提供了一系列例子(虽然基本都是2016年上半年的),不少已经过期了。

有些朋友直接用“右键另存为”下载,这样保存的是html页面,有两种方法可以下载:

  • 如果你会用git, 在shell里直接执行

    git clone git@github.com:ferventdesert/Hawk-Projects.git

  • 手动下载整个文件夹: 在首页上Download ZIP

4. 欢迎共同改进Hawk

为什么要重提再度改进Hawk呢?

  • 高不成低不就: 因为如果一件好用的工具分数是0.8的话,Hawk正好在0.74,因为一些其实很简单的问题,用户就卡在那里无从下手。
  • 可用性/UI设计急需提高: 特别需要懂产品/UI的朋友一起协助
  • 软件依然有不少bugs
  • etlpy(Python版本的Hawk)开发虽完成,但有相当陡峭的学习曲线

万里长征走了9500里,却在最后的一段路上止步不前,给世人留下一个半吊子,终究是不好的。所以2017年一个重要的任务便是进一步完善它,走完剩下的500里。

因此,如果你对Hawk,爬虫或是软件设计感兴趣的话,可以考虑和沙漠君一起改进它。只要你有任何靠谱的建议,都可以告诉我,我会集中起来一起改进。也许你可能获得不了什么经济上的补偿(沙漠君也没有),但总比网络上各种野路子收费软件强很多。我们做了一件能帮助几十万甚至百万人的事情。

虽然工作非常忙,因此各种回复不及时,不过有任何问题依然可以给我发邮件:

buptzym@qq.com

最后祝使用Hawk愉快!


作者:热情的沙漠
出处:http://www.cnblogs.com/buptzym/
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。

分类: 开源项目

本文转自FerventDesert博客园博客,原文链接:http://www.cnblogs.com/buptzym/p/6718190.html,如需转载请自行联系原作者
目录
相关文章
|
14天前
|
数据采集 存储 人工智能
【Python+微信】【企业微信开发入坑指北】4. 企业微信接入GPT,只需一个URL,自动获取文章总结
【Python+微信】【企业微信开发入坑指北】4. 企业微信接入GPT,只需一个URL,自动获取文章总结
47 0
|
14天前
|
缓存 搜索推荐 前端开发
《VitePress 简易速速上手小册》第6章 性能优化与 SEO(2024 最新版)
《VitePress 简易速速上手小册》第6章 性能优化与 SEO(2024 最新版)
68 1
|
14天前
|
安全 测试技术 持续交付
《VitePress 简易速速上手小册》第8章 安全性与部署(2024 最新版)
《VitePress 简易速速上手小册》第8章 安全性与部署(2024 最新版)
38 0
|
数据采集 机器人 Python
Python爬虫|反爬初体验
几种简单高效的反爬虫方法总结。
Python爬虫|反爬初体验
|
开发工具 数据安全/隐私保护 git
三行代码搭建一个全能书籍系统(wiki)
三行代码搭建一个全能书籍系统(wiki)
三行代码搭建一个全能书籍系统(wiki)
|
JSON 前端开发 JavaScript
前端老司机 70+ 实用工具网站分享(建议收藏!)🔥🔥(下)
前言 大家好,我是HoMeTown,好的工具,可以帮助我们大幅提高编程效率,今天给大家分享一下我平时收集到的一些工具,目录已经分好了。
102 0
|
前端开发 JavaScript 算法
前端老司机 70+ 实用工具网站分享(建议收藏!)🔥🔥(上)
前言 大家好,我是HoMeTown,好的工具,可以帮助我们大幅提高编程效率,今天给大家分享一下我平时收集到的一些工具,目录已经分好了。
149 0
|
Web App开发 JSON 编解码
程序员必备的高效chrome插件
程序员必备的高效chrome插件
261 1
|
文字识别 搜索推荐 前端开发
PyHubWeekly | 第二十二期:利用Python搭建一款无广告、保护隐私的Google搜索引擎
PyHubWeekly每周定期更新,精选GitHub上优质的Python项目/小工具。 我把PyHubWeekly托管到了Github,感兴趣的可以搜索Github项目PyHubWeekly[1],如果喜欢,麻烦给个Star支持一下吧。此外,欢迎大家通过提交issue来投稿和推荐自己的项目~
PyHubWeekly | 第二十二期:利用Python搭建一款无广告、保护隐私的Google搜索引擎