【安排】23行代码爬取知乎全部回答(内附源码和应用程序)

简介: 上个月行哥为了给大家推荐书单,1分钟爬取了知乎5646个回答,并统计出前十名推荐量最高的书单给大家分享,并且为了大家使用方便将该篇推文中的代码转成应用程序给大家使用,但是万万没想到居然有小伙伴要求能不能直接让爬虫代码回答爬取下来做成应用程序

上个月行哥为了给大家推荐书单,1分钟爬取了知乎5646个回答,并统计出前十名推荐量最高的书单给大家分享,并且为了大家使用方便将该篇推文中的代码转成应用程序给大家使用,但是万万没想到

居然有小伙伴要求能不能直接让爬虫代码回答爬取下来做成应用程序

两个字:安排!

1.代码逻辑

这个核心代码是直接对上篇推文中使用的代码进行修改,删去了对书籍名称的提取,添加了爬取内容的写入文件,小伙伴只要把getAnswers(问题号)里的传入参数改成想爬取回答的问题号,剩下的事情就只需要等待了

什么是知乎问题号?

   查看知乎网页地址,question后的一串数字就是问题号

image.png

def getAnswers(qid):
    offset = 0
    num = 1
    f = open("知乎回答%s.txt" % qid, "a")
    while True:
        qid = qid
        print('Offset =', offset)
        # 知乎api请求
        data = getAnser(qid, offset)
        print(data)
        if len(data['data']) == 0:
            break
        for line in data['data']:
            # 保存回答数据
            content = line['content']
            pattern = re.compile(r'<[^>]+>', re.S)
            result = pattern.sub('', content)
            print(result)
            f.write("\n【第%d个回答】" % num)
            num += 1
            f.write(result)
        offset += 20
        time.sleep(1)
    f.close()
getAnswers(62096167)

2.应用程序版本

对于不了解爬虫的小伙伴,只需要打开一行数据爬取知乎回答.exe,修改问题号和选择保存路径,就可以将该知乎问题下的所有回答保存到当前路径下,如下图所示



相关文章
|
8月前
|
数据采集 机器学习/深度学习 数据可视化
分享68个Python爬虫源码总有一个是你想要的
分享68个Python爬虫源码总有一个是你想要的
269 0
|
7月前
|
开发框架 .NET Java
程序员必知:发个原创小工具,下载autohome论坛帖子离线浏览
程序员必知:发个原创小工具,下载autohome论坛帖子离线浏览
30 0
|
8月前
|
数据采集 数据可视化 Java
分享66个Python爬虫源码总有一个是你想要的
分享66个Python爬虫源码总有一个是你想要的
335 1
|
数据采集 前端开发 Python
Python爬虫与逆向工程技术的结合,实现新闻网站动态内容的多线程抓取
Python爬虫与逆向工程技术的结合,实现新闻网站动态内容的多线程抓取
|
存储 小程序 容器
日程安排小程序实战教程(上篇)
日程安排小程序实战教程(上篇)
日程安排小程序实战教程(上篇)
|
前端开发 测试技术
测试领域专业术语整理-持续更新
测试领域专业术语整理-持续更新
325 0
|
数据采集 存储 JSON
我用Python爬虫爬取并分析了C站前100用户最高访问的2000篇文章
我用Python爬虫爬取并分析了C站前100用户最高访问的2000篇文章
221 0
我用Python爬虫爬取并分析了C站前100用户最高访问的2000篇文章
|
程序员 Android开发
补充|程序猿技术干货资源【附源码】
上次,发布了篇 程序猿充电优质编程技术电子书 ,得到了很多同行的认可和点赞,我感觉我付出时间和精力收集的资源对大家有帮助,还是很值得的,下次会继续推送编程干货。但是,有个认真的圈友,在公众号后台私聊我说,第一本书《第一行代码》不是第2版,我认真看了发现确实不是,亏了那名圈友,感谢他的分享我拿到了郭霖的《第一行代码》第2版电子书了。下面把这本书和书里的源代码给大家送过去,希望大家在Android 开发中,可以快速入门和取得技术上的进步。
107 0
补充|程序猿技术干货资源【附源码】
|
数据采集 Web App开发 数据挖掘
我爬取了人人都是产品经理6574篇文章,发现产品竟然在看这些
作为互联网界的两个对立的物种,产品汪与程序猿似乎就像一对天生的死对头;但是在产品开发链条上紧密合作的双方,只有通力合作,才能更好地推动项目发展。那么产品经理平日里面都在看那些文章呢?我们程序猿该如何投其所好呢?我爬取了人人都是产品经理(http://www.woshipm.com)产品经理栏目下的所有文章,看看产品经理都喜欢看什么。
1835 0
|
移动开发
h5微聊-高仿微信聊天界面实战案例分享
h5仿微信|h5仿微信界面|h5仿微信聊天(单聊、多聊) h5微聊场景——高仿微信聊天实战项目,可单聊、多聊操作,运用到html5+css3+zepto+weui+wcPop+swiper等多种技术,实现了预览图片(双击放大、手指缩放)、 播放视频及发送消息、表情,打赏、霸屏、发红包等功能,所有弹窗使用wcPop插件统一风格,长按消息可以浮动定位弹出操作菜单。
4224 0