Crawler:基于requests库+urllib3库+伪装浏览器实现爬取抖音账号的信息数据-阿里云开发者社区

开发者社区> 一个处女座的程序猿> 正文

Crawler:基于requests库+urllib3库+伪装浏览器实现爬取抖音账号的信息数据

简介: Crawler:基于requests库+urllib3库+伪装浏览器实现爬取抖音账号的信息数据
+关注继续查看

输出结果


更新……



代码设计


from contextlib import closing

import requests, json, time, re, os, sys, time

import urllib3

urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)

headers = {

  'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',

  'accept-encoding': 'gzip, deflate, br',

  'accept-language': 'zh-CN,zh;q=0.9',

  'cache-control': 'max-age=0',

  'upgrade-insecure-requests': '1',

  'user-agent': 'Mozilla/5.0 (Linux; U; Android 5.1.1; zh-cn; MI 4S Build/LMY47V) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/53.0.2785.146 Mobile Safari/537.36 XiaoMi/MiuiBrowser/9.1.3',

 }

class DouYin(object):

   def __init__(self, width=500, height=300):

       """

       抖音App视频下载

       """

       # 无头浏览器

       chrome_options = Options()

       chrome_options.add_argument(

   def get_video_urls(self, user_id):

       """

       获得视频播放地址

       Parameters:

           user_id:查询的用户ID

       Returns:

           video_names: 视频名字列表

           video_urls: 视频链接列表

           nickname: 用户昵称

       """

   def video_downloader(self,video_urls, video_names, watermark_flag=False):

       for i in range(len(video_urls)):

           try:

               video_url = video_urls[i]

   def run(self):

       user_id = input('请输入ID(例如108561773):')

if __name__ == '__main__':

   douyin = DouYin()

   douyin.run()



版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
移动端信息无障碍技术方案全解:以手淘为例
目前中国有1700多万视障人士,他们渴望购物,也希望在任何情况下都能平等的获取他们想要的信息,手淘作为全国最大的购物 App,我们也希望通过技术让视障消费者能更好的享受移动互联带来的便利,这既是公益,也是义务。 本文将和大家分享手淘在使用 DinamicX 支持无障碍的技术方案,并给出了相关示例,希望对移动端开发者有所启发。
42 0
Android官方开发文档Training系列课程中文版:分享简单数据之发送简单数据给其它APP
原文地址:http://android.xsoftlab.net/training/building-content-sharing.html 引言 Android应用程序有一项伟大的事情就是它们有可以与其它应用程序交流及整合。
652 0
IE浏览器下ajax缓存导致数据不更新的解决方法
摘自:http://www.iefans.net/ie-ajax-json-shuju-huancun/ 最近做设计的时候遇到一个小问题,当你用jquery的getjson函数从后台获取数据的时候,IE浏览器会自动设置缓存,如果此时你对数据进行修改的时候刷新页面,IE并不会在页面显示你修改后的数据,因为你刷新的时候IE浏览器会查找缓存并显示你修改前的数据,最后在网上查了些资料终于解决了IE浏览器下的问题。
1015 0
7、web爬虫讲解2—urllib库爬虫—状态吗—异常处理—浏览器伪装技术、设置用户代理
如果爬虫没有异常处理,那么爬行中一旦出现错误,程序将崩溃停止工作,有异常处理即使出现错误也能继续执行下去 1.
1166 0
Android官方开发文档Training系列课程中文版:数据存储之数据库存储
原文地址:http://android.xsoftlab.net/training/basics/data-storage/databases.html 对于保存重复的结构化的数据最理想的方式就是存到数据库,比如联系人信息。
753 0
php curl 分离header和body信息
php中可以通过curl来模拟http请求,同时可以获取http response header和body,当然也设置参数可以只获取其中的某一个。当设置同时获取response header和body时候,它们会一同作为结果返回。
1024 0
PostgreSQL技术周刊第23期:PostgreSQL统计信息
PostgreSQL(简称PG)的开发者们:云栖社区已有5000位PG开发者,发布了3000+PG文章(文章列表),沉淀了700+的PG精品问答(问答列表)。 PostgreSQL技术周刊会为大家介绍最新的PG技术与动态、预告活动、最热问答、直播教程等,欢迎大家订阅PostgreSQL技术周刊。
3699 0
+关注
一个处女座的程序猿
国内互联网圈知名博主、人工智能领域优秀创作者,全球最大中文IT社区博客专家、CSDN开发者联盟生态成员、中国开源社区专家、华为云社区专家、51CTO社区专家、Python社区专家等,曾受邀采访和评审十多次。仅在国内的CSDN平台,博客文章浏览量超过2500万,拥有超过57万的粉丝。
1701
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载