在世界脚本语言排行榜中python曾荣获第一名,同时是多个领域首选语言,很多人说:掌握了python就是掌握了未来。时至今日,PyCharm、Python IDE、Anoncorda、python爬虫等热词仍旧不绝于耳,而在60%技术人想要学习python的背后,引起python的火爆的背后究竟是什么原因?身为技术人该如何利用python体现最佳业务价值?该如何使用Pycharm节约时间,提高生产效率?
答主简介: 爬虫/后端/算法工程师 夏溪辰
擅长领域: web开发(flask) 爬虫(逆向,分布式)
为了营造更好的问答氛围,我们不欢迎一切与主题无关的讨论、灌水。欢迎大家踊跃提问,夏老师会为大家解答问题,并在11月15日12:00随机抽取三位幸运用户赠送阿里云开发者社区专属鼠标垫,阿里云开发者社区书包或者数据线之一。(小编悄悄说:首位提问中将几率很大哦)
回复领奖操作:
第一步:钉钉扫码加入社区问答群:
第二步:在群内@吕亚倩,提供阿里云昵称和id
第三步:核对无误后,奖品发放。
想要学习更多技术知识,就快快加入阿里云开发者垂直技术群吧,请钉钉扫码:
夏老师您好,我是一名管理会计专业的大四在校生,对前端开发不是很熟悉。想通过老师了解一下Python对于财务管理工作者都有哪些实用性的帮助以及特想了解老师宽泛视野对爬虫的相关拓展,感谢。括弧,我这个问题略显不专业,夏老师见谅。
请问一下关于网站数据是否可爬的标准。 1. 除了 robots 协议,是否还有其他标准? 2. 那么当网站没有 robots 协议时,那么这个网站的数据是否可爬如何判定?毕竟 robots 协议只是约定俗成的,而不是一个规范。 3. 查看 robots 协议是查看当前域名还是顶级域名下的?比如:我想爬 a.b.com 的数据,首先看一下 robots 协议,那么我应该访问 a.b.com/robots.txt 还是 b.com/robots.txt ? (以上问题仅从如何正规爬取网站数据的角度而言)
现在爬虫火了,有一定原因是由于有程序猿"因为爬虫"被抓火的,在使用爬虫的路上,夏老师有哪些建议?可以防止程序猿喝茶
gunicorn 提供了三个参数去提供并发处理的任务能力,--workers 使用多进程和 --threads使用多线程,还有 --worker-class 使用协程,多进程可以组合多线程一同使用,请问 我可不可以同时设置这三个参数,在使用 多线程的时候使用协程,因为看了官网推荐,只有多进程+多线程 和多进程+协程组合,难道不可以多进程+协程+多线程?这样不应该是效率最高的嘛
夏老师 用requests发请求获取到cookiejar之后 怎么取他的cookie的值啊,请指教下
夏老师 对也cookie参数的加密怎么破解啊? 我这边有个cookie set-cookie能返回里面的两个参数,还有一个怎么也找不到来源,这种要怎么找他的参数的来源呢?
pycharm里面怎么直接导入包使用呢,每次都要我在install一下?使用爬虫如何保证自己不违规呢
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。