新浪财经资金流入情况爬虫

简介: 新浪财经资金流入情况爬虫

本期,我们用python爬虫实现对新浪财经每日资金流入情况的爬取,具体爬虫页面为:

此页面共有228页。

具体爬虫代码为:



import requestsimport jsonimport pandas as pdimport timecookies = {    'U_TRS1': '00000017.b5366def.5ea45f37.86172eca',    'SINAGLOBAL': '123.182.239.181_1587830584.490634',    'SCF': 'AkZTN949870BznlRFWgQ7ZHjP02Kx8MKsgY_bhNIMjeNwZNyD1F500JSpsQhh5ZbhGZtTolEKlGwySyFRCDF6Go.',    'SGUID': '1596948484657_10983414',    '_ga': 'GA1.3.998103930.1600149268',    'FINA_V_S_2': 'sz000661,sh601216',    '__gads': 'ID=53fc2f31a90cde06-2250dc821bc400fc:T=1602842357:RT=1602842357:S=ALNI_Ma73U07NdNtVxsUT_JZJpGpSqPH8A',    'UOR': ',,',    'Apache': '112.4.54.55_1625385453.469743',    'MONEY-FINANCE-SINA-COM-CN-WEB5': '',    'SFA_version': '2021-04-12%2009%3A00',    'SUB': '_2A25N5Rm_DeRhGeVO6FoT9SfKyz-IHXVukwx3rDV_PUNbm9AKLXLBkW9NTWYxRkMtTWbvGtexXDZzvpie6uSM7Tj4',    'SUBP': '0033WrSXqPxfM725Ws9jqgMF55529P9D9WhBSrc87.WA6LWkHooL27Ag5NHD95Q0eheReo-4So50Ws4Dqcjl9NH.qg4Q9PiaP0.cSoM7',    'ALF': '1656921455',    'U_TRS2': '00000037.d755cf.60e169f0.8eccbb9a',    'hqEtagMode': '1',    'rotatecount': '2',    'ULV': '1625385478403:10:1:1:112.4.54.55_1625385453.469743:1621428546540',    'SR_SEL': '1_511',    'sinaH5EtagStatus': 'y',}
headers = {    'Connection': 'keep-alive',    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36',    'Content-type': 'application/x-www-form-urlencoded',    'Accept': '*/*',    'Referer': 'http://vip.stock.finance.sina.com.cn/moneyflow/',    'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',}
df=pd.DataFrame()for i in range(1,229):    params = (        ('page', i),        ('num', '20'),        ('sort', 'r0_net'),        ('asc', '0'),        ('bankuai', ''),        ('shichang', ''),    )    response = requests.get('http://vip.stock.finance.sina.com.cn/quotes_service/api/json_v2.php/MoneyFlow.ssl_bkzj_ssggzj', headers=headers, params=params, cookies=cookies, verify=False)    rr=json.loads(response.text)    df1=pd.DataFrame(rr,columns=["symbol","name","trade","changeratio","turnover","amount","inamount","outamount","netamount","ratioamount","r0_in","r0_out","r0_net","r3_in","r3_out","r3_net","r0_ratio","r3_ratio","r0x_ratio"])    df=pd.concat([df,df1])    time.sleep(5)df

jupyter notebook中的结果为:

把结果保存到Excel中:


df.to_excel('新浪财经资金流向.xls',index=False)

结果如下:

回头再看看网站:

纳尼?被限制访问了,被网站发现了 ,看来爬虫虽好,但也要适量用啊,不能把网站给搞崩了 。Bye

相关文章
|
Web App开发 数据采集 iOS开发
|
数据采集 设计模式 前端开发
实战爬虫:通过联行号轻松获取银行支行信息
经过一段时间的加班,终于是把项目熬上线了。本以为可以轻松一点,但往往事与愿违,出现了各种各样的问题。由于做的是POS前置交易系统,涉及到和商户进件以及交易相关的业务,需要向上游支付机构上送“联行号”,但是由于系统内的数据不全,经常出现找不到银行或者联行号有误等情况,导致无法进件。
实战爬虫:通过联行号轻松获取银行支行信息
|
数据采集 搜索推荐 安全
|
云安全 安全
专家:端午将至湖北地区挂马网站激增 用户需警惕
据瑞星“云安全”系统监测,5月22日至24日,“湖北省麻城市第二实验小学”、“湖北师范学院教务处”、“湖北省团风县工商局红盾信息网”等网站被黑客挂马,用户浏览这些网站后,会感染近期变种最多的U盘蠕虫下载器病毒,电脑会被下载大量木马病毒。
1011 0
|
算法 UED
豆瓣:“慢公司”,互联网营销
  每个人心中都有一个豆瓣。   对普罗大众来说,它是交流生活常识的百宝箱;对于阅读、音乐和影视的爱好者来说,它是汲取与分享的沙龙;对文艺青年来说,它甚至是点燃激情的网络圣地。   很多时候,用户心中的豆瓣既不是公司,也不像产品——因为从2005年创立到现在,豆瓣网一点也不像典型的中国互联网企业那样喧闹,似乎没热过也没冷过,发展得没快过也没慢过。
1323 0
|
新零售
案例推荐《微博:随时随地迎战大流量》
微博研发中心启动的混合云项目,在2017年春晚保障中,用不到一天的时间内完成了近5000台服务器的部署上线,实现了在历史流量峰值的情况下整体服务无降级的成绩。
2321 0
|
安全 云栖大会 数据安全/隐私保护