<进击的虫师>舆情监测之获取数据

简介: 舆情监测是对互联网上公众的言论和观点进行监视和预测的行为.监测技术大多是基于爬虫的, 如果我们把相关热点事件的关键词, 用搜索引擎进行搜索, 并将结果保存到本地,就实现了舆情监测的第一环节:实时获取互联网数据舆情监测.
舆情监测是对互联网上公众的言论和观点进行监视和预测的行为.监测技术大多是基于爬虫的, 如果我们把相关热点事件的关键词, 用搜索引擎进行搜索, 并将结果保存到本地,就实现了舆情监测的第一环节:实时获取互联网数据
舆情监测.png

初步实现效果

获取数据.gif

实现代码

import requests
from lxml import etree
import os
import sys

def getData(wd):
    # 设置用户代理头
    headers = {
        # 设置用户代理头(为狼披上羊皮)
        "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36",
    }
    # 构造目标网址
    target_url = "https://www.baidu.com/s?wd="+str(wd)
    # 获取响应
    data = requests.get(target_url, headers = headers)
    # xpath格式化
    data_etree = etree.HTML(data.content)
    # 提取数据列表
    content_list = data_etree.xpath('//div[@id="content_left"]/div[contains(@class, "result c-container")]')
    # 定义返回的字符串
    result = ""
    # 获取标题, 内容, 链接
    for content in content_list:
        result_title = "<标题>  "
        bd_title = content.xpath('.//h3/a')
        for bd_t in bd_title:
            result_title += bd_t.xpath('string(.)')

        result_content = "<内容>  "
        bd_content = content.xpath('.//div[@class="c-abstract"]')
        for bd_c in bd_content:
            result_content += bd_c.xpath('string(.)')

        result_link = "<链接>  "+str(list(content.xpath('.//div[@class="f13"]/a[@class="c-showurl"]/@href'))[0])


        result_list = [result_title, "\n" , result_content , "\n", result_link, "\n", "\n"]
        for result_l in result_list:
            result += str(result_l)
    return result


# 保存为文件

def saveDataToFile(file_name, data):
    # 建立文件夹
    if os.path.exists("./data/"):
        pass
    else:
        os.makedirs("./data/")

    with open("./data/"+file_name+".txt", "w+") as f:
        f.write(data)

def main():
    wd = ""
    try:
        wd = sys.argv[1]
    except:
        pass
    if (len(wd) == 0):
        wd = "火影"
    str_data = getData(wd)
    print(str_data)
    saveDataToFile(wd, str_data)

if __name__ == '__main__':
    main()
目录
相关文章
|
2月前
|
SQL 开发框架 Java
互联网医院在线问诊系统的设计与实现(论文+源码)_kaic
互联网医院在线问诊系统的设计与实现(论文+源码)_kaic
|
10月前
|
数据采集 数据可视化 数据挖掘
爬虫技术对携程网旅游景点和酒店信息的数据挖掘和分析应用
爬虫技术是一种通过网络爬取目标网站的数据并进行分析的技术,它可以用于各种领域,如电子商务、社交媒体、新闻、教育等。本文将介绍如何使用爬虫技术对携程网旅游景点和酒店信息进行数据挖掘和分析,以及如何利用Selenium库和代理IP技术实现爬虫程序
431 0
|
10月前
|
机器学习/深度学习 数据可视化 数据挖掘
第四届“泰迪杯”数据分析技能赛-赛题A:《通讯产品销售和盈利能力分析》报告
第四届“泰迪杯”数据分析技能赛-赛题A:《通讯产品销售和盈利能力分析》报告
585 0
|
10月前
|
机器学习/深度学习 传感器 安全
2023 年高教社杯E题黄河水沙监测数据分析思路及代码(持续更新)
2023 年高教社杯E题黄河水沙监测数据分析思路及代码(持续更新)
|
新零售 城市大脑 人工智能
案例酷 | 安吉县健康大脑:患者云端问诊有“医”靠
编者按: 智慧化医共体建设的核心是县域健康大脑的建设,健康大脑能使医疗行业通过大数据更好地提供服务,提升管理,为公众提供更现代化的智慧卫健服务。浙江安吉县卫生健康局与阿里云合作,依托安吉县政务云,基于数据中台、业务中台体系建成了安吉县统一的“智慧健康大脑”,实现了患者就医更便捷、医生看病更智能、区域管理更高效。 全文约2119字,建议阅读时间6分钟。
182 0
|
前端开发
前端工作总结164-精准的v-for和if
前端工作总结164-精准的v-for和if
58 0
前端工作总结164-精准的v-for和if
|
监控 安全
小红书舆情优化处理及舆论监控分析
从近年来企业舆情爆发的规律来看,在两微一抖以外,小红书似乎成为了舆情爆发的新源头。
|
数据采集 SQL 数据可视化
flask + pyecharts 搭建新冠肺炎疫情数据可视化交互分析平台:包含疫情数据获取、态势感知、预测分析、舆情监测等任务
该项目是浙江大学地理空间数据库课程作业8:空间分析中,使用 flask + pyecharts 搭建的简单新冠肺炎疫情数据可视化交互分析平台,包含疫情数据获取、态势感知、预测分析、舆情监测等任务
2732 0
flask + pyecharts 搭建新冠肺炎疫情数据可视化交互分析平台:包含疫情数据获取、态势感知、预测分析、舆情监测等任务
|
人工智能 达摩院 自然语言处理
12小时上线“新冠肺炎同程查询工具”,开发者这样狙击疫情 | 开发者必读(147期)
2020开年极为复杂。面对新型肺炎的疫情,我们每一个人都与国家命运紧密相连。全社会的力量都凝聚在一起,众志成城,共克时艰。有这么一群热爱代码的人,用自己的方式提升效率,保卫家园。
|
数据可视化 数据挖掘 程序员
技术人最不该忽视可视化数据分析! | 9月2号栖夜读
今天的首篇文章,讲述了:在这个“人人都是数据分析师”的时代,阿里的同学几乎都在参与数据的采集、加工与消费。数据可视化作为连接“加工——消费”的重要一环,其质量至关重要。优秀的可视化能促成卓越洞见,糟糕的内容则让所有的努力失去意义。
3235 0