ZDNet至顶网软件频道消息:最早提出词汇“Big Data”的是2011年麦肯锡的《大数据:下一个创新、竞争和生产力的前沿》研究报告,他提到“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。”之后,大数据概念开始风靡全球。近年来大数据不断地向社会各行各业渗透,可以为每一个领域带来变革性影响,并且正在成为各行业创新的原动力和助推器。
以近年来在中国兴起并急剧发展的舆情监测和分析行业为例,即通过海量信息采集、智能语义分析、自然语言处理、数据挖掘,以及机器学习等技术,不间断地监控网站、论坛、博客、微博、平面媒体、微信等信息,及时、全面、准确地掌握各种信息和网络动向,从浩瀚的数据宇宙中发掘事件苗头、归纳舆论观点倾向、掌握公众态度情绪、并结合历史相似和类似事件进行趋势预测和应对建议。互联网如今已经成为收集民意、了解政府和企业工作成效的一个非常有效的途径。然而由于缺乏对互联网发贴等行为的必要监管措施,在舆情危机事件发生后,难以及时有效获取深层次、高质量的网络舆情信息,经常造成舆情危机事件处置工作的被动,因此,北信源舆情分析专家建议应该重视对互联网舆情的应对,建立起“监测、响应、总结、归档”的舆情应对体系。
大数据带来的信息风暴正在改变我们的生活、工作和思维。舆情服务在进行行业规范和整合的同时,正面临着大数据的挑战。在国内市场中,舆情分析类产品林林总总,产品水平也参差不齐。如何选择一款优秀的产品?首先需要选择技术背景雄厚的生产厂商。北信源经过十几年的发展,拥有专门的数据管理部门和专业分析团队,专业的技术人员对信息的鉴别力、萃取力、掌控力处于全国领先水平。
对大数据的采集加工是整个舆情分析服务的基础,掌握数据抓取能力与舆情解读能力,通过“加工”实现数据的“增值”,是舆情分析的必备技能。北信源网情监测平台采用多线路、加密隧道方式作为互联网上公开信息的采集通道,通过自主研发的爬虫系统,从网上自动获取页面信息。北信源舆情搜索引擎使用信息采集技术对全球范围内的网页进行检索,通过中文语义特性并结合舆情结构特点而构成的元数据搜索技术,能够提高信息采集的针对性,同时扩大采集范围的广度,提升舆情搜索的精准度。另外在采集的速率上,北信源网情监测平台通过“云计算”技术在互联网不同位置可任意部署监测工作站PC机,实现非重点网站的定时监测、重要网站及链接全天候监测。并根据网页及链接的重要度,做到对最重要的网站数据分钟级的采集更新。
如何对复杂大数据进行解释是舆情服务的关键,数据分析的模式是否科学将直接影响数据分析的质量,决定了舆情产品的可用性。基于数据分析,能否提炼出独到、高质量的观点,在凌乱纷繁的数据背后找到更符合客户要求的舆情产品和服务,并进行针对性的调整和优化,这是大数据时代舆情最大的变量。北信源舆情分析引擎,涉及的最主要的技术包括文本分类、聚类、观点倾向性识别、主题检测与跟踪等计算机文本信息内容识别技术。以数据挖掘为核心技术,应用不同的建模基础,包括关联规则、序列模式、频繁序列、决策树分类、神经元网络、线性回归、Logistic回归、K-Means聚类、模糊聚类、异常检测等多种数据挖掘算法,结合相应的数据挖掘模型可视化方法,用预测模型对舆情数据进行预测评分。
对趋势的研判则是大数据时代舆情分析的目标。如今人们能够从浩如烟海的数据中挖掘信息、判断趋势、提高效益,但这远远不够,信息爆炸的时代要求人们不断增强关联舆情信息的分析和预测,把服务的重点从单纯的收集有效数据向对舆情的深入研判拓展。北信源舆情监测与分析平台从情报检索与分析技术基础上发展起来,除了能够跟踪、协助解决关联舆情,还能够辅以经过分析后的决策参考。
大数据时代的大舆情充分反映数据爆炸背景下的数据处理与应用需求,这是大数据时代最大的舆情变革。北信源网情监测与分析管理平台成功地实现了针对互联网海量舆情自动实时的监测、自动内容分析和自动报警的功能,有效地解决了传统的以人工方式对舆情监测的实施难题,加快了网络舆论的监管效率,有利于组织力量展开信息整理、分析、引导和应对工作,提高用户对网络突发舆情的公共事件应对能力,加强互联网“大数据”分析研判。并能够协助用户建立起舆情监测应对体系:
•快速发现:实践表明,在互联网舆情出现后4小时内是控制舆情的黄金时间,被称为“黄金4小时”;
•体系化应对:建立起横向、纵向的专职舆情员队伍,当舆情出现时统一指挥、协同作战、快速响应、科学应对;
•总结归档:做好舆情存档、应对能力回溯与评估有利于改进行业行政执行力,避免类似的舆情再次发生,也可以预测某类舆情的发展趋势及总结对该类舆情的科学应对措施。