阿里云大数据公众趋势预测

2016-11-28 5159

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

简介：

公众趋势预测

更新时间：2016-11-23 16:04:15

点此咨询顾问

互联网是触达用户、感知公众态势的最有效方式。通过公众趋势分析，业务方可以第一时间倾听用户心声，对正/负面消息快速响应，并通过预判用户群体对品牌和竞品的喜好倾向，指导产品和服务的改进升级。

应用场景

政务机关：践行网上群众路线，广开言路，凝聚共识，提升服务效率和口碑。
传媒行业：发现事件热点，梳理传播脉络，跟踪栏目受众的喜好倾向，鉴别新闻炒作。
金融行业：商贷行业风险评估，P2P金融舆论风险评估，证券多空情绪波动与分析。
地产行业：区块楼盘质量口碑监测，分析潜在业主的喜好倾向，物业服务质量评估。
教育行业：关注教育资源供需平衡，校园热点事件预警，提高教育事业的满意度。
医疗行业：关注医疗资源供需平衡，医患纠纷预警，提升医疗服务质量。
旅游行业：倾听游客反馈，预判旅游出行趋势和热门程度，提升旅游服务的体验。
企业品牌：分析消费者对品牌的认知和注意力迁移，关注竞品分析，塑造品牌口碑。

系统架构

公众趋势预测1

公众趋势分析整体业务架构如上图所示，底层采用成熟的商业化基础组件，可以弹性调度资源，保障系统稳定运行。

公众趋势分析通过分布式爬虫和神马搜索引擎，可采集的源站类型多种多样，包括：新闻门户、论坛贴吧、博客社区、微博微信、资讯客户端、RSS聚合、视频站点等。此外，通过关联业务方的数据接口，可以进一步整合站点浏览统计、资讯评论内容和消费点评内容等。

各类数据源进入公众趋势分析之后，经过去重去噪、正文萃取和自然语言处理，可以对舆情内容进行实时聚类分析、情感分析、热词提取、相似性分析和智能过滤，并且每一天离线计算全量舆情的聚类统计。

公众趋势分析既提供标准化的操作界面，同时也提供相应的API接口用于扩展性开发，进行个性化定制和业务集成。

技术优势

快速感知

公众趋势分析的采集模块对于高优先级源站最快2分钟获取数据，常规源站平均10分钟获取数据。利用对等计算框架、多租户隔离方案、多站点下载动态均衡技术、智能反爬策略动态调整等技术手段，结合上千台服务器的爬虫能力，采集模块可以保障数据在不被屏蔽的情况下及时快速获取。

信息覆盖全面

通过自建爬虫、神马搜索引擎接口、微博推送以及其他关联方的数据应用接口，可以对全网公开发布数据进行采集（千万源站，每日更新约20亿网页），覆盖各类网站、论坛、自媒体等。

特殊站点可直接在公众趋势分析中提交需求订制，后台审核后将自动完成网页的监控功能，保障信息渠道的全面覆盖。

算法精准高效

通过强大的机器学习算法、NLP自然语言处理算法、文本处理的协同处理，通过用户参与模型训练或者社会化标提供的数据语料，公众趋势分析已经实现以下指标：

实时聚类最短在10ms即可一条信息与百万级数据匹配。实时聚类抽样准确率和离线聚类的准确率均在95%以上。
情感分析的交叉验证准确率在90%以上。
分类算法正确率在1千条语料/分类的情况下，交叉判定准确率可达到98%以上。
智能过滤算法在基于1万条语料的前提下，准确率可达到80%以上。该算法可保障用户只看到希望看到的数据，而垃圾、广告、干扰信息均可通过智能过滤给排除掉。
正文萃取算法进行百万新闻文章萃取验证的准确率可达到98%以上，论坛格式的内容正文萃取的准确率可达到90%以上。

海量信息智能化分析

公众趋势分析在文本相似性分析、自动聚类、自动分类和情感分析基础上，建立多个舆情指标，根据舆情指标和舆情分类的结果综合研判当前的宏观舆情态势。另外，通过各区域舆情对比功能，帮助用户及时准确地把握宏观舆情走势。提供实时信息预警机制，可以将短时间内发生的突发热点事件以及敏感新闻通过短信、邮件方式通知用户，同时可以帮助用户快速制作出关于相关舆情事件的统计简报。

公众趋势分析提供传播路径分析、热点事件分析、情感分析、热词云、标签分析、智能模版过滤。公众趋势分析通过应用ODPS及UDF自定义算法函数，可对舆情数据进行智能化的分析。以情感分析为例，我们以情感数量和全互联网影响力模型为基础，情感强弱作加权，附加中性舆情的偏离修正，达到舆情趋势的准确判断。例如，某个超级大V账号的一条微博，可能比10个普通账号发的10条微博所呈现的情感值更高。

全互联网影响力评估模型和用户打标舆情的数据，是为情感分析、智能分析作语料支撑的。用户对舆情打标签实质上是参与机器学习的模型训练，从而对每一条舆情的重要程度/是否有效进行判断，准确性不断提高，并且参与模型训练的过程完全自动化完成的，无需后台干预。用户使用时间越长，打标签的舆情越多，则训练出来的分析模型越准确。

一站式协同处理

处置功能丰富，包括数据标签、事件管理、观点、地点、标记、过滤、备注、自定义属性等。

数据可整理为简报资讯，通过PC端、无线端、邮件分享给他人，并且还可以由其他人参与互动，让所有关心舆情的人随时随地一起协同起来。

多语种采集及分析

爬虫采集能力理论上支持各种语言的抓取，通过在阿里云境外节点的部署，可实现对各类境外站点的采集监控。用户仅需要向后台提交需要监控的站点，遵循当地监管部门的相应法律法规，即可进行采集。

多语种的算法分析方面，规则引擎、情感分析、聚类分析、热词分析、智能分类、智能过滤等功能模块目前支持19种语言，包括：中文、英语、俄语、法语、日语、韩语、西班牙语，德语、葡萄牙语、荷兰语、意大利语，阿拉伯语、土耳其语、希伯来语、波兰语、印地语、印尼语、越南语、泰语。

智能在线翻译

结合阿里巴巴集团国际站多年积累的技术成果，公众趋势分析可将非英文的文本实时在线翻译为英文，并提供原始内容和翻译内容双向对比查看，从而方便对小语种的监控和分析。

开放API扩展能力

公众趋势分析定向开放API数据接口，合作伙伴可深度集成，为客户量身打造“限量版”。开发者可以通过API数据接口进行：关键词专题配置、关键词配置、接收实时抓取数据、微博传播路径分析，后续还可以利用现有数据在BI多维分析产品和可视化产品中做进一步的分析。

公众趋势分析的各项功能采用模块化设计，均可转换为API方式。根据业务方的实际需求，对应的功能模块可开放API调用。

品牌舆情大屏

点此咨询顾问

阿里云大数据公众趋势预测

公众趋势预测

应用场景

系统架构