阿里云大数据公众趋势预测

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

公众趋势预测

更新时间:2016-11-23 16:04:15

点此咨询顾问

互联网是触达用户、感知公众态势的最有效方式。通过公众趋势分析,业务方可以第一时间倾听用户心声,对正/负面消息快速响应,并通过预判用户群体对品牌和竞品的喜好倾向,指导产品和服务的改进升级。

应用场景

  • 政务机关:践行网上群众路线,广开言路,凝聚共识,提升服务效率和口碑。
  • 传媒行业:发现事件热点,梳理传播脉络,跟踪栏目受众的喜好倾向,鉴别新闻炒作。
  • 金融行业:商贷行业风险评估,P2P金融舆论风险评估,证券多空情绪波动与分析。
  • 地产行业:区块楼盘质量口碑监测,分析潜在业主的喜好倾向,物业服务质量评估。
  • 教育行业:关注教育资源供需平衡,校园热点事件预警,提高教育事业的满意度。
  • 医疗行业:关注医疗资源供需平衡,医患纠纷预警,提升医疗服务质量。
  • 旅游行业:倾听游客反馈,预判旅游出行趋势和热门程度,提升旅游服务的体验。
  • 企业品牌:分析消费者对品牌的认知和注意力迁移,关注竞品分析,塑造品牌口碑。

系统架构

公众趋势预测1

公众趋势分析整体业务架构如上图所示,底层采用成熟的商业化基础组件,可以弹性调度资源,保障系统稳定运行。

公众趋势分析通过分布式爬虫和神马搜索引擎,可采集的源站类型多种多样,包括:新闻门户、论坛贴吧、博客社区、微博微信、资讯客户端、RSS聚合、视频站点等。此外,通过关联业务方的数据接口,可以进一步整合站点浏览统计、资讯评论内容和消费点评内容等。

各类数据源进入公众趋势分析之后,经过去重去噪、正文萃取和自然语言处理,可以对舆情内容进行实时聚类分析、情感分析、热词提取、相似性分析和智能过滤,并且每一天离线计算全量舆情的聚类统计。

公众趋势分析既提供标准化的操作界面,同时也提供相应的API接口用于扩展性开发,进行个性化定制和业务集成。

技术优势

快速感知

公众趋势分析的采集模块对于高优先级源站最快2分钟获取数据,常规源站平均10分钟获取数据。利用对等计算框架、多租户隔离方案、多站点下载动态均衡技术、智能反爬策略动态调整等技术手段,结合上千台服务器的爬虫能力,采集模块可以保障数据在不被屏蔽的情况下及时快速获取。

信息覆盖全面

通过自建爬虫、神马搜索引擎接口、微博推送以及其他关联方的数据应用接口,可以对全网公开发布数据进行采集(千万源站,每日更新约20亿网页),覆盖各类网站、论坛、自媒体等。

特殊站点可直接在公众趋势分析中提交需求订制,后台审核后将自动完成网页的监控功能,保障信息渠道的全面覆盖。

算法精准高效

通过强大的机器学习算法、NLP自然语言处理算法、文本处理的协同处理,通过用户参与模型训练或者社会化标提供的数据语料,公众趋势分析已经实现以下指标:

  • 实时聚类最短在10ms即可一条信息与百万级数据匹配。实时聚类抽样准确率和离线聚类的准确率均在95%以上。
  • 情感分析的交叉验证准确率在90%以上。
  • 分类算法正确率在1千条语料/分类的情况下,交叉判定准确率可达到98%以上。
  • 智能过滤算法在基于1万条语料的前提下,准确率可达到80%以上。该算法可保障用户只看到希望看到的数据,而垃圾、广告、干扰信息均可通过智能过滤给排除掉。
  • 正文萃取算法进行百万新闻文章萃取验证的准确率可达到98%以上,论坛格式的内容正文萃取的准确率可达到90%以上。

海量信息智能化分析

公众趋势分析在文本相似性分析、自动聚类、自动分类和情感分析基础上,建立多个舆情指标,根据舆情指标和舆情分类的结果综合研判当前的宏观舆情态势。另外,通过各区域舆情对比功能,帮助用户及时准确地把握宏观舆情走势。提供实时信息预警机制,可以将短时间内发生的突发热点事件以及敏感新闻通过短信、邮件方式通知用户,同时可以帮助用户快速制作出关于相关舆情事件的统计简报。

公众趋势分析提供传播路径分析、热点事件分析、情感分析、热词云、标签分析、智能模版过滤。公众趋势分析通过应用ODPS及UDF自定义算法函数,可对舆情数据进行智能化的分析。以情感分析为例,我们以情感数量和全互联网影响力模型为基础,情感强弱作加权,附加中性舆情的偏离修正,达到舆情趋势的准确判断。例如,某个超级大V账号的一条微博,可能比10个普通账号发的10条微博所呈现的情感值更高。

全互联网影响力评估模型和用户打标舆情的数据,是为情感分析、智能分析作语料支撑的。用户对舆情打标签实质上是参与机器学习的模型训练,从而对每一条舆情的重要程度/是否有效进行判断,准确性不断提高,并且参与模型训练的过程完全自动化完成的,无需后台干预。用户使用时间越长,打标签的舆情越多,则训练出来的分析模型越准确。

一站式协同处理

处置功能丰富,包括数据标签、事件管理、观点、地点、标记、过滤、备注、自定义属性等。

数据可整理为简报资讯,通过PC端、无线端、邮件分享给他人,并且还可以由其他人参与互动,让所有关心舆情的人随时随地一起协同起来。

多语种采集及分析

爬虫采集能力理论上支持各种语言的抓取,通过在阿里云境外节点的部署,可实现对各类境外站点的采集监控。用户仅需要向后台提交需要监控的站点,遵循当地监管部门的相应法律法规,即可进行采集。

多语种的算法分析方面,规则引擎、情感分析、聚类分析、热词分析、智能分类、智能过滤等功能模块目前支持19种语言,包括:中文、英语、俄语、法语、日语、韩语、西班牙语,德语、葡萄牙语、荷兰语、意大利语,阿拉伯语、土耳其语、希伯来语、波兰语、印地语、印尼语、越南语、泰语。

智能在线翻译

结合阿里巴巴集团国际站多年积累的技术成果,公众趋势分析可将非英文的文本实时在线翻译为英文,并提供原始内容和翻译内容双向对比查看,从而方便对小语种的监控和分析。

开放API扩展能力

公众趋势分析定向开放API数据接口,合作伙伴可深度集成,为客户量身打造“限量版”。开发者可以通过API数据接口进行:关键词专题配置、关键词配置、接收实时抓取数据、微博传播路径分析,后续还可以利用现有数据在BI多维分析产品和可视化产品中做进一步的分析。

公众趋势分析的各项功能采用模块化设计,均可转换为API方式。根据业务方的实际需求,对应的功能模块可开放API调用。

品牌舆情大屏






点此咨询顾问

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
18天前
|
人工智能 Cloud Native 数据管理
媒体声音|重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
在2024云栖大会上,阿里云瑶池数据库发布了首个一站式多模数据管理平台DMS:OneMeta+OneOps。该平台由Data+AI驱动,兼容40余种数据源,实现跨云数据库、数据仓库、数据湖的统一数据治理,帮助用户高效提取和分析元数据,提升业务决策效率10倍。DMS已服务超10万企业客户,降低数据管理成本高达90%。
|
20天前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
2月前
|
人工智能 分布式计算 DataWorks
连续四年!阿里云领跑中国公有云大数据平台
近日,国际数据公司(IDC)发布《中国大数据平台市场份额,2023:数智融合时代的真正到来》报告——2023年中国大数据平台公有云服务市场规模达72.2亿元人民币,其中阿里巴巴市场份额保持领先,占比达40.2%,连续四年排名第一。
212 12
|
2月前
|
人工智能 Cloud Native 数据管理
重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
阿里云发布首个AI多模数据管理平台DMS,助力业务决策提效10倍
339 17
|
2月前
|
SQL 人工智能 大数据
阿里云牵头起草!首个大数据批流融合国家标准发布
近日,国家市场监督管理总局、国家标准化管理委员会正式发布大数据领域首个批流融合国家标准GB/T 44216-2024《信息技术 大数据 批流融合计算技术要求》,该标准由阿里云牵头起草,并将于2025年2月1日起正式实施。
86 7
|
2月前
|
SQL 人工智能 大数据
首个大数据批流融合国家标准正式发布,阿里云为牵头起草单位!
近日,国家市场监督管理总局、国家标准化管理委员会正式发布大数据领域首个批流融合国家标准 GB/T 44216-2024《信息技术 大数据 批流融合计算技术要求》,该标准由阿里云牵头起草,并将于2025年2月1日起正式实施。
|
2月前
|
存储 SQL 分布式计算
Java连接阿里云MaxCompute例
要使用Java连接阿里云MaxCompute数据库,首先需在项目中添加MaxCompute JDBC驱动依赖,推荐通过Maven管理。避免在代码中直接写入AccessKey,应使用环境变量或配置文件安全存储。示例代码展示了如何注册驱动、建立连接及执行SQL查询。建议使用RAM用户提升安全性,并根据需要配置时区和公网访问权限。具体步骤和注意事项请参考阿里云官方文档。
|
2月前
|
机器学习/深度学习 数据可视化 大数据
阿里云大数据的应用示例
阿里云大数据应用平台为企业提供高效数据处理与业务洞察工具,涵盖Quick BI、DataV及PAI等核心产品。DT203课程通过实践教学,帮助学员掌握数据可视化、报表设计及机器学习分析技能,提升数据驱动决策能力。Quick BI简化复杂数据分析,DataV打造震撼可视化大屏,PAI支持全面的数据挖掘与算法应用。课程面向CSP、ISV及数据工程师等专业人士,为期两天,结合面授与实验,助力企业加速数字化转型。完成课程后,学员将熟练使用阿里云工具进行数据处理与分析。[了解更多](https://edu.aliyun.com/training/DT203)
|
3月前
|
机器学习/深度学习 分布式计算 BI
MaxCompute 与阿里云其他服务的协同工作
【8月更文第31天】在当今的数据驱动时代,企业需要处理和分析海量数据以获得有价值的洞察。阿里云提供了一系列的服务来满足不同层次的需求,从数据存储到高级分析。MaxCompute(原名 ODPS)作为阿里云的大规模数据处理平台,提供了强大的计算能力和丰富的功能,可以与阿里云的其他服务无缝集成,形成完整的大数据解决方案。本文将探讨 MaxCompute 如何与其他阿里云服务协同工作,包括存储服务 OSS、数据分析服务 Quick BI 以及机器学习平台 PAI。
54 1
|
3月前
|
存储 分布式计算 大数据
阿里云 EMR 强势助力,与阿里云大数据体系共创辉煌,把握时代热点,开启生态建设之旅
【8月更文挑战第26天】阿里云EMR(Elastic MapReduce)是一种大数据处理服务,与阿里云的多个服务紧密结合,共同构建了完善的大数据生态系统。EMR与对象存储服务(OSS)集成,利用OSS提供可靠、低成本且可扩展的数据存储;与MaxCompute集成,实现深度数据分析和挖掘;还支持数据湖构建服务,加速数据湖的搭建并简化数据管理与分析过程。EMR提供多种编程接口及工具,如Hive、Spark和Flink等,帮助用户高效完成大数据处理任务。
102 2