舆情中的热词分析,没你想的那么简单

简介: 阿里云公众趋势分析产品通过云服务的方式,将阿里巴巴成熟的舆情分析技术共享给广大开发者。热词分析是公众趋势分析最近刚刚上线的功能,用户反馈效果还不错。那么这个听上去很简单的功能,背后有哪些不为人知的细节呢?

背景

阿里云公众趋势分析产品通过云服务的方式,将阿里巴巴成熟的舆情分析技术共享给广大开发者。热词分析是公众趋势分析最近刚刚上线的功能,用户反馈效果还不错。这个功能听起来很简单,不就是对数据源进行分词,然后再统计一下热度么?No!它可没那么简单。

分词和实体识别

良好的分词是热词分析的基础。对于绝大部分分词工具来说,最大的挑战在于识别从未见过的网络热门词、各种奇葩的品牌、产品词等,举个例子,“安利的空气净化器跟霍尼韦尔还有米家比怎么样”这个句子,我们随意在网上找到了某款开源的分词工具,分词的结果如下:

安利/的/空气/净化器/跟/霍尼/韦尔/还有/米/家/比/怎么样

分词工具能识别一般的词语,但是对于品牌词、产品词等专有的实体词,在没有知识库的辅助下很难识别。而阿里在互联网尤其是电商领域耕耘多年,积累了丰富的词库,并始终在不断更新,譬如上述句子,我们可以将其断成如下形式:

安利:brd/的/空气净化器:prd/跟/霍尼韦尔:brd/还有/米家:brd/比/怎么样

不仅能正确地分词,而且还能识别出其中的实体,如霍尼韦尔和米家是品牌词(brd),空气净化器是产品词(prd)。目前,公众趋势分析背后有百万级的人名、品牌、地址、组织机构名、商品、品牌词库等做支撑。

3f21a0affb1d0e57f73b858f68840c6f54547e77

关键词提取

海量的文章,带来了巨大数量的词,对于每篇文章,真正需要被关注的只是少数关键词,那么如何在一篇长文本中挑出关键词呢?热词分析使用TextRank算法为文本生成关键词。

TextRank的算法思想来源于PageRank,旨在通过文本中句子、词之间的相互投票,为句子、词进行权重的排序。PageRank假设一个网页的入链越多,则其权重越高。随机地为每个网页分配一个初始权重,在每一轮投票中,每个网页将其权重均匀地分配给其出链,收敛后(平稳马尔科夫过程)每个网页得到的权重值反映了其重要性,每轮投票的数学表述为:

8835cdaba445e628d8d9923c4de65f20e8a32b0c

其中d为阻尼系数,(1-d)/N表示每次页面转移时有一定的概率会从全网随机选择url,这样可以避免没有外链的悬挂网页让所有权重收敛到0。

PageRank通过页面之间的链接关系建立投票机制,TextRank以此为启发,通过词之间的邻近关系建立词权重投票机制,即假如两个词出现在同一个窗口中,则它们之间产生一次权重投票,这样可以通过PageRank的求解方法,计算每个词在文本中的权重。得到权重的排序之后,就可以挑选topN词作为关键词了。

18184d5151fe508b3ada0a29db9571b1b09ffa75

词关联计算

体验过热词分析功能的读者会发现,对于每个热词,我们提供了与其强关联的词,那么,这些关联关系如何计算呢?

48287e89e4a53e5456cb8946ef55426249b772b3

词关联使用点互信息PMI(pointwise mutual information)来表示,用信息论的语言来表述,点互信息衡量的是“给定一个随机变量后,另一个随机变量不确定性的减少程度”。假设有两个词x和y,则x和y之间的点互信息由下述公式表示:

dc8a7becce907ad4d4a4fa5baeaa7a78e0e02cc9

其中p(x,y)表示x和y同时出现的概率,p(x)和p(y)分别表示x和y单独出现的概率。简单粗暴地理解,就是说相对于单独出现,某两个词更喜欢一起出现,则它们之间的关联程度越高。

热度计算

好了,现在我们已经能得到每篇文章的关键词,而且也能计算跟这些关键词有关联关系的词了,那么词的热度如何衡量呢?词的热度计算不能仅仅统计这个词在所有文章中的出现次数,因为每篇文章的热门程度不一样,汪峰上了头条时的报道,对于热度的计算不能跟一般的小道消息同日而语。热词分析在计算热度时,会用文章的热度对词进行加权,而文章的热度会综合考虑以下因素:

  • 文章的转发量
  • 浏览量
  • 评论量
  • 文章发布的时间,如果发布时间越长,则热度衰减地越高

具体的计算公式就不在这公开了,那是我们经过无数次的调试之后的结果,有兴趣的读者也可以了解一下这篇文章

后记

小小的热词分析,背后也有这么多的技巧和门槛,然而这一切,都是为了利用阿里的大数据技术积累,尽量为客户呈现最精准的舆情分析,产品刚刚上线,优化的路还很长,欢迎大家试用。

目录
相关文章
|
8月前
|
存储 分布式计算 搜索推荐
基于hdoop的短视频用户画像研究_kaic
基于hdoop的短视频用户画像研究_kaic
|
6天前
|
文字识别 自然语言处理 算法
从多模态到精准洞察:深度解析多模态文件信息提取解决方案!
阿里云推出《多模态数据信息提取》解决方案,涵盖文本、图像、音频、视频等多种数据形式的自动化处理。本文从部署体验、功能验证到实际应用,全面解析该方案的能力与潜力,帮助开发者高效提取和整合复杂数据,提升工作效率...
27 3
从多模态到精准洞察:深度解析多模态文件信息提取解决方案!
|
11天前
|
机器学习/深度学习 数据采集 人工智能
AI在用户行为分析中的应用:实现精准洞察与决策优化
AI在用户行为分析中的应用:实现精准洞察与决策优化
63 15
|
12天前
|
机器学习/深度学习 传感器 人工智能
开源AI视频监控系统在监狱安全中的应用——实时情绪与行为分析、暴力预警技术详解
针对监狱环境中囚犯情绪波动和复杂人际互动带来的监控挑战,传统CCTV系统难以有效预警暴力事件。AI视频监控系统基于深度学习与计算机视觉技术,实现对行为、情绪的实时分析,尤其在低光环境下表现优异。该系统通过多设备协同、数据同步及自适应训练,确保高精度识别(95%以上)、快速响应(<5秒),并具备24小时不间断运行能力,极大提升了监狱安全管理的效率与准确性。
|
2月前
|
存储 人工智能 自然语言处理
了解文档智能和知识挖掘
文档智能是 AI 的一个方面,用于管理、处理和使用在表单和文档中发现的大量各类数据。 借助文档智能,能够创建可自动处理合同、运行状况文档和财务表单等的软件
41 0
|
5月前
|
机器学习/深度学习 算法 搜索推荐
基于机器学习的用户行为分析:深入洞察与精准决策
【8月更文挑战第3天】基于机器学习的用户行为分析为企业提供了深入了解用户需求、优化产品设计和制定精准营销策略的有力工具。随着人工智能和大数据技术的不断发展,用户行为分析将更加智能化和个性化。未来,我们可以期待更加高效、精准的机器学习算法和模型的出现,以及更多创新性的应用场景的拓展。同时,也需要关注数据隐私和安全性问题,确保用户数据的安全和合规使用。
|
机器学习/深度学习 搜索推荐 数据挖掘
138 推荐引擎的分类
138 推荐引擎的分类
62 0
|
数据采集 存储 搜索推荐
分析新闻评论数据并进行情绪识别
爬取新闻评论数据并进行情绪识别的目的是为了从网页中抓取用户对新闻事件或话题的评价内容,并从中识别和提取用户的情绪或态度,如积极、消极、中立等。爬取新闻评论数据并进行情绪识别有以下几个优势: 1)可以了解用户对新闻事件或话题的看法和感受,以及影响他们情绪的因素; 2)可以分析用户的情绪变化和趋势,以及与新闻事件或话题的相关性和影响力; 3)可以根据用户的情绪进行个性化的推荐或服务,如提供正能量的内容、提供帮助或建议等;
247 1
|
监控 数据可视化 数据挖掘
如何对舆情导向进行分析?
如何对舆情导向进行分析?
|
机器学习/深度学习 存储 开发框架
推荐系统[八]算法实践总结V1:淘宝逛逛and阿里飞猪个性化推荐:召回算法实践总结【冷启动召回、复购召回、用户行为召回等算法实战】
推荐系统[八]算法实践总结V1:淘宝逛逛and阿里飞猪个性化推荐:召回算法实践总结【冷启动召回、复购召回、用户行为召回等算法实战】
推荐系统[八]算法实践总结V1:淘宝逛逛and阿里飞猪个性化推荐:召回算法实践总结【冷启动召回、复购召回、用户行为召回等算法实战】

热门文章

最新文章

下一篇
开通oss服务