媒体大数据平台能力有哪些？_问答-阿里云开发者社区

1、内容结构化人们在网页当中看到一篇新闻，而在数据库当中新闻是按字段存储的。比如，分为新闻标题，发布网站，时间，新闻来源，情感等等。平台需要将新闻信息进行结构化，成为后续计算过程需要依赖的数据结构化字段。

2、主题构建媒体行业会分主题建设数据。平台会获取到不同的数据源，不同类型的数据。这些数据不可能完全的结合在一起，数芯平台会将所有数据分门别类的分成不同主题，按不同主题建设，存放和加工。媒体是一个非常复杂的行业，对各个行业的数据都是有所诉求，媒体需要挖掘很多不同行业的数据支撑新闻生产和报道。目前，数芯集中在体识别对于媒体大数据来说是最基础的能力。数芯目前积累的实体围绕人，机哪些机构会发正面的信息，哪些机构会发负面的信息等。只有当将大批量的数据汇集起来之后，才能做相关内容的分析。

3、实体识别场景在媒体大数据领域是非常基础的能力，首先，建立实体库。同时，当有一篇新闻产生，数芯需要实时的识别新闻与哪些人，机构和地点相关。另外，数芯需要汇集实体之间关系，做实体关系图谱。

4、情感分析情感分析也是媒体大数据平台中比较通用的能力，当一篇新闻出来之后，用户需要知道是情感上褒义还是贬义。信息数量少的信息可以人工判断，但是如果每天有上千篇，上完篇的内容就无法通过人工来判断。媒体行业的情感分析与学术上的情感分析有差异。目前，自媒体出来之后短文本的内容越来越多。短文本的情感分析和长文本的情感分析不同，以往都是采用同一个算法实现情感分析，但发现效果并不好。现在，数芯将情感分析场景分开，微博短文本的情感分析用 Word2vec+LSTM，新闻类的长文本的情感分析用 Word2vec+CNN+RNN。

5、内容去重内容去重是媒体大数据平台非常重要的一部分。去重能力是对于常见的新闻录，编辑，删减有准确的判重能力。一篇新闻并不是只由一个人写，它会被很多机构和渠道所转发。如何知道一篇新闻在哪些渠道被转发，其实就是通过去重的方式实现的。通过从大量的渠道汇集数据后，平台需要比对一篇新闻与之前哪篇新闻相似，通过相似度的比对得到结果。最早的时候，去重是基于关键词进行比对，数芯采取关键词和语义，两种方式比对，去重效果明显提升。内容去重可以用于新闻的热度计算，新闻数据顾虑清洗，文章版权追踪等业务场景。

6、内容标签化搜索引擎可以用来搜索新闻，通过关键词和文章的匹配度来决定这篇内容是否推荐给用户。但纯搜索的方式已经满足不了用户家的需求。今日头条之所以成功，是因为它基于新闻和用户的习惯推荐内容。内容标签化就是通过机器的方式理解新闻，理解新闻与哪些信息相关，基于文本挖掘的手段，实现对于全网采集的内容数据进行分类打标。

以上内容摘自《5天入门视觉AI》电子书，点击https://developer.aliyun.com/topic/download?id=31可下载完整版

媒体大数据平台能力有哪些？

大数据计算 MaxCompute

相关文章

热门讨论

热门文章