开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 正文

媒体大数据平台能力有哪些?

已解决

媒体大数据平台能力有哪些?

展开
收起
游客lmkkns5ck6auu 2022-08-16 14:58:07 435 0
1 条回答
写回答
取消 提交回答
  • 推荐回答

    1、内容结构化 人们在网页当中看到一篇新闻,而在数据库当中新闻是按字段存储的。比如,分为新闻标题,发布网站,时间,新闻来源,情感等等。平台需要将新闻信息进行结构化,成为后续计算过程需要依赖的数据结构化字段。

    2、主题构建 媒体行业会分主题建设数据。平台会获取到不同的数据源,不同类型的数据。这些数据不可能完全的结合在一起,数芯平台会将所有数据分门别类的分成不同主题,按不同主题建设,存放和加工。媒体是一个非常复杂的行业,对各个行业的数据都是有所诉求,媒体需要挖掘很多不同行业的数据支撑新闻生产和报道。目前,数芯集中在体识别对于媒体大数据来说是最基础的能力。数芯目前积累的实体围绕人,机哪些机构会发正面的信息,哪些机构会发负面的信息等。只有当将大批量的数据汇集起来之后,才能做相关内容的分析。

    3、实体识别场景在媒体大数据领域是非常基础的能力,首先,建立实体库。同时,当有一篇新闻产生,数芯需要实时的识别新闻与哪些人,机构和地点相关。另外,数芯需要汇集实体之间关系,做实体关系图谱。

    4、情感分析 情感分析也是媒体大数据平台中比较通用的能力,当一篇新闻出来之后,用户需要知道是情感上褒义还是贬义。信息数量少的信息可以人工判断,但是如果每天有上千篇,上完篇的内容就无法通过人工来判断。媒体行业的情感分析与学术上的情感分析有差异。目前,自媒体出来之后短文本的内容越来越多。短文本的情感分析和长文本的情感分析不同,以往都是采用同一个算法实现情感分析,但发现效果并不好。现在,数芯将情感分析场景分开,微博短文本的情感分析用 Word2vec+LSTM,新闻类的长文本的情感分析用 Word2vec+CNN+RNN。

    5、内容去重 内容去重是媒体大数据平台非常重要的一部分。去重能力是对于常见的新闻录,编辑,删减有准确的判重能力。一篇新闻并不是只由一个人写,它会被很多机构和渠道所转发。如何知道一篇新闻在哪些渠道被转发,其实就是通过去重的方式实现的。通过从大量的渠道汇集数据后,平台需要比对一篇新闻与之前哪篇新闻相似,通过相似度的比对得到结果。最早的时候,去重是基于关键词进行比对,数芯采取关键词和语义,两种方式比对,去重效果明显提升。内容去重可以用于新闻的热度计算,新闻数据顾虑清洗,文章版权追踪等业务场景。

    6、内容标签化 搜索引擎可以用来搜索新闻,通过关键词和文章的匹配度来决定这篇内容是否推荐给用户。但纯搜索的方式已经满足不了用户家的需求。今日头条之所以成功,是因为它基于新闻和用户的习惯推荐内容。内容标签化就是通过机器的方式理解新闻,理解新闻与哪些信息相关,基于文本挖掘的手段,实现对于全网采集的内容数据进行分类打标。

    以上内容摘自《5天入门视觉AI》电子书,点击https://developer.aliyun.com/topic/download?id=31可下载完整版

    2022-08-17 16:36:26
    赞同 展开评论 打赏

MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。

相关产品

  • 云原生大数据计算服务 MaxCompute
  • 相关电子书

    更多
    Data+AI时代大数据平台应该如何建设 立即下载
    大数据AI一体化的解读 立即下载
    极氪大数据 Serverless 应用实践 立即下载