【玩转数据系列六】文本分析算法实现新闻自动分类
新闻分类是文本挖掘领域较为常见的场景。目前很多媒体或是内容生产商对于新闻这种文本的分类常常采用人肉打标的方式,消耗了大量的人力资源。本文尝试通过智能的文本挖掘算法对于新闻文本进行分类。无需任何人肉打标,完全由机器智能化实现。
干货:解码OneData,阿里的数仓之路。
据IDC报告,预计到2020年全球数据总量将超过40ZB(相当于4万亿GB),这一数据量是2013年的10倍。正在“爆炸式”增长的数据的潜在巨大价值正在被发掘,它有可能成为商业世界的“新能源”,变革我们的生产,影响我们生活。当我们面对如此庞大的数据之时,如果我们不能有序、有结构的进行分类组织
艺术品区块链溯源防伪平台(连载一)
我们不做山寨链,我发现很多国内企业热衷于做山寨链,什么事山寨链呢,就是在现有的区块链(Ethereum, Hyperledger Fabric 或 EOS) 的基础上二次开发,首先开发山寨链需要大量的资金人力,私链是没有任何意义的,没有公信力。
将人工智能融入多媒体 助力视频产业加速——阿里云视频AI全能力解读
结合人工智能视频理解流程和用户的需求场景,我们将视频AI的功能分成四个大部分,视频智能审核、视频内容理解、视频智能编辑、视频版权保护。其中视频审核功能包括视频鉴黄、暴恐涉政识别、广告二维码识别、无意义直播识别等,利用识别能力将网络上没营养和不健康的视频内容进行排查和处理;视频理解功能包括视频分类、标签,人物识别、语音识别,同时也包括对视频中的文字进行识别(OCR);视频编辑层面可以实现视频首图、视频摘要、视频highlight的生成,同时支持新闻拆条;关于视频版权,支持视频相似性、同源视频检索和音视频指纹等功能。
通过Flink实时构建搜索引擎的索引
1.背景介绍
搜索引擎的出现大大降低了人们寻找信息的难度,已经深入到生活与工作的方方面面,简单列举几个应用如下:
互联网搜索,如谷歌,百度等;
垂直搜索,如淘宝、天猫的商品搜索;
站内搜索,各个内容网站提供的站内搜索服务;
企业内部搜索,员工查询企业内部信息;
广告投放,根据投放上下文检索出对应的广告主和广告内容;
搜索引擎的关键是让用户找到其所需信息,其整体架构如下:
从图示可知,一个搜索引擎从大的方面来看主要包括两部分,一部分是提供在线的搜索服务,一部分要把原始数据已离线的方式建立索引,建立索引是信息可搜索的前提。
品《阿里巴巴大数据实践-大数据之路》一书(下)
今天继续谈阿里的这本书,包括数据服务平台、数据挖掘平台、数据建模、数据管理及数据应用,希望于你有启示。
1、数据服务平台
数据服务平台可以叫数据开放平台,数据部门产出海量数据,如何能方便高效地开放出去,是我们一直要解决的难题,在没有数据服务的年代,阿里的数据开放的方式简单、粗暴,一般是直接将数据导出给对方,我想,现在大多公司的开放应该也是如此吧,虽然PaaS喊了这么多年,但真正成就的又有几个?
即使如阿里,在数据开放这个方向上的探索和实践,至今也有7个年头了,任何关于数据开放毕其功于一役的做法都将失败,任何一次数据开放的改进都是伴随着对于业务理解的深入而成长起来的。
基于深度学习的广告CTR预估算法
本文主要介绍了广告CTR预估算法在引入深度学习之后的基本演化过程及一些最新的进展,重点是从工业实现和应用的视角对Deep CTR模型进行剖析,探讨为什么这样设计模型、模型的关键要点是什么。主要内容按照“内”、“外”两个不同的角度进行介绍:内部集中介绍了典型模型的网络结构演化过程,外部则关注于不同数据、场景和功能模块下模型的设计思路。