著有《机器学习实践应用》,阿里云机器学习PAI产品经理,个人微信公众号“凡人机器学习”。
智能推荐分为排序和召回两大模块,在召回模块中通常会采用将 用户User和待推荐的 内容Item 分别以向量表示,然后通过User和Item的向量乘积大小作为User对Item的感兴趣程度的判断。本案例介绍如何基于真实的推荐场景数据,通过使用PAI平台提供的FM算法和Embedding提取算法产生User和Item的描述向量。
用户系统中如果出现任何的异常数据,比如一个运维系统的CPU消耗突然增高,比如平台突然有大量不良信息产生,比如有用户大量薅羊毛,这些行为都是平台的异常指标。如果能通过机器学习的方式帮助用户针对各种异常指标做预防和实时预警,将大大建设平台方的风险。
目前很多平台方都有团伙作案的情况发生,比如团伙性薅羊毛,比如团伙性的制造一些虚假信息,团伙性发送违法广告。之所以是团伙性作案,因为作案人员之间有某种关系连接。当业务方获取了人员关系之后,能否成功挖掘出违规团伙,关系到平台的安全。
在业务发展过程中有两个重要的环节,一个是拉新,另一个是留存。如何做到用户的留存需要很多技术手段保证,一个比较重要的方式是建立用户流失模型,通过学习历史上流失用户的特点,通过机器学习的手段训练处风控模型,队可能会流式的用户进行预测,然后可以提前通过运营手段做一些用户流失的防范。
信用评估是被当前社会广泛关注的领域,特别是在金融行业,如果可以通过每个用户的历史交易数据以及用户画像数据确定用户的个人信用,将有助于银行设置个人借贷额度,确定潜在风险。本文将介绍在金融风控领域如何进行用户画像,使用什么样的算法可以计算出每个用户的信用指标。
目前许多商家都有线上留言或者评论反馈平台,消费者可以在这些平台上通过留言表达自己对于消费商品的反馈。消费者的反馈包括表扬性的正向反馈,也有一些批评性质的负向反馈。商家需要掌握消费者对于产品的整体舆论取向来判断自己的产品质量是否符合消费者需求,同时了解评论内容可以方便商家分析舆论导向,指导下一步产品研发工作。
很多人在决定是否看一部电影之前都会去豆瓣看下评分作为参考,看完电影也会给一个自己的分数。每个人对每个商品或者电影或是音乐都有一个心理的分数,这个分数标明用户是否对这个内容满意。作为内容的提供方,如果可以预测出每个用户对于内容的心理分数,就能更好的理解用户,并给用户提供好的内容推荐。
PAI-STUDIO在支持OSS数据源的基础上,增加了对MaxCompute表的数据支持。用户可以直接使用PAI-STUDIO的Tensorflow组件读写MaxCompute数据,本教程将提供完整数据和代码供大家测试。
概述 FM (Factorization Machine) 算法可进行回归和二分类预测,它的特点是考虑了特征之间的相互作用,是一种非线性模型,目前FM算法是推荐领域被验证的效果较好的推荐方案之一,在诸多电商、广告、直播厂商的推荐领域有广泛应用。
概述 在人工智能领域存在这样的现象,很多用户有人工智能的需求,但是没有相关的技术能力。另外有一些人工智能专家空有一身武艺,但是找不到需求方。这意味着在需求和技术之间需要一种连接作为纽带。 今天PAI正式对外发布了“AI市场”以及“PAI自定义算法”两大功能,可以帮助用户5分钟将线下的spark算法或是pyspark算法发布成算法组件,并且支持组件发布到AI市场供更多用户使用。
概述 有人说人工智能&大数据领域是个围城,厚厚的技术门槛构成了这道城墙。懂技术的人在围城里面,懂技术的人不一定有足够的业务去施展技术。而很多有业务需求的的人被隔在围城外面,有业务需求的人又不一定有足够的技术能力。
信息摘要: PAI深度优化的Tensorflow版本升级到与Tensorflow社区1.8版本兼容适用客户: PAI-STUDIO中使用深度学习的客户版本/规格功能: PAI-TF(兼容社区1.8版本) 1.
在深度学习领域流传着这样一句话,“一张好的表示图,胜过一千个公式” 本文会介绍如何通过PAI-DSW中的FastNerualNetwork功能实现深度学习网络的可视化编辑。 神经网络最早诞生于生物领域,用来模仿生物大脑复杂的神经元构成,后来人类为了探索大脑是如何思考,通过一层一层的数学公式来模拟大脑分析事物的过程。
产品介绍: PAI-DSW(Data science workshop)是专门为算法开发者准备的云端深度学习开发环境,用户可以登录DSW进行代码的开发并运行工作。目前DSW内置了PAI团队深度优化过的Tensorflow框架,同时也可以通过打开console对话窗口自行安装需要的第三方库。
(本实验会用到流式机器学习算法,正处于邀测状态,需要申请开通)PAI地址:https://data.aliyun.com/product/learn流式机器学习算法申请:https://data.aliyun.com/paionlinelearning打开新闻客户端,往往会收到热点新闻推送相关的内容。
什么是信息茧房 信息茧房其实是现在社会一个很可怕的现象,从字面意思来看的话其实比喻的是信息被虫茧一般封锁住。这个问题反映了现在随着个性化推荐的普及衍射的一个社会问题。 平时在浏览新闻或者淘宝的时候,平台会自动根据用户的浏览记录获取用户的偏好,然后推送感兴趣的文章。
(本实验选用数据为真实电商脱敏数据,仅用于学习,请勿商用) 在上一期基于协同过滤的的推荐场景中,我们介绍了如何通过PAI快速搭建一个基于协同过滤方案的推荐系统,这一节会介绍一些如何基于推荐对象特征的推荐方法。
征文大赛奖品丰厚
下载地址:https://github.com/jimenbian/GarvinBook 注:本书代码部分参考了互联网资源,已在书中注明引用。 本项目代码严格遵循MIT开源协议,请大家用于参考和学习用途,谢谢。 文件夹名对应书中章节代码。 购书链接: https://item.jd.com/12114501.html 本书简介 《机器学习实践
背景 随着人工智能的算法发展,对于非结构化数据的处理能力越来越受到重视,这里面的关键一环就是语音数据的处理。目前,许多关于语音识别的应用案例已经影响着我们的生活,例如一些智能音箱中利用语音发送指令,一些搜索工具利用语音输出文本代替键盘录入。 本文我们将针对语音识别中最简单的案例“男女声音”识别,结合本地的R工具以及机器学习PAI,为大家进行介绍。通过本案例,可以将任何用户
机器学习PAI通过声音数据分辨男女(含语音特征提取相关数据和代码)
1. The Problem of Overfitting 1 还是来看预测房价的这个例子,我们先对该数据做线性回归,也就是左边第一张图。 如果这么做,我们可以获得拟合数据的这样一条直线,但是,实际上这并不是一个很好的模型。我们看看这些数据,很明显,随着房子面积增大,住房价格的变化趋于稳定或者说越往右越平缓。因此线性回归并没有很好拟合训练数据。 我们把此类情况称为欠拟合(underfitti
苹果最新发布的Iphone X具有一个全新的功能叫做刷脸认证,背后的技术其实是生物密码的更新,通过人脸识别取代了传统的指纹识别,大家肯定对这种新技术非常感兴趣,下面我们通过这篇文章为大家介绍人脸识别的一些技术原理。
定义:不平衡数据集:在分类等问题中,正负样本,或者各个类别的样本数目不一致。 例子:在人脸检测中,比如训练库有10万张人脸图像,其中9万没有包含人脸,1万包含人脸,这个数据集就是典型的不平衡数据集。 直观的影响就是,用这些不平衡的数据训练出来的模型,其预测结果偏向于训练数据中数据比较多的那一类,在人脸检测的例子中,就是检测器的检测结果大部分都偏向于没有检测到人脸图像。 另外一个不平衡数据集,就
周末花时间看了一些比特币原理相关的资料,虽然不敢说把每个细节都完全搞懂了,不过整体思路和关键部分的主要原理还是比较明白。写一篇文章分享给大家。这篇文章的定位会比较科普,尽量用类比的方法将比特币的基本原理讲出来。这篇文章不会涉及算法和协议中比较细节的部分,打算后面会再写一篇程序员视角下的比特币原理,那里会从技术人员的视角对比特币系统中较为关键的数据结构、算法和协议进行一些讲解。 在这篇文章中我会
作者:nonesuccess链接:https://www.zhihu.com/question/30432152/answer/79547641来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 你都说了要通俗的理解,那就用不着学习什么理论了,通俗着来就是了。 通俗的说:gradle是打包用的。 你觉得解决你的问题了吗?如果没解决,那是你的问题提得不够好。比如我猜
本文数据来源:领英《全球AI领域人才报告》 最近有非常多的同学看了之前我们的一些文章和直播之后,多对AI领域跃跃欲试,本文我们结合一份人才报告(我个人感觉这份报告还是比较靠谱的),为大家揭秘中国AI人才现状。 目前中国AI人才存量5万,根据领英的job需求显示,截止2016年AI人才需求达到44万,人才细分领域表: AI从业者学历普遍较高,研究生以上人员占比62.1%,分布如图:
亲爱的同学们,福利来临!随着机器学习领域的发展越来越火,阿里云机器学习PAI为广大机器学习爱好的学生提供免费的一站式算法平台,该平台提供上百种算法,并且兼容TensorFlow、Caffe、MXNET等深度学习框架,学生们还可以免费使用M40 GPU卡,这么好的福利到哪里去领呢? 点击开通机器学习PAI:https://data.
两个高票回答我觉得都挺有道理,周一大早可以先干杯鸡汤。 1. 作者:姚冬链接:https://www.zhihu.com/question/53128666/answer/208724850来源:知乎 一定是泡沫,而且这个泡沫一定会破 但是,最厉害的就是这个但是,泡沫破裂不表示人工智能完蛋。 别的行业不太了解,至少IT行业是个经常性泡沫的行业,我们今天使用的技术产品都经历过泡沫阶段,比如
AI是大家都很关注的领域,然而对于大部分想要入行的同学来讲,AI的算法技术门槛相对较高,让很多空有热血但是缺少数学背景的同学望而却步。不知道什么时候,可能是“人人都是产品经理”这个论调的影响,产品经理这个岗位逐渐变成IT领域除了纯开发岗位之外的第二选择。对于AI这个领域也不例外,产品经理这样的岗位也渐渐成为竞相争取的“肥差”,刚好我也在大厂做了一段时间的人工智能品类产品的工
背景 如果你是做互联网金融的,那么一定听说过评分卡。评分卡是信用风险评估领域常用的建模方法,评分卡并不简单对应于某一种机器学习算法,而是一种通用的建模框架,将原始数据通过分箱后进行特征工程变换,继而应用于线性模型进行建模的一种方法。 评分卡建模理论常被用于各种信用评估领域,比如信用卡风险评估、贷款发放等业务。另外,在其它领域评分卡常被用来作为分数评估,比如常见的客服质
中国青年报原文链接:http://zqb.cyol.com/html/2017-07/28/nw.D110000zgqnb_20170728_2-06.htm 燕山大学信息科学与技术专业出身的95后大学生谭创创,没想到自己会与阿尔茨海默症(俗称“老年痴呆症”)为“敌”。
随着人工智能相关产业的持续火热,越来越多的同学开始尝试使用机器学习算法去解决问题。阿里云机器学习PAI平台作为人工智能行业的黑产物,每天都会收到用户们大量的咨询。为了更好地服务PAI平台的用户,同时也为了缓解售后同学的工作量。
背景 最近互联网上出现一个热词就是“freestyle”,源于一个比拼rap的综艺节目。在节目中需要大量考验选手的freestyle能力,freestyle指的是rapper即兴的根据一段主题讲一串rap。freestyle除了考验一个人rap的技巧,其实我觉得最难的是如何在短时间内在脑海中浮现出有韵律的歌词。 PAI平台是阿里云人工智能平台,在上面可以通过最简单的拖拉
背景 最近互联网上出现一个热词就是“freestyle”,源于一个比拼rap的综艺节目。在节目中需要大量考验选手的freestyle能力,freestyle指的是rapper即兴的根据一段主题讲一串rap。
低效的IO方式 最近通过观察PAI平台上TensoFlow用户的运行情况,发现大家在数据IO这方面还是有比较大的困惑,主要是因为很多同学没有很好的理解本地执行TensorFlow代码和分布式云端执行TensorFlow的区别。本地读取数据是server端直接从client端获得graph进行计算,而云端服务server在获得graph之后还需要将计算下发到各个worker处
背景 我们在之前的文章中介绍过如何通过PAI内置的TensorFlow框架实验基于Cifar10的图像分类,文章链接:https://yq.aliyun.com/articles/72841。使用Tensorflow做深度学习做深度学习的网络搭建和训练需要通过PYTHON代码才能使用,对于不太会写代码的同学还是有一定的使用门槛的。本文将介绍另一个深度学习框架Caffe,通过
毫无疑问,人工智能是目前整个互联网领域最火的行业,随着AlphaGo战胜世界围棋冠军,以及各种无人驾驶、智能家居项目的布道,人们已经意识到了AI就是下一个风口。当然,程序员是我见过对于新技术最敏感的一个人群,举一个例子:当TensorFlow刚刚面世的时候,几乎所有搞大数据的同学一见面就开始交流这方面的内容,仿佛所有人一夜之间成了“TFboys”(tensorflow_boy
预售地址: https://item.jd.com/12114501.html 历经了10个月,《机器学习实践应用》这本书终于面世了。首先呢,因为我的工作比较忙,只能抽一些周末或者是下班以后的时间进行写作,另外书的发布流程是一个漫长的过程。所以当这本书出版的时候,我感到熟悉又陌生,熟悉是因为书中的内容经过了多次校对已经印到我的脑子中了,陌生是距离刚开始写这本书已经过去接近
背景 我们通过之前的案例已经为大家介绍了如何通过常规的体检数据预测心脏病的发生,请见http://blog.csdn.net/buptgshengod/article/details/53609878。通过前文的案例我们可以生成一个算法模型,通过向这个模型输入用户实时的体检数据就会返回用户患有心胀病的概率。那么我们该如何搭建这套实时监测用户健康情况的服务呢?PAI最新推出的
如何用PYTHON代码写出音乐 什么是MIDI 博主本人虽然五音不全,而且唱歌还很难听,但是还是非常喜欢听歌的。我一直在做这样的尝试,就是通过人工智能算法实现机器自动的作词和编曲(在这里预告下,通过深度学习写歌词已经实现了,之后会分享给大家),本文我们主要聊下如何写曲。 说到用代码写曲子,有一个东西大家一定要了解就是MIDI。MIDI是一种乐器数字接口,是编曲界