暂无个人介绍
吴恩达深度学习笔记 classes1
补课:吴恩达机器学习视频笔记
python: for-else while-else
聚类 在无监督学习中,目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律。在这类任务中,常用的算法是聚类(cluster)算法。聚类算法试图将样本划分为若干个通常是不相交的子集,每个子集表明一个簇,也叫类别,通过这样的操作,可以将无规律的样本划分为一堆堆的样本子集合。
问题 有的时候开发不同的业务,所需要的环境不一样。一直在同一个环境中开发时候,不同的包版本升级可能会导致另外的业务不能正常工作。另外,有的github上的项目需要的开发环境与你使用的环境不同,冒然的按照它的requirements安装相应的包会产生类似的问题。
踩坑之ffmpeg
记录第一个web python服务
简单总结推荐系统的召回器,排序器,重排序
简单介绍Softmax训练的样本以及与fm的对比
上一节展示了如何使用矩阵分解来学习嵌入。但矩阵分解存在一些局限性,包括: 使用侧面特征困难(即查询ID /项目ID以外的任何特征)。因此,只能使用训练集中存在的用户或项目来查询模型。 建议的相关性。
简单介绍Flink流式处理数据的特性,以例子讲解Flink建模时态数据。
本文简单讲解XGBoost和随机森林模型的优缺点,并引入贝叶斯优化去调整模型参数,找到模型参数最优解。
简单介绍协同过滤优缺点
简单讲解推荐系统中的矩阵分解
协同过滤 为了解决基于内容过滤的一些限制,协同过滤同时使用用户和项目之间的相似性来提供推荐。这样会允许偶然的推荐出现; 也就是说,协同过滤模型可以基于类似用户B的兴趣向用户A推荐项目。此外,可以自动学习embedding特征,而不依赖于手工设计的特征。
生成候选者概述 在上一节介绍了推荐系统的基本框架: 可以看到,生成候选人(generate candidate)是推荐的第一阶段,也被称作retrieve。给定查询,系统生成一组相关候选者。下表显示了两种常见的候选生成方法: 类型 定义 实例 基于内容的过滤 使用项目之间的相似性来推荐与...
推荐系统基本结构介绍
项目问题 最近工作内容需要向一张表里面写入数据,有两个实现方法,每种方法会运行得到一份结果,两个结果的key会有大部分重复,后面跟的value会有不同。表格中只允许两个结果中其中的一个key存在,二者选其一,只能更新替代。
记一次LightGBM-GBDT参数调整经历 调整原因:项目要从有验证集的训练方式转变为无验证集的训练方式。 问题:有验证集的训练方式可以通过验证集earlystop来控制训练的过拟合问题,换成无验证集的训练方式后,无法继续通过使用earlystop这种方式来减少过拟合了,需要增强其他的正则。
业务场景 上一次介绍图像搜索的基本原理,现在记录下使用的数据包的问题。查询图片先进行特征提取,使用一个向量来表示,之后使用该向量与数据库中所有的商品向量进行计算相似度指标,比如cos距离,欧式距离,汉明距离。
目的 项目中遇到多重类继承的问题,想调用父类构造函数中的内容,调试了一两个小时,遇到两个问题。 说不存在某个父类的函数; 报MRO列表错误; 查询了相关的文档,大致是讲解父类的继承,没有涉及到多重继承,以及多重继承构造函数的问题,这里总结一下。
基于内容的搜索,以图搜图!
记一次使用阿里云图像搜索功能 阿里云提供的图像搜索业务: 业务介绍地址: https://ai.aliyun.com/imagesearch?spm=5176.10695662.1280361.130.
应用场景 由于业务需求,需要对部分不符合检测结果的图像进行过滤,因此需要对之前的检测项目进行优化。常见问题有如下亮点: 图像中检测目标是倾斜角度; 图像中是通过镜子自拍或者加了滤镜处理后的相片;这两种情况是由于训练样本中含有这两种情况的少,因此需要增加此类样本数。
一份关于自然语言处理NLP的资源清单,给出了相应的学习链接,方便学习。
本文是该系列内容的第3部分内容,主要介绍人工神经网络、深度学习的基本原理,着重介绍深度学习中数据库的选择需要考虑的问题。
本文是该系列内容的第2部分内容,主要介绍人工智能、机器学习和深度学习三者的差别,着重介绍机器学习中的有监督学习和无监督学习。
人工智能始于思想实验,深入了解AI和深度学习的历史,并了解它们为什么现在取得快速的发展。
本文是作者在2017年总结自己最喜欢的十个数据可视化项目,涵盖范围广,项目生动、有趣且有深度。读者们可以选择自己感兴趣的项目动手体验一下吧。
本文主要是根据亚马逊推出的DeepLens原理,通过树莓派以及检测网络模型YOLO搭建一个用于检测鸟儿的智能摄像头,操作起来简单方便,可实践性强。感兴趣的读者可以按照步骤一步步搭建属于自己的一款智能摄像头吧!
本文讲解梯度爆炸的相关问题,主要从以下三个方面介绍:什么是梯度爆炸,以及在训练过程中梯度爆炸会引发哪些问题、如何知道网络模型是否存在梯度爆炸、如何在网络模型中解决梯度爆炸问题。讲解比较通俗易懂,给出了一些判断梯度爆炸存在的方法及解决方法。
本文简单的介绍了神经网络近50年的发展历程,从1968年的Hubel和Wiesel开展的猫实验,一直到李飞飞教授等人的成果。从本质上讲解了人工神经网络的原理及学习过程,对于想了解神经网络起源及发展历程的读者而言,是一篇较为合适的文章。
本文给出了数据科学应用中的十项统计学习知识点,相信会对数据科学家有一定的帮助。
本文是行业资深从事人员写的关于数据科学的个人反思,一份关于数据科学之路及科研认知的心路历程,相信本文对许多有抱负的数据科学家是非常有用的。
还在为找不到机器学习入门练手项目而感到无奈吗?本指南中,将给大家带来8个适合初学者学习的有趣的机器学习项目,简单易学,相信会增添大家学习机器学习的信心。
本文列举了一些常用的深度学习的训练技巧,对这些技巧进行简单的介绍并说明它们的工作原理。涉及范围广,适合深度学习各领域的研究者。
数据科学是一个热门的领域,本文介绍数据科学家目前使用的一些热门编程语言,主要是从通用性、性能等方面分析,想入门的或行业研究者可以参考并发表一下自己的观点哦。
本文使用TensorFlow一步一步生成对抗样本,步骤明确清晰。首先生成的对抗样本不具有旋转鲁棒性,后面使用同样的方法生成具有鲁棒性的对抗样本,适合初学者对生成对抗样本的入门及动手实验。
Vega是一种大数据可视化的高效工具,本文以分析游隼的迁徙情况为例,展示了Vega工具的强大能力及易学易用特点。
本文是一个kaggle数据处理的入门介绍,由Kaggle首席技术官Ben简单介绍以下2017年的NIPS 对抗学习竞赛数据的处理,用一个具体的代码实例介绍了如何生成目标对抗图像与非目标对抗图像,将对抗图像送入原先的分类器中,可以看到结果与原图大相径庭。
本文介绍Deep Breath团队在kaggle竞赛上取得第九名使用的方法,主要包括数据处理以及相关针对数据处理的不同网络架构的搭建,最后说明了kaggle竞赛的一些注意事项。
本文总结了J.P.摩根最新的280 页研究报告中的13亮点,极为详尽地梳理、预测了金融从业者未来都需要具备相关机器学习以及数据分析的能力,分析了金融行业的现状与未来,对于金融从业者以及想从事金融行业者具有重要的借鉴意义。
这篇博客主要介绍处理不平衡数据的技巧,给出了七种适用于特定问题及数据集的方法,避免由于数据集不平衡而得到的一个假的好模型。另外作者也指出本文不是一个技术列表,建议读者不局限于此、尝试结合不同的方法设计出合适的模型。
作者从目前热门的top 100 优秀深度学习论文中选取一组论文为大家进行纯干货总结,该组包含8篇经典论文,主要讲解卷积神经网络CNN的经典结构以及针对不同任务进行的结构上的改进。由浅入深的讲解,适合入门了解卷积神经网络的整体网络结构及发展过程——向着更深、复杂度更低的方向发展。
本文简单介绍基于相似问题数据的对称关系学习,通过在Quora数据集和StackExchange语料库上应用孪生卷积神经网络的结果表明,对称网络能够较大幅度地提高检测精度。