曾任职于阿里巴巴,现就职于美图,专业搬砖100年~
暂时未有相关通用技术能力~
阿里云技能认证
详细说明CSDN停止更新啦,欢迎大家关注我的Github https://github.com/chenguolin
本文转载自:http://lingxiankong.github.io/blog/2013/12/23/Python-setup/ 前言 其实对于setup.py和setup.cfg的关注是从OpenStack的源码包中开始的,OpenStack每个组件的发布时都是一个tar.gz包,同样,我们直接从github上clone代码后也会发现两个文件的存在。
1.简介 这篇文章主要是简单的介绍一下Spark应用如何在集群上运行, 更进一步的理解Spark所涉及到的相关主件 目前Apache Spark支持三种分布式部署方式,分别是standalone、spark on mesos和 spark on YARN 2.
1.简介 MapReduct框架从hadoop-0.23版本以后发生了重大的变革, 新的计算框架我们称为MapReudce 2.0 或者 YARN(Yet-Another-Resource-Negotiator) 这篇文章主要是简单的介绍YARN的架构, 因为后续我们都会使用YARN提交Spark程序 MapReduct 2.
1. 概览 这篇文章主要是关于Spark的快速熟悉和使用,我们使用Python和Spark的shell接口来操作Spark。 Spark shell使得我们可以很简单的学习Spark的Api,同时也是一个强大数据分析交互的工具。
基本环境: ubuntu 12.04 32位 一. 安装yarn伪分布式集群 1. 创建新用户 (1) 添加用户: sudo useradd -m hadoop -s /bin/bash (2)...
1. 什么是欠拟合和过拟合 先看三张图片,这三张图片是线性回归模型 拟合的函数和训练集的关系 第一张图片拟合的函数和训练集误差较大,我们称这种情况为 欠拟合 第二张图片拟合的函数和训练集误差较小,我们称这种情况为 合适拟合 第三张图片拟合的函数完美的匹配训练集数据,我们称这种情况为 过拟合 类似的,对于逻辑回归同样也存在欠拟合和过拟合问题,如下三张图 2. 如何解决欠拟合和过拟合问题 欠拟合问题,根本的原因是特征维度过少,导致拟合的函数无法满足训练集,误差较大。
1. 引言 回到线性回归模型中,训练集和代价函数如下图 如果我们还用J(θ)函数做为逻辑回归模型的代价函数,用H(x) = g(θ^T * x),曲线如下图所示 发现J(θ)的曲线图是"非凸函数",存在多个局部最小值,不利于我们求解全局最小值 因此,上述的代价函数对于逻辑回归是不可行的,我们需要其他形式的代价函数来保证逻辑回归的代价函数是凸函数。
1. 逻辑回归 监督学习中另一个问题为分类问题,常见的分类问题例子有 邮件是否是垃圾邮件,0表示垃圾邮件,1表示正常邮件 在线交易是否会欺骗用户,0表示会欺骗,1表示不会 患肿瘤患者是良性还是恶性,0表示恶性,1表示良性 这些问题,可以归之于二...
1. 正规方程 前面几篇文章里面我们介绍了求解线性回归模型第一个算法 梯度下降算法,梯度下降算法最核心的是找到一个学习速率α,通过不断的迭代最终找到θ0 ... θn, 使得J(θ)值最小。
1. 特征缩放 实际当我们在计算线性回归模型的时候,会发现特征变量x,不同维度之间的取值范围差异很大。这就造成了我们在使用梯度下降算法的时候,由于维度之间的差异使得Jθ的值收敛的很慢。
1. 假设函数 之前的几篇文章里面,我们都只是介绍了单维特征变量的线性回归模型,比如预测房价的时候,我们只用了房子的面积这个维度。 接下来我们会去研究多个维度的线性回归模型 还是从预测房价这个例子入手,假设我们现在不只是单纯的考虑房子的面积,还考虑了...
1.引言 虽然我们知道,代价函数Jθ的表达式,但是还不知道怎么去确定假设函数hθ(x)的所有参数θ0,θ1 ... θn,使得Jθ值最小。 我们还是假设hθ(x)是一个线性函数,并且只有2个参数θ0,θ1,对应特征向量x只有1维 我们的目标是使得J...
一. 引言 我们都知道,微信提供了多种登录的方式,包括手机端、电脑端以及web端。 web端的登录,我们用Python程序完全可以模拟出来~~(如果你不知道,那也没关系,稍微了解下Python request session即可) 而所谓的机器人实际上就是后台一个智能的程序,类似“微软小冰”,“iPhone siri”。
1.引言 当我们的训练集如下图1所示,可以假设hypothesis函数如图2 θ0和θ1我们称为hθ(x)函数的2个参数,h是x的函数,所以有时候也记着h(x) 对于这个已有的hypothesis,我们需要什么方法来评估这个假设函数的好坏呢? 因此我们定义了一个叫"代价函数"cost function 来评估当前hθ(x)函数 2. 代价函数 cost function也叫作loss function,就是对hθ(x)函数进行评估的一个函数。
一. 背景在机器学习中,有2个很大的思路监督学习(supervised learning)和非监督学习(unsupervised learning)监督学习,用通俗的话来说就是你知道问题的答案,需要计算机给出一个更标准的答案。
1. Cookie 介绍 HTTP 协议是无状态的。因此,若不借助其他手段,远程的服务器就无法知道以前和客户端做了哪些通信。Cookie 就是「其他手段」之一。
1. 结巴中文分词 结巴分词是国内程序员用开发的一个中文分词模块, 源码已托管在github, https://github.com/fxsjy/jieba 2.
文章转载自: 我爱自然语言处理 记得第一次了解中文分词算法是在 Google 黑板报 上看到的,当初看到那个算法时我彻底被震撼住了,想不到一个看似不可能完成的任务竟然有如此神奇巧妙的算法。
文章转载自: http://blog.sina.com.cn/s/blog_71d1a98701010s0v.html 1. open 函数 1). 功能描述: 用于打开或创建文件,在打开或创建文件时可以指定文件的属性及用户的权限等各种参数。
文章参考: http://www.cnblogs.com/forstudy/archive/2012/04/05/2433853.html 一. 进程和线程 进程 (1) 系统中程序执行和资源分配的基本单位 (2) 每个...
转载自: http://blog.chinaunix.net/uid-24185908-id-3052676.html 一. 进程和线程 进程是没有活力的,它只是一个静态的概念。
1. 基础1.1 ASCII码 我们知道, 在计算机内部, 所有的信息最终都表示为一个二进制的字符串. 每一个二进制位(bit)有0和1两种状态, 因此八个二进制位就可以组合出 256种状态, 这被称为一个字节(byte).
文章转载自:http://zhuoqiang.me/python-urllib2-usage.html Python 标准库中有很多实用的工具类,但是在具体使用时,标准库文档上对使用细节描述的并不清楚,比如 urllib2 这个 HTTP 客户端库。
文章参考http://blog.chinaunix.net/uid-26575352-id-3245476.html 1. leveldb简介 leveldb是google两位工程师实现的单机版k-v存储系统,具有以下几个特点 1.
转载自: http://www.cnblogs.com/zhj5chengfeng/archive/2013/06/23/3150620.html 本文是笔者使用 Ubuntu 操作系统写的第一篇文章!参考了红黑联盟的这篇文章:Ubuntu 12.
文章转载自: http://www.renfei.org/blog/introduction-to-cpp-string.html 1. 运算符重载 a.
文章转载自: http://blog.csdn.net/monkey_d_meng/article/details/5901392 C++中指针申请和释放内存通常采用的方式是new和delete。
文章转载自:http://www.ruanyifeng.com/blog/2010/06/ieee_floating-point_representation.
今天的算法题是关于 字符串的最小编辑距离问题求解。 1. 什么是字符串编辑距离 编辑距离(Edit Distance),又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。
文章转载自:http://www.yangyanxing.com/?p=1079 1. requests介绍 早就听说requests的库的强大,只是还没有接触,今天接触了一下,发现以前使用urllib,urllib2等方法真是太搓了…… ...
文章转载自: http://blog.binux.me/2013/09/howto-crawl-web/1. HTTP协议 WEB内容是通过HTTP协议传输的,实际上,任何的抓取行为都是在模拟浏览器的HTTP请求。
声明:算法学习来自,7月算法,面试&算法&机器学习&找工作就上七月算法 1. 今天学习的算法是 LCS,最长公共子序列,属于典型的动态规划基础题。 十分钟搞定LCS 学习视频:http://julyedu.
题目:假设公司有30w人,每个人编号从1~30w。现在公司举办年会,要求随机10w个人出来做为中奖的员工。 分析:30w人随机10w人,利用rand函数即可,但是考虑到随机数有可能重复,加个set去重即可。
转载自: http://www.cnblogs.com/ngnetboy/archive/2012/11/23/2784078.html 相信只要是程序猿都会知道rand()函数是用来取随机数的一个库函数,但是它出的结果真的是一组随机数吗?我们来看看...
转载自: http://python.jobbole.com/81215/ 本文中,我们将进行大量的编程——但在这之前,我们先介绍一下我们今天要解决的实例问题。
面试题目: 给定一个数n,求1*2*3*...*n 结果中末尾0的个数。 1. 我们先看一个特殊的例子,假设n是100的情况下。 根据题目的意思,我们需要求的是1*2*3*...*100的结果中末尾0的个数。
转载自: http://blog.csdn.net/apull/article/details/5379819 一、获取日历时间 time_t是定义在time.h中的一个类型,表示一个日历时间,也就是从1970年1月1日0时0分0秒到此时的秒数,原型是: typedef long time_t; /* time value */ 可以看出time_t其实是一个长整型,由于长整型能表示的数值有限,因此它能表示的最迟时间是2038年1月18日19时14分07秒。
第一种: date +%s | sha256sum | base64 | head -c 10 解释: date +%s -- 当前时间戳 date +%s | s...
文章转载自: http://blog.sina.com.cn/s/blog_58c3f7960100uttl.html 一. tr命令简介 1. 通过使用 tr,您可以非常容易地实现 sed 的许多最基本功能。
有一道面试题: 给定n个整型数,怎样让这n个数的使用空间最小。 ok,我们都知道在32位的机器下,int类型的数占4个字节,因此n个数总的使用空间应该是4n。
题目链接: Binary Tree PostOrder Trveral 题目意思: 给定一棵二叉树,求后续遍历序列 代码: /** * Definition for binary tree * struct TreeNode { * ...
文章转载自: http://blog.csdn.net/hguisu/article/details/7962350 1.单词——文档矩阵 单词-文档矩阵是表达两者之间所具有的一种包含关系的概念模型,图3-1展示了其含义。
题目链接: Linked List Cycle II 题目意思: 给定一个链表,如果链表有环求出环的起点,否则返回NULL 解题思路: 1. 判断链表是否有环: 两个指针,一个一次走一步,一个一次走两步,如果指针相遇说明有环,否则无环。
题目链接: linked List Cycle 题目意思: 给定一个链表,判断链表是否有环 代码: /** * Definition for singly-linked list.
题目链接: Reorder List 题目意思: 给的一个链表,要求对链表重新排序。 例如L0->L1->L2....
文章转载自: http://www.ibm.com/developerworks/cn/linux/l-cn-screen/ 开始使用Screen 简单来说,Screen是一个可以在多个进程之间多路复用一个物理终端的窗口管理器。
题目链接: Binary Tree Preorder Traversal 题目意思: 给定一个二叉树根节点,求前序序列 代码: /** * Definition for binary tree * struct TreeNode { * ...
题目链接: Sort List 题目意思: 给定一个链表头结点,在O(nlogn)时间内进行排序 分析: 比较排序下限是O(nlogn),可以选择归并排序解决(事实证明,快速排序会TLE) 代码: /** * Definition for singly-linked list.
题目链接: Insertion Sort List 题目意思: 利用插入排序,对链表排序 代码: /** * Definition for singly-linked list.