技术热爱者,坚信技术改变世界
并发:多个线程操作相同的资源,保证线程安全,合理使用资源 高并发:服务能同时处理很多请求,提高程序性能 (12306抢票,双十一) 关于高并发的一些基础的概念 CPU多级缓存 在Cache(高速缓存出现之后,系统变得更加复杂,高速缓存与主存之间的差异被拉大。
队列和广度优先搜索 岛屿的个数 给定一个由 '1'(陆地)和 '0'(水)组成的的二维网格,计算岛屿的数量。一个岛被水包围,并且它是通过水平方向或垂直方向上相邻的陆地连接而成的。
一般情况下,一秒之内相应时间复杂度的算法能解决的数据规模 时间复杂度实验 如何正确的判断算法的时间复杂度 时间复杂度实验:每次将数据规模提高两倍,看时间的变化,以此来验证算法的时间复杂度 以下为代码实例: 测试算法,分别为二分查找O(logN),查找最大值(O(N)),归并排序(O(NlogN)) package com.
分组分析,是指将客体(问卷、特征、现实)按研究要求进行分类编组,使得同组客体之间的差别小于各种客体之间的差别,进而进行分析研究的方法。其特点在于不依赖于原始资料分布的正常性假设,可以按任意规律分布,在分析既包括数量资料,又包括质量资料的混合资料时尤为重要。
import pandas as pd import numpy as np import scipy.stats as ss import matplotlib.
假设检验 检验统计量,根据数据的均值、方差等性质,将数据转换为一个函数,构造这个函数的目的是将这个数据转换为一个已知分布容易解决的格式 显著性水平一般用希腊字母a表示,0.05代表数据有95%的可能与已知分布一致。
单因子分析 单因素分析(monofactor analysis)是指在一个时间点上对某一变量的分析。目的在于描述事实。例如:师生年龄构成、性别构成,学生社会出身分布,学业成绩分布等。
读取数据 dataset split: (date_received) dateset3: 20160701~20160731 (113640),features3 from 20160315~20160630 (off_test) datese...
集成学习是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。 #准备数据 X,y = datasets.
信息熵 左式的信息熵较高,代表左式的不确定性更强,左式即指数据有三个类别,每个类别占1/3 右式的信息熵为0,是信息熵可以达到的最小值,代表数据的不确定性最低,即最确定 绘制决策树的决策边界 import numpy as np import matplotlib.
SVM的主要思想可以概括为两点: 它是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能。
在分类问题中,预测准确度如果简单的用预测成功的概率来代表的话,有时候即使得到了99.9%的准确率,也不一定说明模型和算法就是好的,例如癌症问题,假如癌症的发病率只有0.
logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,以胃癌病情分析为例,选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群必定具有不同的体征与生活方式等。
模型正则化 在多项式回归中如果degree过大,会造成过拟合的情况,导致模型预测方差极大,因此,我们可以使用模型正则化的方式来减小过拟合导致的预测方差极大的问题 即在我们训练模型时,不仅仅需要将预测的y和训练集的y的均方误差达到最小,还要使参数向量最小。
非线性方程的拟合,例如 y=x^2+0.5x+1 , 就是将x^2看作X的一个特征值 #准备数据 import numpy as np import matplotlib.
主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标(即主成分),其中每个主成分都能够反映原始变量的大部分信息,且所含信息互不重复。
梯度下降是迭代法的一种,可以用于求解最小二乘问题(线性和非线性都可以)。在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法。
简单线性回归 最小二乘法实现原理 最小二乘法公式 使用最小二乘法计算a、b的值,实现线性回归的拟合 # _*_ encoding:utf-8 _*_ import numpy as np class SimpleLinearRegres...
这次我们依旧使用digits数据集 准备数据 %%time import sklearn.datasets import numpy as np from sklearn.
邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。
先上张图 折线图 plt.plot(x,siny,label="sin(x)") plt.plot(x,cosy,color="red",linestyle="--",label="cos(x)") plt.
numpy是python的一个支持矩阵、向量运算的库,由于python自带的list不仅效率低,也不会将数组看作矩阵或者向量,因此在机器学习中,使用numpy来作为操作数组及矩阵的工具 numpy生成数组或矩阵 numpy.
注:该系列学习笔记均是本人学习慕课网实战视频Python3入门机器学习经典算法与应用的感想和心得,请支持正版 安装 我们搭建及其学习所需要的环境,可以使用名为ACACONDA的集成工具来进行一键安装,在Acaconda的官网下载安装后,可以得到 ...
注:本文所有示例均出自Markdown官方文档及github推出的mastering-markdown文档。 Markdown简介及作用 Markdown的官方文档是这样介绍Markdown的: Markdown is a way to style text on the web.