架构,数据库相关专家
暂时未有相关通用技术能力~
阿里云技能认证
详细说明消息队列 https://www.zhihu.com/question/34243607 未完待续
我的博客即将入驻“云栖社区”,诚邀技术同仁一同入驻。
对象存储、款存储、文件存储的区别
因为马上要去杭州,杭州房价去年涨的太厉害了,现在政策比较多看不清杭州房价的形式,所以想写个爬虫将杭州房产的交易信息做个记录。
参考官网地址: https://www.postgresql.org/download/linux/redhat/ 之后更改postgresql.
import time from datetime import datetime #52 今天是52周 print(time.
最近为了爬取自己想要的东西,又开始回忆起了python爬虫。 首先,需要找到登录页面的url。
在开始制作爬虫之前,必要的知识储备是必须的。下面就对基本的知识和工具做些总结. 推荐网页: https://www.
最近打算抓取公司内部PPT模板库中的PPT,发现被各种安全屏蔽。因为好久没写程序了,因此写几个例子回顾下基本的爬虫知识 目标网址巴比特的登录页面 http://8btc.
在写爬虫的过程中遇到如下错误: WinError 10061 - No Connection Could be made 解决方法: 1.
当函数的参数不确定时,可以使用*args 和**kwargs,*args 没有key值,**kwargs有key值。
vim $PGDAT/postgresql.conf 将wal_level = archive(or hot_standby); 开启archive mode,archive_mode =...
官方参考文档: http://spark.apache.org/docs/2.1.0/sql-programming-guide.
flink和spark的异同: https://www.zhihu.com/question/30151872 presto 还是hive? http://geek.
联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。
项目流程
Spark官方网站 http://spark.apache.org Spark通用性解释 Spark的特点 官方网站都有。
官网:hive.apache.org 首先,Hive是数据仓库。可以用类SQL的语言来跑MR,可以理解为Hadoop的客户端。
序列化是把对象变成二进制的过程 反序列化是将二进制变成对象的过程 由HDFS中读取数据片段,一个数据片段对应着一个map线程 分为四个步骤:如图。
注意secondaryname node 不是name node的备份,仅仅备份了一部分的元数据,不是实时备份。
YARN是Yet Another Resource Negotiator的简称,它仍可认为采用了master/slave结构,总体上采用了双层调度架构,它主要以下几部分组成: Re...
HBase 是hadoop的数据库(数据量大,实时),目标是存储并处理大型的数据,具体来讲是用普通的硬件资源,就能处理成千上万的行和列所组成的大型数据。
数据库:传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。 数据仓库:数据仓库系统的主要应用主要是OLAP(On-Line Analytical Processing),支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
好久没有看多线程了把基础都快忘了,今天突然想复习一下. 在很久很久以前,操作系统处理问题都是单任务的,我想做听音乐和看电影两件事儿,那么一定要先排一下顺序。
数据分析要求会hadoop的越来越多,所以课余时间搞起来看看 前提是hadoop集群安装成功. 两台虚拟机的IP地址如下: master: 192.168.1.100 slave: 192.168.1.101 大数据与云计算的关系 大数据的本质就是利用计算机集群来处理大批量的数据,大数据的技术关注点在于如何将数据分发给不同的计算机进行存储和处理。
手动导入一天的数据 # -*- coding:utf-8 -*- #__author__ = 'ecaoyng' # date : 20170627 from optparse import...
基本指标的定义 开盘价,指某种证券在证券交易所每个营业日的第一笔交易的成交价格。 交易日,指开放式基金销售机构在规定时间受理投资者申购、转换、赎回或其它业务申请的工作日。
忘了,举个例子记录下 import pandas as pd import numpy as np df=pd.
collections模块自Python 2.4版本开始被引入,包含了dict、set、list、tuple以外的一些特殊的容器类型,分别是: OrderedDict类:排序字典,是字典的子类。
首先升级pip 虽然提示说已经升级,但是查看版本还是发现不对,随即进入C:\Python34\Lib\site-packages 查看已经存在9.0.1的版本,怎么办?将其移除,重新升级 安装lxml lxml是解析网页用的,scrapy依赖于它,它是一个第三方的库,这里推荐一个Python第三方库的网站http://www.lfd.uci.edu/~gohlke/pythonlibs/,里边都是编译好的,windows下python使用者的福利。
classmethod:类方法 staticmethod:静态方法 在Python中,静态方法和类方法都是可以通过类对象和类对象实例访问。
Python的hasattr() getattr() setattr() 函数 # hasattr(object, name) # 判断一个对象里面是否有name属性或者name方法,返回BOOL值,有name特性返回True, 否则返回False。
由于经常关注经济与金融,除了老本行IT之外,总结些许金融名词如下,望能为自己和各路小白们解惑. 股票市场:是已经发行的股票按时计价进行转让、买卖和流通的市场包括交易所市场和场外交易市场,又称为二级市场。
P 代表自定义的property m 代表函数method f 代表init中定义的属性和内置函数
Python中有一个被称为属性函数(property)的小概念,它可以做一些有用的事情。在这篇文章中,我们将看到如何能做以下几点: 将类方法转换为只读属性 重新实现一个属性的setter和...
# python 内置变量 # 以字典方式返回内置全局变量 print(vars()) # __doc__ :获取文件的注释 ''' __doc__ :获取文件的注释 ''' print(__...
内嵌函数 def outer(): x = 1 def inner(): print('In inner') print(x) print(locals()) inner() # 若inner调用没有写在这里,inner函数仅仅被声明 b=outer() outputs: In inner 1 {'x': 1} 以上代码看起来有些复杂,但它仍是易于理解的。
python引用变量的顺序: 当前作用域局部变量->外层作用域变量->当前模块中的全局变量->python内置变量 。
编程分为两类:系统编程(system programming)和应用编程(application programming)。
迭代器(iterator) def add(s, x): return s + x def gen(): for i in range(4): yield i base = gen() for n in [1, 10]: base = (add(i, n) for i in base) print list(base) 这个东西输出可以脑补一下, 结果是[20,21,22,23], 而不是[10, 11, 12, 13]。
变量 #!-*-coding:utf-8-*- #__author__ = 'ecaoyng' # # 变量 #_xxx,单下划线开头的变量,标明是一个受保护(protected)的变量,原则上不允许直接访问,但外部类还是可以访问到这个变量。
2017-3-09 代码如下. 必须加上head否则无法抓取. # -*- coding:utf-8 -*- import urllib.
urllib 方式1:(推荐,因为有一个request实例) #!-*-coding:utf-8-*- import urllib.
95%置信区间(Confidence Interval,CI):当给出某个估计值的95%置信区间为【a,b】时,可以理解为我们有95%的信心(Confidence)可以说样本的平均值介于a到b之间,而发生错误的概率为5%。
统计结构总结 如何在excel中计算次方 =power(5,20) =5^20
字符串前加r ‘r’是防止字符转义的 如果路径中出现’\t’的话 不加r的话\t就会被转义 而加了’r’之后’\t’就能保留原有的样子 在字符串赋值的时候 前面加’r’可以防止字符串在时候...
营销: SWOT:Strength, weakness, opportunity, threat 管理: 5w2H: who,where,when,what,why,how,how much SMART绩效管理: 1.
#-*- coding: utf-8 -*- #逻辑回归 自动建模 import pandas as pd #参数初始化 filename = 'C:/Users/ecaoyng/Deskt...
数据清洗 缺失值处理: 拉格朗日插值法(当插值节点增加或删除时插值多项式也会变化) #拉格朗日插值代码 import pandas as pd #导入数据分析库Pandas from scipy.
参考网址: http://blog.csdn.net/panda1234lee/article/details/52311593 http://liam0205.