Python数据处理库pandas入门教程
pandas是一个Python语言的软件包,在我们使用Python语言进行机器学习编程的时候,这是一个非常常用的基础编程库。本文是对它的一个入门教程。
pandas提供了快速,灵活和富有表现力的数据结构,目的是使“关系”或“标记”数据的工作既简单又直观。它旨在成为在Python中进行实际数据分析的高级构建块。
# 入门介绍
pandas适合于许多不同类型的数据,包括:
*
Elasticsearch删除数据之_delete_by_query
es参考版本:elasticsearch:5.5
_delete_by_query会删除所有query语句匹配上的文档,用法如下:
curl -X POST "localhost:9200/twitter/_delete_by_query" -H 'Content-Type: application/json' -d'
{
"query": {
"match": {
"name": "测试删除"
}
}
}
'
查询必须是有效的键值对,query是键,这和Search API是同样的方式。
PostgreSQL内核扩展之 - ElasticSearch同步插件
背景介绍
Elasticsearch 是开源搜索平台的新成员,实时数据分析的神器,发展迅猛,基于 Lucene、RESTful、分布式、面向云计算设计、实时搜索、全文搜索、稳定、高可靠、可扩展、安装+使用方便。
PostgreSQL 是起源自伯克利大学的开源数据库,历史悠久,内核扩展性极强,用户
Java HashMap类源码解析(续)-TreeNode
由于TreeNode本身是红黑树的实现,所以在分析TreeNode的之前我还是摸了一篇算法导论里红黑树的读书笔记:算法导论——红黑树,从伪代码行数也可以看出完整的红黑树的插入和删除操作代码是很长的,下面源码分析部分的行数就更多了,所以所谓手写红黑树画个图分析下逻辑还行,手写代码估计要写死(滑稽)
TreeNode从JDK8开始引入,作用是当HashMap解决冲突的链表长度超过了8时,生成一个红黑树来加速查找和插入,这里树结构存在并不影响本身依然存在线性链表结构,意思是Node.next这个属性依然有效,所以说树替换了线性链表依然还是链表法解决冲突,只不过链表的实现策略换了。
Docker日志收集新方案:log-pilot
今天,我们将隆重介绍一款新的docker日志收集工具:fluentd-pilot。你可以在每台机器上部署一个fluentd-pilot实例,就可以收集机器上所有Docker应用日志。fluentd-pilot具有如下特性
一个单独fluentd进程,收集机器上所有容器的日志。
大数据分析的下一代架构--IOTA架构设计实践
IOTA的特点:
[x] 去“ETL”化
[x] 高效:时时入库即时分析
[x] 稳定:经过易观5.8Pb,5.2亿月活数据锤炼
[x] 便捷:支持SQL级别的二次开发和UDAF定义
[x] 扩充性强:组件基于Apache开源协议,可支持众多开源存储对接