暂时未有相关云产品技术能力~
暂无个人介绍
题记:docker环境部署的时候,有过运行失败及网络不可用等各种问题,以下命令都是摸索出来的。
题记 项目的需要需要在python3下部署环境,且不能破坏python2的正常业务运行。 当安装sqlite3的时候,出现过各种异常。网上排查了很久。 记录下来,避免下次犯同样的错误。
1、需求:文档格式转换批量脚本实现。 技术点1:文档分散在同一路径下。 技术点2:显示转换进度。 技术点3:每个转换输出到文档同名的指定文件夹下。 前提:单个格式转换已经验证ok。
1、题记 近几年,Elasticsearch(以下简称ES)作为开源的搜索引擎已经在国内得到越来越多的应用推广,在日志分析领域应用场景尤为广泛。传统的数据库Mysql、Oracle或者非关系型数据库Mongo作为基础存储的企业要想实现业务数据的全文检索,该如何实现呢? 本文给出架构设计和实现原理。
1、ES5.4.0 IK分词安装步骤 步骤1:下载最新版的ik插件 地址:https://github.com/medcl/elasticsearch-analysis-ik 步骤2:解压elasticsearch-analysis-ik-master.zip unzip elasticsearch-analysis-ik-master.zip 步骤3:修改ES版本号。 修改pom.xml,最新(20170622)是5.4.2, 改为5.4.0 步骤4:执行mvn package 步骤5:在/opt/elasticsearch/plugins下新建ik文件夹。
1、环境 CentOS release 6.7 (Final) 已安装:openoffice4.1.3, jodconverter.2.2.2。
1、ES5.4.0安装包下载地址 https://www.elastic.co/downloads/past-releases/elasticsearch-5-4-0 2、Centos6.7 Elasticsearch5.4.0安装
#1、题记 之前应用都是Elasticsearch单节点,随着业务的拓展、数据量的增多,部署分布式Elasticsearch刻不容缓。 本文以Elaticsearch2.3.4版本为基础,讲解Elasticsearch三个节点的分布式部署、核心配置的含义以及分布式部署遇到的坑。 #2、三节点 Elasticsearch 分布式部署。 ##步骤1:配置好主节点Master信息。
0、题记 之前Elasticsearch的应用比较多,但大多集中在关系型、非关系型数据库与Elasticsearch之间的同步。以上内容完成了Elasticsearch所需要的基础数据量的供给。但想要在海量的数据中找到和自己相关的业务数据,实现对已有的数据实现全文检索、分类统计等功能并应用到业务系统中,必须借助Java API来实现。
题记 ES除了做TB级日志分析外,越来越多的被企业用来用作数据存储。但是,传统企业里面,数据存在关系型数据库Mysql,oracle中,或者存储在非关系型数据库Mongo中。
引言 本文主要讲解Mongodb的类型转换。包括:string转double, string转int, string转Date。
1、ES性能测试 要求: 1)完成ES并发100次性能测试; 2)统计得出访问时间结果值。
题记 在mysql,oracle等关系型数据库中,可以通过表之间的关联操作(join, left join, and)实现字段之间的关联操作。 而在mongo非关系型数据库中没有对应的接口。 为此,我们自身实现了1个Mongo db库中的多个collection之间的类笛卡尔操作。(这种需求,多少有些不合理)
1、定时监测服务状态需求
0、题记 项目中使用mysql作为数据存储,需要定期将库表中的数据按照给定格式生成报表。根据导出周期的不同分为:日报、周报、月报、季报、年报等格式。
本文主要讲解Elasticsearch下实现索引迁移的几种方式。 #0、引言
本文主要实现将Elasticsearch中的索引数据Index同步到Mongodb中的集合collection中。
本文主要讲解如何通过logstash-output-mongodb插件实现Mysql与Mongodb数据的同步。源数据存储在Mysql,目标数据库为非关系型数据库Mongodb。
0、logstash-output-mongodb用途 Writes events to MongoDB,也就是向mongodb里面写入数据。 来源可以是:jdbc类的Mysql、oracle关系型数据库;也可以是Elasticsearch等。 后续的同步应用中会用到该插件,所以单独列出来。并且,默认logstash不安装该插件,需要手动安装。
题记:本文主要罗列了在Centos6.8下安装oracle11g企业版中的步骤及遇到的坑。
0、题记 项目实战中我们会遇到数据库选型的问题,有时会需要将已有Mysql数据库中的数据库全部同步到Oracle数据库中。
题记 本文主要介绍Mysql数据库表中,如何删除相同索引值、更新日期较早的记录行。
0.背景 实际开发环境中,前端程序需要在给定时间段内,将数据更新/插入到mysql指定的库表中。随着数据量的增多,基础库表基数的增长,每更新一次都会有5s左右的卡顿。
0、引言 实际应用开发中遇到:将非格式化的文件数据存储到数据库中。对于传统的格式化的数据:ini/json/xml我们都有现成的类库去实现。而对于如下非格式化的数据呢?以下是我的思考与实现。
0.引言 偶然的原因用了Gephi画关系图,并解决了其中遇到的一些问题。Gephi在大数据绘图方面的优势和可视化效果非常震撼,特总结备忘如下。
题记 windows平台下对于服务器高并发的网络模型选型中,使用libevent是个不错的选择。 本文的背景基于:国内博客对于libevent大多介绍linux实现,大多是c语言的实现,Windows平台下C++相对较少或者较旧。 本文针对libevent从服务端、客户端两个角度实现了封装类,真正做到,我们在使用封装类时候,只需要关注业务逻辑的处理,不需要关注socket的通信的细节。
引言 项目中使用Mysql经常会遇到修改编码格式、导入sql、导出sql、windows授权、查看删除死锁进程等操作。 特总结如下:
1、需求 采集任务构造入库。实现200多个网站的标题、时间、内容等信息的采集信息配置,并插入mysql中
引言 公司中的开发一般是沿着一种核心开发语言如Java、C/C++、PHP进行相关开发。但由于产品新需求、项目新需要,免不了会使用自己不擅长的语言开发。甚至,现在全栈工程师也比比皆是。对于经验不丰富的职场人,如何开展工作呢? 结合我近期的项目经历,我说下我的经验和教训。
1. Zeppelin简介 ApacheZeppelin 是基于Web的Notebook,支持交互式数据分析。您可以使用SQL,Scala等创建漂亮的数据驱动,交互式和协作文档。(直译,有点别扭) 说白了,就是为关系型数据库、ES等的可视化呈现解决方案。
0. 背景 分布式部署程序的时候,近20台机器部署了同样的环境进行数据采集。 当更换程序时,能否修改好一套,其他机器只需要一步scp,一步执行脚本。 一键修改配置,正是本文的目的。
0. 前提: mysql5.6.6以上的版本以上的版本才支持单表指定目录,且目录权限是mysql:mysql。 在mysql中数据文件存放于在my.cnf中datadir指定的路径,使用的表引擎不同产生的文件格式、表文件个数也会有所差异。 mysql的表引擎有多种,表的扩展名也不一样,如innodb用“ .ibd”,archive用“.arc ”,csv用“.csv”等。
0、mysql数据库分区的由来? 1)传统不分区数据库痛点
[题记]:xpath难点 在使用scrapy做爬取网页的时候,规则的匹配是关键。如:sel.xpath(‘//ul[@id=”dirlist”]/li/dl/dt’)的正确配置。 如何进行xpath的正确配置呢? Scrapy shell交互终端是一个可供较快调试、验证配置结果的好工具。
一、什么是物理网卡和虚拟网卡? 图示如下:红色部分包含VMWare的为虚拟网卡。
Windows环境下的jsoncpp使用举例之前有讲述,详见: http://blog.csdn.net/laoyang360/article/details/46757751 Linux之前一直没有用过,第一次用,特备忘如下:
0、题记 之前自己也做过一个大数据方面的讲座,讲解大数据背景、大数据原理、Hadoop(MapReduce、HDFS、分布式)、NoSql非关系型数据库存储、大数据应用(微博来源追踪、微信jiankong等)。诚然,大型互联网公司早已很早布局云计算、使用大数据。 而中、小企业在大数据的浪潮下,也想分得一碗羹,这就遇到棘手的源头问题:大数据,数据从哪里来?
题记 之前对爬虫只是概念了解多,实战少。知道网上流行的有号称免费的八爪鱼等(实际导出数据收费)。 大致知道,所有爬虫要实现爬取网页信息,需要定义正则匹配规则。
1、题记 由于硬件服务器资源紧张,正常公司里面会有专门的服务器安装VMSphere,然后大家在上面装自己的windows/Linux虚拟机环境进行开发或测试。但是,现在我手头只有1台物理服务器,单纯的用作ES环境的开发,内存资源没有得到充分利用。 而当前正需要几台Windows7-64bit环境,所以,在Centos物理服务器上安装VMWare,然后再搭建Win764bit虚拟机成为当务之急。 之前一直没有在Linux环境下安装过VMware,第一次安装,发现很多坑。当然Google也发现好多解决方案,但都不全。索性,我将此详细整理下,以备后用。
题记: 之前项目中使用OTL连接操作Oracle数据库,对于Mysql有用,但没有总结。目前常用的两种连接方式:
题记 Elaticsearch的原理明白了以后,手头有很多不同类型的数据,如: 1)单条数据,如程序中自己构造的JSON格式数据; 2)符合Elasticsearch索引规范的批量数据; 3)日志文件,格式*.log; 4)结构化数据,存储在mysql、oracle等关系型数据库中; 5)非结构化数据,存储在mongo中; 如何将这些数据导入到Elasticsearch中呢?接下来,本文将逐个介绍。
1、需求点 1)输入:日志实时更新:当前日志表以秒级更新日志,每秒有多条日志更新。格式如下:
1. 前提 esrally的运行不会影响当前系统elasticsearch的一切正常业务。 2. 性能测试原理
0、前提 安装elasticsearch的最新版本,目前是2.3.4版本。 elsticsearch新增扮演的角色是:rally分析结果会存储到elasticsearch。
1、关于ES index存储在内存的问题? (1)早期ES1.X版本对ES索引存储介绍:
题记 elasticsearch性能测试研究了很久,自己想过通过批量导入数据,然后记录时间,统计CPU、内存等变化,计算得出某个性能指标。但显然,数据量起伏不定,非常不准确。 研究发现,github上提供了rally作为elasticsearch的性能测试工具,较好的解决了es性能测试问题。
1、需求: 获取微博网站ctg1_4188#”>http://d.weibo.com/102803_ctg1_4188-_ctg1_4188# 社会类媒体的名称信息。 构造成json格式,用于echart格式化显示。
Elasticsearch增、删、改、查操作深入详解
前言: logstash-input-jdbc实现mysql 与elasticsearch的解读之前博文已经解析。本次只是在原有的基础上,针对oracle特性部分做解读。
前言: 基于logstash-input-jdbc较其他插件的稳定性、易用性、版本和ES同步更新的特点,以下研究主要针对 logstash-input-jdbc 展开。 针对logstash-input-jdbc常见的几个疑难问题,部分问题也在git和stackoverflow进行了激烈讨论,以下统一给出验证和解答。