大数据生态圈,计算机视觉,机器学习,高端技术的爱好者,话不多说,上代码!!!
暂时未有相关通用技术能力~
阿里云技能认证
详细说明大数据AI系统解决方案与技术架构针对日益场景的机器学习系统从设计模式、解决方案,逻辑架构出发给出最终落地实现的技术架构与深入思考。
本专栏《大数据处理实践探索》 通过记录基于Python 的大数据处理实践探索案例,力图将大数据与机器学习相结合 产生新的实践落地思路。 网络上的大数据相关博文多是基于java 或者Scala ,本专栏的目的在于 基于python 将大数据(pyspark、 Elasticsearch、sklearn …),数据开发,与数据分析相结合。 并在实践内容上给出一定指导,最后本专栏特地针对笔试面试高频题方面给出了分享,希望能够在找工作时候帮助到大家。
健康是人类永恒的主题也是社会进步的重要标志,健康已成为新世纪人们生活的基本目标。大健康产业具有巨大的市场潜力,未来在我国经济结构向服务业转型过程中,大健康产业将成为我国国民经济支柱型产业
随着人工智能的快速发展,自然语言处理和机器学习技术的应用愈加广泛。为使大家对该领域整体概况有一个系统、明晰的认识,同时入门一些工程实践,也借CSDN为NLP的学习,开发者们搭建一个交流的平台。我希望能够通过这个专栏《自然语言处理实战入门》和广大NLP爱好者一起学习自然语言处理技术,分享学习资料,打破NLP 技术 的实战应用壁垒。
最近想做一个简单的地理位置分析,比如获取一些城市公交站点对应的geohash,geohash其实是将平时常见的经纬度进行了降维,这样可以进行类似附近的餐馆等内容的分析。 1.
2017年钟声敲响的时候,人们总是习惯于性质勃勃地写下一张全年的to do list:例如读完800本书,买个大房子等等。立志之后,就陷入到忙忙碌碌的新一年中,上班扎进电脑和手机,下班一头扎进被子,直到猛一抬头发现2017年只剩几天。
以下观点不保证客观,仅一家之言,如存在异议,诠做笑谈。 1. 时间成本 算法工程师通常要求硕士学历,而攻读硕士的三年时间就成为了成本。互联网圈有一万小时理论,任何技术要精通,需三年的积累。
12 Integer to Roman 13 Roman to Integer 有可能不注意的结果: class Solution { public: /* 1、相同的数字连写,所表示的数等于这些数字相加得到的数,如:Ⅲ = 3; 2、小的数字在大的数字的右边,所表示的数等于这些数字相加得到的数, 如:Ⅷ = 8;Ⅻ = 12; 3、小的数字,(限于Ⅰ、X 和C)在大的数字的左边,所表示的数等于大数减小数得到的数,如:Ⅳ= 4;Ⅸ= 9; 4、正常使用时,连写的数字重复不得超过三次。
很久没有更新图形图像处理方面的博客了,最近在培训数据发掘方面的技术,就把学到的东西和大家分享下。 1. 压箱底的资料 还有一些平时收集 的压箱底的资料拿出来和大家分享下: IPOL —-经典计算机视觉算法的c实现 http://www.
看到一副图片挺有意思,放在片头 序 “傍晚小街路面上沁出微雨后的湿润,和煦的西风吹来,抬头看看天边的晚霞,嗯明天又是一个好天气。走到水果摊旁,挑了个根蒂蜷缩、敲起来声音浊响的青绿西瓜,一边满心期待着皮薄肉厚瓤甜的爽落感,一边愉快地想着,这学期狠下了工夫,基础概念弄得很清楚,算法作业也是信手拈来,这门课成绩一定差不了!” 上面的经验是靠我们人类自身完成的,计算机能帮忙么?机器学习正是这样一门学科,它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。
绪论 计算机视觉是一门通过研究使用计算机来模拟人的视觉系统的学科。“一图胜千言”,人类对于图像中的信息感知效率远超文字等其他媒介,人类获取的信息总量中更是有高达80%依靠视觉系统[1]。
作者:一人 2013年9月7号,我和母亲两个人到达了西安,我一手拉着箱子,上面放着本科时候用的旧褥子被子,母亲手提着放满衣服的提包,两个人穿梭于林立的高楼当中。母亲看护行李,我办理手续,直到下午很晚的时候,才在城西送母亲坐上了回家的大巴车。
leetcode 主要是一个针对北美的coder人群找工作的代码练习网站,我在2015年初次接触这个网站的时候,总共只有200多道题目,是一个类似acm 的a题网站。这些年变化越来越大,主要是因为找工作当然是多样化的考核过程,leetcode 也逐渐与时俱进,推出了下面几个类别的联系,今天我们随便挑几个练习一下: 175.
目前对中文分词精度影响最大的主要是两方面:未登录词的识别和歧义切分。 据统计:未登录词中中文姓人名在文本中一般只占2%左右,但这其中高达50%以上的人名会产生切分错误。在所有的分词错误中,与人名有关的错误占到了将近90%,这中国人名都是根据人的想法起的名字,有很大的随意性,并且数量巨大,规律也不尽相同。
作者:一人 1.深度神经网络对于任何领域都是适用的 深度神经网络(Deep Neural Networks, DNN)在过去的数年已经在图像分类、语音识别、自然语言处理中取得了突破性的进展。
只有奄奄一息过,那个真正的我,他才能够诞生。 —- 题记 1.Life is about growing, learning, and being a better person. 简要回顾这半年来,工作生活的经历,总体来说往返于西安与北京之间。
昨天在北理工参加了一场由 雪晴数据网和北京理工大学大数据创新学习中心联合举办的知识图谱分享活动,聆听了一下午报告,可谓是受益匪浅。一下午时间安排的非常饱满,总共三场报告。 不得不说首都的学校就是厉害啊,楼都这么漂亮。
作者:黄永刚 ML Phase II: 特征工程 第一阶段介绍了机器学习的一个周期,为学习系统获取训练数据,通过有趣的引导设计指标,创建一个服务框架。在有了一个完整系统之后,就进入了第一阶段。
1.使用python fabric进行Linux基础配置 使用python,可以让任何事情高效起来,包括运维工作,fabric正式这样一套基于python2的类库,它执行本地或远程shell命令提供了操作的基本套件(正常或通过sudo)和上传/下载文件,如提示用户输入运行辅助功能,或中止执行。
作者:郭少雷 搞android搞了几年也没搞出个啥牛逼app出来,眼看时下最火的app微信如此火热,实在想搞搞它,索性就想着给它加点东西进去。 以下内容纯属本人个人爱好,仅限个人学习android用途以及对android的深入了解。
1.题目描述 Given n non-negative integers a1, a2, ..., an, where each represents a point at coordinate (i, ai).
我们在做数据分析,清洗的过程中,很多时候会面对各种各样的数据源,要针对不同的数据源进行清洗,入库的工作。当然python这个语言,我比较喜欢,开发效率高,基本上怎么写都能运行,而且安装配置简单,基本上有网的环境pip install全部都搞定,没网的话,把whl包copy过来一行命令也就解决了( windows下python3.5使用pip离线安装whl包)。
我记得hongyang大神说,当你觉的不满意的时候,那么你的机会来就了。 《创业:我们创什么》这本书,很好的诠释了这个观点,全书围绕时下最火的创业点,各个行业的风口,进行了一一剖析。
周鸿祎个人简介: 周鸿祎这个人比较有争议,如果不是他,中国互联网的免费文化可能还不会像今天这样,免费,共享等等概念满天飞。 周教主的核心理念是说,如果使用软件的用户足够多,那么软件成本分摊到每位用户就是近似免费的,而软件完全可以通过赞助商,广告商的出资抵消这部分成本费用。
张大志著 书有历史了,在我上大学的时候,雷总就看了这本书。如果能在上学期间就接触到书中关于工作选择的内容,那么就可以早早的有的放矢,成为企业需要的人才,并且最重要的是避免被企业忽悠!。
本文最早原创首发于公众号:老王和他的IT界朋友们 原文地址: https://mp.weixin.qq.com/s?__biz=MzIyMDQwNzc5MQ==&mid=2247484146&idx=1&sn=7fd4c13f7f5ac4e708c604124f8920a9&...
Sqoop是一个用来将hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如:mysql,oracle,等)中的数据导入到hadoop的HDFS中,也可以将HDFS的数据导入到关系型数据库中。
作者:黄永刚 Practical machine learning tricks from the KDD 2011 best industry paper 原文链接:http://blog.
第十三章 全文检索 这一章开始介绍 全文检索 :怎样对全文字段(full-text fields)进行检索以找到相关度最高的文档。 全文检索最重要的两个方面是: 相关度(Relevance) 根据文档与查询的相关程度对结果集进行排序的能力。
最近代码写的少了,而leetcode一直想做一个python,c/c++解题报告的专题,c/c++一直是我非常喜欢的,c语言编程练习的重要性体现在linux内核编程以及一些大公司算法上机的要求,python主要为了后序转型数据分析和机器学习,所以今天来做一个难度为hard 的简单正则表达式匹配。
在Docker – 系统整洁之道 – 1中已经对Docker的一些命令和Docker镜像的使用及操作做了记录。 这次就利用docker进行一次真正的实例使用,使用docker搭建一个简单的答题系统,这个系统是当时做来给网络安全周做手机答题的系统,很简单,代码风格很差。
在上文Docker – 系统整洁之道 – 0中已经对Docker是什么,安装Docker以及怎么运行一个简单的容器有了初步了解,这篇文章介绍Docker的一些命令和Docker镜像的使用及操作。
在我的小 rmbp 256G的硬盘里,实在是装不下100多个G的虚拟机了,所以想把一些东西迁移到这两年很火的Docker下,Docker以前也有过一两次,只是按着别人给的用法用的,具体的一些细节并没有深入,和git一样,这么牛掰的东西怎么能不好好学一些呢? Docker和虚拟机的区别 Docker是一种容器,虚拟机是一种管理程序虚拟机化(hypervisor virtualization,HV)。
《读书报告 – Elasticsearch入门 》 ' 第四章 分布式文件存储 这章的主要内容是理解数据如何在分布式系统中存储。 4.1 路由文档到分片 创建一个新文档时,它是如何确定应该存储在分片1还是分片2上的呢? 这个过程不是随机的,因为将来要检索文档。
0. 绪论 Windows离线断网环境下安装Python包,配置环境,准备用来生成word模版。姑且记录一下 生产环境 : windows 7 windows10 python 3.
0. 绪论 断网的环境下配置python开发环境非常讨厌,本文旨在优雅暴力的解决这一问题。 生产环境 : windows 7 windows10 python 3.
《读书报告 – Elasticsearch入门 》 第一章 Elasticsearch入门 Elasticsearch是一个实时的分布式搜索和分析引擎,使得人们可以在一定规模上和一定速度上实现数据检索,常用于全文本检索,结构化检索、分析以及三种的结合应用。
0.序言 项目主要使用oracle但是我不太喜欢其他编程语言,加上可能需要用python部署算法包,从oracle表中读出数据,处理完成后在放回oracle中去,所以在windows上就想到先用python试一下,自然搜到了cx_oracle(一个按照Python DB API的oracle的实现,如MySQL、PostgreSQL等,只需要安装相应的软件包即可,流程及操作接口都与cx_Oracle基本一致),下面就简单解释一下怎么用这个包进行增删改查。
绪论 最近做课题,需要分析短文本的标签,在短时间内学习了自然语言处理,社会标签推荐等非常时髦的技术。我们的需求非常类似于从大量短文本中获取关键词(融合社会标签和时间属性)进行用户画像。
上次写了CDH安装测试总结,由于那个博客篇幅略长, 但是主要集中在第二章,所以单独把CDH安装、卸载这块的内容拉出来在一篇记录一下。 一.搭建远程yum源 1.启动http服务: service httpd start 2.
1.HiBench算法简介 Hibench 包含9个典型的hadoop负载(micro benchmarks,hdfs benchmarks,web search bench marks,machine learning benchmarks和data analytics benchmarks) 具体参考CDH集群安装&测试总结:第三节内容 micro benchmarks Sort:使用hadoop randomtextwriter生成数据,并对数据进行排序。
作者:黄永刚 mermaid简介 当撰写文档的时候,对于流程图的生成大多使用Visio等繁重的工具,没有一种轻便的工具能够画图从而简化文档的编写,就像markdown那样。
这是最好的时光 这是最坏的时光 v0.1.1.1 1.2 学校的生活二三事之大学 话说上一回,扯了一下我青涩的少年往事,大家反响不一,有叫好的,有吐槽的,有字字码过的,也有一目十行的。
0.绪论 本文打算写个三部曲。想想还是算了,毕竟工作这么忙。 王小波说过,一个人只拥有此生此世是不够的,他还应该拥有诗意的世界。 现在的年轻人喜爱电影,而这个第七门艺术作为一种生活方式,渗透到了我们每个人的日常。
这个年头忍一时不见得风平浪静,退一步未必海阔天空。与其忍让不动,不如我行我素,反正得失寸惜之,苦乐独我尝 ———-《新龙门客栈》 据说艺术史上最穷苦潦倒的形象非梵高莫属,他活着的时候画作鲜有买家,终日处于创作的疯癫状态。
0.绪论 之前完全没有接触过大数据相关的东西,都是书上啊,媒体上各种吹嘘啊,我对大数据,集群啊,分布式计算等等概念真是高山仰止,充满了仰望之情,觉得这些东西是这样的: 当我搭建的过程中,发现这些东西是这样的: 对于初学者来说,我认为缺点如下: 1.需要控制,配置的东西太多,并且配置对应并不是很清晰(以后优化集群是否会有很高含金量?) 2.整个集群,我觉的从硬件到软件整体来说还是稳定性有待提高,尤其CDH 集群这块一会这个主机失去联系,一会NameNode挂,一会monitor挂,整个使用过程就是在不断的挂,看日志,挑错。
突然看到去年找的关于《理想工作环境》的相关资料,现在贴出来分享给大家。这个源于一个面试题, 忘了是哪家公司问我,你心中理想的工作环境是怎样的,我一时语塞,甚至从来没有考虑过这样的问题。
最近做一些集群的测试的工作,做服务器测试最根本就是要安装系统,曾经我们用十几个光驱并行安装光驱的日子过去了,自从有了pxe一两天搭建好一个集群不是梦!当然做多了集群的搭建工作最多的感受就是,其实运维工作谁都能做,关键是效率高不高的问题,pxe装机这个东西就是能极高提升我们效率的工具,下面我来分享一下整个搭建过程。
Spark相关知识点 1.Spark基础知识 1.Spark是什么? UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架 dfsSpark基于mapreduce算法实现的分布式计算,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。