
大数据的应用开发过于偏向底层,具有学习难度大,涉及技术面广的问题,这制约了大数据的普及。现在需要一种技术,把大数据开发中一些通用的,重复使用的基础代码、算法封装为类库,降低大数据的学习门槛,降低开发难度,提高大数据项目的开发效率。大数据在工作中的应用有三种:与业务相关,比如用户画像、风险控制等;与决策相关,数据科学的领域,了解统计学、算法,这是数据科学家的范畴;与工程相关,如何实施、如何实现、解决什么业务问题,这是数据工程师的工作。 数据源的特点决定数据采集与数据存储的技术选型,我根据数据源的特点将其分为四大类:第一类:从来源来看分为内部数据和外部数据;第二类:从结构来看分为非结构化数据和结构化数据;第三类:从可变性来看分为不可变可添加数据和可修改删除数据;第四类,从规模来看分为大量数据和小量数据大数据平台第一个要素就是数据源,我们要处理的数据源往往是在业务系统上,数据分析的时候可能不会直接对业务的数据源进行处理,而是先经过数据采集、数据存储,之后才是数据分析和数据处理。从整个大的生态圈可以看出,要完成数据工程需要大量的资源;数据量很大需要集群;要控制和协调这些资源需要监控和协调分派;面对大规模的数据怎样部署更方便更容易;还牵扯到日志、安全、还可能要和云端结合起来,这些都是大数据圈的边缘,同样都很重要。大快大数据平台(DKH),是大快公司为了打通大数据生态系统与传统非大数据公司之间的通道而设计的一站式搜索引擎级,大数据通用计算平台。传统公司通过使用DKH,可以轻松的跨越大数据的技术鸿沟,实现搜索引擎级的大数据平台性能。 DKH,有效的集成了整个HADOOP生态系统的全部组件,并深度优化,重新编译为一个完整的更高性能的大数据通用计算平台,实现了各部件的有机协调。因此DKH相比开源的大数据平台,在计算性能上有了高达5倍(最大)的性能提升。 DKH,更是通过大快独有的中间件技术,将复杂的大数据集群配置简化至三种节点(主节点、管理节点、计算节点),极大的简化了集群的管理运维,增强了集群的高可用性、高可维护性、高稳定性。 DKH,虽然进行了高度的整合,但是仍然保持了开源系统的全部优点,并与开源系统100%兼容,基于开源平台开发的大数据应用,无需经过任何改动,即可在DKH上高效运行,并且性能会有最高5倍的提升。 DKH,更是集成了大快的大数据一体化开发框架(FreeRCH), FreeRCH开发框架提供了大数据、搜索、自然语言处理和人工智能开发中常用的二十多个类,通过总计一百余种方法,实现了10倍以上的开发效率的提升。 DKH的SQL版本,还提供了分布式MySQL的集成,传统的信息系统,可无缝的实现面向大数据和分布式的跨越。DKH标准平台技术构架图
web开发安全框架中的Apache Shiro的应用前阶段就hadoop的分享了一些内容,希望对新手入门的朋友有点帮助吧!对于hadoop新手入门的,还是比较推荐大快搜索的DKHadoop发行版,三节点标准版还是值得拥有的(三节点的标准版是可以免费下载的,与付费版的目前功能一样,只是节点数量不同,对于新手而言三节点的够用了)。正在学习hadoop可以下载一下研究学习之用,也可以留言向我索要! 今天准备分享一下Apache Shiro 在web开发中的应用。shiro安全框架是目前为止作为登录注册最常用的框架,因为它十分的强大简单,提供了认证、授权、加密和会话管理等功能 。shiro能做什么?认证:验证用户的身份授权:对用户执行访问控制:判断用户是否被允许做某事会话管理:在任何环境下使用 Session API,即使没有 Web 或EJB 容器。加密:以更简洁易用的方式使用加密功能,保护或隐藏数据防止被偷窥Realms:聚集一个或多个用户安全数据的数据源单点登录(SSO)功能。为没有关联到登录的用户启用 "Remember Me“ 服务Shiro 的四大核心部分Authentication(身份验证):简称为“登录”,即证明用户是谁。Authorization(授权):访问控制的过程,即决定是否有权限去访问受保护的资源。Session Management(会话管理):管理用户特定的会话,即使在非 Web 或 EJB 应用程序。Cryptography(加密):通过使用加密算法保持数据安全shiro的三个核心组件:Subject :正与系统进行交互的人,或某一个第三方服务。所有 Subject 实例都被绑定到(且这是必须的)一个SecurityManager 上。SecurityManager:Shiro 架构的心脏,用来协调内部各安全组件,管理内部组件实例,并通过它来提供安全管理的各种服务。当 Shiro 与一个 Subject 进行交互时,实质上是幕后的 SecurityManager 处理所有繁重的 Subject 安全操作。Realms :本质上是一个特定安全的 DAO。当配置 Shiro 时,必须指定至少一个 Realm 用来进行身份验证和/或授权。Shiro 提供了多种可用的 Realms 来获取安全相关的数据。如关系数据库(JDBC),INI 及属性文件等。可以定义自己 Realm 实现来代表自定义的数据源。shiro整合SSM框架:1.加入 jar 包 2.配置 web.xml 文件在web.xml中加入以下代码—shiro过滤器。shiroFilterorg.springframework.web.filter.DelegatingFilterProxy <init-param> <param-name>targetFilterLifecycle</param-name> <param-value>true</param-value> </init-param> <filter-name>shiroFilter</filter-name> <url-pattern>/*</url-pattern> 3.在 Spring 的配置文件中配置 ShiroSpringmvc配置文件中: Spring配置文件中导入shiro配置文件: <import resource="classpath:applicationContext-shiro.xml"/>新建applicationContext-shiro.xml 到这一步,配置文件都基本准备好了,接下来要写Realm方法了,新建shiro包,在包下新建MyRealm.java文件继承AuthorizingRealm 以上配置已经完成,接下来通过action进行验证//登录认证 @RequestMapping("/shiro-login") public String login(@RequestParam("username") String username, @RequestParam("password") String password){ Subject subject = SecurityUtils.getSubject(); UsernamePasswordToken token = new UsernamePasswordToken(username, password); try { //执行认证操作. subject.login(token); }catch (AuthenticationException ae) { System.out.println("登陆失败: " + ae.getMessage()); return "/index"; } return "/shiro-success"; } //提示:记得在注册中密码存入数据库前也记得加密哦,提供一个utils方法//进行shiro加密,返回加密后的结果public static String md5(String pass){String saltSource = "blog"; String hashAlgorithmName = "MD5";Object salt = new Md5Hash(saltSource);int hashIterations = 1024; Object result = new SimpleHash(hashAlgorithmName, pass, salt, hashIterations);String password = result.toString();return password;}shiro登录验证到这里完了,shiro主要是进行登陆认证,权限以及菜单模块的设置。
大快搜索大数据可视化平台监控功能深度解析 在上一篇的文章中已经明确说过DKM作为大快发行版DKhadoop的管理平台,它的四大功能分别是:管理功能,监控功能,诊断功能和集成功能。管理功能已经给大家列举了一些做了说明,今天就DKM平台的监控功能再给大家做细致的分享分析。 DKM 提供了许多监控功能,用于检测集群健康,组件性能以及集群中运行的作业的性能和资源需求。具体包括以下监控功能:1、服务监控:查看服务和角色实例级别健康检查的结果,并通过图表显示,有助于诊断问题。如果健康检查发现某个组件的状态需要特别关注甚至已经出现问题,系统会对管理员应该采取的行动提出建议。同时,系统管理员还可以查看服务上的或角色上操作的执行历史,也可以查看配置更改的审计日志。 2、主机监控监控群集内所有主机的有关信息,包括:哪些主机上线或下线,主机上目前消耗的内存,主机上运行的角色实例分配,不同机架上的主机分配等等。汇总视图中显示了群集所有主机,并且可以进一步查看单个主机丰富的细节,包括显示主机关键指标的直观图表。 3、行为监控:DKM提供了列表以及图表的方式来查看集群上进行的活动,可以显示当前正在执行的任务行为,还可以查看历史活动。同时提供了各个作业所使用资源的许多统计,系统管理员可以通过比较相似任务的不同性能数据以及比较查看同一任务中不同执行的性能数据来诊断性能问题或行为问题。4、报警:通过配置DKM可以对指定的事件产生警报。5、日志:介绍如何访问日志中的各种考虑到你正在查看当前上下文的方式。例如,监控服务时,你可以轻松地点击一个链接,查看相关的特定服务的日志条目,通过相同的用户界面。当查看关于用户的活动信息,您可以方便地查看作业运行时所用的作业的主机上发生的相关日志条目。6、集群及服务实时监控:DKM 会实时的对集群的各项服务进行监控,一旦服务出现异常,将会产生告警。同时,对集群的各项性能数据进行监控,例如CPU,内存,网络等,一方面能够监控集群的性能状态,一方面能够帮助性能调优。 7、HDFS 服务监控:以HDFS服务为例,HDFS 服务页面中显示了服务状态的汇总信息,包括HDFS综述,HDFS 文件系统块总数,总大小,文件总数等 。 8、节点级别监控DKM 能够查看单个节点的各个服务状态
标题:DKhadoop大数据处理平台监控数据介绍2018年国内大数据公司50强榜单排名已经公布了出来,大快以黑马之姿闯入50强,并摘得多项桂冠。Hanlp自然语言处理技术也荣膺了“2018中国数据星技术”奖。对这份榜单感兴趣的可以找一下看看。本篇承接上一篇《DKM平台监控参数说明》,继续就大快的大数据一体化处理架构中的平台监控参数进行介绍和说明。DKhadoop大数据处理平台架构的安装相关文章已经分享过,详细的内容可以找一下看看。在上一篇中已经就集群平均负载、集群磁盘使用情况、HDFS监控界面、Hbase监控界面等监控参数进行说明。今天就把剩下的一些监控参数一起介绍完,关于大快大数据处理平台监控参数的介绍就完整了。 1、Yarn监控界面(1) 执行失败的应用程序 监控 yarn资源管理中总执行失败的应用程序数量纵轴表示应用程序数量,单位个横轴表示时间,单位分钟(2)已提交的应用程序 监控 yarn资源管理中已提交的应用程序数量纵轴表示应用程序数量,单位个横轴表示时间,单位分钟 (3)正在运行的应用程序 监控 yarn资源管理中正在运行的应用程序数量纵轴表示应用程序数量,单位个横轴表示时间,单位分钟(4) 等待执行的应用程序 监控 yarn资源管理中等待执行的应用程序数量纵轴表示应用程序数量,单位个横轴表示时间,单位分钟 (5)已完成的应用程序 监控 yarn资源管理中已完成的应用程序数量纵轴表示应用程序数量,单位个横轴表示时间,单位分钟(6)被kill的应用程序 监控 yarn资源管理中被杀死的应用程序数量纵轴表示应用程序数量,单位个横轴表示时间,单位分钟2、Spark监控界面注意:(spark 运行任务后才有监控数据)(1) 最大可使用内存 监控 Spark 集群中最大可使用的内存纵轴表示内存容量,单位MB横轴表示时间,单位分钟(2)已使用的内存 监控 Spark 集群中已经使用的内存纵轴表示内存容量,单位MB横轴表示时间,单位分钟(3)剩余内存 监控 Spark 集群中剩余的内存纵轴表示内存容量,单位(MB)横轴表示时间,单位分钟(4)Spark中任务数量 监控 Spark 集群中任务数量纵轴表示内存容量,单位MB横轴表示时间,单位分钟(5)Spark中正在运行的任务数量 监控 Spark中正在运行的任务数量纵轴表示内存容量,单位MB横轴表示时间,单位分钟(6)正在运行的stage数量 监控 Spark集群中正在运行的stage数量纵轴表示stage数量,单位个横轴表示时间,单位分钟 (7)失败的stage数量 监控 Spark集群中运行失败的stage数量纵轴表示stage数量,单位个横轴表示时间,单位分钟(8)准备就绪的stage数量 监控 Spark集群中准备就绪的stage数量纵轴表示stage数量,单位个横轴表示时间,单位分钟备注:(横轴的时间表示采集时间,一般是1分钟一次)
DKhadoop安装包下载与监控参数说明前阶段用了差不多两周的时间把DKhadoop的运行环境搭建以及安装的各个操作都介绍了一遍。关于DKhadoop安装包下载也只是顺带说了一下,但好像大快搜索的服务器在更新,新的下载页面还不好用!有好些朋友留言说了大快搜索网站上无法下载。我已经将之前下载的这个版本上传到了网盘了,需要的DKhadoop安装包的朋友可以直接通过网盘下载!DKHadoop安装包下载:关于DKhadoop版本在写Hadoop环境搭建部署的时候有提到过,大版本主要有DKHadoop标准版本、DKH-分布式SQL版本、DKHadoop商业发行版。我们自己可以去下载到的包括我之前下载的安装包版本都是三节点的学习版本。DKhadoop标准版本有测试用的单机版,支持3节点的学习版本,以及支持个人研发用的5节点标准服务器版本。3节点此前是提供免费下载,5节点可能需要提交申请,但还好同样也是免费的!DKHadoop安装包下载地址:https://pan.baidu.com/s/1-427Sh6lTLrLAPh6KMOYVg 密码: vg2wDKM平台监控参数说明:平台监控参数的内容主要就是针对下载安装了DKHadoop的朋友了,下面简单的各大家介绍几个监控参数。1、首页监控界面(1) 集群平均负载 监控集群CUP负载纵轴表示 任务数量,单位个横轴表示时间,单位分钟表示集群内等待的任务数量, 比如1分钟的红线代表在1分钟之内需要等待执行的任务数量, 5分钟的线代表5分钟之内需要等待执行的任务数量。 (2)集群磁盘IO 监控集群磁盘IO纵轴表示读写速度,单位KB/S横轴表示时间,单位分钟磁盘字节写入速度表示写磁盘的速度。 磁盘字节数量读取表示读磁盘的速度。单位是KB/S(3)集群磁盘使用情况 监控集群磁盘使用的情况纵轴表示磁盘空间 ,单位GB横轴表示时间,单位分钟Total:表示集群磁盘的总体空间Free:表示空余空间Used:表示已经使用的空间2、HDFS监控界面(1) HDFS 容量监控 监控集群中HDFS的容量纵轴表示HDFS的容量,单位GB横轴表示时间,单位分钟(2) DataNode 读取字节数 监控集群中DataNode 读取量纵轴表示DataNode字节数,单位B横轴表示时间,单位分钟(3) DataNode 写入字节数 监控集群中DataNode 写入量纵轴表示DataNode字节数,单位B横轴表示时间,单位分钟3、Hbase监控界面(1) RegionServer 的总数 监控RegionServer 的总数 纵轴表示数量,单位个横轴表示时间,单位分钟(2)RegionServer中memstoresize的数量 监控RegionServer中memstoresize的数量纵轴表示数量,单位个横轴表示时间,单位分钟(3) RegionServer 读写请求次数 监控 RegionServer 读写请求次数纵轴表示次/每秒,单位秒横轴表示时间,单位分钟(4) RegionServer 中总store个数 监控 RegionServer 中总store个数纵轴表示store数量,单位个横轴表示时间,单位分钟(5) RegionServer 中总storFile个数 监控 RegionServer 中总storeFile个数纵轴表示storeFile数量,单位个横轴表示时间,单位分钟DKH平台监控参数太多,本篇就简单介绍这几个吧,不然码的篇幅太长,看着也累!下次将会接着就监控平台的参数进行说明。我尽量把我知道的写完吧!本文的重点还是最上部分的安装包下载,提取码上面也给了。下载玩一下吧!