一个网站的数据的增加是非常迅速的。。
要保存这些数据 在 mysql 数据库里面 是最好的办法。
如果这些数据 超过了一定的规模。比如 上 亿的历史数据。。查询起来可就比较麻烦了。。
而且如果要进行 统计分析。。分析用户的行为啥的。。还需要这些日志。
就连 用户的访问记录保留也是很有用的。。就像豆瓣的喜欢和垃圾桶功能也很重要。
通过这个就可以推算出你喜欢哪首歌曲。
别的就不废话了。相信你对大数据存储也很头疼。
下面介绍使用的技术。
首先你要有一个 hadoop的环境。
要使用 64bit的centos 6 使用 cloudera 的hadoop 和hbase 通过 yum 一并安装了。
具体安装配置 已经是很简化的了。。最简单的了。。
http://toeo.iteye.com/blog/1243592
然后你需要知道 我们 链接 hbase 就像链接 jpa 一样的。有这样的框架。
总之吧 hbase 的字段 都映射成 POJO 是很好的事情。
使用 datanucleus 进行封装对象:
地址:http://www.datanucleus.org/
如果要是可以把程序调通。写 hbase 程序就像和 写 JPA的程序一样了。
开始创建工程:
从官网下载一个 demo
http://sourceforge.net/projects/datanucleus/files/datanucleus-samples/
DataNucleus 最新版本是 3.0.4
同时DataNucleus 还支持其他 云数据的链接。比如 Google的 bigTable 。
大名鼎鼎的 google Appengine 也是使用 DataNucleus 中间件链接的。
所以不用怀疑可靠性。
首要要解决的就是jar包的依赖问题。
demo 里面居然把hbase 的groupId 写错了
应该是:
<dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase</artifactId> <version>0.90.4</version> </dependency>
修修改改jar 总是是对了。。然后就是漫长的jar包下载。
要使用 datanucleus 必须安装 eclipse 插件:
因为需要在编译的时候 自动 enhanced 当然你也可以 手动 enhanced 比较麻烦
安装 eclipse 插件:
http://www.datanucleus.org/downloads/eclipse-update/
安装成功重启
启用 enhanced 在 build 的时候 就可以看到 enhanced 的过程了。。
enhanced 2 个 class。
如果不安装 则代码 运行不了:
报错:
Persisting Account+Login Exception in thread "main" org.datanucleus.api.jdo.exceptions.ClassNotPersistenceCapableException: The class "org.datanucleus.samples.jdo.hbase.Account" is not persistable. This means that it either hasnt been enhanced, or that the enhanced version of the file is not in the CLASSPATH (or is hidden by an unenhanced version), or the Meta-Data/annotations for the class are not found. at org.datanucleus.api.jdo.NucleusJDOHelper.getJDOExceptionForNucleusException(NucleusJDOHelper.java:351) at org.datanucleus.api.jdo.JDOPersistenceManager.jdoMakePersistent(JDOPersistenceManager.java:745) at org.datanucleus.api.jdo.JDOPersistenceManager.makePersistent(JDOPersistenceManager.java:765) at org.datanucleus.samples.jdo.hbase.Main.main(Main.java:46) NestedThrowablesStackTrace: The class "org.datanucleus.samples.jdo.hbase.Account" is not persistable. This means that it either hasnt been enhanced, or that the enhanced version of the file is not in the CLASSPATH (or is hidden by an unenhanced version), or the Meta-Data/annotations for the class are not found. org.datanucleus.exceptions.ClassNotPersistableException: The class "org.datanucleus.samples.jdo.hbase.Account" is not persistable. This means that it either hasnt been enhanced, or that the enhanced version of the file is not in the CLASSPATH (or is hidden by an unenhanced version), or the Meta-Data/annotations for the class are not found. at org.datanucleus.ObjectManagerImpl.assertClassPersistable(ObjectManagerImpl.java:5330) at org.datanucleus.ObjectManagerImpl.persistObjectInternal(ObjectManagerImpl.java:1704) at org.datanucleus.ObjectManagerImpl.persistObjectWork(ObjectManagerImpl.java:1647) at org.datanucleus.ObjectManagerImpl.persistObject(ObjectManagerImpl.java:1512) at org.datanucleus.api.jdo.JDOPersistenceManager.jdoMakePersistent(JDOPersistenceManager.java:740) at org.datanucleus.api.jdo.JDOPersistenceManager.makePersistent(JDOPersistenceManager.java:765) at org.datanucleus.samples.jdo.hbase.Main.main(Main.java:46)
确认 hbase 已经启动:zookeeper 已经启动:
否则会报链接错误:
11/12/23 16:36:15 WARN zookeeper.ClientCnxn: Session 0x0 for server null, unexpected error, closing socket connection and attempting reconnect java.net.SocketException: Address family not supported by protocol family: connect at sun.nio.ch.Net.connect(Native Method) at sun.nio.ch.SocketChannelImpl.connect(Unknown Source) at org.apache.zookeeper.ClientCnxn$SendThread.startConnect(ClientCnxn.java:1050) at org.apache.zookeeper.ClientCnxn$SendThread.run(ClientCnxn.java:1077) 11/12/23 16:36:15 INFO zookeeper.ClientCnxn: Opening socket connection to server localhost/127.0.0.1:2181 11/12/23 16:36:16 WARN zookeeper.ClientCnxn: Session 0x0 for server null, unexpected error, closing socket connection and attempting reconnect java.net.ConnectException: Connection refused: no further information at sun.nio.ch.SocketChannelImpl.checkConnect(Native Method)
编译的时候添加 :
<dependency> <groupId>org.datanucleus</groupId> <artifactId>datanucleus-enhancer</artifactId> <version>3.0.1</version> </dependency>
否则会报找不到 jar:
java.lang.NoClassDefFoundError: org/datanucleus/enhancer/DataNucleusEnhancer
查看zookeeper 启动:
附件代码:暂时没有跑通。因为hbase 安装在虚拟机上面
以后陆续补上。也可能是hbase 没有配置对。