处理hadoop发送的文件到后台并解析存储到数据库策略

简介: 处理hadoop发送的文件到后台并解析存储到数据库策略       主要实现 :首先 hadoop  mapreduce  处理好的 文件,一个个 放到指定的文件 目录下 ,然后 通过 在Linux 下 通过定时任务 打包 发到   web 服务器的 指定 目录下 ,然后web 服务器  会 通过定时任务  去解析 它 ,然后,存储导数据库。

处理hadoop发送的文件到后台并解析存储到数据库策略

 

 

 

主要实现 :首先 hadoop  mapreduce  处理好的 文件,一个个 放到指定的文件 目录下 ,然后 通过 在Linux 下 通过定时任务 打包 发到   web 服务器的 指定 目录下 ,然后web 服务器  会 通过定时任务  去解析 它 ,然后,存储导数据库。

 

1.上篇 介绍了 文件 的 解压 ,通过解压后 文件 会形成 多个 文件 。



 如图 ,解压 后 ,我们 会 发现 有 很多 文件 ,然后 我们该 去 对每个文件 读取 内容 并 存到数据库中。

 

 

 

 2. map 为所有文件 解析类

      dataMap  所 有 数据 类   所有文件的 数据都存储到datamap 中了

 

for (File subfile : subFiles){
	AbstractFileParser ifp = map.get(subfile.getName());
	if (ifp != null) {
		try {
			ifp = ifp.getClass().newInstance();
			ifp.init(subfile, (StatMap) dataMap.get(subfile.getName()));
			jobList.add(ifp);
			ifp.start();
		} catch (Exception e) { e.printStackTrace(); }
	}
}
for (Thread ifp : jobList)
{
	try {
		ifp.join();
	} catch (InterruptedException e) { e.printStackTrace(); }
}

  

 

 AbstractFileParser 类

BufferedReader bufferedReader = null;
try
{
	bufferedReader = new BufferedReader(new FileReader(this.file));
	String s = null;
	while ((s = bufferedReader.readLine()) != null)
	{
		if (isDebug || logger.isDebugEnabled())
			logger.debug(s);
		String[] ss = s.split(",");
		StatBase o = parseLine(ss);
		if (o != null)
		{
			StatBase b = null;
			synchronized (map)
			{
				b = map.get(o.getPrivateKey());
				if (b == null)
				{
					map.put(o.getPrivateKey(), o);
				}
				else
				{
					update(o, b);
				}
			}
		}
	}
}
catch (Exception e)
{
	logger.error("", e);
}
finally
{
	if (bufferedReader != null)
		try
		{
			bufferedReader.close();
		}
		catch (IOException e)
		{
		}
}

 

 保存到 datamap 中的 数据 要进行 数据库保存

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

捐助开发者

在兴趣的驱动下,写一个免费的东西,有欣喜,也还有汗水,希望你喜欢我的作品,同时也能支持一下。 当然,有钱捧个钱场(右上角的爱心标志,支持支付宝和PayPal捐助),没钱捧个人场,谢谢各位。



 
 
 谢谢您的赞助,我会做的更好!

 

 

目录
相关文章
|
10月前
|
存储 Oracle 关系型数据库
服务器数据恢复—光纤存储上oracle数据库数据恢复案例
一台光纤服务器存储上有16块FC硬盘,上层部署了Oracle数据库。服务器存储前面板2个硬盘指示灯显示异常,存储映射到linux操作系统上的卷挂载不上,业务中断。 通过storage manager查看存储状态,发现逻辑卷状态失败。再查看物理磁盘状态,发现其中一块盘报告“警告”,硬盘指示灯显示异常的2块盘报告“失败”。 将当前存储的完整日志状态备份下来,解析备份出来的存储日志并获得了关于逻辑卷结构的部分信息。
|
11月前
|
存储 关系型数据库 数据库
高性能云盘:一文解析RDS数据库存储架构升级
性能、成本、弹性,是客户实际使用数据库过程中关注的三个重要方面。RDS业界率先推出的高性能云盘(原通用云盘),是PaaS层和IaaS层的深度融合的技术最佳实践,通过使用不同的存储介质,为客户提供同时满足低成本、低延迟、高持久性的体验。
|
SQL 存储 分布式数据库
分布式存储数据恢复—hbase和hive数据库数据恢复案例
分布式存储数据恢复环境: 16台某品牌R730xd服务器节点,每台服务器节点上有数台虚拟机。 虚拟机上部署Hbase和Hive数据库。 分布式存储故障: 数据库底层文件被误删除,数据库不能使用。要求恢复hbase和hive数据库。
521 12
|
存储 SQL NoSQL
【赵渝强老师】达梦数据库的逻辑存储结构
本文介绍了达梦数据库的存储结构,包括逻辑和物理存储两部分。逻辑存储结构由数据库(Database)、表空间(Tablespaces)、段(Segments)、簇(Cluster)和页(Page)组成。数据库是最大逻辑单元,包含所有表、索引等;表空间由数据文件组成,用于存储对象;段由簇构成,簇包含连续的数据页;页是最小存储单元。文中还提供了查询表空间、段和页大小的SQL语句,并附有视频讲解和示意图。
518 7
|
存储 SQL 安全
【赵渝强老师】达梦数据库的物理存储结构
本文介绍了达梦数据库的存储结构及各类物理文件的作用。达梦数据库通过逻辑和物理存储结构管理数据,包含配置文件(如dm.ini、sqllog.ini)、控制文件(dm.ctl)、数据文件(*.dbf)、重做日志文件(*.log)、归档日志文件、备份文件(*.bak)等。配置文件用于功能设置,控制文件记录数据库初始信息,数据文件存储实际数据,重做日志用于故障恢复,归档日志增强数据安全性,备份文件保障数据完整性,跟踪与事件日志辅助问题分析。这些文件共同确保数据库高效、稳定运行。
694 0
|
存储 分布式计算 Hadoop
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
720 79
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
1055 6
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
497 2
|
存储 分布式计算 大数据
Flume+Hadoop:打造你的大数据处理流水线
本文介绍了如何使用Apache Flume采集日志数据并上传至Hadoop分布式文件系统(HDFS)。Flume是一个高可用、可靠的分布式系统,适用于大规模日志数据的采集和传输。文章详细描述了Flume的安装、配置及启动过程,并通过具体示例展示了如何将本地日志数据实时传输到HDFS中。同时,还提供了验证步骤,确保数据成功上传。最后,补充说明了使用文件模式作为channel以避免数据丢失的方法。
913 4
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第27天】在大数据时代,数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件,通过HDFS存储数据和Spark进行高效计算,实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践,包括数据存储、处理、安全和可视化等方面,展示了它们在实际应用中的协同效应。
729 2

热门文章

最新文章

推荐镜像

更多
  • DNS