处理hadoop发送的文件到后台并解析存储到数据库策略

简介: 处理hadoop发送的文件到后台并解析存储到数据库策略       主要实现 :首先 hadoop  mapreduce  处理好的 文件,一个个 放到指定的文件 目录下 ,然后 通过 在Linux 下 通过定时任务 打包 发到   web 服务器的 指定 目录下 ,然后web 服务器  会 通过定时任务  去解析 它 ,然后,存储导数据库。

处理hadoop发送的文件到后台并解析存储到数据库策略

 

 

 

主要实现 :首先 hadoop  mapreduce  处理好的 文件,一个个 放到指定的文件 目录下 ,然后 通过 在Linux 下 通过定时任务 打包 发到   web 服务器的 指定 目录下 ,然后web 服务器  会 通过定时任务  去解析 它 ,然后,存储导数据库。

 

1.上篇 介绍了 文件 的 解压 ,通过解压后 文件 会形成 多个 文件 。



 如图 ,解压 后 ,我们 会 发现 有 很多 文件 ,然后 我们该 去 对每个文件 读取 内容 并 存到数据库中。

 

 

 

 2. map 为所有文件 解析类

      dataMap  所 有 数据 类   所有文件的 数据都存储到datamap 中了

 

for (File subfile : subFiles){
	AbstractFileParser ifp = map.get(subfile.getName());
	if (ifp != null) {
		try {
			ifp = ifp.getClass().newInstance();
			ifp.init(subfile, (StatMap) dataMap.get(subfile.getName()));
			jobList.add(ifp);
			ifp.start();
		} catch (Exception e) { e.printStackTrace(); }
	}
}
for (Thread ifp : jobList)
{
	try {
		ifp.join();
	} catch (InterruptedException e) { e.printStackTrace(); }
}

  

 

 AbstractFileParser 类

BufferedReader bufferedReader = null;
try
{
	bufferedReader = new BufferedReader(new FileReader(this.file));
	String s = null;
	while ((s = bufferedReader.readLine()) != null)
	{
		if (isDebug || logger.isDebugEnabled())
			logger.debug(s);
		String[] ss = s.split(",");
		StatBase o = parseLine(ss);
		if (o != null)
		{
			StatBase b = null;
			synchronized (map)
			{
				b = map.get(o.getPrivateKey());
				if (b == null)
				{
					map.put(o.getPrivateKey(), o);
				}
				else
				{
					update(o, b);
				}
			}
		}
	}
}
catch (Exception e)
{
	logger.error("", e);
}
finally
{
	if (bufferedReader != null)
		try
		{
			bufferedReader.close();
		}
		catch (IOException e)
		{
		}
}

 

 保存到 datamap 中的 数据 要进行 数据库保存

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

捐助开发者

在兴趣的驱动下,写一个免费的东西,有欣喜,也还有汗水,希望你喜欢我的作品,同时也能支持一下。 当然,有钱捧个钱场(右上角的爱心标志,支持支付宝和PayPal捐助),没钱捧个人场,谢谢各位。



 
 
 谢谢您的赞助,我会做的更好!

 

 

目录
相关文章
|
机器学习/深度学习 传感器 监控
机器学习:强化学习中的探索策略全解析
在机器学习的广阔领域中,强化学习(Reinforcement Learning, RL)无疑是一个充满魅力的子领域。它通过智能体与环境的交互,学习如何在特定的任务中做出最优决策。然而,在这个过程中,探索(exploration)和利用(exploitation)的平衡成为了智能体成功的关键。本文将深入探讨强化学习中的探索策略,包括其重要性、常用方法以及代码示例来论证这些策略的效果。
|
11月前
|
存储 SQL Java
数据存储使用文件还是数据库,哪个更合适?
数据库和文件系统各有优劣:数据库读写性能较低、结构 rigid,但具备计算能力和数据一致性保障;文件系统灵活易管理、读写高效,但缺乏计算能力且无法保证一致性。针对仅需高效存储与灵活管理的场景,文件系统更优,但其计算短板可通过开源工具 SPL(Structured Process Language)弥补。SPL 提供独立计算语法及高性能文件格式(如集文件、组表),支持复杂计算与多源混合查询,甚至可替代数据仓库。此外,SPL 易集成、支持热切换,大幅提升开发运维效率,是后数据库时代文件存储的理想补充方案。
|
存储 NoSQL MongoDB
数据库数据恢复—MongoDB数据库迁移过程中丢失文件的数据恢复案例
某单位一台MongoDB数据库由于业务需求进行了数据迁移,数据库迁移后提示:“Windows无法启动MongoDB服务(位于 本地计算机 上)错误1067:进程意外终止。”
|
存储 人工智能 NoSQL
Tablestore深度解析:面向AI场景的结构化数据存储最佳实践
《Tablestore深度解析:面向AI场景的结构化数据存储最佳实践》由阿里云专家团队分享,涵盖Tablestore十年发展历程、AI时代多模态数据存储需求、VCU模式优化、向量检索发布及客户最佳实践等内容。Tablestore支持大规模在线数据存储,提供高性价比、高性能和高可用性,特别针对AI场景进行优化,满足结构化与非结构化数据的统一存储和高效检索需求。通过多元化索引和Serverless弹性VCU模式,助力企业实现低成本、灵活扩展的数据管理方案。
875 12
|
存储 分布式计算 Hadoop
基于Java的Hadoop文件处理系统:高效分布式数据解析与存储
本文介绍了如何借鉴Hadoop的设计思想,使用Java实现其核心功能MapReduce,解决海量数据处理问题。通过类比图书馆管理系统,详细解释了Hadoop的两大组件:HDFS(分布式文件系统)和MapReduce(分布式计算模型)。具体实现了单词统计任务,并扩展支持CSV和JSON格式的数据解析。为了提升性能,引入了Combiner减少中间数据传输,以及自定义Partitioner解决数据倾斜问题。最后总结了Hadoop在大数据处理中的重要性,鼓励Java开发者学习Hadoop以拓展技术边界。
546 7
|
缓存 并行计算 Linux
深入解析Linux操作系统的内核优化策略
本文旨在探讨Linux操作系统内核的优化策略,包括内核参数调整、内存管理、CPU调度以及文件系统性能提升等方面。通过对这些关键领域的分析,我们可以理解如何有效地提高Linux系统的性能和稳定性,从而为用户提供更加流畅和高效的计算体验。
679 24
|
关系型数据库 MySQL 数据库
数据库数据恢复—MYSQL数据库文件损坏的数据恢复案例
mysql数据库文件ibdata1、MYI、MYD损坏。 故障表现:1、数据库无法进行查询等操作;2、使用mysqlcheck和myisamchk无法修复数据库。
|
SQL 关系型数据库 MySQL
MySQL导入.sql文件后数据库乱码问题
本文分析了导入.sql文件后数据库备注出现乱码的原因,包括字符集不匹配、备注内容编码问题及MySQL版本或配置问题,并提供了详细的解决步骤,如检查和统一字符集设置、修改客户端连接方式、检查MySQL配置等,确保导入过程顺利。
|
存储 监控 算法
Java虚拟机(JVM)垃圾回收机制深度解析与优化策略####
本文旨在深入探讨Java虚拟机(JVM)的垃圾回收机制,揭示其工作原理、常见算法及参数调优方法。通过剖析垃圾回收的生命周期、内存区域划分以及GC日志分析,为开发者提供一套实用的JVM垃圾回收优化指南,助力提升Java应用的性能与稳定性。 ####
|
8月前
|
缓存 关系型数据库 BI
使用MYSQL Report分析数据库性能(下)
使用MYSQL Report分析数据库性能
527 158

热门文章

最新文章

推荐镜像

更多
  • DNS