《懒人Shell脚本》之六——一键构造待采集批量sql语句

简介: 一键构造待采集批量sql语句

1、需求

采集任务构造入库。实现200多个网站的标题、时间、内容等信息的采集信息配置,并插入mysql中。

image.png

2、实现步骤

步骤1:人工实现Excel表格配置。

定义好唯一索引,如第一列的序号。好处:
1)序号可以成为mysql中的索引。
2)序号规定后,可以实现分布式,1个人4个小时。真正可以实现4个人1小时完成任务。(真正的分布式)
这点,非常重要。
关于索引,实践表明,对于每个网站入口唯一值的定义unique索引,能更进一步防止冲突,确保唯一。

步骤2:将表格存入到txt中。

在linux环境下,进行dos2unix格式转换,确保utf-8编码,确保没有乱码。

步骤3:脚本实现一键构造sql语句。

3、脚本源码

#!/bin/sh
P2P_CONFIG_FILE=./base_config.txt
ONE_LINE=./output/config_line.txt

#read line by line
cat $P2P_CONFIG_FILE | while read line
do
mkdir -p ./output
echo $line > $ONE_LINE;
#echo line=$line

id_01=`cat $ONE_LINE | awk -F " " '{ print $1 }'`;
name_02=`cat $ONE_LINE | awk -F " " '{ print $2 }'`;
url_03=`cat $ONE_LINE | awk -F " " '{ print $3 }'`;
lstcharset_04=`cat $ONE_LINE | awk -F " " '{ print $4 }'`;
concharset_05=`cat $ONE_LINE | awk -F " " '{ print $5 }'`;
notice_url_06=`cat $ONE_LINE | awk -F " " '{ print $6 }'`
titleXpath_07=`cat $ONE_LINE | awk -F " " '{ print $7 }'`
timeXpath_08=`cat $ONE_LINE | awk -F " " '{ print $8 }'`
contentXpath_09=`cat $ONE_LINE | awk -F " " '{ print $9 }'`

touch ./tmp.txt
echo $titleXpath_07 >> ./tmp.txt
sed -i "s#\"#\\\'#g" ./tmp.txt
titleXpath_07=`cat ./tmp.txt`

#echo $id_01
#echo $name_02
#echo $url_03

echo "INSERT INTO test.mdia_config (id, source_name, entry_url, list_charset, content_charset, channel_id, media_class, site_id, class_id, list_xpath, title_xpath, publish_time_xpath, content_xpath, click_count_xpath, comment_count_xpath, repost_count_xpath, list_js_enabled, content_js_enabled, last_deliver_time, deliver_period, weight, proxy_gather, delete_flag) VALUES ('$id_01', '$name_02', '$notice_url_06', '$lstcharset_04', '$concharset_05', '1', '1', '$id_01', '1', '[\"$titleXpath_07\"]', '', '$timeXpath_08', '$contentXpath_09', '', '', '', '0', '0', '2016-11-19 05:02:11', '600', '0', '0', '0');"

rm -f $ONE_LINE
rm -f ./tmp.txt

done;

注意点:
1)逐行读取;
2)对于每一列的读取,采取了循环存储临时文件,然后循环删除的方法。(2年前跟同事学的,非常凑效)
3)注意sql中对单引号、双引号的提前处理,确保sql语句合法。这点,可以去navicate里面去验证sql语句。

4、小结

能够脚本实现提高效率的,坚决不用手动敲入。
是的,就是简单的几行,也要写个循环。效率见于平时,效率见于细节。


作者:铭毅天下
转载请标明出处,原文地址:
http://blog.csdn.net/laoyang360/article/details/53236018

相关文章
|
2月前
|
Shell
一个用于添加/删除定时任务的shell脚本
一个用于添加/删除定时任务的shell脚本
114 1
|
1月前
|
Shell Linux 测试技术
6种方法打造出色的Shell脚本
6种方法打造出色的Shell脚本
67 2
6种方法打造出色的Shell脚本
|
1月前
|
XML JSON 监控
Shell脚本要点和难点以及具体应用和优缺点介绍
Shell脚本在系统管理和自动化任务中扮演着重要角色。尽管存在调试困难、可读性差等问题,但其简洁高效、易于学习和强大的功能使其在许多场景中不可或缺。通过掌握Shell脚本的基本语法、常用命令和函数,并了解其优缺点,开发者可以编写出高效的脚本来完成各种任务,提高工作效率。希望本文能为您在Shell脚本编写和应用中提供有价值的参考和指导。
62 1
|
1月前
|
Ubuntu Shell 开发工具
ubuntu/debian shell 脚本自动配置 gitea git 仓库
这是一个自动配置 Gitea Git 仓库的 Shell 脚本,支持 Ubuntu 20+ 和 Debian 12+ 系统。脚本会创建必要的目录、下载并安装 Gitea,创建 Gitea 用户和服务,确保 Gitea 在系统启动时自动运行。用户可以选择从官方或小绿叶技术博客下载安装包。
52 2
|
2月前
|
监控 网络协议 Shell
ip和ip网段攻击拦截系统-绿叶结界防火墙系统shell脚本
这是一个名为“小绿叶技术博客扫段攻击拦截系统”的Bash脚本,用于监控和拦截TCP攻击。通过抓取网络数据包监控可疑IP,并利用iptables和firewalld防火墙规则对这些IP进行拦截。同时,该系统能够查询数据库中的白名单,确保合法IP不受影响。此外,它还具备日志记录功能,以便于后续分析和审计。
59 6
|
1月前
|
运维 监控 Shell
深入理解Linux系统下的Shell脚本编程
【10月更文挑战第24天】本文将深入浅出地介绍Linux系统中Shell脚本的基础知识和实用技巧,帮助读者从零开始学习编写Shell脚本。通过本文的学习,你将能够掌握Shell脚本的基本语法、变量使用、流程控制以及函数定义等核心概念,并学会如何将这些知识应用于实际问题解决中。文章还将展示几个实用的Shell脚本例子,以加深对知识点的理解和应用。无论你是运维人员还是软件开发者,这篇文章都将为你提供强大的Linux自动化工具。
|
2月前
|
SQL 关系型数据库 MySQL
|
2月前
|
监控 Unix Shell
shell脚本编程学习
【10月更文挑战第1天】shell脚本编程
83 12
|
1月前
|
SQL 关系型数据库 MySQL
mysql编写sql脚本:要求表没有主键,但是想查询没有相同值的时候才进行插入
mysql编写sql脚本:要求表没有主键,但是想查询没有相同值的时候才进行插入
35 0
|
2月前
|
存储 运维 监控
自动化运维:使用Shell脚本简化日常任务
【9月更文挑战第35天】在IT运维的日常工作中,重复性的任务往往消耗大量的时间。本文将介绍如何通过编写简单的Shell脚本来自动化这些日常任务,从而提升效率。我们将一起探索Shell脚本的基础语法,并通过实际案例展示如何应用这些知识来创建有用的自动化工具。无论你是新手还是有一定经验的运维人员,这篇文章都会为你提供新的视角和技巧,让你的工作更加轻松。
77 2