《懒人Shell脚本》之六——一键构造待采集批量sql语句

简介: 1、需求采集任务构造入库。实现200多个网站的标题、时间、内容等信息的采集信息配置,并插入mysql中

image.png

2、实现步骤

步骤1:人工实现Excel表格配置。

定义好唯一索引,如第一列的序号。好处:

1)序号可以成为mysql中的索引。

2)序号规定后,可以实现分布式,1个人4个小时。真正可以实现4个人1小时完成任务。(真正的分布式)

这点,非常重要。

关于索引,实践表明,对于每个网站入口唯一值的定义unique索引,能更进一步防止冲突,确保唯一。


步骤2:将表格存入到txt中。

在linux环境下,进行dos2unix格式转换,确保utf-8编码,确保没有乱码。


步骤3:脚本实现一键构造sql语句。

3、脚本源码

#!/bin/sh

P2P_CONFIG_FILE=./base_config.txt

ONE_LINE=./output/config_line.txt


#read line by line

cat $P2P_CONFIG_FILE | while read line

do

mkdir -p ./output

echo $line > $ONE_LINE;

#echo line=$line


id_01=`cat $ONE_LINE | awk -F " " '{ print $1 }'`;

name_02=`cat $ONE_LINE | awk -F " " '{ print $2 }'`;

url_03=`cat $ONE_LINE | awk -F " " '{ print $3 }'`;

lstcharset_04=`cat $ONE_LINE | awk -F " " '{ print $4 }'`;

concharset_05=`cat $ONE_LINE | awk -F " " '{ print $5 }'`;

notice_url_06=`cat $ONE_LINE | awk -F " " '{ print $6 }'`

titleXpath_07=`cat $ONE_LINE | awk -F " " '{ print $7 }'`

timeXpath_08=`cat $ONE_LINE | awk -F " " '{ print $8 }'`

contentXpath_09=`cat $ONE_LINE | awk -F " " '{ print $9 }'`


touch ./tmp.txt

echo $titleXpath_07 >> ./tmp.txt

sed -i "s#\"#\\\'#g" ./tmp.txt

titleXpath_07=`cat ./tmp.txt`


#echo $id_01

#echo $name_02

#echo $url_03


echo "INSERT INTO test.mdia_config (id, source_name, entry_url, list_charset, content_charset, channel_id, media_class, site_id, class_id, list_xpath, title_xpath, publish_time_xpath, content_xpath, click_count_xpath, comment_count_xpath, repost_count_xpath, list_js_enabled, content_js_enabled, last_deliver_time, deliver_period, weight, proxy_gather, delete_flag) VALUES ('$id_01', '$name_02', '$notice_url_06', '$lstcharset_04', '$concharset_05', '1', '1', '$id_01', '1', '[\"$titleXpath_07\"]', '', '$timeXpath_08', '$contentXpath_09', '', '', '', '0', '0', '2016-11-19 05:02:11', '600', '0', '0', '0');"


rm -f $ONE_LINE

rm -f ./tmp.txt


done;

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

注意点:

1)、逐行读取;

2)、对于每一列的读取,采取了循环存储临时文件,然后循环删除的方法。(2年前跟同事学的,非常凑效)

3)、注意sql中对单引号、双引号的提前处理,确保sql语句合法。这点,可以去navicate里面去验证sql语句。


4、小结

能够脚本实现提高效率的,坚决不用手动敲入。

是的,就是简单的几行,也要写个循环。效率见于平时,效率见于细节。


作者:铭毅天下

转载请标明出处,原文地址:

http://blog.csdn.net/laoyang360/article/details/53236018

如果感觉本文对您有帮助,请点击‘顶’支持一下,您的支持是我坚持写作最大的动力,谢谢!

相关文章
|
6月前
|
SQL 消息中间件 关系型数据库
实时计算 Flink版产品使用合集之 sql采集mysql能拿到before的数据吗
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStreamAPI、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
分布式计算 Hadoop Java
17 案例:开发shell采集脚本
17 案例:开发shell采集脚本
91 0
|
3月前
|
SQL
访问者模式问题之构造一个包含 select、from 和 where 子句的 SQL 节点树,如何解决
访问者模式问题之构造一个包含 select、from 和 where 子句的 SQL 节点树,如何解决
|
5月前
|
SQL Oracle 关系型数据库
mysql和oracle 命令行执行sql文件 数据库执行sql文件 执行sql语句
mysql和oracle 命令行执行sql文件 数据库执行sql文件 执行sql语句
72 0
|
6月前
|
SQL 安全 Shell
小课堂 -- 利用sql语句写入shell
小课堂 -- 利用sql语句写入shell
98 0
|
6月前
|
SQL 关系型数据库 Shell
postgresql|数据库|批量执行SQL脚本文件的shell脚本
postgresql|数据库|批量执行SQL脚本文件的shell脚本
323 0
|
SQL 存储 关系型数据库
MySQL的第一篇文章——了解数据库、简单的SQL语句
MySQL的第一篇文章——了解数据库、简单的SQL语句
|
Oracle 关系型数据库 数据库
新建Oracle 数据库的Shell+SQL脚本
不用图形界面,也不用DBCA的静默方式,下面是用Shell+SQL创建Oracle数据库的脚本。
164 0
|
SQL 弹性计算 Kubernetes
实践教程之采集PolarDB-X SQL日志到ElasticSearch
PolarDB-X 为了方便用户体验,提供了免费的实验环境,您可以在实验环境里体验 PolarDB-X 的安装部署和各种内核特性。除了免费的实验,PolarDB-X 也提供免费的视频课程,手把手教你玩转 PolarDB-X 分布式数据库。本期实验将指导您如何采集PolarDB-X SQL日志到ElasticSearch。
|
SQL Java 数据库连接
MyBatis 构造动态 SQL 语句
MyBatis 构造动态 SQL 语句
82 0