《懒人Shell脚本》之六——一键构造待采集批量sql语句-阿里云开发者社区

《懒人Shell脚本》之六——一键构造待采集批量sql语句

2019-07-08 636

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 一键构造待采集批量sql语句

1、需求

采集任务构造入库。实现200多个网站的标题、时间、内容等信息的采集信息配置，并插入mysql中。

2、实现步骤

步骤1：人工实现Excel表格配置。

定义好唯一索引，如第一列的序号。好处：
1）序号可以成为mysql中的索引。
2）序号规定后，可以实现分布式，1个人4个小时。真正可以实现4个人1小时完成任务。（真正的分布式）
这点，非常重要。
关于索引，实践表明，对于每个网站入口唯一值的定义unique索引，能更进一步防止冲突，确保唯一。

步骤2：将表格存入到txt中。

在linux环境下，进行dos2unix格式转换，确保utf-8编码，确保没有乱码。

步骤3：脚本实现一键构造sql语句。

3、脚本源码

#!/bin/sh
P2P_CONFIG_FILE=./base_config.txt
ONE_LINE=./output/config_line.txt

#read line by line
cat $P2P_CONFIG_FILE | while read line
do
mkdir -p ./output
echo $line > $ONE_LINE;
#echo line=$line

id_01=`cat $ONE_LINE | awk -F " " '{ print $1 }'`;
name_02=`cat $ONE_LINE | awk -F " " '{ print $2 }'`;
url_03=`cat $ONE_LINE | awk -F " " '{ print $3 }'`;
lstcharset_04=`cat $ONE_LINE | awk -F " " '{ print $4 }'`;
concharset_05=`cat $ONE_LINE | awk -F " " '{ print $5 }'`;
notice_url_06=`cat $ONE_LINE | awk -F " " '{ print $6 }'`
titleXpath_07=`cat $ONE_LINE | awk -F " " '{ print $7 }'`
timeXpath_08=`cat $ONE_LINE | awk -F " " '{ print $8 }'`
contentXpath_09=`cat $ONE_LINE | awk -F " " '{ print $9 }'`

touch ./tmp.txt
echo $titleXpath_07 >> ./tmp.txt
sed -i "s#\"#\\\'#g" ./tmp.txt
titleXpath_07=`cat ./tmp.txt`

#echo $id_01
#echo $name_02
#echo $url_03

echo "INSERT INTO test.mdia_config (id, source_name, entry_url, list_charset, content_charset, channel_id, media_class, site_id, class_id, list_xpath, title_xpath, publish_time_xpath, content_xpath, click_count_xpath, comment_count_xpath, repost_count_xpath, list_js_enabled, content_js_enabled, last_deliver_time, deliver_period, weight, proxy_gather, delete_flag) VALUES ('$id_01', '$name_02', '$notice_url_06', '$lstcharset_04', '$concharset_05', '1', '1', '$id_01', '1', '[\"$titleXpath_07\"]', '', '$timeXpath_08', '$contentXpath_09', '', '', '', '0', '0', '2016-11-19 05:02:11', '600', '0', '0', '0');"

rm -f $ONE_LINE
rm -f ./tmp.txt

done;

注意点：
1）逐行读取；
2）对于每一列的读取，采取了循环存储临时文件，然后循环删除的方法。（2年前跟同事学的，非常凑效）
3）注意sql中对单引号、双引号的提前处理，确保sql语句合法。这点，可以去navicate里面去验证sql语句。

4、小结

能够脚本实现提高效率的，坚决不用手动敲入。
是的，就是简单的几行，也要写个循环。效率见于平时，效率见于细节。

作者：铭毅天下
转载请标明出处，原文地址：
http://blog.csdn.net/laoyang360/article/details/53236018

《懒人Shell脚本》之六——一键构造待采集批量sql语句

1、需求

2、实现步骤

步骤1：人工实现Excel表格配置。

步骤2：将表格存入到txt中。

步骤3：脚本实现一键构造sql语句。

3、脚本源码

4、小结

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

《懒人Shell脚本》之六——一键构造待采集批量sql语句

1、需求

2、实现步骤

步骤1：人工实现Excel表格配置。

步骤2：将表格存入到txt中。

步骤3：脚本实现一键构造sql语句。

3、脚本源码

4、小结

热门文章

最新文章

相关课程

相关电子书