《懒人Shell脚本》之六——一键构造待采集批量sql语句

简介: 1、需求采集任务构造入库。实现200多个网站的标题、时间、内容等信息的采集信息配置,并插入mysql中

image.png

2、实现步骤

步骤1:人工实现Excel表格配置。

定义好唯一索引,如第一列的序号。好处:

1)序号可以成为mysql中的索引。

2)序号规定后,可以实现分布式,1个人4个小时。真正可以实现4个人1小时完成任务。(真正的分布式)

这点,非常重要。

关于索引,实践表明,对于每个网站入口唯一值的定义unique索引,能更进一步防止冲突,确保唯一。


步骤2:将表格存入到txt中。

在linux环境下,进行dos2unix格式转换,确保utf-8编码,确保没有乱码。


步骤3:脚本实现一键构造sql语句。

3、脚本源码

#!/bin/sh

P2P_CONFIG_FILE=./base_config.txt

ONE_LINE=./output/config_line.txt


#read line by line

cat $P2P_CONFIG_FILE | while read line

do

mkdir -p ./output

echo $line > $ONE_LINE;

#echo line=$line


id_01=`cat $ONE_LINE | awk -F " " '{ print $1 }'`;

name_02=`cat $ONE_LINE | awk -F " " '{ print $2 }'`;

url_03=`cat $ONE_LINE | awk -F " " '{ print $3 }'`;

lstcharset_04=`cat $ONE_LINE | awk -F " " '{ print $4 }'`;

concharset_05=`cat $ONE_LINE | awk -F " " '{ print $5 }'`;

notice_url_06=`cat $ONE_LINE | awk -F " " '{ print $6 }'`

titleXpath_07=`cat $ONE_LINE | awk -F " " '{ print $7 }'`

timeXpath_08=`cat $ONE_LINE | awk -F " " '{ print $8 }'`

contentXpath_09=`cat $ONE_LINE | awk -F " " '{ print $9 }'`


touch ./tmp.txt

echo $titleXpath_07 >> ./tmp.txt

sed -i "s#\"#\\\'#g" ./tmp.txt

titleXpath_07=`cat ./tmp.txt`


#echo $id_01

#echo $name_02

#echo $url_03


echo "INSERT INTO test.mdia_config (id, source_name, entry_url, list_charset, content_charset, channel_id, media_class, site_id, class_id, list_xpath, title_xpath, publish_time_xpath, content_xpath, click_count_xpath, comment_count_xpath, repost_count_xpath, list_js_enabled, content_js_enabled, last_deliver_time, deliver_period, weight, proxy_gather, delete_flag) VALUES ('$id_01', '$name_02', '$notice_url_06', '$lstcharset_04', '$concharset_05', '1', '1', '$id_01', '1', '[\"$titleXpath_07\"]', '', '$timeXpath_08', '$contentXpath_09', '', '', '', '0', '0', '2016-11-19 05:02:11', '600', '0', '0', '0');"


rm -f $ONE_LINE

rm -f ./tmp.txt


done;

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

注意点:

1)、逐行读取;

2)、对于每一列的读取,采取了循环存储临时文件,然后循环删除的方法。(2年前跟同事学的,非常凑效)

3)、注意sql中对单引号、双引号的提前处理,确保sql语句合法。这点,可以去navicate里面去验证sql语句。


4、小结

能够脚本实现提高效率的,坚决不用手动敲入。

是的,就是简单的几行,也要写个循环。效率见于平时,效率见于细节。


作者:铭毅天下

转载请标明出处,原文地址:

http://blog.csdn.net/laoyang360/article/details/53236018

如果感觉本文对您有帮助,请点击‘顶’支持一下,您的支持是我坚持写作最大的动力,谢谢!

相关文章
|
23天前
|
关系型数据库 MySQL Shell
MySQL 备份 Shell 脚本:支持远程同步与阿里云 OSS 备份
一款自动化 MySQL 备份 Shell 脚本,支持本地存储、远程服务器同步(SSH+rsync)、阿里云 OSS 备份,并自动清理过期备份。适用于数据库管理员和开发者,帮助确保数据安全。
|
26天前
|
SQL Oracle 关系型数据库
【YashanDB知识库】共享利用Python脚本解决Oracle的SQL脚本@@用法
【YashanDB知识库】共享利用Python脚本解决Oracle的SQL脚本@@用法
|
1月前
|
关系型数据库 Shell 网络安全
定期备份数据库:基于 Shell 脚本的自动化方案
本篇文章分享一个简单的 Shell 脚本,用于定期备份 MySQL 数据库,并自动将备份传输到远程服务器,帮助防止数据丢失。
|
2月前
|
Shell Linux
【linux】Shell脚本中basename和dirname的详细用法教程
本文详细介绍了Linux Shell脚本中 `basename`和 `dirname`命令的用法,包括去除路径信息、去除后缀、批量处理文件名和路径等。同时,通过文件备份和日志文件分离的实践应用,展示了这两个命令在实际脚本中的应用场景。希望本文能帮助您更好地理解和应用 `basename`和 `dirname`命令,提高Shell脚本编写的效率和灵活性。
139 32
|
6月前
|
Shell
一个用于添加/删除定时任务的shell脚本
一个用于添加/删除定时任务的shell脚本
191 1
|
28天前
|
SQL Oracle 关系型数据库
【YashanDB知识库】共享利用Python脚本解决Oracle的SQL脚本@@用法
本文来自YashanDB官网,介绍如何处理Oracle客户端sql*plus中使用@@调用同级目录SQL脚本的场景。崖山数据库23.2.x.100已支持@@用法,但旧版本可通过Python脚本批量重写SQL文件,将@@替换为绝对路径。文章通过Oracle示例展示了具体用法,并提供Python脚本实现自动化处理,最后调整批处理脚本以适配YashanDB运行环境。
|
2月前
|
JavaScript Shell C#
多种脚本批量下载 Docker 镜像:Shell、PowerShell、Node.js 和 C#
本项目提供多种脚本(Shell、PowerShell、Node.js 和 C#)用于批量下载 Docker 镜像。配置文件 `docker-images.txt` 列出需要下载的镜像及其标签。各脚本首先检查 Docker 是否安装,接着读取配置文件并逐行处理,跳过空行和注释行,提取镜像名称和标签,调用 `docker pull` 命令下载镜像,并输出下载结果。使用时需创建配置文件并运行相应脚本。C# 版本需安装 .NET 8 runtime。
163 2
|
5月前
|
Shell Linux 测试技术
6种方法打造出色的Shell脚本
6种方法打造出色的Shell脚本
148 2
6种方法打造出色的Shell脚本
|
5月前
|
XML JSON 监控
Shell脚本要点和难点以及具体应用和优缺点介绍
Shell脚本在系统管理和自动化任务中扮演着重要角色。尽管存在调试困难、可读性差等问题,但其简洁高效、易于学习和强大的功能使其在许多场景中不可或缺。通过掌握Shell脚本的基本语法、常用命令和函数,并了解其优缺点,开发者可以编写出高效的脚本来完成各种任务,提高工作效率。希望本文能为您在Shell脚本编写和应用中提供有价值的参考和指导。
223 1
|
5月前
|
Ubuntu Shell 开发工具
ubuntu/debian shell 脚本自动配置 gitea git 仓库
这是一个自动配置 Gitea Git 仓库的 Shell 脚本,支持 Ubuntu 20+ 和 Debian 12+ 系统。脚本会创建必要的目录、下载并安装 Gitea,创建 Gitea 用户和服务,确保 Gitea 在系统启动时自动运行。用户可以选择从官方或小绿叶技术博客下载安装包。
208 2