利用chrome插件批量读取浏览器页面内容并写入数据库

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
RDS MySQL DuckDB 分析主实例,集群系列 8核16GB
RDS MySQL Serverless 高可用系列,价值2615元额度,1个月
简介:
 试想一下,如果每天要收集100页网页数据甚至更多。如果采用人工收集会吐血,用程序去收集也就成为一个不二的选择。首先肯定会想到说用java、php、C#等高级语言,但这偏偏又有个登陆和验证码,搞到无所适从。还在为收集web端的数据感到苦恼吗?很高兴,你找对地方了。

  应用场景:

    1、需要每天大量重复收集web端的数据

    2、web页面数据需要登陆后才能采集

    3、web页面存在翻页

  解决方案:

    手工登陆,然后采用chrome插件的方式进行收集。当然你会说用selenium等自动化测试的方法进行收集更cool,而且可以每天自动收集,完全的自动化不用人工参与。但是作为chrome的忠实脑残粉,再者只需要前端的js、服务器端的接收文件、数据库就可以完美解决这一问题。再加上部署和操作简单。 脑残粉总有很多理由的嘛。好吧,就算是一种憋屈的曲线救国和实现方式吧。

  思路:
帮助手册:http://open.chrome.360.cn/extension_dev/overview.html

实例:
抓取某电商后台订单数据

1、创建一个项目文件夹并引入所需文件:如D:\tool\chrome_server_plugin

  jquery-2.1.1.min.js、icon.png

2、创建background.html

<html><head>
</head></html>
3、创建配置文件manifest.json文件

复制代码
{

"name": "获取某电商后台订单信息",
"version": "1.0",
"manifest_version": 2,
"description": "*********获取某电商后台订单信息*********",
"browser_action": {
"default_icon": "icon.png"
},
"permissions": [
"webNavigation",
"tabs",
"contextMenus",
"http://服务器接受数据url/"
],
"background": {
"scripts": ["eventPage.js","jquery-2.1.1.min.js"]
},
"content_scripts": [
{
"matches": ["http://抓取页面url/*"],
"js": ["jquery-2.1.1.min.js", "contentscript.js"]
}
]
}
复制代码
4、创建前端js文件contentscript.js

复制代码
var totalPage;
var page = 0;
//注册前台页面监听事件
chrome.extension.onMessage.addListener(
  function(request, sender, sendResponse) {
    totalPage = $("input[name=totalPage]").val();
    console.log("totalPage----------" + totalPage);
    //console.log("msg----------contentscript.js" + request.greeting);
    getOrderInfo( sendResponse );
  });

//获取订单信息
function getOrderInfo( sendResponse ){
  var flag = false;

  payMoney = [];//货款金额
  orderTime = [];//下单时间
  $("tr[class=head] span").each(function(index){
    spantxt = '';
    spantxt = $(this).text();
    if(spantxt.indexOf('货款金额:') > -1){
      money = spantxt.substr(5);
      //console.log(index + "---------payMoney-------货款金额:" + money);
      payMoney.push(money);
    }else if(spantxt.indexOf('下单时间:') > -1){
      time = spantxt.substr(5);
      //console.log(index + "---------orderTime-------下单时间:" + time);
      orderTime.push(time);
    }
  });

paytype = [];//物流方式
yunfei = [];//运费
$("td[class=p-values]").each(function(index){
  tdtxt = '';
  tdtxt = $(this).text();
  if(tdtxt.indexOf('货到付款') > -1){
    paytype.push('货到付款');
  }else{
    paytype.push('在线支付');
  }

  yf_index = tdtxt.indexOf('运费:');
  if(yf_index > -1){
    temp = tdtxt.substr(yf_index);
    temp_yf = temp.substr(3);
    //console.log(index + "---------yunfei-------"+ temp +"===" + temp_yf);
    yunfei.push(temp_yf);
  }else{
    yunfei.push(0);
  }

  //console.log(index + "---------tdtxt-------" + tdtxt);
});

orderStatus = [];//订单状态
users = [];//买家账号
remark = [];//备注
$("tr[class=content] td[class=t-c]").each(function(index){
  tdtxt = '';
  tdtxt = $(this).text().replace(/[\r\n]\ +/g,"");//将回车,换行,空格去掉
  temp = index % 5;
  if(1 == temp){
    orderStatus.push(tdtxt);
    //console.log(index + "---------statu-------" + tdtxt);
  }else if(2 == temp){
    users.push(tdtxt);
    //console.log(index + "---------users-------" + tdtxt);
  }else if(3 == temp){
    remark.push(tdtxt);
    //console.log(index + "---------remark-------" + tdtxt);
  }
});

express = [];//快递单号
$("tr[class=content] td div[style='text-align: center;']").each(function(index){
  tdtxt = '';
  tdtxt = $(this).text().replace(/[\r\n]\ +/g,"");//将回车,换行,空格去掉
  express.push(tdtxt);
  //console.log( "============快递单号=======" + tdtxt);
});

orderInfo = [];
splitstr = "@_@";
$("tr[class=head] a[track=orderinfopagebeta]").each(function(index){
  orderid = $(this).text();
  //console.log("---------orderid-------" + orderid);
  mycomment = $("a[id=comment_" + orderid + "]").attr('style').replace(/[\r\n]\ +/g,"");
  if("display: block;" == mycomment){
    mycomment = '已评价';
  }else if('display:none;' == mycomment){
    mycomment = '未评价';
  }

  tempshopid = $("img[id=remarkFlag_" + orderid + "]").attr('onclick');
  shopidIndex = tempshopid.indexOf(",");
  shopid = tempshopid.substr(shopidIndex + 1).replace(/[\)\;]/g,"");
  //console.log("---------shopid-------" + shopid);
  orderdesc = shopid + splitstr + orderid + splitstr + mycomment + splitstr + payMoney[index] + splitstr + orderTime[index] + splitstr + paytype[index] + splitstr + yunfei[index] + splitstr + orderStatus[index] + splitstr + users[index] + splitstr + remark[index] + splitstr + express[index];
  console.log("---------orderdesc-------" + orderdesc);
  orderInfo.push(orderdesc);
});

//chrome.extension.sendMessage({"orderInfo": orderInfo}, function(response) {});
page = parseInt($("a[class=current]").text());
totalPage = parseInt($("input[name=totalPage]").val());
console.log(page + "--page-----------totalPage---" + totalPage);
if(page < totalPage && page < 100){
  console.log("---------next-------");
  sendMsg( orderInfo, "next" );
  $('a.next')[1].click();
}else{
  console.log("---------end-------");
  sendMsg( orderInfo, "end" );
}
//

}

//将获取内容传递给后台文件进行处理
function sendMsg( msg, cmd){
  chrome.extension.sendMessage({"msg": msg, "cmd": cmd}, function(response) {});
}
复制代码
5、创建后台处理js文件eventPage.js

复制代码
var flag = false;
var currentTabId;
chrome.browserAction.onClicked.addListener(function(tab) {
  counter = 40;
  console.log('Turning ' + tab.url);
  flag = true;
  currentTabId = tab.id;
  chrome.tabs.getSelected(null, function(tab) {
    sendMsg(tab.id);
  });
});


chrome.webNavigation.onCompleted.addListener(function( tab ){
  console.log('加载完成***' + tab.tabId );
  if( flag ){
    sendMsg( tab.tabId );
  }
});

chrome.extension.onMessage.addListener(

function(request, sender, sendResponse) {
  console.log("*******evenPage.js***chrome.extension.onMessage.addListener"); 
  articleData = request;
  $.ajax({
    url: "服务器接受数据URL/getOrderinfo.php",
    cache: false,
    type: "POST",
    data: {'orderinfo': request.msg.join("#$#")},
    dataType: "json"
    }).done(function(msg) {
      console.log('*******************json*************' + msg.sql );
      chrome.tabs.sendMessage(currentTabId, {"cmd":"end"}, 
      function(response) { 
      console.log(response); 
 });

}).fail(function(jqXHR, textStatus) {
  articleData.firstAccess = textStatus;
});

cmd = request.cmd;
if('end' == cmd){
  flag = false;//确保不会自动运行
}

});

function sendSku2Info(colores){
  chrome.tabs.query(
    {active: true, currentWindow: true}, function(tabs) {
      chrome.tabs.sendMessage(tabs[0].id, {"cmd":"ok", "sku": colores}, 
      function(response) { 
        console.log(response); 
      });

  });
}

function sendMsg( tabid ){
  console.log(tabid + "--sendMsg()----eventPage.js");
  chrome.tabs.sendMessage(tabid, {greeting: "start working"}, function(response) {
  });
}
复制代码
 

4、创建服务器接收文件getOrderInfo.php(放在服务器哦,亲!)

复制代码
<?php

header("Content-type:text/html; charset=utf-8");
//include("./includes/global.php");
echo "***********************";
$con = mysql_connect("localhost","root","root");
echo "==============";
if (!$con)
{
  die('Could not connect: ' . mysql_error());
}
mysql_select_db("test", $con);
//var_dump($_REQUEST);
$orderinfo = $_POST['orderinfo'];
$orderArr = explode('#$#', $orderinfo);
print_r($orderArr);
$sql_value = array();
$split = "', '";
foreach($orderArr as $myorder){
  $value = explode('@_@', $myorder);
  echo "===========" . $value[10] ."</br>";
  $sql = "INSERT INTO test(venderId, orderid, pingjia, money, ordertime, paytype, yunfei, orderstatu, user, remark, express) VALUES ";
  $sql .= "('" . $value[0] . $split . $value[1] . $split . $value[2] . $split . $value[3] . $split . $value[4] . $split . $value[5] . $split . $value[6] . $split .     $value[7] . $split . $value[8] . $split . $value[9] . $split . $value[10] . "') ON DUPLICATE KEY UPDATE remark = '" . $value[9] . "', pingjia = '" .     $value[2] . "', orderstatu = '" . $value[7] . "', express = '" . $value[10] . "'";
  mysql_query($sql);
}
mysql_close($con);

?>
复制代码
5、创建数据库表

复制代码
CREATE TABLE `test` (
`id` int(10) unsigned NOT NULL AUTO_INCREMENT COMMENT 'id',
`venderId` int(10) NOT NULL DEFAULT '0' COMMENT '商家ID',
`orderid` bigint(20) NOT NULL DEFAULT '0' COMMENT '订单ID',
`pingjia` varchar(100) NOT NULL DEFAULT '' COMMENT '订单发出后的状态(是否评价)',
`money` decimal(10,2) NOT NULL DEFAULT '0.00' COMMENT '订单金额',
`ordertime` varchar(100) NOT NULL DEFAULT '' COMMENT '下单时间',
`paytype` varchar(100) NOT NULL DEFAULT '' COMMENT '付款方式',
`yunfei` decimal(10,2) NOT NULL DEFAULT '0.00' COMMENT '运费',
`orderstatu` varchar(100) NOT NULL DEFAULT '' COMMENT '订单状态',
`user` varchar(255) NOT NULL DEFAULT '' COMMENT '订单用户',
`remark` varchar(255) NOT NULL DEFAULT '' COMMENT '备注',
`express` varchar(255) NOT NULL DEFAULT '' COMMENT '物流方式和运单号',
`shop_id` int(10) unsigned NOT NULL DEFAULT '0' COMMENT '店铺表ID',
`shop_name` varchar(255) NOT NULL DEFAULT '' COMMENT '店铺名称',
`stattime` int(11) NOT NULL DEFAULT '0' COMMENT '下单年月日',
PRIMARY KEY (`id`),
UNIQUE KEY `orderid` (`orderid`)
) ENGINE=MyISAM AUTO_INCREMENT=1 DEFAULT CHARSET=utf8 COMMENT=''
复制代码
注意:各文件中红色部分需要手工修改,此外如果修改js文件名,请在manifest.json中修改相应的配置信息即可。

插件加载步骤: 示例代码:https://github.com/jackgitgz/chrome_server_plugin

此示例仅供参考,有理解不到位或错误的还请指出。





本文转自秋楓博客园博客,原文链接:http://www.cnblogs.com/rwxwsblog/p/4490530.html,如需转载请自行联系原作者
相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
MySQL数据库入门学习
本课程通过最流行的开源数据库MySQL带你了解数据库的世界。 &nbsp; 相关的阿里云产品:云数据库RDS MySQL 版 阿里云关系型数据库RDS(Relational Database Service)是一种稳定可靠、可弹性伸缩的在线数据库服务,提供容灾、备份、恢复、迁移等方面的全套解决方案,彻底解决数据库运维的烦恼。 了解产品详情:&nbsp;https://www.aliyun.com/product/rds/mysql&nbsp;
目录
相关文章
|
5月前
|
机器学习/深度学习 人工智能 文字识别
浏览器AI模型插件下载,支持chatgpt、claude、grok、gemini、DeepSeek等顶尖AI模型!
极客侧边栏是一款浏览器插件,集成ChatGPT、Claude、Grok、Gemini等全球顶尖AI模型,支持网页提问、文档分析、图片生成、智能截图、内容总结等功能。无需切换页面,办公写作效率倍增。内置书签云同步与智能整理功能,管理更高效。跨平台使用,安全便捷,是AI时代必备工具!
379 8
|
7月前
|
Web App开发 人工智能 JavaScript
一键三连不求人!用 CodeBuddy 写个浏览器插件自动点赞、评论、收藏
本文介绍了一款通过 CodeBuddy AI 工具开发的浏览器插件,可自动完成“点赞、评论、收藏”三连操作。作者从需求出发,分四步实现:搭建基础框架、指定目标网页、解析内容并模拟点击事件,最后加载验证插件。借助 CodeBuddy 自动生成代码,整个过程高效便捷,大幅提升用户体验。此工具不仅节省手动操作时间,还为自动化任务提供了新思路,适合热爱技术与效率提升的网页冲浪者尝试。
|
10月前
|
人工智能 JavaScript 关系型数据库
【02】Java+若依+vue.js技术栈实现钱包积分管理系统项目-商业级电玩城积分系统商业项目实战-ui设计图figmaUI设计准备-figma汉化插件-mysql数据库设计-优雅草卓伊凡商业项目实战
【02】Java+若依+vue.js技术栈实现钱包积分管理系统项目-商业级电玩城积分系统商业项目实战-ui设计图figmaUI设计准备-figma汉化插件-mysql数据库设计-优雅草卓伊凡商业项目实战
372 14
【02】Java+若依+vue.js技术栈实现钱包积分管理系统项目-商业级电玩城积分系统商业项目实战-ui设计图figmaUI设计准备-figma汉化插件-mysql数据库设计-优雅草卓伊凡商业项目实战
|
9月前
|
缓存 NoSQL 关系型数据库
WordPress数据库查询缓存插件
这款插件通过将MySQL查询结果缓存至文件、Redis或Memcached,加速页面加载。它专为未登录用户优化,支持跨页面缓存,不影响其他功能,且可与其他缓存插件兼容。相比传统页面缓存,它仅缓存数据库查询结果,保留动态功能如阅读量更新。提供三种缓存方式选择,有效提升网站性能。
170 1
|
10月前
|
人工智能 程序员 测试技术
AI编程:Coze + Cursor实现一个思维导图的浏览器插件
本文是小卷关于AI编程工具学习的第3篇文章,通过开发一个思维导图生成工具,详细介绍了AI编程的完整流程。从需求分析、插件选择(如Coze的TreeMind),到创建测试工作流、发布API,再到整合API和开发浏览器插件,最终实现了用户选中文字后生成思维导图的功能。文章展示了如何利用现有工具高效开发,并总结了AI编程的优势与未来趋势。
1078 14
|
11月前
|
Web App开发 搜索推荐 开发者
浏览器插件上架指南:如何把你的产品搬上浏览器插件市场
在实践了 Chrone、Firefox、Edge、Opera 等 几个主要的插件平台的上架发布工作后,我觉得很有必要把这个过程和思考记录下来,分享给大家,希望能提供一些参考和避坑的经验。我想通过这篇文章,和大家聊聊「为什么我要做这件事」,以及「这个系列文章会包含哪些内容」。我想用一个系列的文章,记录我是如何把 EmojiClick 搬到浏览器插件市场的,也给大家提供一些借鉴经验。
289 19
|
SQL Java 数据库连接
深入 MyBatis-Plus 插件:解锁高级数据库功能
Mybatis-Plus 提供了丰富的插件机制,这些插件可以帮助开发者更方便地扩展 Mybatis 的功能,提升开发效率、优化性能和实现一些常用的功能。
1395 26
深入 MyBatis-Plus 插件:解锁高级数据库功能
|
Web App开发 SQL 数据库
使用 Python 解析火狐浏览器的 SQLite3 数据库
本文介绍如何使用 Python 解析火狐浏览器的 SQLite3 数据库,包括书签、历史记录和下载记录等。通过安装 Python 和 SQLite3,定位火狐数据库文件路径,编写 Python 脚本连接数据库并执行 SQL 查询,最终输出最近访问的网站历史记录。
301 4
|
NoSQL 前端开发 MongoDB
前端的全栈之路Meteor篇(三):运行在浏览器端的NoSQL数据库副本-MiniMongo介绍及其前后端数据实时同步示例
MiniMongo 是 Meteor 框架中的客户端数据库组件,模拟了 MongoDB 的核心功能,允许前端开发者使用类似 MongoDB 的 API 进行数据操作。通过 Meteor 的数据同步机制,MiniMongo 与服务器端的 MongoDB 实现实时数据同步,确保数据一致性,支持发布/订阅模型和响应式数据源,适用于实时聊天、项目管理和协作工具等应用场景。
353 0
|
自然语言处理 关系型数据库 MySQL
MySQL数据库使用Match语法需要安装什么插件吗?
【10月更文挑战第1天】MySQL数据库使用Match语法需要安装什么插件吗?
240 0

热门文章

最新文章