PHP的swoole扩展是一个高性能的网络通信框架,它可以让PHP开发者轻松地创建TCP/HTTP服务,来响应客户端的请求。但是,有些请求可能涉及到一些复杂和耗时的业务逻辑,如果在工作进程中直接处理,可能会影响服务器的并发能力。为了解决这个问题,swoole提供了两种异步执行任务的模型:task模型和多进程模型。
- task模型是指在工作进程中,通过调用swoole_server->task()方法,将任务投递给task进程处理。task进程是一种特殊的工作进程,专门用于处理耗时的任务。task进程可以通过设置task_worker_num参数来指定数量。当task进程处理完任务后,可以通过调用swoole_server->finish()方法,将结果返回给工作进程。
- 多进程模型是指在工作进程中,通过调用swoole_process类,创建子进程来处理任务。子进程是独立的进程,可以使用swoole提供的同步和锁机制来保证数据访问的安全性。子进程可以通过设置process_num参数来指定数量。当子进程处理完任务后,可以通过调用swoole_process->write()方法,将结果写入管道中。
无论是使用task模型还是多进程模型,都可以提高服务器的并发处理能力,适合处理一些比较复杂和耗时的业务逻辑。swoole扩展为PHP开发者提供了一个强大而灵活的网络编程工具,让PHP不仅仅是一个Web开发语言。
// 引入swoole扩展useSwoole\Http\Server; useSwoole\Http\Request; useSwoole\Http\Response; // 创建一个TCP/HTTP服务$server=newServer("0.0.0.0", 9523); // 设置工作进程和任务进程的数量$server->set([ 'worker_num'=>4, 'task_worker_num'=>2]); // 注册请求处理回调函数$server->on("request", function (Request$request, Response$response) use ($server) { // 获取客户端传递的数据$data=$request->get; // 判断是否使用task模型或多进程模型if (isset($data['mode']) &&$data['mode'] =='task') { // 使用task模型,投递任务给task进程处理$server->task($data); // 返回响应给客户端,不关注任务执行结果$response->end("Task mode: task has been delivered."); } else { // 使用多进程模型,创建子进程处理任务$process=newSwoole\Process(function ($process) use ($data) { // 在子进程中处理任务逻辑,比如写入数据库等// 这里只是简单地打印数据echo"Process mode: data is " . json_encode($data) . "\n"; // 处理完任务后,将结果写入管道中$process->write("Process mode: task has been done."); }); // 启动子进程$process->start(); // 从管道中读取子进程返回的结果$result=$process->read(); // 返回响应给客户端,包含任务执行结果$response->end($result); } }); // 注册任务处理回调函数$server->on("task", function ($server, $task_id, $src_worker_id, $data) { // 在task进程中处理任务逻辑,比如写入数据库等// 这里只是简单地打印数据echo"Task mode: data is " . json_encode($data) . "\n"; // 增加一个使用代理IP采集百度关键词的任务逻辑// 设置爬虫加强版代理IP$proxy="http://www.16yun.cn:8080"; $userpwd=“16YUN:16IP”; // 设置curl选项,使用代理IP和User-Agent$ch=curl_init(); curl_setopt($ch, CURLOPT_URL, "https://www.baidu.com/s?wd=" . urlencode($data["keyword"])); // 拼接百度搜索URL,使用$data["keyword"]作为关键词curl_setopt($ch, CURLOPT_PROXY, $proxy); // 使用爬虫加强版代理IPcurl_setopt($ch, CURLOPT_USERPWD, $userpwd); // 设置用户名和密码curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36"); // 使用随机或固定的User-Agentcurl_setopt($ch, CURLOPT_RETURNTRANSFER, true); // 将结果返回为字符串,而不是输出到屏幕上curl_setopt($ch, CURLOPT_TIMEOUT, 10); // 设置超时时间为10秒// 使用 -u 参数指定用户名和密码,假设用户名是 foo,密码是 barcurl_setopt($ch, CURLOPT_USERPWD, "foo:bar"); // 或者使用 --netrc-file 参数指定一个包含用户名和密码的文件,假设文件名是 my-password-file// curl_setopt($ch, CURLOPT_NETRC_FILE, "my-password-file");// 执行curl请求,获取百度搜索结果页面的HTML内容$html=curl_exec($ch); curl_close($ch); // 解析HTML内容,提取搜索结果的标题和链接等信息,可以使用正则表达式或第三方库等方法// 这里只是简单地打印HTML内容的前100个字符echo"Task mode: HTML content is " . substr($html, 0, 100) . "\n"; // 处理完任务后,将结果返回给工作进程,可以省略return"Task mode: task has been done."; }); // 注册任务完成回调函数$server->on("finish", function ($server, $task_id, $data) { // 在工作进程中接收任务执行结果,可以省略echo"Task mode: result is " . $data . "\n"; }); // 启动服务$server->start();
上述代码使用PHP的swoole扩展创建了一个TCP/HTTP服务,监听了9523端口,可以接收客户端的请求,并根据请求参数,使用task模型或多进程模型来异步执行爬虫采集百度搜索的任务,可以根据业务需要通过拓展实现更多个并发功能。