奔跑的数据_个人页

奔跑的数据
个人头像照片
423
0
0

个人介绍

暂无个人介绍

擅长的技术

获得更多能力
通用技术能力:

暂时未有相关通用技术能力~

云产品技术能力:

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明
暂无更多信息

2023年04月

  • 04.17 15:11:40
    发表了文章 2023-04-17 15:11:40

    如何隐藏Selenium特征实现自动化网页采集

    Selenium是一个流行的自动化网页测试工具,可以通过模拟用户在Chrome浏览器中的操作来完成网站的测试。然而,有些网站会检测浏览器是否由Selenium驱动,如果是,就会返回错误的结果或拒绝访问。为了避免这种情况,我们需要隐藏Selenium的特征,让网站认为我们是正常的用户。
  • 04.12 16:39:07
    发表了文章 2023-04-12 16:39:07

    成都房地产市场火爆,房价走势之数据分析

    2023年4月,成都二手房参考均价为15627元/平,环比上涨0.31%,同比下跌1.42%。成都新房成交均价为20159元/平,环比持平。从区域来看,高新区、锦江区、武侯区、青羊区、金牛区等主城区的房价较高,均超过2万/平。而郫都区、新都区、温江区、龙泉驿区等远郊区的房价较低,多在1万/平左右。从走势来看,成都的房价在过去一年中呈现出稳中有升的态势,没有出现大幅波动。 那么今后成都的房价会如何发展呢?通过爬虫程序采集对房天下、安居客、知乎等相关网站的数据进行整理,可以有如下数据统计
  • 04.10 17:23:11
    发表了文章 2023-04-10 17:23:11

    介绍CabloyJS全栈框架的功能特点

    CabloyJS是一款全栈框架,它自带工作流引擎,并提供了丰富的SEO工具和报告。作为一个低代码开发平台,CabloyJS的跨端跨平台理念可以帮助开发者实现一次开发,到处运行的目标。此外,CabloyJS还提供了网页信息分析、数据采集和代理IP等功能。
  • 04.06 14:19:23
    发表了文章 2023-04-06 14:19:23

    Puppeteer工具简介及其在网页爬取和自动化中的应用

    Puppeteer是一个流行的Node.js库,在开发者中广泛使用的用于网页爬取和自动化任务的工具。它提供两种操作模式,即headfull和headless。在headfull模式下,Puppeteer控制的Chrome或Chromium浏览器是有界面的,也就是可以看到浏览器运行的情况。在此模式下,可以使用浏览器的开发者工具进行调试。这种模式非常适合在本地进行开发和调试。而在headless模式下,它在后台运行,没有用户界面,这种模式非常适合在服务器上运行,因为没有界面,所以可以节省很多资源。

2023年03月

  • 03.29 13:53:50
    发表了文章 2023-03-29 13:53:50

    如何使用PHP的swoole扩展提高服务器并发能力

    PHP的swoole扩展是一个高性能的网络通信框架,它可以让PHP开发者轻松地创建TCP/HTTP服务,来响应客户端的请求。但是,有些请求可能涉及到一些复杂和耗时的业务逻辑,如果在工作进程中直接处理,可能会影响服务器的并发能力。
  • 03.27 16:06:43
    发表了文章 2023-03-27 16:06:43

    提高LDAP服务安全性和易用性的TCP代理插件

    LDAP服务是一种应用层协议,用于提供分布式目录服务,并管理用户、组织、设备等实体的信息。为了提高客户端访问LDAP服务的便捷性和安全性,可以采用TCP代理插件。该插件可在客户端和LDAP服务器之间建立可靠的TCP连接,并根据需要转发或修改数据包。
  • 03.20 15:18:03
    发表了文章 2023-03-20 15:18:03

    Python关于全局解释器锁的提议

    关于全局解释器锁(GIL)是一个提议,旨在解决CPython中最大的可扩展性限制——全局解释器锁(GIL)。GIL阻止了多个线程同时执行Python代码,从而影响了Python利用多核CPU的能力。全局解释器锁提出了添加一个构建配置(--disable-gil),让CPython可以在没有GIL的情况下运行Python代码,并且进行必要的改动,使得解释器线程安全。
  • 03.15 15:16:56
    发表了文章 2023-03-15 15:16:56

    JavaScript异步编程之Promise和async/await的比较

    异步方法使您能够在不等待完成的情况下并发执行多个操作。在JavaScript中,有两种常用的实现异步方法的方式:Promise和async/await。 1. Promise.all()可以并行执行多个异步操作,并在所有操作都完成后得到结果; 2. async/await可以顺序执行多个异步操作,并在每个操作完成后得到结果; 3. Promise.all()需要使用then或catch方法处理回调或异常; 4. async/await可以使用try-catch语句处理异常; 5. async/await更接近于同步编程风格;
  • 03.14 15:30:18
    发表了文章 2023-03-14 15:30:18

    Python多线程爬虫编程中queue.Queue和queue.SimpleQueue的区别和应用

    在Python中,queue模块提供了多种队列类,用于在多线程编程中安全地交换信息。其中,queue.Queue 和queue.SimpleQueue 是两个常用的先进先出(FIFO)的队列类,它们有以下区别和优缺点: queue.Queue 是一个更复杂的队列类实现涉及到多个锁和条件变量,因此可能会影响性能和内存效率。 SimpleQueue 是一个更简单的队列类它只提供了put()和get()两个方法,并且不支持maxsize参数
  • 03.09 15:59:37
    发表了文章 2023-03-09 15:59:37

    Java web 开发涉及多线程和锁定的应用场景有哪些?(邮件发送和接收示例)

    Java web 开发中,有一些场景需要用到多线程和锁定,以提高性能、保证数据一致性或实现特定的功能,多线程和锁定提升网站性能、保障数据安全或实现复杂功能的重要技术手段。
  • 03.06 16:15:09
    发表了文章 2023-03-06 16:15:09

    使用Selenium和代理用户名和密码在C#中进行无头浏览

    Selenium是一个自动化测试工具,可以模拟用户在浏览器中的操作。在C#中使用Selenium和爬虫代理加强版IP的时候,因为代理服务器需要用户名和密码进行认证,Chrome浏览器会弹出一个认证窗口要求输入用户名和密码。可以创建一个Chrome扩展插件,然后加载使用完成自动认证窗口。
  • 03.02 15:06:13
    发表了文章 2023-03-02 15:06:13

    puppeteer vs python requests:哪种工具更适合采集视频链接?

    如果你想要从网上下载一些视频资源,你可能会遇到一些难题:有些网站需要动态渲染或者用户交互才能显示视频链接,有些网站需要处理复杂的编码和数据格式。那么,在这些情况下,你应该选择哪种浏览器自动化工具呢?本文将对比两种常用的工具:puppeteer和python requests,并分析它们在采集视频链接方面的优缺点。
  • 03.01 15:40:23
    发表了文章 2023-03-01 15:40:23

    Python二进制通信:struct、array、ctypes模块比较

    Python是一种广泛应用于数据处理和网络编程的语言。在与C语言或其他设备进行二进制通信时,Python需要使用一些专门的模块来转换数据格式。本文将介绍三个常用的模块:struct、array、ctypes,并从结构说明和性能分析两方面进行比较。

2023年02月

  • 02.28 15:12:14
    发表了文章 2023-02-28 15:12:14

    绕过HTTPS请求中的TLS特征识别及反爬机制

    使用 urllib.request 库进行 HTTPS 请求时,可能会出现 TLS 特征被识别的情况,可以考虑以下一些方法来绕过反爬机制:使用代理 IP、修改请求头部信息、降低请求频率或使用其他语言库,如 aiohttp、 Scrapy、Selenium 等,来进行复杂的反爬处理。 这段代码实现了一个基于 asyncio 和 aiohttp 的异步百度百科查询工具,具有较高的并发性能和响应速度,同时通过爬虫代理加强版IP和随机User-Agent能够提高采集的效率。
  • 02.27 16:31:03
    发表了文章 2023-02-27 16:31:03

    Python 文件上传:如何使用 multipart/form-data 编码和 requests 包

    为 Python 标准库没有提供创建 multipart/form-data 编码类型请求的内置方法,这种编码类型允许发送二进制数据和其他表单字段。因此,在 Python 文件上传时,程序必须要么使用第三方库,要么手动构造请求体和头部。其中一个比较简单的方法是使用 requests 包(PyPI 链接),简单快捷的在 Python 3 中使用Requests 包,通过Multipart/Form-Data 编码并上传文件。
  • 02.23 15:14:16
    发表了文章 2023-02-23 15:14:16

    如何使用Python对嵌套结构的JSON进行遍历获取链接并下载文件

    JSON(JavaScript Object Notation)是一种基于JavaScript语言的轻量级数据交换格式,它用键值对的方式来表示各种数据类型,包括字符串、数字、布尔值、空值、数组和对象,本文展示如何使用Python对嵌套结构的JSON进行遍历获取链接并下载文件。
  • 02.22 14:38:54
    发表了文章 2023-02-22 14:38:54

    Node.js前端如何使用反向代理解决跨域

    Node.js 是一个基于 Chrome V8 引擎的 JavaScript 运行环境,它让 JavaScript 在服务器端运行,特点是单线程、异步、事件驱动、非阻塞 I/O 等,使得它能够处理大量的并发请求,并且具有高效、轻量、可扩展等优势。 在使用 Node.js 前端开发时,可以解决跨域和 https 协议的限制。
  • 02.21 14:30:54
    发表了文章 2023-02-21 14:30:54

    如何使用Python批量下载图片

    爬虫程序在采集网页的过程中,需要从网上下载一些图片,比如表情包、壁纸、素材等,如果图片的数量很多,这样做就会非常麻烦和耗时。那么有没有更方便快捷的方法呢?答案是肯定的。我们可以利用[Python编程语言](https://www.python.org/)来实现批量下载图片的功能。Python是一种简单易学、功能强大、跨平台的编程语言,它有很多优秀的第三方库和模块,可以帮助我们处理各种网络请求和数据处理。
  • 02.20 16:01:15
    发表了文章 2023-02-20 16:01:15

    Python语言如何在一个单独的线程中进行快速的IO操作

    Python语言如何在一个单独的线程中进行快速的IO操作
  • 02.15 17:12:51
    发表了文章 2023-02-15 17:12:51

    Docker中MySQL和WordPress的常见问题及解决方法

    Docker是一个开源的容器平台,可以让你快速地开发和部署应用程序。在使用Docker时可能会遇到一些关于MySQL和WordPress的问题,例如连接错误或空响应。本文将介绍两个常见的问题及其解决方法,以及如何使用Apache HttpComponents进行带有NTLM认证的HTTP请求
  • 02.15 17:11:19
    发表了文章 2023-02-15 17:11:19

    如何用Python和Selenium轻松获取英语动词变位表格

    用Python和Selenium来获取英语动词变位表格是一个非常有趣且有用的技能,可以帮助你学习英语语法,提高英语水平
  • 发表了文章 2025-09-28

    秒级行情推送系统实战:从触发、采集到入库的端到端架构

  • 发表了文章 2025-09-25

    单机扛不住,我把爬虫搬上了 Kubernetes:弹性伸缩与成本优化的实战

  • 发表了文章 2025-09-24

    LLM + 抓取:让学术文献检索更聪明

  • 发表了文章 2025-09-23

    用Playwright打造可靠的企业级采集方案--从单机验证到集群化落地

  • 发表了文章 2025-09-22

    五个让抓取流程更可控的小技巧

  • 发表了文章 2025-09-17

    学会“读网页”:生成式 AI 在足球赛事信息整理中的实战

  • 发表了文章 2025-09-17

    从 Prompt 到 Parser:一次知乎采集的曲折经历

  • 发表了文章 2025-09-11

    超越传统XPath:用LLM理解复杂网页信息

  • 发表了文章 2025-09-09

    教你的采集程序看懂“伪装”的网页内容

  • 发表了文章 2025-09-08

    构建一个“会思考”的房地产数据获取脚本

  • 发表了文章 2025-09-03

    面向教育平台的分层内容采集思路

  • 发表了文章 2025-09-02

    新闻网站的数据采集与更新思路

  • 发表了文章 2025-09-01

    那次为了快讯,我和秒级响应杠上了

  • 发表了文章 2025-08-28

    从URL构造到字段提取的正则优化 —— 豆瓣影评的实践记录

  • 发表了文章 2025-08-27

    从信息捕获到多维研判的链路解析

  • 发表了文章 2025-08-26

    简单URL队列与复杂任务流转的边界实践 —— 速查小抄

  • 发表了文章 2025-08-25

    学术数据采集中的两条路径:结构化提取与交互式解析

  • 发表了文章 2025-08-20

    价格监控:接口请求还是模拟点击?一次性能对比分享

  • 发表了文章 2025-08-19

    单机与分布式:社交媒体热点采集的实践经验

  • 发表了文章 2025-08-18

    全量抓取还是增量采集?二手房数据采集实战解析

正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息
正在加载, 请稍后...
暂无更多信息