py世界_社区达人页

个人头像照片
py世界
已加入开发者社区2346

勋章 更多

个人头像照片
专家博主
专家博主
个人头像照片
星级博主
星级博主
个人头像照片
技术博主
技术博主
个人头像照片
江湖新秀
江湖新秀

成就

已发布274篇文章
40条评论
已回答4个问题
0条评论
已发布0个视频
github地址

我关注的人 更多

技术能力

兴趣领域
  • Python
  • 数据库管理
  • 数据中心
擅长领域
技术认证

暂时未有相关云产品技术能力~

分享编程故事~

暂无精选文章
暂无更多信息

2025年10月

2024年08月

  • 发表了文章 2024-08-29

    比 requests 更强大 Python 库,让你的爬虫效率提高一倍!

  • 发表了文章 2024-08-29

    机器学习到底是什么?附sklearn代码

  • 发表了文章 2024-08-29

    Python selenium爬虫被检测到,该怎么破?

  • 发表了文章 2024-08-29

    ibis:极具潜力的Python数据分析新框架

  • 发表了文章 2024-08-29

    干财务的学Python到底有没有用?

  • 发表了文章 2024-08-29

    Python GIS神器geopandas 1.0版本来了

  • 发表了文章 2024-08-29

    6个强大且流行的Python爬虫库,强烈推荐!

  • 发表了文章 2024-08-29

    推荐3款自动爬虫神器,再也不用手撸代码了

  • 发表了文章 2024-08-29

    使用sklearn高效进行数据挖掘,收藏!

  • 发表了文章 2024-08-29

    ​DrissionPage,Python浏览器自动化又一神器~

  • 发表了文章 2024-08-29

    写Python时不用import,你会遭遇什么

  • 发表了文章 2024-08-29

    Python快速获取国内最新放假安排数据

  • 发表了文章 2024-08-29

    我使用Python开发网站的3个主要框架库,强烈推荐

  • 发表了文章 2024-08-29

    别说你会用Pandas

  • 发表了文章 2024-08-29

    让Python for循环飞起来!

  • 发表了文章 2024-08-29

    性能碾压pandas、polars的数据分析神器来了

  • 发表了文章 2024-08-29

    使用Raccoon AI写代码,同事又来围观

  • 发表了文章 2024-08-29

    原来你是这样的Pandas!!!

  • 发表了文章 2024-08-29

    这两个BI可视化软件如何选择?亲测推荐

  • 发表了文章 2024-08-29

    为啥我敢说Python是数据分析界的扛把子语言?

正在加载, 请稍后...
滑动查看更多
  • 回答了问题 2025-10-29

    我想采集某视频平台的平台数据,用selenium一直跳出验证码,怎么解决呀?

    我也经常遇到这种情况,用selenium、playwright被网站识别为爬虫脚本,然后老是跳出来验证码,有时候还没限制ip访问。后来查技术资料发现,用selenium很容易暴露非真人的身份。1、浏览器指纹暴露​​:会留下一些自动化程序的“特征”,比如navigator.webdriver,网站一检测到这个,就知道不是正常浏览器​​2、行为不像真人​​:访问过快,过于规律,就会被网站识别3、​​IP地址异常:请求过于频繁,或者过于规则的请求都会被识别出来 为了应对这些爬虫检测机制,我会直接用亮数据的网页解锁api来访问,和普通selenium请求一样,但是亮数据内置了自动切换ip功能,且能识别并解锁验证码,并隐藏浏览器指纹,这样就不会被检测到。我还用过亮数据的远程浏览器,操作类似普通浏览器,但能绕过爬虫检测,适合比较稳定的采集业务。
    踩0 评论0
  • 回答了问题 2025-10-29

    如何搭建价格监测Agent,可以自动监测商品价格、活动,需要用到什么MCP服务吗?

    刚好我以前做过类似的项目,是监测某平台手机的库存情况,我是基于Cline搭配brightdata-mcp来创建Agent的,能支持每小时自动采集数据,然后存储到mysql数据库里,并将历史数据整理成可视化看板,整个过程完全不需要人参与。1、为什么使用cline,因为可以在vscode中搭建agent和配置mcp,比较方便。2、为什么使用brightdata-mcp采集数据,因为它是亮数据开发的专门用于网络数据采集的mcp,能绕过电商平台的爬虫检测,比如IP被封、验证码识别、浏览器指纹伪装,不需要自己在编写解析规则、配置代理ip等。3、可以在Cline中先创建一个智能体,配置brightdata-mcp信息,至于api key需要去亮数据申请。4、设置默认prompt,告诉agent去调用mcp,并完成数据采集、存储、分析的任务。
    踩0 评论0
  • 回答了问题 2025-10-29

    我是做电商平台的,准备训练本地垂直小模型,用于AI客服,如何采集训练数据?

    这题我会,现在小模型会渐渐成为垂直领域AI应用趋势,尤其是像电商、客服、游戏这类场景,因为大模型不了解你的客户,对行业知识不专业,所以需要大量行业数据训练小模型。我给公司做过商品竞争力分析的小模型,说说我是怎么采集数据和训练模型的,供参考。1、确定数据范围:某电商平台的商品标题、详情描述、规格参数、价格、图片、用户评论等,以及某社交平台关于商品的帖子。2、采集数据:我是用的亮数据爬虫API,它是那种一键采集的模式,只需要通过requests提交商品url就可以获取结构化json数据。你不需要处理网站的反爬措施,因为亮数据的接口已经内置了处理IP封锁、验证码的技术,可以绕过自动化程序检测,所以相对稳定。3、数据清洗:将数据整理成模型训练需要的标准格式,包含“指令”(任务描述)、“输入”(用户问题)和“输出”(理想回答)的json文件4、训练模型,可以采用transform模型
    踩0 评论0
  • 提交了问题 2025-10-29

    我想采集某视频平台的平台数据,用selenium一直跳出验证码,怎么解决呀?

  • 提交了问题 2025-10-29

    如何搭建价格监测Agent,可以自动监测商品价格、活动,需要用到什么MCP服务吗?

  • 提交了问题 2025-10-29

    我是做电商平台的,准备训练本地垂直小模型,用于AI客服,如何采集训练数据?

  • 提交了问题 2025-10-26

    我想用AI采集数据,如何部署和使用MCP服务,比如brightdata-mcp?

  • 提交了问题 2025-10-26

    如何使用Python playwright采集网页数据不被检测到?

  • 提交了问题 2025-10-26

    做跨境电商,采集数据用python自己写还是用亮数据API?

  • 提交了问题 2025-10-23

    我现在想要训练一个跨境电商小模型,用于商品竞争力分析,请问哪里获取跨境电商数据集?

  • 回答了问题 2025-10-23

    请问怎么在智能体中使用MCP搜索数据,比如brightdata-mcp?

    我这里推荐一种方式,就是在Qoder中创建智能体,比如“数据检索大师”,智能体中要配置brightdata-mcp,并且添加默认提示语,比如“你需要用brightdata-mcp检索网络数据,帮助用户解决搜索问题”,这样一个爬虫Agent就搭建好了。说到brightdata-mcp,确实适合作为爬虫mcp,因为它可以绕过各种反爬检测,我之前看了它的github仓库,据说是亮数据在mcp里内置了解锁技术和IP池,能自动处理各种ip检测、验证码,所以不需要用户自己处理。你可以用它浏览网页、采集数据,甚至可以用谷歌搜索内容,非常方便。
    踩0 评论0
  • 提交了问题 2025-10-21

    请问怎么在智能体中使用MCP搜索数据,比如brightdata-mcp?

  • 提交了问题 2025-10-20

    对于Python playwright采集数据,如何才能绕过各种反爬检测?

  • 提交了问题 2025-10-19

    如何评价用来采集数据的bright data MCP?

正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息