Python--自由之路(一)ImageCrawl

简介: 每个程序员都应该有自己最精通的一门语言,也许是缘分吧 ,很早就认识了Python,一直没多大在意,可是现在越来越发现Python在成长,随着Python 3K的发布,可以说,它的语法功能几乎囊括了现代编程语言中所有的精华。

每个程序员都应该有自己最精通的一门语言,也许是缘分吧 ,很早就认识了Python,一直没多大在意,可是现在越来越发现Python在成长,随着Python 3K的发布,可以说,它的语法功能几乎囊括了现代编程语言中所有的精华。最关键的是,它是开源的,开源意味着自由,集体共享的智慧。
自由之路开始了,呵呵。
 
今天把Crawl Image 完成了。当然,还有很多地方需要改进。特别是线程方面,等以后空了再改吧,和大家分享一下,也算学python第一阶段的总结。

 

• 学习了pythonurllib ,urlparse,HTMLParser,等模块

•  重点研究了HTMLParser 中的tag_handle 事件处理机制,自定义函数实现tag触发事件

• 采用内存缓存的形式存储数据,以站内页面的URL为字典的索引,方便判断URL是否已经加入URL容器,URL容器存储所有将要分析和已经分析的页面URL,继承了Dict字典类。

• 具体流程如下图:

  

  这个过程中还没有用到多线程下载,正在写一个线程通用模块,只要加上修饰符@thread的函数,就表示可以在子线程中独立运行,主线程不用等待,如果有任务需要子线程返回的结果,可以使用线程对象的join()函数。估计要过一段时间才能出下一个版本。

源码下载

目录
相关文章
|
JavaScript
Vue 自定义指令可以实现哪些有用的功能
Vue 有一些很实用的指令 v-show v-if v-text v-html v-bind v-on 可以帮助我们实现很复杂的功能,同时它还开辟了钩子供我们自己实现自定义指令。
387 0
|
6天前
|
弹性计算 人工智能 安全
云上十五年——「弹性计算十五周年」系列客户故事(第二期)
阿里云弹性计算十五年深耕,以第九代ECS g9i实例引领算力革新。携手海尔三翼鸟、小鹏汽车、微帧科技等企业,实现性能跃升与成本优化,赋能AI、物联网、智能驾驶等前沿场景,共绘云端增长新图景。
|
12天前
|
存储 弹性计算 人工智能
【2025云栖精华内容】 打造持续领先,全球覆盖的澎湃算力底座——通用计算产品发布与行业实践专场回顾
2025年9月24日,阿里云弹性计算团队多位产品、技术专家及服务器团队技术专家共同在【2025云栖大会】现场带来了《通用计算产品发布与行业实践》的专场论坛,本论坛聚焦弹性计算多款通用算力产品发布。同时,ECS云服务器安全能力、资源售卖模式、计算AI助手等用户体验关键环节也宣布升级,让用云更简单、更智能。海尔三翼鸟云服务负责人刘建锋先生作为特邀嘉宾,莅临现场分享了关于阿里云ECS g9i推动AIoT平台的场景落地实践。
【2025云栖精华内容】 打造持续领先,全球覆盖的澎湃算力底座——通用计算产品发布与行业实践专场回顾
|
4天前
|
云安全 人工智能 安全
Dify平台集成阿里云AI安全护栏,构建AI Runtime安全防线
阿里云 AI 安全护栏加入Dify平台,打造可信赖的 AI
|
11天前
|
人工智能 自然语言处理 自动驾驶
关于举办首届全国大学生“启真问智”人工智能模型&智能体大赛决赛的通知
关于举办首届全国大学生“启真问智”人工智能模型&智能体大赛决赛的通知
|
7天前
|
人工智能 运维 Java
Spring AI Alibaba Admin 开源!以数据为中心的 Agent 开发平台
Spring AI Alibaba Admin 正式发布!一站式实现 Prompt 管理、动态热更新、评测集构建、自动化评估与全链路可观测,助力企业高效构建可信赖的 AI Agent 应用。开源共建,现已上线!
683 17
|
6天前
|
人工智能 Java Nacos
基于 Spring AI Alibaba + Nacos 的分布式 Multi-Agent 构建指南
本文将针对 Spring AI Alibaba + Nacos 的分布式多智能体构建方案展开介绍,同时结合 Demo 说明快速开发方法与实际效果。
428 34