用ChatGPT写一个数据采集程序

简介: 既然ChatGPT可以理解并生成代码,那么自然而然,它的作用不仅仅是帮助学习代码,同样也可以直接用在实际的软件开发当中。

入门教程、案例源码、学习资料、读者群

请访问:python666.cn


大家好,欢迎来到 Crossin的编程教室 !


上次我们讨论了ChatGPT在辅助编程学习上的一些用法:


如何用ChatGPT学Python


既然ChatGPT可以理解并生成代码,那么自然而然,它的作用不仅仅是帮助学习代码,同样也可以直接用在实际的软件开发当中。


对于网页上的数据采集及处理是Python的常见应用场景之一。我们来看下ChatGPT是不是也能完成这样的任务。


假设我们现在需要抓取并整理某个网页上的表格数据:


https://python666.cn/static/score.html



我们直接来问问ChatGPT,能不能给个抓取的代码:



ChatGPT给了我们一份代码,但很遗憾,把这个代码复制到编辑器中运行后,生成的Excel是空的。


简单调试后发现,原来是因为页面上的表头元素用的是<th>标签



而ChatGPT因为没有获知具体的页面代码信息,直接当做<td>标签来处理,所以没采集到表头信息。



这种情况下,我们可以手动对代码做一些修改。


或者,我们点击回答下方的“Regenerate response”,让它重新回答一次试试:



这次ChatGPT给出的代码比之前简洁:


import pandas as pd
# 读取网页上的表格
url = 'https://python666.cn/static/score.html'
tables = pd.read_html(url)
# 假设目标表格是第一个表格
table = tables[0]
# 将表格保存为Excel文件
output_file = 'table.xlsx'
table.to_excel(output_file, index=False)
print(f"表格已保存为 {output_file}")


运行后,成功得到了我们要的结果:



顺利拿到数据后,我们再进一步,让ChatGPT来对数据进行排序。当然,在排序前,我们需要告诉它关于表格内容的必要信息:



代码:


import pandas as pd
# 读取网页上的表格
url = 'https://python666.cn/static/score.html'
tables = pd.read_html(url)
# 假设目标表格是第一个表格
table = tables[0]
# 将缺失值替换为0
table.fillna(0, inplace=True)
# 计算每个学生的均分
table['均分'] = table.mean(axis=1)
# 按均分降序排序
table.sort_values(by='均分', ascending=False, inplace=True)
# 将表格保存为Excel文件
output_file = 'sorted_table.xlsx'
table.to_excel(output_file, index=False)
print(f"按均分排序后的表格已保存为 {output_file}")


这次,ChatGPT完美实现了我们提出的需求:



可以看出,虽然ChatGPT很强大,但并不能保证每次生成的代码都是完美,仍然可能需要引导它修正或人工干预。


但即便如此,它也已经算得上一个十分得力的编程助手,可以大大提高开发效率。尤其像数据处理这种场景,以往开发时常常需要查找各种函数及其参数的使用方法。现在有了ChatGPT,只要准确描述数据格式及需求,就可以立刻得到相应的处理代码,非常的方便。


我现在做数据分析已经快离不开它了。

相关文章
|
5月前
|
数据采集 数据处理 开发者
Python爬虫技术在数据收集与分析中的应用
随着互联网信息的爆炸式增长,数据收集与分析变得愈发重要。本文将介绍Python爬虫技术在实际项目中的应用,探讨其在数据收集、清洗和分析过程中的作用,以及如何利用Python相关库提高爬虫效率。
|
2月前
|
机器学习/深度学习 存储 自然语言处理
基于知识库快速搭建智能客服问答 Bot
在数字化转型的大潮中,智能客服系统成为提升企业客户体验与运营效率的关键工具。Botnow平台集成智能体创作与分发功能,提供一站式智能客服问答Bot搭建服务。本文详细介绍了如何利用Botnow的知识库功能及RAG(Retrieve-Augmented Generation)方案快速构建智能客服问答Bot。通过Botnow平台,用户可以轻松创建知识库、配置智能体,并关联知识库以实现智能回答。该方案广泛适用于对话沟通、行业知识库建设、企业内部信息检索及内容创作等多个场景。Botnow平台以其可视化编排、低技术门槛等特点,助力企业轻松实现智能客服系统的搭建与优化,成为数字化转型的重要推手。
85 1
|
2月前
|
机器学习/深度学习 人工智能 算法
【人工智能】传统语音识别算法概述,应用场景,项目实践及案例分析,附带代码示例
传统语音识别算法是将语音信号转化为文本形式的技术,它主要基于模式识别理论和数学统计学方法。以下是传统语音识别算法的基本概述
56 2
|
2月前
|
自然语言处理 数据挖掘 BI
ChatGPT 等相关大模型问题之将现有的数据分析平台与大模型结合如何解决
ChatGPT 等相关大模型问题之将现有的数据分析平台与大模型结合如何解决
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
【专家系统】专家系统概述,应用场景,项目实践及案例分析,附带代码示例
专家系统是一种智能计算机程序系统,它包含了某个领域专家水平的知识与经验,能够应用人工智能技术和计算机技术,根据系统中的知识与经验进行推理和判断,模拟人类专家的决策过程,以解决那些需要人类专家处理的复杂问题。
120 1
|
2月前
|
数据采集 存储 自然语言处理
【优秀python案例】基于百度贴吧的数据采集与文本分析设计与实现
本文介绍了百度贴吧数据采集与文本分析的设计与实现,包括自动化采集帖子数据、进行情感分析和主题分析,以及使用可视化技术展示分析结果。
|
2月前
|
数据采集 存储 监控
用爬虫技术玩转石墨文档:自动化数据处理与信息提取的新探索
在当今数字化时代,文档协作与管理成为了职场人士日常工作中不可或缺的一部分。石墨文档,作为一款功能强大的在线文档工具,凭借其云端存储、多人实时协作、丰富的文档格式支持等特点,赢得了广泛的用户群体。然而,随着数据量的激增,如何高效地管理和利用这些数据成为了一个亟待解决的问题。此时,爬虫技术便成为了我们玩转石墨文档、实现自动化数据处理与信息提取的强大工具。
|
5月前
|
数据采集 SQL 分布式计算
企业数据采集与分析(论文+源码)_kaic
企业数据采集与分析(论文+源码)_kaic
|
5月前
|
人工智能 监控 数据可视化
【AI大模型应用开发】【LangSmith: 生产级AI应用维护平台】0. 一文全览Tracing功能,让你的程序运行过程一目了然
【AI大模型应用开发】【LangSmith: 生产级AI应用维护平台】0. 一文全览Tracing功能,让你的程序运行过程一目了然
184 0
|
5月前
|
机器学习/深度学习 数据采集 自然语言处理
编写员工聊天监控软件的机器学习模块:Scikit-learn在行为分析中的应用
随着企业对员工行为监控的需求增加,开发一种能够自动分析员工聊天内容并检测异常行为的软件变得愈发重要。本文介绍了如何使用机器学习模块Scikit-learn来构建这样一个模块,并将其嵌入到员工聊天监控软件中。
221 3
下一篇
无影云桌面