用ChatGPT写一个数据采集程序

简介: 既然ChatGPT可以理解并生成代码,那么自然而然,它的作用不仅仅是帮助学习代码,同样也可以直接用在实际的软件开发当中。

入门教程、案例源码、学习资料、读者群

请访问:python666.cn


大家好,欢迎来到 Crossin的编程教室 !


上次我们讨论了ChatGPT在辅助编程学习上的一些用法:


如何用ChatGPT学Python


既然ChatGPT可以理解并生成代码,那么自然而然,它的作用不仅仅是帮助学习代码,同样也可以直接用在实际的软件开发当中。


对于网页上的数据采集及处理是Python的常见应用场景之一。我们来看下ChatGPT是不是也能完成这样的任务。


假设我们现在需要抓取并整理某个网页上的表格数据:


https://python666.cn/static/score.html



我们直接来问问ChatGPT,能不能给个抓取的代码:



ChatGPT给了我们一份代码,但很遗憾,把这个代码复制到编辑器中运行后,生成的Excel是空的。


简单调试后发现,原来是因为页面上的表头元素用的是<th>标签



而ChatGPT因为没有获知具体的页面代码信息,直接当做<td>标签来处理,所以没采集到表头信息。



这种情况下,我们可以手动对代码做一些修改。


或者,我们点击回答下方的“Regenerate response”,让它重新回答一次试试:



这次ChatGPT给出的代码比之前简洁:


import pandas as pd
# 读取网页上的表格
url = 'https://python666.cn/static/score.html'
tables = pd.read_html(url)
# 假设目标表格是第一个表格
table = tables[0]
# 将表格保存为Excel文件
output_file = 'table.xlsx'
table.to_excel(output_file, index=False)
print(f"表格已保存为 {output_file}")


运行后,成功得到了我们要的结果:



顺利拿到数据后,我们再进一步,让ChatGPT来对数据进行排序。当然,在排序前,我们需要告诉它关于表格内容的必要信息:



代码:


import pandas as pd
# 读取网页上的表格
url = 'https://python666.cn/static/score.html'
tables = pd.read_html(url)
# 假设目标表格是第一个表格
table = tables[0]
# 将缺失值替换为0
table.fillna(0, inplace=True)
# 计算每个学生的均分
table['均分'] = table.mean(axis=1)
# 按均分降序排序
table.sort_values(by='均分', ascending=False, inplace=True)
# 将表格保存为Excel文件
output_file = 'sorted_table.xlsx'
table.to_excel(output_file, index=False)
print(f"按均分排序后的表格已保存为 {output_file}")


这次,ChatGPT完美实现了我们提出的需求:



可以看出,虽然ChatGPT很强大,但并不能保证每次生成的代码都是完美,仍然可能需要引导它修正或人工干预。


但即便如此,它也已经算得上一个十分得力的编程助手,可以大大提高开发效率。尤其像数据处理这种场景,以往开发时常常需要查找各种函数及其参数的使用方法。现在有了ChatGPT,只要准确描述数据格式及需求,就可以立刻得到相应的处理代码,非常的方便。


我现在做数据分析已经快离不开它了。

相关文章
|
29天前
|
数据采集 存储 自然语言处理
基于Qwen2.5的大规模ESG数据解析与趋势分析多Agent系统设计
2022年中国上市企业ESG报告数据集,涵盖制造、能源、金融、科技等行业,通过Qwen2.5大模型实现报告自动收集、解析、清洗及可视化生成,支持单/多Agent场景,大幅提升ESG数据分析效率与自动化水平。
101 0
|
2月前
|
数据挖掘 数据处理
ChatGPT在综合数据处理中的应用(二)
ChatGPT在综合数据处理中的应用(二)
36 0
|
2月前
|
数据处理 Python
ChatGPT在综合数据处理中的应用(一)
ChatGPT在综合数据处理中的应用(一)
34 0
|
2月前
|
数据处理 Python
ChatGPT在综合数据处理中的应用(自动发送邮件)
ChatGPT在综合数据处理中的应用(自动发送邮件)
31 0
|
4月前
|
人工智能 安全 开发者
OpenDevin出技术报告了,大模型Agent开发者必读
【8月更文挑战第25天】近期发布的OpenDevin技术报告备受瞩目,此报告由来自伊利诺伊大学香槟分校、卡内基梅隆大学等顶尖学府的研究员联合撰写。OpenDevin作为一个社区驱动的开放平台,旨在为AI软件开发者提供一个模拟通用代理的强大工具。平台采用事件流架构促进用户界面、代理与环境间的交互,并构建了包含沙盒操作系统和网络浏览器的任务执行环境。此外,它支持多代理协同作业及一系列评估标准,目前已涵盖15个评估基准。作为拥有160多位贡献者的社区项目,OpenDevin展现了极高的灵活性和安全性,同时也面临着技术门槛和进一步研发等挑战。
96 2
|
4月前
|
机器学习/深度学习 自然语言处理 算法
聊天机器人开发的最佳实践:技术探索与案例分析
【8月更文挑战第22天】聊天机器人作为人工智能领域的重要应用之一,正逐步改变着人们的生活和工作方式。通过遵循最佳实践和技术探索,开发者可以开发出更加智能、高效、安全的聊天机器人产品。未来,随着技术的不断进步和应用场景的不断拓展,聊天机器人将在更多领域发挥重要作用。
|
4月前
|
数据采集 监控 数据挖掘
打造高效用户旅程:埋点分析系统的实操指南
在数字化时代,了解用户如何与我们的产品或服务互动是至关重要的。用户行为,在广义上,指的是用户在网站、应用程序或其他数字界面上的所有动作和反应。这些行为可能包括点击链接、浏览页面、填写表单,甚至是在社交媒体上分享内容。每一个动作都是用户体验的一部分,并对我们理解他们的需求和偏好提供了宝贵的线索。 在技术层面上,用户行为的跟踪和分析可以让我们深入了解用户的互动模式,从而指导我们的产品改进和市场战略。通过分析这些数据,我们可以发现用户旅程中的关键触点,识别用户体验的痛点,以及揭示潜在的优化机会。这不仅有助于提升用户满意度和忠诚度,还可以增强产品的市场竞争力。
打造高效用户旅程:埋点分析系统的实操指南
|
4月前
|
自然语言处理 数据挖掘 BI
ChatGPT 等相关大模型问题之将现有的数据分析平台与大模型结合如何解决
ChatGPT 等相关大模型问题之将现有的数据分析平台与大模型结合如何解决
|
5月前
|
API 运维
开发与运维数据问题之LangChain帮助处理长篇报告如何解决
开发与运维数据问题之LangChain帮助处理长篇报告如何解决
72 1
|
7月前
|
数据采集 SQL 分布式计算
企业数据采集与分析(论文+源码)_kaic
企业数据采集与分析(论文+源码)_kaic

热门文章

最新文章