GPT大升级!它可以在哪些场景辅助数据采集?

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
实时计算 Flink 版,5000CU*H 3个月
实时数仓Hologres,5000CU*H 100GB 3个月
简介: 用ChatGPT辅助数据采集,XPath、正则表达式都能写!

前几天,OpenAI公司召开了发布会,宣布了GPT-4 的大升级,还推出ChatGPT新的语音与图像功能,让ChatGPT可以看、听和说话。

ChatGPT是OpenAI公司开发的一个基于人工智能技术的语言模型,全球周活跃用户已经超过1亿,它可以完成许多任务:回答问题、提供思路和建议、写文案、甚至编写代码等等。

目前ChatGPT的数据已经更新至2023年4月,但由于不能联网,它还不能直接帮我们执行数据采集操作,获取互联网上的数据,但它可以在各个环节辅助我们进行数据采集,包括但不限于编写代码、修改代码,或是提供工具使用建议。

在数据采集场景中,ChatGPT可以在以下这些环节帮助我们:

让ChatGPT提供数据采集的建议

在正式采集数据之前,我们可以先做一些准备,比如询问ChatGPT对于数据源、采集策略和采集方法的建议。

假如我们想要研究今年国内房地产行业的情况,可以直接这样询问:

image.png

用ChatGPT辅助八爪鱼数据采集

对于没有编程基础的职场人士/学生而言,有一款0代码的、操作简单的数据采集工具会对工作和学习带来非常大的收益,八爪鱼就是这样一款工具啦!

八爪鱼专注0代码数据采集的推广与普及,能实现全网99%以上网站数据的采集。

对于大部分的数据规整的网页,我们都可以用八爪鱼的模板采集和智能识别功能来搞定数据采集。

但也有一些结构比较复杂的网站,需要我们自定义采集步骤,并使用一些辅助手段,比如XPath和正则表达式

用ChatGPT写XPath

在遇到一些结构复杂的网页的时候,我们可以使用xpath来精确定位需要采集的数据,提高采集的效率和准确性。

比如:无法正常翻页循环、定位不到所有列表、指定区域的定位……这些都可以用XPath来解决!

比如我们要采集网页中的某个元素数据,就可以打开网页,右键单击要提取的信息,然后选择”检查”来查看HTML结构。将HTML源代码复制给ChatGPT,让他提供XPath表达式即可。

用ChatGPT写正则表达式

正则表达式是一种字符串匹配的模式,用于描述一类字符串的集合。它可以用来匹配、搜索、替换、验证等操作。

在采集数据的过程中帮助我们调整网页既定格式;剔除多余符号等.....

撰写正则表达式规则对新手来说确实会有较高的门槛。但是有了ChatGPT,我们根本不需要自己编写,可以直接通过提问对话的方式获取所需规则!

image.png

让ChatGPT清洗数据

在数据清洗阶段,我们需要处理数据中的错误、缺失、重复或不一致的部分。

这包括去除冗余数据,例如重复的记录或无效的数据;解决数据类型不匹配问题,将数据转换成相同的格式或类型等。

让ChatGPT分析数据

在数据分析之前,我们也可以通过和ChatGPT对话来获取一些灵感,比如问他,我们想要分析某个产品的用户评价情况,应该从哪些渠道获取数据?从哪些维度分析数据? 通过数据分析结果,我们可以从哪些方面继续改进产品等。

以下是一些可以参考的数据分析方向:

统计分析

统计分析是数据分析的基础,比如我们可以通过观察比较数据在不同时间周期、地域、事件发展阶段的变化情况,来揭示数据背后的规律和趋势,也可以作为未来发展趋势的参考。

image.png

数据挖掘

数据挖掘是从大量数据中提取有价值的信息和知识的过程,包括关联规则挖掘、聚类分析、分类分析等多种技术。

image.png

文章来源:B站磕CP,知乎骂烂尾?大数据告诉你《开端》后遗症为何这么强!

文本分类

让ChatGPT将文本数据按照不同的类别进行划分,以便于后续的数据分析和处理,例如新闻文章可以分为政治、经济、体育等不同类别。

更多信息可以参考:干货 | 日采100W新闻数据,如何实现新闻自动分类

情感分析

对文本数据中的情感倾向进行分析,一般分为正面、负面和中性三种情感倾向,通常应用于舆情监测、电商评论分析等场景。

让ChatGPT对文本内容进行情感分析,可以更好地了解公众对某个事件或产品的看法和态度。
image.png

实体识别

让ChatGPT从文本数据中提取出具有特定意义的实体信息,如人名、地名、组织机构名等。

利用ChatGPT分析数据可以应用在各个行业,比如:

电商:从竞争对手网站提取产品评论和评级,以深入了解消费者偏好并确定需要改进的领域。

房地产:从房地产列表中提取房地产数据,以比较价格、分析趋势并预测未来的增长模式。

医疗保健:从医学研究论文和临床试验中提取数据,以找到有助于改善患者治疗结果的建议和相关性。

金融:从股票市场网站提取金融数据并对其进行分析,以预测股票价格、识别投资机会并评估风险。

旅游和酒店业:从旅游网站提取酒店、餐厅和旅游景点的评论和评级,并利用它们来确定需要改进的领域、预测未来趋势并向客户提供个性化建议。

媒体和娱乐:通过从媒体和娱乐网站提取数据来分析用户行为和情绪,为用户创建个性化内容推荐。

法律:从法律数据库中提取数据并进行分析,以预测法院裁决并评估法律风险。

……


以上是ChatGPT在数据采集场景中的部分应用,可以预见的是,随着行业的发展,ChatGPT以及其他人工智能模型的功能会越来越强大。

理想情况下,或许我们只需要告诉它,我们需要了解某个产品的社交媒体评论情况,它就可以自动调取公开数据,分析并直接向我们展示可视化的结果啦~

相关文章
|
2月前
|
API 云栖大会
通义千问升级旗舰模型Qwen-Max,性能接近GPT-4o
通义旗舰模型Qwen-Max全方位升级,性能接近GPT-4o
748 10
|
3月前
|
API 语音技术
再升级!MoneyPrinterPlus集成GPT_SoVITS
MoneyPrinterPlus现在可以和大名鼎鼎的GPT_SoVITS集成了,让money printer快人一步
再升级!MoneyPrinterPlus集成GPT_SoVITS
|
4月前
|
人工智能 搜索推荐 vr&ar
苹果手机iOS18最新升级:植入AI人工智能,国内百度文心一言,国外GPT4o来辅助
iOS 18亮点速览:AI强化的Siri、RCS安卓消息兼容、自定义主屏、辅助功能增强,VR进步,新隐私工具,包括锁定APP和眼动追踪。Passwords app保障安全,Apple Intelligence提升个性化体验。
201 1
|
4月前
|
机器学习/深度学习 人工智能 算法
AIGC使用问题之GPT-4相比ChatGPT有哪些升级
AIGC使用问题之GPT-4相比ChatGPT有哪些升级
|
5月前
|
存储 人工智能 安全
微软升级365 Copilot,加入GPT-4 Turbo、无限信息、100张图片生成加成等功能
微软升级365 Copilot,加入GPT-4 Turbo、无限信息、100张图片生成加成等功能
|
6月前
|
人工智能 边缘计算 自然语言处理
GPT-5可能在哪些方面实现升级?
【2月更文挑战第16天】GPT-5可能在哪些方面实现升级?
73 2
GPT-5可能在哪些方面实现升级?
|
12月前
|
人工智能 弹性计算 JSON
OpenAI首届开发者大会精彩解读,GPT4再升级
美国时间11月6日,OpenAI的CEO山姆·奥特曼(Sam Altman)在旧金山举办了首届开发者大会,在大会上OpenAI正式推出了GPT-4 Turbo以及ChatGPT的一系列升级内容。
|
6月前
|
人工智能 安全 搜索推荐
GPT-4 Alpha:OpenAI的革命性升级
GPT-4 Alpha:OpenAI的革命性升级
111 0
|
人工智能 API
一次10万token!GPT4最强对手史诗升级,百页资料一分钟总结完毕
一次10万token!GPT4最强对手史诗升级,百页资料一分钟总结完毕
190 0
|
搜索推荐
实测 | GPT 3.5系列模型选择指南:面试、英文邮件、直播、周报、简历5个场景下性价比如何?(2)
实测 | GPT 3.5系列模型选择指南:面试、英文邮件、直播、周报、简历5个场景下性价比如何?
277 0