数据工程实践:从网络抓取到API调用,解析共享单车所需要的数据

本文涉及的产品
云解析 DNS,旗舰版 1个月
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介: 在本篇文章中,将解释网络抓取和APIs如何协同工作,从百科上抓取城市数据,利用APIs获取天气数据,从而推断出与共享单车相关的信息。

设想这样一个案例,当前共享单车应用广泛,在很多城市都有大量的投放,一方面解决了人们的短途快速出行问题,一方面对环境保护做出了贡献。但对于单车公司来说,如何确保单车投放在人们需要的地方?大量的共享单车聚集在市中心,且在雨雪等恶劣天气,人们又不会使用。


这正是数据工程师可以发挥作用的地方,利用他们的专业技术从互联网中提取和分析数据。


在本篇文章中,将解释网络抓取和APIs如何协同工作,从百科上抓取城市数据,利用APIs获取天气数据,从而推断出与共享单车相关的信息。


网络抓取与API调用:数据工程的工具箱


网络抓取是一种数字化的信息检索方式,它类似于在网络上获取数据的智能助手。想象一下,你在杂志中寻找与人工智能、机器学习、网络安全等相关的信息,而不是手动记录这些词汇,你可以使用网络抓取工具,例如Python爬虫工具BeautifulSoup,能够快速、高效地完成这项任务。


API是软件应用程序间相互交互的规则和协议集合,它们在软件背后扮演着重要角色,实现了应用程序间无缝集成和数据共享。这就像餐馆的菜单,提供了可选择的菜品清单和详细描述,用户点菜就如同发出数据请求,而厨房则为之准备菜品。在这个类比中,API就是菜单,而订单则是对数据的请求。


API的应用场景多种多样:


· 服务之间的通信:不同软件系统能够相互通信。


· 数据获取:API允许应用程序从服务器获取数据,为用户提供动态内容。


· 功能共享:它们还允许服务与其他应用程序共享其功能,比如地图集成到多个应用程序中的情况。


这些API之于软件的重要性不言而喻,它们促成了跨应用程序的交互和数据共享,为用户提供了更加丰富和便捷的体验。相比之下,网页抓取则是一种从网页中提取信息的方式,通常是将网页内容转化成可用的数据格式。虽然两者都涉及数据的获取和处理,但API更多地关注于应用程序间的交互和数据共享,而网页抓取则更专注于从网页中提取信息。


下图中展示了使用GET请求的客户端和API服务器之间的基本交互。理解这个过程对于了解数据在Web应用程序中的交换和利用至关重要。


image.png

PixelBin,Lucidchart


在此关系图的起点,API服务器充当中介。它接收GET请求,对其进行处理,并根据请求的参数确定适当的响应。


GET请求表示来自客户端(如网站或应用程序)向API服务器请求特定数据的查询,在请求之后,图中显示了服务器的响应。首先,发出响应代码,例如200表示成功,404表示未找到。然后,返回响应数据,其中包含客户端请求的信息。


由此可以看出,API与网页抓取的主要区别在于它们访问数据的方式:


· API是访问数据的官方渠道。这就像有一张VIP通行证可以进入一场音乐会,在那里你可以直接获得某些信息。


· 另一方面,网络抓取就像坐在观众席上,记下正在播放的歌曲的歌词。这是一种无需使用官方API即可从网站提取数据的方法。


回到最开始提到的案例中。


城市信息可以从多个途径获取。一种方法是从官方统计等渠道的网站下载CSV文件。但要注意的是,城市信息可能会变动频繁,但网站更新的频率无法保障。


另一个方法是使用百科的数据。大量的用户在定期更新这些信息,所以只需要专注于选择正确的数据。


接下来,以使用BeautifulSoup进行网络抓取为案例。目标是什么?提取关键细节,例如名称、纬度、经度和人口数量,两个充满活力的城市:AAA和XXX。


此处作者使用的是Jupyter Notebook开发环境,对于交互式编程和数据可视化非常出色。当然,其他工具如Atom、Visual Studio Code或IntelliJ IDEA也有自己的优势。


分步Python指南:抓取数据实践


首先,让我们看一下用于推断AAA和XXX数据的代码。在本节中,将介绍构成项目骨干的Python库。


import requests


我们的第一个工具是 requests 库。这是互联网的关键——它帮助我们向网站发送HTTP请求。

from bs4 import BeautifulSoup


接下来,我们从 bs4 包中介绍BeautifulSoup。一旦我们有了目标网页,BeautifulSoup就会解析HTML内容。


import pandas as pd


接下来是 pandas,这是数据科学中不可或缺的库。我们可以将抓取的数据转换为可读的表格,非常适合分析和可视化。


Python中另一个常用的模块是 re 模块。它是一个用于处理正则表达式的库。


import reheaders = {'Accept-Language': 'en-US,en;q=0.8'}


第一步是准备Python环境来接收来自web的数据。我们使用 requests 库来做到这一点,通过将“Accept-Language”设置为英语来确保我们的请求被普遍理解。


接下来,确定城市的URL -AAA。这个URL将成为我们获取丰富信息的门户:


url_aaa = "https://en.wikipedia.org/wiki/aaa"
aaa = requests.get(url_aaa, headers=headers)


发送请求后,检查请求是否成功是至关重要的。状态码为200表示连接成功。


aaa.status_code # Should return 200


现在使用BeautifulSoup解析AAA的网页,将HTML内容转换为我们可以使用的格式。


soup_aaa = BeautifulSoup(aaa.content, "html.parser")


当提取特定数据时,就可以获得我们想要的结果:


· 检索到城市名称和国家,指向我们的研究主题


· 经纬度给了我们地理坐标


· 从人口数量可以看出城市的规模


下面是如何仔细检索这些细节的流程:


A_city = soup_aaa.select(".mw-page-title-main")[0].get_text()
A_country = soup_aaa.select('a[href="/wiki/CCC"]')[0].get_text()
A_latitude = soup_aaa.select(".latitude")[0].get_text()
A_longitude = soup_aaa.select(".longitude")[0].get_text()
A_population = soup_aaa.select('td.infobox-data')[10].get_text()


在成功抓取AAA的数据后,我们将注意力转向XXX,使用相同的技术提取其城市名称、人口、纬度和经度。

和前面一样,使用BeautifulSoup解析XXX的百科页面,收集必要的数据并创建一个DataFrame。


data = {
    "City": [FR_city, BR_city],
    "Population": [FR_population, BR_population],
    "Latitude": [FR_latitude, BR_latitude],
    "Longitude": [FR_longitude, BR_longitude],
    "Country": [FR_country, BR_country]
}
df = pd.DataFrame(data)


接下来,我们通过微调来优化DataFrame以获得更好的可读性和准确性,以确保我们的数据干净且易于理解。


df['Population'] = pd.to_numeric(df['Population'], errors='coerce')
df['Latitude'] = pd.to_numeric(df['Latitude'], errors='coerce')
df['Longitude'] = pd.to_numeric(df['Longitude'], errors='coerce')
df['City'] = df['City'].astype(str)
# Display the DataFrame
print(df.head)


如果您的目标是在编码过程中获得高水平的舒适性和准确性,并且您有兴趣将方法改进到完美,那么这里有一段利用函数的Python代码。这种方法不仅简化了过程,而且提高了代码的可读性和可重用性。


def scrape_city_data(url):
    response = requests.get(url)
    if response.status_code == 200:
        soup = BeautifulSoup(response.content, "html.parser")
        city = soup.title.get_text().split(' - ')[0]
        country = soup.select('td.infobox-data a')[0].get_text()
        latitude = soup.select('span.latitude')[0].get_text()
        longitude = soup.select('span.longitude')[0].get_text()
        # Find the population data using provided code
        population_element = soup.select_one('th.infobox-header:-soup-contains("Population")')
        if population_element:
            population = population_element.parent.find_next_sibling().find(string=re.compile(r'\d+'))
            if population:
                population = int(population)
        else:
            population = None
        data = {
            'City': [city],
            'Country': [country],
            'Latitude': [latitude],
            'Longitude': [longitude],
            'Population': [population],
        }
        city_df = pd.DataFrame(data)
        return city_df
    else:
        print("Error:", response.status_code)
        return None
# List of German cities ( herre you can add more cities)
german_cities = ['Berlin', 'Frankfurt']
# Create an empty DataFrame with specified columns
german_cities_df = pd.DataFrame(columns=['City', 'Country', 'Latitude', 'Longitude', 'Population'])
# Iterate and scrape data for German cities
for city_name in german_cities:
    wiki_link = f"https://en.wikipedia.org/wiki/{city_name}"
    city_data = scrape_city_data(wiki_link)
    # Append the data to the table
    if city_data is not None:
        german_cities_df = pd.concat([german_cities_df, city_data], ignore_index=True)
# Display the DataFrame
print(german_cities_df)


通过专业的天气预报API来获取数据


有了地理位置,接下来看下影响共享单车的另一个方面——天气。这部分我们采用调用天气预报API的方式来获取数据。


下面是我们准备的Python函数。这个简洁的代码片段展示了如何以精炼的方式实现强大的功能,无缝地融合了技术性与易用性之间的隔阂。


def fetch_weather_data(API_key, city):
    import requests
    import pandas as pd
    from datetime import datetime
    from keys import weather_key
    url = f"http://api.openweathermap.org/data/2.5/forecast?q={city}&appid={API_key}&units=metric"
    response = requests.get(url)
    if response.status_code == 200:
        weather_json = response.json()
        if "list" in weather_json:
            temperature = weather_json["list"][0]["main"]["temp"]
            description = weather_json["list"][0]['weather'][0]['description']
            feels_like = weather_json["list"][0]["main"].get("feels_like")
            wind_speed = weather_json["list"][0]["wind"].get("speed")
            return pd.DataFrame({
                "city": [city],
                "forecast_time": [datetime.now()],
                "outlook": [description],
                "temperature": [temperature],
                "feels_like": [feels_like],
                "wind_speed": [wind_speed]
            })
        else:
            print("Unexpected response format: 'list' key not found.")
    else:
        print(f"Failed to fetch data for {city}. Status Code: {response.status_code}")
    return pd.DataFrame()
cities = ["Berlin", "Frankfurt"]
API_key = weather_key  # Replace with your actual API key
weather_df = pd.DataFrame()
for city in cities:
    city_weather_df = fetch_weather_data(API_key, city)
    if not city_weather_df.empty:
        weather_df = weather_df.append(city_weather_df, ignore_index=True)


为什么这很重要?


这个DataFrame不仅仅是天气数据的集合,而是Python在将原始数据转换为有意义的见解方面的强大功能。作为一个工具,可以帮助城市居民、旅行者或任何人根据实时天气状况做出决定。


在这篇博客中,我们涉及了抓取百科数据、从API获取天气数据、Python函数以及复杂数据易于理解的技巧。真正的项目开发中可能会包括对SQL数据库、AWS RDS和Lambda的深入研究,因此本文希望可以让读者明白理论知识和实际应用之间的差距。


声明:本文内容仅做技术学习交流使用。


参考原文与相关资料:


网页抓取和 API:放轻松,这就是数据工程生活方式 |由 Ornela Maloku |2023 年 12 月 |AWS 提示 (awstip.com)

BeautifulSoup文档

Python教程

ScrapingBee博客


编译:幂简集成

相关文章
|
10天前
|
并行计算 Java 数据处理
SpringBoot高级并发实践:自定义线程池与@Async异步调用深度解析
SpringBoot高级并发实践:自定义线程池与@Async异步调用深度解析
75 0
|
8天前
|
XML JSON API
ServiceStack:不仅仅是一个高性能Web API和微服务框架,更是一站式解决方案——深入解析其多协议支持及简便开发流程,带您体验前所未有的.NET开发效率革命
【10月更文挑战第9天】ServiceStack 是一个高性能的 Web API 和微服务框架,支持 JSON、XML、CSV 等多种数据格式。它简化了 .NET 应用的开发流程,提供了直观的 RESTful 服务构建方式。ServiceStack 支持高并发请求和复杂业务逻辑,安装简单,通过 NuGet 包管理器即可快速集成。示例代码展示了如何创建一个返回当前日期的简单服务,包括定义请求和响应 DTO、实现服务逻辑、配置路由和宿主。ServiceStack 还支持 WebSocket、SignalR 等实时通信协议,具备自动验证、自动过滤器等丰富功能,适合快速搭建高性能、可扩展的服务端应用。
46 3
|
10天前
|
机器学习/深度学习 数据采集 存储
时间序列预测新突破:深入解析循环神经网络(RNN)在金融数据分析中的应用
【10月更文挑战第7天】时间序列预测是数据科学领域的一个重要课题,特别是在金融行业中。准确的时间序列预测能够帮助投资者做出更明智的决策,比如股票价格预测、汇率变动预测等。近年来,随着深度学习技术的发展,尤其是循环神经网络(Recurrent Neural Networks, RNNs)及其变体如长短期记忆网络(LSTM)和门控循环单元(GRU),在处理时间序列数据方面展现出了巨大的潜力。本文将探讨RNN的基本概念,并通过具体的代码示例展示如何使用这些模型来进行金融数据分析。
68 2
|
5天前
|
Prometheus 监控 Cloud Native
如何查看商品销量 API 接口的性能指标数据?
要查看商品销量 API 接口的性能指标数据,可以通过以下几种方法:1. 使用第三方或开源 API 监控工具,如 Datadog、New Relic、Prometheus 和 Grafana;2. 在代码中手动记录时间戳或使用性能测量库;3. 查看 API 提供商的文档和报告;4. 进行负载测试,使用工具如 Apache JMeter 和 Gatling。这些方法可以帮助你全面评估 API 的性能表现。
23 2
|
9天前
|
设计模式 存储 数据库连接
PHP中的设计模式:单例模式的深入解析与实践
在PHP开发中,设计模式是提高代码可维护性、扩展性和复用性的关键技术之一。本文将通过探讨单例模式,一种最常用的设计模式,来揭示其在PHP中的应用及优势。单例模式确保一个类仅有一个实例,并提供一个全局访问点。通过实际案例,我们将展示如何在PHP项目中有效实现单例模式,以及如何利用这一模式优化资源配置和管理。无论是PHP初学者还是经验丰富的开发者,都能从本文中获得有价值的见解和技巧,进而提升自己的编程实践。
|
10天前
|
安全 编译器 PHP
PHP 7新特性深度解析与实践
【10月更文挑战第7天】在这篇文章中,我们将探索PHP 7带来的新特性和改进,以及如何利用这些新工具来提升你的代码效率。从性能优化到语法简化,再到错误处理的改进,本文将带你深入了解PHP 7的核心变化,并通过实际代码示例展示如何将这些新特性应用到日常开发中。无论你是PHP新手还是资深开发者,这篇文章都将为你提供有价值的见解和技巧。
24 6
|
8天前
|
设计模式 算法 PHP
PHP中的设计模式:策略模式的深入解析与实践
【10月更文挑战第9天】 策略模式是一种行为设计模式,它允许在运行时选择算法的行为。在PHP开发中,通过使用策略模式,我们可以轻松切换算法或逻辑处理方式而无需修改现有代码结构。本文将深入探讨策略模式的定义、结构以及如何在PHP中实现该模式,并通过实际案例展示其应用价值和优势。
11 1
|
5天前
|
供应链 网络协议 数据安全/隐私保护
|
5天前
|
设计模式 算法 PHP
PHP中的设计模式:策略模式的深入解析与实践
【10月更文挑战第12天】 在软件开发的世界中,设计模式是解决常见问题的最佳实践。它们不是具体的代码,而是一种编码和设计经验的总结。在PHP开发中,合理运用设计模式可以极大地提高代码的可维护性、扩展性和复用性。本文将深入探讨策略模式(Strategy Pattern)的原理、实现方式及其在PHP中的应用。通过具体示例,我们将展示如何利用策略模式来解耦算法与对象,从而让代码更加灵活和易于管理。
13 0
|
5天前
|
设计模式 存储 安全
PHP中的设计模式:单例模式的深入解析与实践
在PHP开发中,设计模式是提高代码可维护性、扩展性和重用性的关键技术之一。本文将深入探讨单例模式(Singleton Pattern)的原理、实现方式及其在PHP中的应用,同时通过实例展示如何在具体的项目场景中有效利用单例模式来管理和组织对象,确保全局唯一性的实现和最佳实践。

热门文章

最新文章

推荐镜像

更多