Python实战:决战虚拟货币市场

本文涉及的产品
密钥管理服务KMS,1000个密钥,100个凭据,1个月
简介: 比特币市场总是让人难以捉摸。比特币价值突然出现高峰和低谷的原因是什么?我们如何预测接下来会发生什么?那就让我们用数据来做一些事情吧。

53906c7363ce69a5901de46f26e11abf600a0c78

文章中大部分的图片为Plotly制作的动态图片,博客功能有限,如果需要看原图,可以查看原文。

这篇文章的目标是提供一个介绍:使用Python进行加密货币(例如比特币)分析。我们将通过一个简单的Python脚本来检索、分析以及可视化不同加密货币上的数据。在这个过程中,我们将揭示波动剧烈的市场行为以及它们是如何演变的成一个有趣的趋势。在本教程中,我们关心的只是获取原始数据,揭示隐藏在数字中的秘密。

1 – 环境的创建

步骤1.1 - 安装Anaconda

从头开始安装这个项目所需要的依赖关系的最简单方法是使用Anaconda,它是一个预先打包的Python数据科学生态系统和依赖项管理器。要设置Anaconda,我建议遵循正式的安装https://www.continuum.io/downloads

如果你是高级玩家,并且你不想使用Anaconda,请跳到第2步。

步骤1.2 - 安装Anaconda项目环境

安装了Anaconda,我们需要创建一个新的环境来保持我们的依赖关系。运行conda create --name cryptocurrency-analysis python=3为我们的项目创建一个新的Anaconda环境。

接下来,运行source activate cryptocurrency-analysis(在Linux / macOS上)或activate cryptocurrency-analysis(在Windows上)来激活这个环境。

最后,运行conda install numpy pandas nb_conda jupyter plotly quandl在环境中安装所需的依赖项。

PS:使用环境的好处是如果你计划在你的计算机上开发多个Python项目, Anaconda将为每个项目的依赖项创建一个特殊的环境目录,以保持其独立性。

步骤1.3 - 启动可以互动Jupyter Notebook

一旦环境和依赖关系全部建立起来,运行jupyter notebook启动iPython内核,然后打开浏览器http://localhost:8888/。创建一个新的Python notebook,确保使用Python [conda env:cryptocurrency-analysis]内核。

71b5af8b8a25c72c892e9be396684db3043b22ef

步骤1.4 – Notebooke顶部导入的依赖项

我们要做的第一件事就是导入所需的依赖关系。

import os
import numpy as np
import pandas as pd
import pickle
import quandl
from datetime import datetime

我们还将导入Plotly并启用离线模式。

import plotly.offline as py
import plotly.graph_objs as go
import plotly.figure_factory as ff
py.init_notebook_mode(connected=True)

2 - 检索比特币价格数据

接着,我们准备开始检索数据进行分析。首先,我们需要使用Quandl的免费比特币API获取比特币价格数据。

步骤2.1 - 定义Quandl助手功能

我们将定义一个函数来下载和缓存来自Quandl的数据集。

def get_quandl_data(quandl_id):
    '''Download and cache Quandl dataseries'''
    cache_path = '{}.pkl'.format(quandl_id).replace('/','-')
    try:
        f = open(cache_path, 'rb')
        df = pickle.load(f)   
        print('Loaded {} from cache'.format(quandl_id))
    except (OSError, IOError) as e:
        print('Downloading {} from Quandl'.format(quandl_id))
        df = quandl.get(quandl_id, returns="pandas")
        df.to_pickle(cache_path)
        print('Cached {} at {}'.format(quandl_id, cache_path))
    return df

我们正在使用pickle序列化并将下载的数据保存为文件,该函数将以Pandas数据框的形式返回数据。

步骤2.2 – 介绍Kraken交易所的交易数据

首先,我们来介绍Kraken比特币交易所的历史比特币汇率。

# Pull Kraken BTC price exchange data
btc_usd_price_kraken = get_quandl_data('BCHARTS/KRAKENUSD')

我们可以使用head()方法检查数据帧的前5行:

btc_usd_price_kraken.head()

接下来,我们将生成一个简单的图表,作为数据看起来正确的快速可视化验证。

# Chart the BTC pricing data
btc_trace = go.Scatter(x=btc_usd_price_kraken.index, y=btc_usd_price_kraken['Weighted Price'])
py.iplot([btc_trace])

c5c0b678e8ac3ff6b4a9a67a7c2bc9a66296a66c

在这里,我们使用Plotly来生成我们的可视化。Plotly是一个不错的选择,因为它使用D3.js生成完全交互的图表,它也容易被嵌入到网页中。

步骤2.3 - 从更多BTC交易所提取定价数据

你可能已经注意到了这个数据集有几个明显的下降峰值,特别是在2014年底和2016年初。比特币交易所的性质在于定价是由供求决定的,因此没有一个交易所包含比特币的真正价格。为了解决这个问题,我们将从另外三个比特币交易所获取数据,以计算总的比特币价格指数。

首先,我们将从每个交易所下载数据到一个数据框字典:

# Pull pricing data for 3 more BTC exchanges
exchanges = ['COINBASE','BITSTAMP','ITBIT']
exchange_data = {}
exchange_data['KRAKEN'] = btc_usd_price_kraken
for exchange in exchanges:
    exchange_code = 'BCHARTS/{}USD'.format(exchange)
    btc_exchange_df = get_quandl_data(exchange_code)
    exchange_data[exchange] = btc_exchange_df

步骤2.4 - 将所有定价数据合并成为单一的数据框

接下来,我们将定义一个简单的函数,将每个数据帧的公共列合并到一个新的组合数据框中。

def merge_dfs_on_column(dataframes, labels, col):
    '''Merge a single column of each dataframe into a new combined dataframe'''
    series_dict = {}
    for index in range(len(dataframes)):
        series_dict[labels[index]] = dataframes[index][col]       
    return pd.DataFrame(series_dict)

现在我们将把所有的数据框合并在加权价格列中。

# Merge the BTC price dataseries' into a single dataframe
btc_usd_datasets = merge_dfs_on_column(list(exchange_data.values()), list(exchange_data.keys()), 'Weighted Price')

最后,我们可以使用tail()方法预览最后五行的结果,以确保它看起来不错。

btc_usd_datasets.tail()
步骤2.5 - 可视化定价数据集

下一步是可视化这些数据集。我们将定义一个辅助函数来提供一个单行命令来从数据框中生成图形。

def df_scatter(df, title, seperate_y_axis=False, y_axis_label='', scale='linear', initial_hide=False):
    '''Generate a scatter plot of the entire dataframe'''
    label_arr = list(df)
    series_arr = list(map(lambda col: df[col], label_arr))   
    layout = go.Layout(
        title=title,
        legend=dict(orientation="h"),
        xaxis=dict(type='date'),
        yaxis=dict(
            title=y_axis_label,
            showticklabels= not seperate_y_axis,
            type=scale
        )
    )   
    y_axis_config = dict(
        overlaying='y',
        showticklabels=False,
        type=scale )
    
    visibility = 'visible'
    if initial_hide:
        visibility = 'legendonly'
        
    # Form Trace For Each Series
    trace_arr = []
    for index, series in enumerate(series_arr):
        trace = go.Scatter(
            x=series.index, 
            y=series, 
            name=label_arr[index],
            visible=visibility
        )      
        # Add seperate axis for the series
        if seperate_y_axis:
            trace['yaxis'] = 'y{}'.format(index + 1)
            layout['yaxis{}'.format(index + 1)] = y_axis_config    
        trace_arr.append(trace)

    fig = go.Figure(data=trace_arr, layout=layout)
    py.iplot(fig)

为了简洁起见,我不过多介绍这些函数的工作原理。如果你想了解更多信息,请查阅PandasPlotly的文档。

# Plot all of the BTC exchange prices
df_scatter(btc_usd_datasets, 'Bitcoin Price (USD) By Exchange')

现在我们可以轻松地为比特币定价数据生成图表。

c3c4246c538232702e29426d96d5255aad2ab925

步骤2.6 - 清理和汇总定价数据

虽然这四个数据集走势大致相同,但是我们想要摆脱的是各种各样的违规行为,让我们从数据框中删除所有的零值。

# Remove "0" values
btc_usd_datasets.replace(0, np.nan, inplace=True)

当我们重新绘制数据框时,我们会看到一个更清晰的图表,没有降低峰值。

# Plot the revised dataframe
df_scatter(btc_usd_datasets, 'Bitcoin Price (USD) By Exchange')

现在我们可以计算一个新的列,其中包含所有交易所的平均每日比特币价格。

ca8cf4a946f80c96a72f86a55a29001c698a5857

步骤3 - 检索Altcoin价格数据

现在我们有了比特币价格的固定时间序列数据集,让我们为非比特币加密货币(通常称为altcoin)提供一些数据。

步骤3.1 - 定义Poloniex API帮助函数

为了检索加密货币上的数据,我们将使用Poloniex API。我们将定义两个帮助函数来从这个API下载和缓存JSON数据。

首先,我们将定义get_json_data,它将从提供的URL下载和缓存JSON数据:

def get_json_data(json_url, cache_path):
    '''Download and cache JSON data, return as a dataframe.'''
    try:        
        f = open(cache_path, 'rb')
        df = pickle.load(f)   
        print('Loaded {} from cache'.format(json_url))
    except (OSError, IOError) as e:
        print('Downloading {}'.format(json_url))
        df = pd.read_json(json_url)
        df.to_pickle(cache_path)
        print('Cached {} at {}'.format(json_url, cache_path))
    return df

接下来,我们将定义一个将生成Poloniex API HTTP请求的函数,并随后调用我们的新get_json_data函数来保存结果数据。

base_polo_url = 'https://poloniex.com/public?command=returnChartData&currencyPair={}&start={}&end={}&period={}'
start_date = datetime.strptime('2015-01-01', '%Y-%m-%d') # get data from the start of 2015
end_date = datetime.now() # up until today
pediod = 86400 # pull daily data (86,400 seconds per day)

def get_crypto_data(poloniex_pair):
    '''Retrieve cryptocurrency data from poloniex'''
    json_url = base_polo_url.format(poloniex_pair, start_date.timestamp(), end_date.timestamp(), pediod)
    data_df = get_json_data(json_url, poloniex_pair)
    data_df = data_df.set_index('date')
    return data_df
步骤3.2 - Poloniex下载交易数据

我们将下载九个顶级加密货币:
EthereumLitecoinRippleEthereum classicStellarDashSiacoinMoneroNEM的交易数据

altcoins = ['ETH','LTC','XRP','ETC','STR','DASH','SC','XMR','XEM']
altcoin_data = {}
for altcoin in altcoins:
    coinpair = 'BTC_{}'.format(altcoin)
    crypto_price_df = get_crypto_data(coinpair)
    altcoin_data[altcoin] = crypto_price_df

我们可以预览Ethereum价格表的最后几行,以确保可以使用。

altcoin_data['ETH'].tail()
步骤3.3 - 将价格转换为美元

由于大多数加密货币不支持美元或人民币直接交易,我们需要用比特币作为中介。现在我们可以将这个BTC-altcoin汇率数据与我们的比特币价格指数结合起来,直接计算出每个的BTC-altcoin对应的历史美元的价值。

# Calculate USD Price as a new column in each altcoin dataframe
for altcoin in altcoin_data.keys():
    altcoin_data[altcoin]['price_usd'] =  altcoin_data[altcoin]['weightedAverage'] * btc_usd_datasets['avg_btc_price_usd']

接下来,我们可以重新使用我们之前的merge_dfs_on_column函数来为每个加密货币创建美元价格的组合数据框。

# Merge USD price of each altcoin into single dataframe 
combined_df = merge_dfs_on_column(list(altcoin_data.values()), list(altcoin_data.keys()), 'price_usd')

最后,我们将比特币价格作为最后一列添加到组合数据框中。

# Add BTC price to the dataframe
combined_df['BTC'] = btc_usd_datasets['avg_btc_price_usd']

现在我们应该有一个包含我们正在用的十个加密货币的每日美元价格的数据框。

# Chart all of the altocoin prices
df_scatter(combined_df, 'Cryptocurrency Prices (USD)', seperate_y_axis=False, y_axis_label='Coin Value (USD)', scale='log')
3b63651cb5c54d9b783123d0d79638feb5b682b9
步骤3.4 - 执行相关性分析

你可能会注意到,加密货币尽管它们的价值和波动性非常不同,但看起来有些相关,因为统计数据的支持。

我们可以使用Pandas corr()方法来测试我们的相关性假设,Pandas 中的方法是针对数据框中的每一列相对于每一列计算相关系数。

直接在时间序列(如原始价格数据)上计算相关性可以给出偏差的相关值。我们将通过应用pct_change()方法来解决此问题,该方法将数据框中的每个单元格从绝对价格值转换为日收益率。

首先,我们计算一下2016年的相关性。

# Calculate the pearson correlation coefficients for cryptocurrencies in 2016
combined_df_2016 = combined_df[combined_df.index.year == 2016]
combined_df_2016.pct_change().corr(method='pearson')

这些相关系数接近于1-1的系数意味着该系列分别强相关或反相关,接近于零的系数意味着这些值不相关。

为了可视化这些结果,我们将创建一个辅助可视化函数:

def correlation_heatmap(df, title, absolute_bounds=True):
    '''Plot a correlation heatmap for the entire dataframe'''
    heatmap = go.Heatmap(
        z=df.corr(method='pearson').as_matrix(),
        x=df.columns,
        y=df.columns,
        colorbar=dict(title='Pearson Coefficient'),
    )
    
    layout = go.Layout(title=title)
    
    if absolute_bounds:
        heatmap['zmax'] = 1.0
        heatmap['zmin'] = -1.0
        
    fig = go.Figure(data=[heatmap], layout=layout)
    py.iplot(fig)

correlation_heatmap(combined_df_2016.pct_change(), "Cryptocurrency Correlations in 2016")

241ebf6f64e197557c59f2ffbb56539067e0f02a

暗红色的数值代表强相关性(1)(注意,每种货币与其本身强相关),深蓝色的数值代表强逆相关性(-1)。浅蓝色/橙色/灰色/棕褐色代表不同程度的弱/不存在的相关性。

这张图表告诉我们什么?2016年不同加密电子货币的价格波动之间几乎没有显著的联系。

现在,为了验证我们最近几个月加密货币已经变得更加相关的假设,我们只用2017年的数据重复相同的测试。

combined_df_2017 = combined_df[combined_df.index.year == 2017]
combined_df_2017.pct_change().corr(method='pearson')

这些是更重要的相关系数。强大到足以作为投资的唯一基础?当然不是。

correlation_heatmap(combined_df_2017.pct_change(), "Cryptocurrency Correlations in 2017")
bd36a61a1e5c25e252b37413ec44eee6a08a209c

但值得注意的是,几乎所有的加密货币已经变得更加相互关联。

End:深入了解XRPSTR

上图中一个值得注意的特征是XRPRipple的标记)是最不相关的加密货币。这里值得注意的例外是STRStellar的标志),与XRP的相关性最强(0.62)。

可以想象的是,由于使用每种货币的区块链服务的相似性,一些大资金玩家和对冲基金可能使用类似的交易策略来投资StellarRipple。这可以解释为什么XRPSTR相比与其他加密货币有更强的相关性。

最后的一些想法和建议:

1.将更多加密货币的数据添加到分析中。

2.调整相关分析的时间框架和宽度,以获得更精确的趋势视图。

3.搜索交易量和/或区块链挖掘数据集的趋势。如果你想要预测未来的价格波动,则买入/卖出交易量比率可能比原始价格数据更相关。

4.训练机器学习模型以预测明天的价格。如果你有能力,你甚至可以尝试用循环神经网络(RNN)来做这件事。

5.使用你的分析,在交易网站(如PoloniexCoinbase)上使用各自的交易API 创建一个自动化的交易机器人” 

6.分享你的发现!比特币和一般加密货币的最好的部分是它们的分散性使它们比任何其他资产更自由和民主。

希望本篇文章能够帮助到你!代码:https://github.com//triestpa/Cryptocurrency-Analysis-Python

如果你对此非常感兴趣,请参阅代码

本文由北邮@爱可可-爱生活老师推荐,阿里云云栖组织翻译。

文章原标题《Analyzing Cryptocurrency Markets Using Python,作者:Patrick Triest

全栈工程师,数据爱好者,贪得无厌的学习者,迷恋的建设者。

译者:虎说八道,审阅:

文章为简译,更为详细内容,请查看原文

相关文章
|
19天前
|
数据采集 存储 JSON
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第27天】本文介绍了Python网络爬虫Scrapy框架的实战应用与技巧。首先讲解了如何创建Scrapy项目、定义爬虫、处理JSON响应、设置User-Agent和代理,以及存储爬取的数据。通过具体示例,帮助读者掌握Scrapy的核心功能和使用方法,提升数据采集效率。
60 6
|
19天前
|
设计模式 前端开发 数据库
Python Web开发:Django框架下的全栈开发实战
【10月更文挑战第27天】本文介绍了Django框架在Python Web开发中的应用,涵盖了Django与Flask等框架的比较、项目结构、模型、视图、模板和URL配置等内容,并展示了实际代码示例,帮助读者快速掌握Django全栈开发的核心技术。
112 45
|
10天前
|
数据采集 机器学习/深度学习 人工智能
Python编程入门:从基础到实战
【10月更文挑战第36天】本文将带你走进Python的世界,从基础语法出发,逐步深入到实际项目应用。我们将一起探索Python的简洁与强大,通过实例学习如何运用Python解决问题。无论你是编程新手还是希望扩展技能的老手,这篇文章都将为你提供有价值的指导和灵感。让我们一起开启Python编程之旅,用代码书写想法,创造可能。
|
12天前
|
数据库 Python
异步编程不再难!Python asyncio库实战,让你的代码流畅如丝!
在编程中,随着应用复杂度的提升,对并发和异步处理的需求日益增长。Python的asyncio库通过async和await关键字,简化了异步编程,使其变得流畅高效。本文将通过实战示例,介绍异步编程的基本概念、如何使用asyncio编写异步代码以及处理多个异步任务的方法,帮助你掌握异步编程技巧,提高代码性能。
48 4
|
11天前
|
机器学习/深度学习 数据可视化 数据处理
Python数据科学:从基础到实战
Python数据科学:从基础到实战
20 1
|
12天前
|
机器学习/深度学习 JSON API
Python编程实战:构建一个简单的天气预报应用
Python编程实战:构建一个简单的天气预报应用
31 1
|
15天前
|
前端开发 API 开发者
Python Web开发者必看!AJAX、Fetch API实战技巧,让前后端交互如丝般顺滑!
在Web开发中,前后端的高效交互是提升用户体验的关键。本文通过一个基于Flask框架的博客系统实战案例,详细介绍了如何使用AJAX和Fetch API实现不刷新页面查看评论的功能。从后端路由设置到前端请求处理,全面展示了这两种技术的应用技巧,帮助Python Web开发者提升项目质量和开发效率。
30 1
|
15天前
|
缓存 测试技术 Apache
告别卡顿!Python性能测试实战教程,JMeter&Locust带你秒懂性能优化💡
告别卡顿!Python性能测试实战教程,JMeter&Locust带你秒懂性能优化💡
31 1
|
20天前
|
数据可视化 开发者 Python
Python GUI开发:Tkinter与PyQt的实战应用与对比分析
【10月更文挑战第26天】本文介绍了Python中两种常用的GUI工具包——Tkinter和PyQt。Tkinter内置于Python标准库,适合初学者快速上手,提供基本的GUI组件和方法。PyQt基于Qt库,功能强大且灵活,适用于创建复杂的GUI应用程序。通过实战示例和对比分析,帮助开发者选择合适的工具包以满足项目需求。
68 7
|
20天前
|
数据采集 Web App开发 前端开发
Python爬虫进阶:Selenium在动态网页抓取中的实战
【10月更文挑战第26天】动态网页抓取是网络爬虫的难点,因为数据通常通过JavaScript异步加载。Selenium通过模拟浏览器行为,可以加载和执行JavaScript,从而获取动态网页的完整内容。本文通过实战案例,介绍如何使用Selenium在Python中抓取动态网页。首先安装Selenium库和浏览器驱动,然后通过示例代码展示如何抓取英国国家美术馆的图片信息。
42 6