众筹项目能否成功?用机器学习预测可以早知道

简介:
本文来自AI新媒体量子位(QbitAI)

Kickstarter是一家美国的众筹平台。自2009年成立至今,已经有36万余个众筹项目在平台上立项,总共筹集到30多亿美元的项目众筹款。其中,众筹项目的成功率为35.83%。

 图片来自Kickstarter官网

这篇文章中,iOS开发人员Shrikar将用机器学习预测Kickstarter上项目众筹成功的可能性。它也能帮助发起人调整项目的名称、描述、关键词以及募集资金数,使众筹成功的可能性最大。用上传图片的图像特征提高模型的准确率非常奏效,你可以在Kaggle中获取到这些数据集。

Kaggle数据集地址:

https://www.kaggle.com/codename007/funding-successful-projects

创建数据

几乎所有机器学习问题都会从挖掘数据并且试图了解更多信息开始,我们也不例外。

Kickstarter中需要募集的信息大致有如下几类:

1.Project_id:项目的唯一识别符

2.name:众筹项目名称

3.desc:项目描述

4.keywords:项目关键词

5.disable_communication: 通讯状态

6.country:项目所在国家

7.currency:计划众筹资金

8.deadline:众筹截止日期

9.state_changed_at:状态变更

10、created_at:成功后项目开始日期

11.launched:项目计划完成日期

12.backers_count: 赞助人数量

13.final_status: 目标变量

特征工程

我们需要加入一些特征来创建机器学习模型,duration和cleaned_text就是很好的选择。下面我们将拟添加特征罗列出来:

all_text:项目名称+描述+关键词(需除去连字符)

duration:项目总持续时间

days_status_changed:改变后到截止时的日期数

cleaned_text:删除标点并且只留文本

试探性数据分析(EDA)

 以国家为标准划分Kickstarter上的项目

 以国家标准划分的项目是否众筹成功

 项目中的最高筹集金额

scikit-learn提供了一种极好的特征可以用来构建模型,也就是我们常说的管道(Pipeline)。本案例中既有文本特征也有数值,所以我们需要有区别地转换它们。

首先,我们需要看看在被机器学习算法使用前,如何用特征联合(feature union)合并特征。

为了用特征联合合并,我们需要建立几个转换器混入(mixin)。这些混入可以使我们从计算机中提取某些列,并将它们传递给不同的转换器。

我们看看怎样构建模型并安装管道。

结果如下:

在这种情况下,目标类是不平衡的:

所以我们如果总是预测输出为0,那么将纠正(73568)/(73568+34561)≈68%的情况。模型能以目前86%的准确度来学习,我们基本上就能放心了。如果出现不平衡的情况,可以用AUC曲线(Area Under Curve)评估模型。

如要进一步探索,请移步GitHub代码区:

https://github.com/sarchak/MachineLearningNotebooks

【完】

本文作者:安妮 
原文发布时间:2017-07-17
相关文章
|
8月前
|
机器学习/深度学习 人工智能 前端开发
机器学习PAI常见问题之web ui 项目启动后页面打不开如何解决
PAI(平台为智能,Platform for Artificial Intelligence)是阿里云提供的一个全面的人工智能开发平台,旨在为开发者提供机器学习、深度学习等人工智能技术的模型训练、优化和部署服务。以下是PAI平台使用中的一些常见问题及其答案汇总,帮助用户解决在使用过程中遇到的问题。
|
8月前
|
机器学习/深度学习 数据采集 监控
大模型开发:描述一个典型的机器学习项目流程。
机器学习项目涉及问题定义、数据收集、预处理、特征工程、模型选择、训练、评估、优化、部署和监控。每个阶段都是确保模型有效可靠的关键,需要细致操作。
101 0
|
8月前
|
TensorFlow 算法框架/工具 开发工具
使用 TensorFlow 构建机器学习项目:6~10(3)
使用 TensorFlow 构建机器学习项目:6~10(3)
60 0
|
2月前
|
机器学习/深度学习 算法 UED
在数据驱动时代,A/B 测试成为评估机器学习项目不同方案效果的重要方法
在数据驱动时代,A/B 测试成为评估机器学习项目不同方案效果的重要方法。本文介绍 A/B 测试的基本概念、步骤及其在模型评估、算法改进、特征选择和用户体验优化中的应用,同时提供 Python 实现示例,强调其在确保项目性能和用户体验方面的关键作用。
38 6
|
2月前
|
机器学习/深度学习 算法 UED
在数据驱动时代,A/B 测试成为评估机器学习项目效果的重要手段
在数据驱动时代,A/B 测试成为评估机器学习项目效果的重要手段。本文介绍了 A/B 测试的基本概念、步骤及其在模型评估、算法改进、特征选择和用户体验优化中的应用,强调了样本量、随机性和时间因素的重要性,并展示了 Python 在 A/B 测试中的具体应用实例。
31 1
|
2月前
|
机器学习/深度学习 数据采集 Python
从零到一:手把手教你完成机器学习项目,从数据预处理到模型部署全攻略
【10月更文挑战第25天】本文通过一个预测房价的案例,详细介绍了从数据预处理到模型部署的完整机器学习项目流程。涵盖数据清洗、特征选择与工程、模型训练与调优、以及使用Flask进行模型部署的步骤,帮助读者掌握机器学习的最佳实践。
142 1
|
4月前
|
机器学习/深度学习 算法 TensorFlow
交通标志识别系统Python+卷积神经网络算法+深度学习人工智能+TensorFlow模型训练+计算机课设项目+Django网页界面
交通标志识别系统。本系统使用Python作为主要编程语言,在交通标志图像识别功能实现中,基于TensorFlow搭建卷积神经网络算法模型,通过对收集到的58种常见的交通标志图像作为数据集,进行迭代训练最后得到一个识别精度较高的模型文件,然后保存为本地的h5格式文件。再使用Django开发Web网页端操作界面,实现用户上传一张交通标志图片,识别其名称。
151 6
交通标志识别系统Python+卷积神经网络算法+深度学习人工智能+TensorFlow模型训练+计算机课设项目+Django网页界面
|
5月前
|
机器学习/深度学习 人工智能 数据处理
【人工智能】项目实践与案例分析:利用机器学习探测外太空中的系外行星
探测外太空中的系外行星是天文学和天体物理学的重要研究领域。随着望远镜观测技术的进步和大数据的积累,科学家们已经能够观测到大量恒星的光度变化,并尝试从中识别出由行星凌日(行星经过恒星前方时遮挡部分光线)引起的微小亮度变化。然而,由于数据量巨大且信号微弱,传统方法难以高效准确地识别所有行星信号。因此,本项目旨在利用机器学习技术,特别是深度学习,从海量的天文观测数据中自动识别和分类系外行星的信号。这要求设计一套高效的数据处理流程、构建适合的机器学习模型,并实现自动化的预测和验证系统。
90 1
【人工智能】项目实践与案例分析:利用机器学习探测外太空中的系外行星
|
5月前
|
机器学习/深度学习 数据处理 定位技术
构建您的首个机器学习项目:从理论到实践
【8月更文挑战第28天】本文旨在为初学者提供一个简明的指南,通过介绍一个基础的机器学习项目——预测房价——来揭示机器学习的神秘面纱。我们将从数据收集开始,逐步深入到数据处理、模型选择、训练和评估等环节。通过实际操作,你将学会如何利用Python及其强大的科学计算库来实现自己的机器学习模型。无论你是编程新手还是有一定经验的开发者,这篇文章都将为你打开一扇通往机器学习世界的大门。
|
5月前
|
机器学习/深度学习 数据可视化 数据处理
Python vs R:机器学习项目中的实用性与生态系统比较
【8月更文第6天】Python 和 R 是数据科学和机器学习领域中最受欢迎的两种编程语言。两者都有各自的优点和适用场景,选择哪种语言取决于项目的具体需求、团队的技能水平以及个人偏好。本文将从实用性和生态系统两个方面进行比较,并提供代码示例来展示这两种语言在典型机器学习任务中的应用。
154 1