Dataset之HiggsBoson:Higgs Boson(Kaggle竞赛)数据集的简介、下载、案例应用之详细攻略

简介: Dataset之HiggsBoson:Higgs Boson(Kaggle竞赛)数据集的简介、下载、案例应用之详细攻略

Higgs Boson比赛简介


      希格斯玻色子(英语:Higgs boson),是标准模型里的一种基本粒子,是一种玻色子,自旋为零,宇称为正值,不带电荷、色荷,极不稳定,生成后会立刻衰变。希格斯玻色子是希格斯场的量子激发。希格斯粒子的衰变能动会生成耦合实粒子。根据希格斯机制,基本粒子因与希格斯场耦合而获得质量。假若希格斯玻色子被证实存在,则希格斯场应该也存在,而希格斯机制也可被确认为基本无误。


      希格斯玻色子(英语:Higgs boson)是标准模型里的一种基本粒子,是因物理学者彼得·希格斯而命名。 2012年7月4日,欧洲核子研究组织(CERN)宣布,LHC的紧凑渺子线圈(CMS)探测到质量为125.3±0.6GeV的新玻色子(超过背景期望值4.9个标准差),超环面仪器(ATLAS)测量到质量为126.5GeV的新玻色子(5个标准差),这两种粒子极像希格斯玻色子。 2013年3月14日,欧洲核子研究组织发表新闻稿正式宣布,先前探测到的新粒子暂时被确认是希格斯玻色子,具有零自旋与偶宇称,这是希格斯玻色子应该具有的两种基本性质,但有一部分实验结果不尽符合理论预测,更多数据仍在等待处理与分析。 2013年10月8日,因为“次原子粒子质量的生成机制理论,促进了人类对这方面的理解,并且最近由欧洲核子研究组织属下大型强子对撞机的超环面仪器及紧凑μ子线圈探测器发现的基本粒子证实”,弗朗索瓦·恩格勒、彼得·希格斯荣获2013年诺贝尔物理学奖。


      一个粒子的重要特点是它在其他粒子之后延迟多少。CERN用ATLAS进行物理实验来寻找新粒子。实验最近发现一个 Higgs boson延迟在两个tau粒子出现,但是该延迟只是淹没在背景噪声中的小信号。


竞赛官网: https://www.kaggle.com/c/higgs-boson/

相关介绍:Higgs boson machine-learning challenge


      该竞赛的目的是利用机器学习方法,提高ATLAS实验发现粒子的显著性。竞赛无需粒子物理的背景知识(解决实际问题时背景知识在很大程度上还是有用的)。竞赛数据是根据ATLAS检测到的事件的特征合成的数据,竞赛任务是将事件分类为"tau tau decay of a Higgs boson" 或 "background"

     这是一个两类分类任务:将事件分类为"tau tau decay of a Higgs boson" 或 "background"。希格斯玻色子机器学习挑战的目标是探索先进机器学习方法的潜力,提高实验发现的意义。不需要粒子物理学知识。使用ATLAS检测到的具有表征事件特征的模拟数据,您的任务是将事件分类为"tau tau decay of a Higgs boson" 或 "background"。


每个事件有一个ID,30个特征,权重,和标签

用交叉验证选择迭代次数

与sklearn中的GBM速度与性能比较


1、数据集介绍


image.png


File descriptions


training.csv - Training set of 250000 events, with an ID column, 30 feature columns, a weight column and a label column.

test.csv - Test set of 550000 events with an ID column and 30 feature columns.

random_submission - Sample submission file in the correct format. File format is described on the Evaluation page.

HiggsBosonCompetition_AMSMetric - Python script to calculate the competition evaluation metric.

For detailed information on the semantics of the features, labels, and weights, see the technical documentation from the LAL website on the task.


Some details to get started:


all variables are floating point, except PRI_jet_num which is integer

variables prefixed with PRI (for PRImitives) are “raw” quantities about the bunch collision as measured by the detector.

variables prefixed with DER (for DERived) are quantities computed from the primitive features, which were selected by  the physicists of ATLAS

it can happen that for some entries some variables are meaningless or cannot be computed; in this case, their value is −999.0, which is outside the normal range of all variables

training.csv:训练集包含250000个事件,每个事件有一个ID,30个特征,权重,和标签。

test.csv:测试数据包含550000事件,每个事件包含一个ID和30个特征。

(1)、所有变量都是floating point类型,除了PRI_jet_num 为integer 以PRI (PRImitives) 为的前缀特征为检测器测量得到的关于bunch collision“原始” 数据。 以DER ( DERived)为ATLAS的物理学家选择的根据原始特征计算得到的数据。 缺失数据记为 −999.0, 与所有特征的正常值不同。

(2)、特征、权重和标签的具体语意可以查看CERN的技术文档。



2、比赛排行榜


image.png




Higgs Boson数据集的下载

本数据集,如有需要,可留言向博主索取





Higgs Boson数据集的案例应用


ML之xgboost:基于xgboost(5f-CrVa)算法对Higgs Boson数据集(Kaggle竞赛)训练(模型保存+可视化)实现二分类任务



相关文章
|
2月前
|
机器学习/深度学习 算法 数据挖掘
从菜鸟到大师:Scikit-learn库实战教程,模型训练、评估、选择一网打尽!
【9月更文挑战第13天】在数据科学与机器学习领域,Scikit-learn是不可或缺的工具。本文通过问答形式,指导初学者从零开始使用Scikit-learn进行模型训练、评估与选择。首先介绍了如何安装库、预处理数据并训练模型;接着展示了如何利用多种评估指标确保模型性能;最后通过GridSearchCV演示了系统化的参数调优方法。通过这些实战技巧,帮助读者逐步成长为熟练的数据科学家。
104 3
|
5月前
|
机器学习/深度学习 资源调度 PyTorch
【从零开始学习深度学习】15. Pytorch实战Kaggle比赛:房价预测案例【含数据集与源码】
【从零开始学习深度学习】15. Pytorch实战Kaggle比赛:房价预测案例【含数据集与源码】
|
机器学习/深度学习 并行计算 数据可视化
cs224w(图机器学习)2021冬季课程学习笔记13 Colab 3
本colab主要实现: 实现GraphSAGE和GAT模型,应用在Cora数据集上。 使用DeepSNAP包切分图数据集、实现数据集转换,完成边属性预测(链接预测)任务。
cs224w(图机器学习)2021冬季课程学习笔记13 Colab 3
Dataset之IMDB影评数据集:IMDB影评数据集的简介、下载、使用方法之详细攻略
Dataset之IMDB影评数据集:IMDB影评数据集的简介、下载、使用方法之详细攻略
|
机器学习/深度学习 人工智能 自然语言处理
全球名校AI课程库(20)| Stanford斯坦福 · 图机器学习课程『Machine Learning with Graphs』
课程对于graph方向的数据挖掘、机器学习(神经网络)有全面的知识覆盖。如果想学习非结构化的图数据上的各类算法,这是最权威的课程之一。
2312 1
全球名校AI课程库(20)| Stanford斯坦福 · 图机器学习课程『Machine Learning with Graphs』
|
机器学习/深度学习 自然语言处理 并行计算
cs224w(图机器学习)2021冬季课程学习笔记8 Colab 2
cs224w(图机器学习)2021冬季课程学习笔记8 Colab 2
cs224w(图机器学习)2021冬季课程学习笔记8 Colab 2
|
机器学习/深度学习 资源调度 并行计算
李宏毅2021春季机器学习课程视频笔记1:Introduction, Colab & PyTorch Tutorials, HW1
李宏毅2021春季机器学习课程视频笔记1:Introduction, Colab & PyTorch Tutorials, HW1
李宏毅2021春季机器学习课程视频笔记1:Introduction, Colab & PyTorch Tutorials, HW1
|
机器学习/深度学习 运维 算法
cs224w(图机器学习)2021冬季课程学习笔记17 Traditional Generative Models for Graphs
本章主要内容: 本章首先介绍了图生成模型generative models for graphs的基本概念和意义。 接下来介绍了一些真实世界网络的属性(度数分布、聚集系数、connected component、path length等,可参考1)(也是图生成模型希望可以达到的要求)。 最后介绍了一些传统的图生成模型(Erdös-Renyi graphs, small-world graphs, Kronecker graphs)。
cs224w(图机器学习)2021冬季课程学习笔记17 Traditional Generative Models for Graphs
|
机器学习/深度学习 人工智能 运维
【Kaggle/天池/DF/biendata】比赛信息汇总(NLP、CV,ML)
【Kaggle/天池/DF/biendata】比赛信息汇总(NLP、CV,ML)
752 0
【Kaggle/天池/DF/biendata】比赛信息汇总(NLP、CV,ML)
|
传感器 机器学习/深度学习 编解码
Kaggle新赛一览
Kaggle新赛一览
280 0
Kaggle新赛一览