【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案--2 数据分析

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
简介: 讯飞英文学术论文分类挑战赛数据集的分析,包括数据加载、缺失值检查、标签分布、文本长度统计等内容,并总结了数据的基本情况。

相关信息

1 赛题

比赛官网

  1. 本次赛题希望参赛选手利用论文信息:论文id、标题、摘要,划分论文具体类别。
    赛题样例(使用\t分隔):
    paperid:9821
    title:Calculation of prompt diphoton production cross sections at Tevatron and LHC energies
    abstract:A fully differential calculation in perturbative quantum chromodynamics is presented for the production of massive photon pairs at hadron colliders. All next-to-leading order perturbative contributions from quark-antiquark, gluon-(anti)quark, and gluon-gluon subprocesses are included, as well as all-orders resummation of initial-state gluon radiation valid at next-to-next-to-leading logarithmic accuracy.
    categories:hep-ph
  2. 评估指标
    本次竞赛的评价标准采用准确率指标,最高分为1。计算方法参考https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy\_score.html, 评估代码参考
from sklearn.metrics import accuracy_score
y_pred = [0, 2, 1, 3]
y_true = [0, 1, 2, 3]
accuracy_score(y_true, y_pred)

2 数据分析

github代码下载

2.1 加载数据

import re
import numpy as np
import pandas as pd

train = pd.read_csv('./data/train.csv', sep='\t')
test = pd.read_csv('./data/test.csv', sep='\t')
sub = pd.read_csv('./data/sample_submit.csv')
# 查看前5行数据
train.head(5)

1.png


分别有四个属性,paperid、titile、abstract、categories

# 数据大小 train.shape,test.shape,sub.shape #((50000, 4), (10000, 3), (10000, 2))

### 2.2 查看缺失值

# 查看训练集缺失值 train.isnull().sum() # 查看测试集缺失值 test.isnull().sum() # 查看训练集数据信息 train.info() # 查看测试集数据信息 test.info()

> paperid 0
> title 0
> abstract 0
> categories 0
> dtype: int64

> paperid 0
> title 0
> abstract 0
> dtype: int64

2.png


3.png

# 查看数据集中间有无空行
print("train null nums")
print(train.shape[0]-train.count())
print("test null nums")
print(test.shape[0]-test.count())

无缺失值,无空行,训练集有5W行,测试集有1W行

2.3 标签分布

train['categories'].value_counts()
# # 标签类别数 39
len(train['categories'].value_counts())

# 绘制直方图
sns.countplot(train.categories)
plt.xlabel('categories count')

4.png


大类别只有CS一种,子类别有39类。数据分布不均衡

### 2.4 文本长度

# 训练集 titlelen1 = [] abstractlen1 = [] for i in range(len(train)): titletext = train['title'][i] abstracttext = train['abstract'][i] titlelen1.append(len(tokenizer.tokenize(titletext))) abstractlen1.append(len(tokenizer.tokenize(abstracttext))) train['titlelen'] = titlelen1 train['abstractlen'] = abstractlen1 x1 = train['titlelen'].describe() x2 = train['abstractlen'].describe() # 测试集 titlelen2 = [] abstractlen2 = [] for i in range(len(test)): titletext = test['title'][i] abstracttext = test['abstract'][i] titlelen2.append(len(tokenizer.tokenize(titletext))) abstractlen2.append(len(tokenizer.tokenize(abstracttext))) test['titlelen'] = titlelen2 test['abstractlen'] = abstractlen2 x3 = test['titlelen'].describe() x4 = test['abstractlen'].describe()

训练集

> count 50000.00000
> mean 10.60276
> std 4.06394
> min 1.00000
> 25% 8.00000
> 50% 10.00000
> 75% 13.00000
> max 44.00000
> Name: titlelen, dtype: float64

测试集

> count 50000.00000
> mean 186.88670
> std 71.31268
> min 5.00000
> 25% 137.00000
> 50% 182.00000
> 75% 231.00000
> max 629.00000
> Name: abstractlen, dtype: float64

训练集标题平均10个单词,摘要平均186个单词
测试集标题平均10个单词,测试集摘要平均186个单词

### 2.5 标题摘要合并后字符长度

train['text_len']=train['text'].map(len) test['text_len']=test['text'].map(len) train['text'].map(len).describe() test['text'].map(len).describe() # 绘制句子长度分布图 train['text_len'].plot(kind='kde') test['text_len'].plot(kind='kde')

> count 50000.00000
> mean 1131.28478
> std 387.14365
> min 69.00000
> 25% 860.00000
> 50% 1117.00000
> 75% 1393.00000
> max 3713.00000
> Name: text, dtype: float64

> count 10000.000000
> mean 1127.097700
> std 388.662603
> min 74.000000
> 25% 855.750000
> 50% 1111.000000
> 75% 1385.250000
> max 3501.000000
> Name: text, dtype: float64

5.png

每个样本文本单词长度200左右,字符平均长度1000左右。理论上单词数小于200的成为短文本,这里可以当成短文本去处理,高于200的进行截断。
对比两张图,训练集和测试集长度分布一致。

3 总结

(1)数据可视为短文本数据
(2)赛题属于多分类单标签问题,39类,类别分布不均衡,数据为英文文本
(3)文本有title和abstract两部分,平均长度为10和185
(4)数据量较小,只有5W
(5)训练集测试集数据分布一致
(6)赛题奖金太少,但学习作用很大

目录
相关文章
|
1月前
|
机器学习/深度学习 算法 数据挖掘
2023 年第二届钉钉杯大学生大数据挑战赛初赛 初赛 A:智能手机用户监测数据分析 问题二分类与回归问题Python代码分析
本文介绍了2023年第二届钉钉杯大学生大数据挑战赛初赛A题的Python代码分析,涉及智能手机用户监测数据分析中的聚类分析和APP使用情况的分类与回归问题。
46 0
2023 年第二届钉钉杯大学生大数据挑战赛初赛 初赛 A:智能手机用户监测数据分析 问题二分类与回归问题Python代码分析
|
1月前
|
机器学习/深度学习 自然语言处理 PyTorch
【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案--6 提分方案
在讯飞英文学术论文分类挑战赛中的提分技巧和实现方法,包括数据增强、投票融合、伪标签等策略,以及加快模型训练的技巧,如混合精度训练和使用AdamW优化器等。
25 0
|
1月前
|
数据采集 机器学习/深度学习 存储
【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–5 Bert 方案
在讯飞英文学术论文分类挑战赛中使用BERT模型进行文本分类的方法,包括数据预处理、模型微调技巧、长文本处理策略以及通过不同模型和数据增强技术提高准确率的过程。
25 0
|
1月前
|
机器学习/深度学习 数据采集 自然语言处理
【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–4 机器学习LGB 方案
在讯飞英文学术论文分类挑战赛中使用LightGBM模型进行文本分类的方案,包括数据预处理、特征提取、模型训练及多折交叉验证等步骤,并提供了相关的代码实现。
23 0
|
1月前
|
数据采集 自然语言处理 机器学习/深度学习
【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–3 TextCNN Fasttext 方案
讯飞英文学术论文分类挑战赛中使用TextCNN和FastText模型进行文本分类的方案,包括数据预处理、模型训练和对抗训练等步骤,并分享了模型调优的经验。
21 0
|
14天前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术在自然语言处理中的应用与挑战
【8月更文挑战第28天】本文将探讨AI技术在自然语言处理(NLP)领域的应用及其面临的挑战。我们将通过实例和代码示例,展示AI如何帮助机器理解和生成人类语言,并讨论在这一过程中遇到的主要问题和可能的解决方案。
|
15天前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术在自然语言处理中的应用
【8月更文挑战第27天】本文将探讨人工智能技术在自然语言处理领域的应用,包括语音识别、机器翻译、情感分析等方面。我们将通过实例展示AI如何改变我们与计算机的交互方式,并讨论其在未来发展的潜力。
|
17天前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术在自然语言处理中的应用与挑战
【8月更文挑战第26天】本文将探讨AI技术在自然语言处理(NLP)领域的应用和面临的挑战。我们将通过实例分析,展示AI如何帮助机器理解和生成人类语言,并讨论当前技术的局限性和未来发展的可能性。
|
18天前
|
人工智能 自然语言处理 语音技术
AI在自然语言处理中的应用
【8月更文挑战第24天】人工智能(AI)已经渗透到我们生活的方方面面,其中自然语言处理(NLP)是AI的一个重要应用领域。本文将介绍NLP的基本概念,以及AI如何帮助计算机理解和生成人类语言。我们将通过一个简单的代码示例,展示如何使用Python和NLTK库进行文本分析。
|
20天前
|
机器学习/深度学习 人工智能 自然语言处理
探索机器学习在自然语言处理中的应用
【8月更文挑战第22天】本文将深入探讨机器学习技术如何革新自然语言处理领域,从基础概念到高级应用,揭示其背后的原理和未来趋势。通过分析机器学习模型如何处理、理解和生成人类语言,我们将展示这一技术如何塑造我们的沟通方式,并讨论它带来的挑战与机遇。

热门文章

最新文章