备案控制台

开发者社区开发与运维文章正文

达观杯文本智能处理挑战赛练手代码实现

2018-10-24 1661

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 1 import pandas as pd 2 3 import imp 4 5 from sklearn.linear_model import LogisticRegression 6 7 from sklearn.

 1 import pandas as pd
 2 
 3 import imp
 4 
 5 from sklearn.linear_model import LogisticRegression
 6 
 7 from sklearn.feature_extraction.text import CountVectorizer
 8 
 9 
10 
11 
12 df_test = pd.read_csv(r'testset.csv')
13 
14 df_train = pd.read_csv(r'trainset.csv')
15 
16 df_train.drop(columns=['article','id'],inplace=True)
17 
18 df_test.drop(columns=['article'],inplace=True)
19 
20 
21 
22 vectorizer = CountVectorizer(ngram_range=(1, 2),min_df=3,max_df=0.9,max_features=10000)
23 
24 vectorizer.fit(df_train['word_seg'])
25 
26 x_train =vectorizer.transform(df_train['word_seg'])
27 
28 x_test =vectorizer.transform(df_test['word_seg'])
29 
30 y_train =df_train['class']-1
31 
32 
33 
34 lg = LogisticRegression(C=4,dual=True)
35 
36 lg.fit(x_train,y_train)
37 
38 
39 
40 y_test = lg.predict(x_test)
41 
42 
43 
44 df_test['class'] = y_test.tolist()
45 
46 df_test['class'] = df_test['class'] + 1
47 
48 df_result =df_test.loc[:,['id','class']]
49 
50 df_result.to_csv('./result.csv',index=False)
51 
52 
53 
54 print("完成")

运行结果是：

pandas.errors.ParserError: Error tokenizing data. C error: out of memory

这是因为我的电脑内存太小，导致了内存溢出，因此换一台电脑就可以得到最终得分为72分的答案了。笔者最终排名位于全国前300名，算是一个个人感觉还不错的成绩了。

文章标签：

Python

geeksongs

目录

相关文章

六月的雨在钉钉

|

7月前

|

人工智能算法安全

“AI黏土人”一夜爆火，图像生成类应用何去何从?

【6月更文挑战第1天】“AI黏土人”一夜爆火，图像生成类应用何去何从?

六月的雨在钉钉

151 5 5

阿里云云原生

|

6月前

|

人工智能 Serverless 开发者

【AI 生图赢奖】用函数计算绘出「少年江湖」，与热播网剧梦幻联动

阿里云X优酷 Create@ AI江湖创作大赛开启报名！

阿里云云原生

11872 11 13

【AI 生图赢奖】用函数计算绘出「少年江湖」，与热播网剧梦幻联动

BetterBench

|

5月前

|

机器学习/深度学习算法机器人

【2023年第十三届APMCM亚太地区大学生数学建模竞赛】A题水果采摘机器人的图像识别 Python代码解析

本文介绍了2023年第十三届APMCM亚太地区大学生数学建模竞赛A题的Python代码实现，详细阐述了水果采摘机器人图像识别问题的分析与解决策略，包括图像特征提取、数学模型建立、目标检测算法使用，以及苹果数量统计、位置估计、成熟度评估和质量估计等任务的编程实践。

BetterBench

107 0 0

【2023年第十三届APMCM亚太地区大学生数学建模竞赛】A题水果采摘机器人的图像识别 Python代码解析

云内容小助手

|

机器学习/深度学习人工智能编解码

课时1;跨越N次元一键变身AI漫画人

课时1;跨越N次元一键变身AI漫画人

云内容小助手

191 0 0

是Yu欸

|

8月前

|

人工智能安全物联网

【网安AIGC专题】46篇前沿代码大模型论文、24篇论文阅读笔记汇总

【网安AIGC专题】46篇前沿代码大模型论文、24篇论文阅读笔记汇总

是Yu欸

236 1 1

jhcgt

|

机器学习/深度学习人工智能前端开发

祝福视频生成器（一图一文AI生成）

祝福视频生成器（一图一文AI生成）

jhcgt

1274 0 0

祝福视频生成器（一图一文AI生成）

jhcgt

|

机器学习/深度学习 C++

百度飞桨世界冠军带你从零实践强化学习第五天（三岁白话时间）

百度飞桨世界冠军带你从零实践强化学习第五天（三岁白话时间）

jhcgt

212 0 0

百度飞桨世界冠军带你从零实践强化学习第五天（三岁白话时间）

jhcgt

|

机器学习/深度学习 C++

百度飞桨世界冠军带你从零实践强化学习第四天（三岁白话时间）

这里是三岁，这里吧第四的素材和资料整理了一下，大家康康，有什么不足的欢迎提出，批评指正！！！

jhcgt

161 0 0

百度飞桨世界冠军带你从零实践强化学习第四天（三岁白话时间）

-开发达人-

|

机器学习/深度学习人工智能自然语言处理

2019年Reddit机器学习17个高赞项目：AI德扑大师、StyleGAN等上榜

本文是Medium网友整理的2019年Reddit机器学习板块热门高赞项目资源汇总，既有Facebook、英伟达等大厂的作品，也有网友自制的有趣小尝试，共17个项目，按热度高低排序，一起看看吧！

-开发达人-

331 0 0

2019年Reddit机器学习17个高赞项目：AI德扑大师、StyleGAN等上榜

码农技术君

|

机器学习/深度学习人工智能自然语言处理

科普贴：从人工智障到人工智能

人工智能（Artificial Intelligence），英文缩写为AI，是计算机科学的一个分支，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。而人工智能又分弱人工智能，强人工智能和超人工智能三个等级。

码农技术君

418 0 0

热门文章

最新文章

为什么说流处理即未来？

【实战】锐捷AC+AP配置WLAN基本服务系列

丰富、连接、待集成—MaxCompute 生态再出发

securecrt克隆会话与sshd 的 MaxSessions

阿里云云端即时渲染技术带您“云考古”

Console-算法[for]-输出等腰三角形

asp.net日期显示问题

MFC单文档应用程序显示图像

最新10款精美的免费PSD网站模板下载

嵌入式系统工程师的十个不要

《docker基础篇：5.本地镜像发布到阿里云》

《人工智能可视化：数据洞察的新窗口》

《揭秘人工智能数据安全风险评估方法：守护数字未来的关键》

《探秘人工智能之关联规则挖掘：解锁数据背后的隐藏联系》

《数据质量评估方法大揭秘：精准衡量数据价值的关键》

《数据质量：人工智能模型的成败关键》

发现API安全风险，F5随时随地保障应用和API安全

机器学习在网络安全中的防护：智能化的安全屏障

基于AI的运维资源调度：效率与智能的双重提升

2024年终总结：选择错误、加班三月、降薪、面试无果...

相关课程

更多

【科技少年】“天池杯”AI领航计划·高级挑战教程（赛题及baseline解读）

智能创作赛（复赛）：相册应用中的视频故事生成算法介绍

智能创作赛（初赛）：相册应用中的故事生成算法介绍

【科技少年】AI领航员探索教程（赛前训练）

人人都能学｜AI大模型通识课程

跨越N次元一键变身AI漫画人

相关电子书

更多

扬帆远航：5G融合应用实践精编

大数据可视化与自然之美

长安十二时辰背后的技术密集——从智能算法到音视频创新技术

相关实验场景

更多

体育赛事！零代码生成运动风格AI写真。

【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板

以电商场景为例搭建AI语义搜索应用

奥运时刻！零代码生成奥运风格AI写真。

【AI破次元壁合照】少年白马醉春风，函数计算一键部署AI绘画平台

在PAI ArtLab一键实现欧洲杯粉丝专属贴纸制作

下一篇

阿里云无影云电脑免费试用，最长可试用3个月