文本分类达到0.717的准确率,发文庆祝

简介: 一直在关注文本分类的动态,直到最近找到了应用场景才开始真正动手。AI很火,但是泡沫终将远去,在AI技术成本昂贵的今天,我们的投资在多年后能留下多少一定是技术本身带来的商业价值。

一直在关注文本分类的动态,直到最近找到了应用场景才开始真正动手。AI很火,但是泡沫终将远去,在AI技术成本昂贵的今天,我们的投资在多年后能留下多少一定是技术本身带来的商业价值。

方案的选择

还是老规矩,先上方案选型。路很多,正确的选择一条适合自己的路其实比怎么做更重要。少走弯路,结合长期运营布局。
文本分类的方法很多,SVM, TextCNN, IDF和本文的FastText ,之所以选择了FastText是有现成的代码测试了一下效果,发现速度很快,处理几万条文本几乎不占CPU。
考虑到SVM太基础,可能无法应对复杂的语料环境。
IDF可能也可以,只是没能来得及试验。
TextCNN涉及到Tensorflow或者PyTorch等神经网络高计算量工具,作为最后的选择。

关键经验

  • 其实按照fasttext官网一步步走下来就很顺利。
  • 计算平台目前只有linux和mac, 我用centos7 都是直接make安装,不到10分钟装好。虚机上也能非常快。
  • 语料的准备是重中之重,不论采用哪种方式进行文本分类,都需要训练集和测试集。我是手工准备了1万条记录作为标准语料。后续会进入自我学习的循环,依靠用户体验,不断更新语料的正确分类,作为训练的输入。语料一定要做常规的处理:尽可能裁剪掉不必要的信息,添加自定义分词词典,去掉自定义的停用词。
  • 调优的工作能达到不错的效果,其实调优就是调整下参数,最简单的一步。如果计算速度快,调优也很快。
目录
相关文章
|
机器学习/深度学习 人工智能 自然语言处理
大模型初探-百模大战
大模型初探-百模大战
|
算法 搜索推荐 大数据
谷歌流感预测|学习笔记
快速学习谷歌流感预测
2079 0
谷歌流感预测|学习笔记
|
JSON 自然语言处理 API
北大、西湖大学等开源「裁判大模型」PandaLM:三行代码全自动评估LLM,准确率达ChatGPT的94%
北大、西湖大学等开源「裁判大模型」PandaLM:三行代码全自动评估LLM,准确率达ChatGPT的94%
507 0
|
机器学习/深度学习 数据采集 人工智能
还不如GAN!谷歌、DeepMind等发文:扩散模型直接从训练集里「抄」
还不如GAN!谷歌、DeepMind等发文:扩散模型直接从训练集里「抄」
275 0
还不如GAN!谷歌、DeepMind等发文:扩散模型直接从训练集里「抄」
|
机器学习/深度学习 人工智能 测试技术
爆火的「GPT-4 MIT本科数学满分」论文作弊,数据集本身有问题
爆火的「GPT-4 MIT本科数学满分」论文作弊,数据集本身有问题
|
人工智能
今年英语高考,CMU用重构预训练交出134高分,大幅超越GPT3(3)
今年英语高考,CMU用重构预训练交出134高分,大幅超越GPT3
|
机器学习/深度学习 存储 算法
顶会最强的前20%!电影情感效应预测论文拿下ACMMM Oral收录!
顶会最强的前20%!电影情感效应预测论文拿下ACMMM Oral收录!
243 0
|
机器学习/深度学习 存储 自然语言处理
文本分类毕设:基于python实现的上市公司新闻文本分析与分类预测
文本分类毕设:基于python实现的上市公司新闻文本分析与分类预测
318 0
|
机器学习/深度学习 自然语言处理
基于LSTM的美国大选的新闻真假分类【NLP 新年开胃菜】
基于LSTM的美国大选的新闻真假分类【NLP 新年开胃菜】
183 0
基于LSTM的美国大选的新闻真假分类【NLP 新年开胃菜】
|
机器学习/深度学习 SQL 存储
头条实验室科学家李磊:准确率更高的问答系统和概率程序语言
李磊是今日头条实验室科学家,原百度美国深度学习实验室少帅科学家。卡耐基梅隆大学计算机系博士,曾在加州大学伯克利分校作博士后研究。李磊博士的研究论文在 IJCAI 等学术会议上多有收录,如今正在召开的 ACL 2016 同样收录了李磊博士的一篇论文。机器之心近日对李磊进行了专访,在此篇专访中,他向我们介绍了被收录的论文,还有他对概率程序语言、自然语言处理方面的理解。
381 0
头条实验室科学家李磊:准确率更高的问答系统和概率程序语言