[舆情方向]自然语言情感倾向分析技术原型[第一期]-阿里云开发者社区

开发者社区> 技术小美> 正文

[舆情方向]自然语言情感倾向分析技术原型[第一期]

简介:
+关注继续查看

经过一个月的技术调查和编码实践,最终通过纯词法分析写出了情感分析的技术原型,统计结果比较满意,也算对自己一个月来研究成果的初步肯定。

首先该技术原型主要面向舆情,舆情的特点是语料来源广泛,主题相关性不明显,从网上抓取的舆情可以是任何形式任何主题的。正统的新闻,微博,论坛评论等等,因此判断难度较大。国内情感分析成果主要应用于对特定领域的评论倾向分析来改善产品和做用户调研。针对有主题相关性的语料,可以用目前非常优秀的SVM支撑向量机分类算法通过前期训练,将训练出的数学模型去预测未知语料,正确率最佳可达90%以上。

但是在舆情领域SVM这种算法就不尽如人意了,所以经过技术调查,我采用纯词法分析且基于情感词典这样一种与SVM恰恰相反的非学习监督方法完成了该技术原型,针对网上抓取的测试语料的判断准确率为:积极文本准确率在80%左右,消极文本因为难度较大(后面会说道)准确率在70%左右。同时保证了错误率在%10左右。正误率之比在10:1之上。先看图说话。

环境:C+WindowsApi,VS2010,Windows7 x64

技术原型界面:

参数解释:

    testText.txt:要测试的文本,因为舆情文本一般较短,所以技术原型这里将每句作为一个语料单位。

    emDic.txt:使用的情感词基准词典。

    bDetail:是否展示判断过程,即情感倾向分析的细节,0/1。

    sepValue:分类权值。用于正负面及未知的分类权值,测试最佳:0.8

分词细节:

 

分类结果:

消极语料判错原因分析(手动跟踪了100多条文本分析过程得出):
  1)口语化严重(这本书与名著的距离好远,不怎么样),
  2)表达隐晦,高级语法(暗喻,反讽),
  3)错别字,
  4)文本过短(情感信息较少)。
  5)情感倾向不不明显:如 还好。
  6)某些词领域评价词使用率较高,影响判断:没到货等
  7)积极倾向,大于消极倾向(先抑后扬,人工分错)
  8)情感词修饰主体不一致(书内容描述)
错误文本举例:

这本书叫《于丹心得》更好一些。(贬义)
看完这本书,我感觉于丹更像一位幼儿园老师。(贬义)
书看了一遍就送人了。(贬义)
说的真好。(贬义)

改进方向:

交叉对比:研究第二种方法可以两种方法交叉对比来提高分类精度。

全自动学习机制:自动丰富词库,或者加入监督学习机制更新词库。

Just a display,还得继续研究。。。。
















本文转hackfreer51CTO博客,原文链接:http://blog.51cto.com/pnig0s1992/825981,如需转载请自行联系原作者

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
阿里云服务器ECS远程登录用户名密码查询方法
阿里云服务器ECS远程连接登录输入用户名和密码,阿里云没有默认密码,如果购买时没设置需要先重置实例密码,Windows用户名是administrator,Linux账号是root,阿小云来详细说下阿里云服务器远程登录连接用户名和密码查询方法
2868 0
阿里云服务器端口号设置
阿里云服务器初级使用者可能面临的问题之一. 使用tomcat或者其他服务器软件设置端口号后,比如 一些不是默认的, mysql的 3306, mssql的1433,有时候打不开网页, 原因是没有在ecs安全组去设置这个端口号. 解决: 点击ecs下网络和安全下的安全组 在弹出的安全组中,如果没有就新建安全组,然后点击配置规则 最后如上图点击添加...或快速创建.   have fun!  将编程看作是一门艺术,而不单单是个技术。
4496 0
阿里云服务器安全组设置内网互通的方法
虽然0.0.0.0/0使用非常方便,但是发现很多同学使用它来做内网互通,这是有安全风险的,实例有可能会在经典网络被内网IP访问到。下面介绍一下四种安全的内网互联设置方法。 购买前请先:领取阿里云幸运券,有很多优惠,可到下文中领取。
9432 0
阿里云服务器远程登录用户名和密码的查询方法
阿里云服务器远程连接登录用户名和密码在哪查看?阿里云服务器默认密码是什么?云服务器系统不同默认用户名不同
444 0
如何设置阿里云服务器安全组?阿里云安全组规则详细解说
阿里云安全组设置详细图文教程(收藏起来) 阿里云服务器安全组设置规则分享,阿里云服务器安全组如何放行端口设置教程。阿里云会要求客户设置安全组,如果不设置,阿里云会指定默认的安全组。那么,这个安全组是什么呢?顾名思义,就是为了服务器安全设置的。安全组其实就是一个虚拟的防火墙,可以让用户从端口、IP的维度来筛选对应服务器的访问者,从而形成一个云上的安全域。
3830 0
+关注
4567
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载