前言
某一天,经理找到我,说BOSS需要情感分析对比的结果,我这边能不能研究一下几家情感分析的平台,按照(巴拉巴拉)的要求进行分析,于是就有了这篇文章......
为什么要进行对比
- 公司任务
- 了解下情感分析
- 对比几家情感分析
业务场景:
用提供的截取微博网上留言信息,调用华为云的情感分析,百度云情感分析(通用接口),百度云情感分析(定制化模型,自定义学习资料)。根据以下几个点进行对比。
- 未处理的原版数据
- 通用模型- 原版分类置信度
- 定制模型 - 原版分类置信度 (800条学习资料样本, 85.96%准确率的学习资料)
- 定制模型 - 原版分类置信度 (1800条学习资料样本, 65.93%准确率的学习资料)
- 原版评论分类置信度 (华为云 仅2000条左右数据)
- 通用模型- 原版评论负面倾向概率
- 定制模型 - 原版评论负面倾向概率 (800条学习资料样本, 85.96%准确率的学习资料)
- 定制模型 - 原版评论负面倾向概率 (1800条学习资料样本, 65.93%准确率的学习资料)
- 通用模型- 原版评论正面倾向概率
- 使用定制模型 - 原版评论正面倾向概率 (800条学习资料样本, 85.96%准确率的学习资料)
- 使用定制模型 - 原版评论正面倾向概率 (1800条学习资料样本, 65.93%准确率的学习资料)
- 通用模型- 原 版评论分析正负结果值
- 定制模型 - 原版评论分析正负结果值 (800条学习资料样本, 85.96%准确率的学习资料)
- 定制模型 - 原版评论分析正负结果值 (1800条学习资料样本, 65.93%准确率的学习资料)
- 原版评论正负结果值 (华为云 仅2000条左右数据)
- 处理掉@和#后的评论数据:
- 通用模型- 原版分类置信度
- 定制模型 - 原版分类置信度 (800条学习资料样本, 85.96%准确率的学习资料)
- 定制模型 - 原版分类置信度 (1800条学习资料样本, 65.93%准确率的学习资料)
- 原版评论分类置信度 (华为云 仅2000条左右数据)
- 通用模型- 原版评论负面倾向概率
- 定制模型 - 原版评论负面倾向概率 (800条学习资料样本, 85.96%准确率的学习资料)
- 定制模型 - 原版评论负面倾向概率 (1800条学习资料样本, 65.93%准确率的学习资料)
- 通用模型- 原版评论正面倾向概率
- 使用定制模型 - 原版评论正面倾向概率 (800条学习资料样本, 85.96%准确率的学习资料)
- 使用定制模型 - 原版评论正面倾向概率 (1800条学习资料样本, 65.93%准确率的学习资料)
- 通用模型- 原 版评论分析正负结果值
- 定制模型 - 原版评论分析正负结果值 (800条学习资料样本, 85.96%准确率的学习资料)
- 定制模型 - 原版评论分析正负结果值 (1800条学习资料样本, 65.93%准确率的学习资料)
- 原版评论正负结果值 (华为云 仅2000条左右数据)
解决的问题:
- 对比了两家的情感分析之后,经过综合分析,百度云情感分析(通用模型)的准确率是最高的。
- 目前综合来看,百度云的情感分析通用模式是自然语言分析的最好选择。
- 定制化的百度模型实际测试不如通用模型准确(可能为学习模型数据不够准确)。
挑战:
- 首次使用华为云情感分析,对于接口调用方面自己阅读文档不够详细,走了较多的弯路,不过经过仔细研究自行解决。
- 由于存在QPS限制,调用的时候需要限制调用频率。
- 由于网络原因可能存在频繁调用的情况。
- 数据较多的情况下处理数据的时长比较久(针对试用而言)。
- 根据不同的定制化模型。
- 可能存在无法分析的特殊字符数据。
使用服务:
自然语言处理 - 情感分析
如何解决:
1. 在不超过**qps**限制的情况下,试用分页形式,分段请求,在数据库中设置 判断值判断数据是否进行分析,如果重复调用会直接过滤掉已经进行情感分析的数据。 2. 对于线程进行`休眠`操作,防止调用请求过于频繁接口调用失败。 3. 使用日志记录失败请求信息,失败请求原因,失败请求数据。 4. 多次调用数据确保大部分数据可以产生结果,个别数据请求失败以及没有数据的忽略。 复制代码
使用场景:
- 比对市面上几家华为云的情感分析使用,根据分析结果数据进行比对。
- 对比百度云通用模型和定制化模型的使用。
- 对比不同的环境下分析的数据,数据差异值。
方案截图:
网络异常,图片无法展示
|
(处理掉特殊字符前的截图)
网络异常,图片无法展示
|
(处理掉特殊字符后的截图)
使用规模:
共1000条数据左右。(其实总共有18000条数据)
使用收益:
- 单单从纸面数据来看,可能百度的稍好一些
- 最后BOSS让我用的百度云的情感分析
- 很好奇情感分析的原理
结语
原数据报表有 18000条,如果有对情感分析感兴趣,或者想要了解情感分析对比结果的,可以留言邮箱,我会抽空把报表数据发送至您的邮箱
如果觉得对您有帮助欢迎扩散