【数据对比】综合分析百度情感分析以及华为情感分析的差异,我有了如下结果

简介: 【数据对比】综合分析百度情感分析以及华为情感分析的差异,我有了如下结果

前言


某一天,经理找到我,说BOSS需要情感分析对比的结果,我这边能不能研究一下几家情感分析的平台,按照(巴拉巴拉)的要求进行分析,于是就有了这篇文章......


为什么要进行对比


  1. 公司任务
  2. 了解下情感分析
  3. 对比几家情感分析


业务场景:


用提供的截取微博网上留言信息,调用华为云的情感分析,百度云情感分析(通用接口),百度云情感分析(定制化模型,自定义学习资料)。根据以下几个点进行对比。

  • 未处理的原版数据
  • 通用模型-       原版分类置信度
  • 定制模型 -  原版分类置信度     (800条学习资料样本,     85.96%准确率的学习资料)
  • 定制模型 -  原版分类置信度     (1800条学习资料样本,     65.93%准确率的学习资料)
  • 原版评论分类置信度     (华为云 仅2000条左右数据)
  • 通用模型-       原版评论负面倾向概率
  • 定制模型  - 原版评论负面倾向概率     (800条学习资料样本,     85.96%准确率的学习资料)
  • 定制模型  - 原版评论负面倾向概率     (1800条学习资料样本,     65.93%准确率的学习资料)
  • 通用模型-       原版评论正面倾向概率
  • 使用定制模型  -      原版评论正面倾向概率     (800条学习资料样本,     85.96%准确率的学习资料)
  • 使用定制模型  -      原版评论正面倾向概率     (1800条学习资料样本,     65.93%准确率的学习资料)
  • 通用模型-  原     版评论分析正负结果值
  • 定制模型 -       原版评论分析正负结果值      (800条学习资料样本,     85.96%准确率的学习资料)
  • 定制模型 -       原版评论分析正负结果值      (1800条学习资料样本,     65.93%准确率的学习资料)
  • 原版评论正负结果值     (华为云 仅2000条左右数据)
  • 处理掉@和#后的评论数据:
  • 通用模型-       原版分类置信度
  • 定制模型 -  原版分类置信度     (800条学习资料样本,     85.96%准确率的学习资料)
  • 定制模型 -  原版分类置信度     (1800条学习资料样本,     65.93%准确率的学习资料)
  • 原版评论分类置信度     (华为云 仅2000条左右数据)
  • 通用模型-       原版评论负面倾向概率
  • 定制模型  - 原版评论负面倾向概率     (800条学习资料样本,     85.96%准确率的学习资料)
  • 定制模型  - 原版评论负面倾向概率     (1800条学习资料样本,     65.93%准确率的学习资料)
  • 通用模型-       原版评论正面倾向概率
  • 使用定制模型  -      原版评论正面倾向概率     (800条学习资料样本,     85.96%准确率的学习资料)
  • 使用定制模型  -      原版评论正面倾向概率     (1800条学习资料样本,     65.93%准确率的学习资料)
  • 通用模型-  原     版评论分析正负结果值
  • 定制模型 -       原版评论分析正负结果值      (800条学习资料样本,     85.96%准确率的学习资料)
  • 定制模型 -       原版评论分析正负结果值      (1800条学习资料样本,     65.93%准确率的学习资料)
  • 原版评论正负结果值     (华为云 仅2000条左右数据)


解决的问题:


  1. 对比了两家的情感分析之后,经过综合分析,百度云情感分析(通用模型)的准确率是最高的。
  2. 目前综合来看,百度云的情感分析通用模式是自然语言分析的最好选择。
  3. 定制化的百度模型实际测试不如通用模型准确(可能为学习模型数据不够准确)。


挑战:


  1. 首次使用华为云情感分析,对于接口调用方面自己阅读文档不够详细,走了较多的弯路,不过经过仔细研究自行解决。
  2. 由于存在QPS限制,调用的时候需要限制调用频率。
  3. 由于网络原因可能存在频繁调用的情况。
  4. 数据较多的情况下处理数据的时长比较久(针对试用而言)。
  5. 根据不同的定制化模型。
  6. 可能存在无法分析的特殊字符数据。


使用服务:


自然语言处理 - 情感分析


如何解决:


1. 在不超过**qps**限制的情况下,试用分页形式,分段请求,在数据库中设置 判断值判断数据是否进行分析,如果重复调用会直接过滤掉已经进行情感分析的数据。
   2. 对于线程进行`休眠`操作,防止调用请求过于频繁接口调用失败。
   3. 使用日志记录失败请求信息,失败请求原因,失败请求数据。
   4. 多次调用数据确保大部分数据可以产生结果,个别数据请求失败以及没有数据的忽略。
复制代码


使用场景:


  1. 比对市面上几家华为云的情感分析使用,根据分析结果数据进行比对。
  2. 对比百度云通用模型和定制化模型的使用。
  3. 对比不同的环境下分析的数据,数据差异值。


方案截图:


网络异常,图片无法展示
|


(处理掉特殊字符前的截图)


网络异常,图片无法展示
|


(处理掉特殊字符后的截图)


使用规模:


共1000条数据左右。(其实总共有18000条数据)


使用收益:


  1. 单单从纸面数据来看,可能百度的稍好一些
  2. 最后BOSS让我用的百度云的情感分析
  3. 很好奇情感分析的原理


结语


原数据报表有 18000条,如果有对情感分析感兴趣,或者想要了解情感分析对比结果的,可以留言邮箱,我会抽空把报表数据发送至您的邮箱

如果觉得对您有帮助欢迎扩散

相关文章
|
6月前
|
关系型数据库 MySQL 数据库
百度搜索:蓝易云【【Docker】Docker部署Mysql并设置数据持久化教程】
通过以上步骤,您已经成功地在Docker中部署了MySQL,并设置了数据持久化,确保数据在容器重新启动或迁移时得以保留。
97 0
|
6月前
|
Java 数据安全/隐私保护 Spring
Spring案例:百度网盘密码数据兼容处理
Spring案例:百度网盘密码数据兼容处理
72 0
|
3月前
|
JavaScript 前端开发 数据挖掘
用百度和神策做埋点为何 pv 差异很大?
近期 ClkLog 收到一个客户反馈说我们与百度统计的 PV 数据差异很大。为了验证问题,开发进行了一次对页面浏览量统计的测试。针对同一个 IP 同一个时间的页面浏览量统计发现,百度的统计数据只有一条,而 ClkLog 有十条记录,于是我们展开了问题排查。
用百度和神策做埋点为何 pv 差异很大?
|
3月前
|
存储 小程序 C语言
C语言数据的存储(内含百度笔试题)
C语言数据的存储(内含百度笔试题)
41 4
|
数据采集 数据可视化
国内77个城市建筑物轮廓(带高度)数据分享(附百度网盘)
国内77个城市建筑物轮廓(带高度)数据分享(附百度网盘)
1095 1
|
6月前
|
数据可视化 Python
R语言量化技术分析的百度指数关注度交易策略可视化
R语言量化技术分析的百度指数关注度交易策略可视化
|
6月前
|
定位技术
利用MultCloud在线复制传输不同网盘之间的数据:支持谷歌Drive、百度网盘等
利用MultCloud在线复制传输不同网盘之间的数据:支持谷歌Drive、百度网盘等
366 2
|
6月前
|
消息中间件 Shell Docker
百度搜索:蓝易云【docker rabbitmq-清空queue队列数据】
通过以上步骤,您可以使用Docker清空RabbitMQ队列的数据。这将帮助您重置队列并清除旧数据,以进行新的测试或使用。
63 0
|
6月前
|
XML JSON 前端开发
ajax中get和post的区别,datatype返回的数据类型有哪些?web开发中数据提交的几种方式,有什么区别。百度使用哪种方式?
ajax中get和post的区别,datatype返回的数据类型有哪些?web开发中数据提交的几种方式,有什么区别。百度使用哪种方式?
51 0
|
JSON 数据格式 Python
百度搜索:蓝易云【Python数据使用HTTP代理教程!】
总结: 以上是使用Python进行数据请求时使用HTTP代理的简要教程。通过设置代理字典并将其传递给requests库的请求方法,你可以在Python中使用HTTP代理来发送和接收数据。请注意,代理的具体设置可能会因实际的代理类型和配置而有所不同。确保使用适当的代理地址和端口号,并根据代理提供商的要求进行设置。
55 1