【数据对比】综合分析百度情感分析以及华为情感分析的差异,我有了如下结果

简介: 【数据对比】综合分析百度情感分析以及华为情感分析的差异,我有了如下结果

前言


某一天,经理找到我,说BOSS需要情感分析对比的结果,我这边能不能研究一下几家情感分析的平台,按照(巴拉巴拉)的要求进行分析,于是就有了这篇文章......


为什么要进行对比


  1. 公司任务
  2. 了解下情感分析
  3. 对比几家情感分析


业务场景:


用提供的截取微博网上留言信息,调用华为云的情感分析,百度云情感分析(通用接口),百度云情感分析(定制化模型,自定义学习资料)。根据以下几个点进行对比。

  • 未处理的原版数据
  • 通用模型-       原版分类置信度
  • 定制模型 -  原版分类置信度     (800条学习资料样本,     85.96%准确率的学习资料)
  • 定制模型 -  原版分类置信度     (1800条学习资料样本,     65.93%准确率的学习资料)
  • 原版评论分类置信度     (华为云 仅2000条左右数据)
  • 通用模型-       原版评论负面倾向概率
  • 定制模型  - 原版评论负面倾向概率     (800条学习资料样本,     85.96%准确率的学习资料)
  • 定制模型  - 原版评论负面倾向概率     (1800条学习资料样本,     65.93%准确率的学习资料)
  • 通用模型-       原版评论正面倾向概率
  • 使用定制模型  -      原版评论正面倾向概率     (800条学习资料样本,     85.96%准确率的学习资料)
  • 使用定制模型  -      原版评论正面倾向概率     (1800条学习资料样本,     65.93%准确率的学习资料)
  • 通用模型-  原     版评论分析正负结果值
  • 定制模型 -       原版评论分析正负结果值      (800条学习资料样本,     85.96%准确率的学习资料)
  • 定制模型 -       原版评论分析正负结果值      (1800条学习资料样本,     65.93%准确率的学习资料)
  • 原版评论正负结果值     (华为云 仅2000条左右数据)
  • 处理掉@和#后的评论数据:
  • 通用模型-       原版分类置信度
  • 定制模型 -  原版分类置信度     (800条学习资料样本,     85.96%准确率的学习资料)
  • 定制模型 -  原版分类置信度     (1800条学习资料样本,     65.93%准确率的学习资料)
  • 原版评论分类置信度     (华为云 仅2000条左右数据)
  • 通用模型-       原版评论负面倾向概率
  • 定制模型  - 原版评论负面倾向概率     (800条学习资料样本,     85.96%准确率的学习资料)
  • 定制模型  - 原版评论负面倾向概率     (1800条学习资料样本,     65.93%准确率的学习资料)
  • 通用模型-       原版评论正面倾向概率
  • 使用定制模型  -      原版评论正面倾向概率     (800条学习资料样本,     85.96%准确率的学习资料)
  • 使用定制模型  -      原版评论正面倾向概率     (1800条学习资料样本,     65.93%准确率的学习资料)
  • 通用模型-  原     版评论分析正负结果值
  • 定制模型 -       原版评论分析正负结果值      (800条学习资料样本,     85.96%准确率的学习资料)
  • 定制模型 -       原版评论分析正负结果值      (1800条学习资料样本,     65.93%准确率的学习资料)
  • 原版评论正负结果值     (华为云 仅2000条左右数据)


解决的问题:


  1. 对比了两家的情感分析之后,经过综合分析,百度云情感分析(通用模型)的准确率是最高的。
  2. 目前综合来看,百度云的情感分析通用模式是自然语言分析的最好选择。
  3. 定制化的百度模型实际测试不如通用模型准确(可能为学习模型数据不够准确)。


挑战:


  1. 首次使用华为云情感分析,对于接口调用方面自己阅读文档不够详细,走了较多的弯路,不过经过仔细研究自行解决。
  2. 由于存在QPS限制,调用的时候需要限制调用频率。
  3. 由于网络原因可能存在频繁调用的情况。
  4. 数据较多的情况下处理数据的时长比较久(针对试用而言)。
  5. 根据不同的定制化模型。
  6. 可能存在无法分析的特殊字符数据。


使用服务:


自然语言处理 - 情感分析


如何解决:


1. 在不超过**qps**限制的情况下,试用分页形式,分段请求,在数据库中设置 判断值判断数据是否进行分析,如果重复调用会直接过滤掉已经进行情感分析的数据。
   2. 对于线程进行`休眠`操作,防止调用请求过于频繁接口调用失败。
   3. 使用日志记录失败请求信息,失败请求原因,失败请求数据。
   4. 多次调用数据确保大部分数据可以产生结果,个别数据请求失败以及没有数据的忽略。
复制代码


使用场景:


  1. 比对市面上几家华为云的情感分析使用,根据分析结果数据进行比对。
  2. 对比百度云通用模型和定制化模型的使用。
  3. 对比不同的环境下分析的数据,数据差异值。


方案截图:


网络异常,图片无法展示
|


(处理掉特殊字符前的截图)


网络异常,图片无法展示
|


(处理掉特殊字符后的截图)


使用规模:


共1000条数据左右。(其实总共有18000条数据)


使用收益:


  1. 单单从纸面数据来看,可能百度的稍好一些
  2. 最后BOSS让我用的百度云的情感分析
  3. 很好奇情感分析的原理


结语


原数据报表有 18000条,如果有对情感分析感兴趣,或者想要了解情感分析对比结果的,可以留言邮箱,我会抽空把报表数据发送至您的邮箱

如果觉得对您有帮助欢迎扩散

相关文章
|
机器学习/深度学习 自然语言处理 算法
自然语言处理算法与文档管理软件:提升搜索与分类效率的未来
如果想要让你的文档管理软件更智能、更易用,那就让我们聊一聊如何巧妙地应用自然语言处理(NLP)算法吧!这绝对是提升用户体验和工作效率的“绝佳利器”!下面是一些能帮你通过自然语言处理算法提升文档管理软件的搜索和分类效率的方法——
140 1
|
1月前
|
人工智能 自然语言处理 数据挖掘
RAG 系统高效检索提升秘籍:如何精准选择 BGE 智源、GTE 阿里与 Jina 等的嵌入与精排模型的完美搭配
RAG 系统高效检索提升秘籍:如何精准选择 BGE 智源、GTE 阿里与 Jina 等的嵌入与精排模型的完美搭配
RAG 系统高效检索提升秘籍:如何精准选择 BGE 智源、GTE 阿里与 Jina 等的嵌入与精排模型的完美搭配
|
2月前
|
机器学习/深度学习 人工智能 搜索推荐
【电商搜索】现代工业级电商搜索技术-中科大-利用半监督学习改进非点击样本的转化率预测
【电商搜索】现代工业级电商搜索技术-中科大-利用半监督学习改进非点击样本的转化率预测
157 1
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
【电商搜索】现代工业级电商搜索技术-EMNLP2024-无监督的用户偏好学习
【电商搜索】现代工业级电商搜索技术-EMNLP2024-无监督的用户偏好学习
31 0
|
4月前
|
数据采集 存储 自然语言处理
基于Python的微博热点李佳琦忒网友话题的评论采集和情感分析的方法,利用情感分析技术对评论进行情感倾向性判断
本文介绍了一种基于Python的方法,用于采集微博热点话题下的评论数据,并运用情感分析技术对这些评论进行情感倾向性判断,进而通过统计分析和可视化技术展示网友对特定话题的情感态度,对品牌或个人形象管理、用户需求发现、舆情监测和危机管理等方面具有重要价值。
基于Python的微博热点李佳琦忒网友话题的评论采集和情感分析的方法,利用情感分析技术对评论进行情感倾向性判断
|
5月前
|
语音技术 计算机视觉
|
7月前
|
数据可视化 搜索推荐 数据挖掘
R语言Pearson相关性分析就业率和“性别平等”谷歌搜索热度google trend时间序列数据可视化
R语言Pearson相关性分析就业率和“性别平等”谷歌搜索热度google trend时间序列数据可视化
|
7月前
|
数据采集 自然语言处理 数据可视化
数据分析案例-基于snownlp模型的MatePad11产品用户评论情感分析(上)
数据分析案例-基于snownlp模型的MatePad11产品用户评论情感分析
236 0
|
机器学习/深度学习 算法 大数据
深度学习入门笔记5 Facebook营销组合分类预测
深度学习入门笔记5 Facebook营销组合分类预测
|
机器学习/深度学习 自然语言处理 算法
机器学习 PAI 文本分析-新闻自动分类系|学习笔记
快速学习机器学习 PAI 文本分析-新闻自动分类系。
337 0
机器学习 PAI 文本分析-新闻自动分类系|学习笔记
下一篇
DataWorks