【数据对比】综合分析百度情感分析以及华为情感分析的差异,我有了如下结果

简介: 【数据对比】综合分析百度情感分析以及华为情感分析的差异,我有了如下结果

前言


某一天,经理找到我,说BOSS需要情感分析对比的结果,我这边能不能研究一下几家情感分析的平台,按照(巴拉巴拉)的要求进行分析,于是就有了这篇文章......


为什么要进行对比


  1. 公司任务
  2. 了解下情感分析
  3. 对比几家情感分析


业务场景:


用提供的截取微博网上留言信息,调用华为云的情感分析,百度云情感分析(通用接口),百度云情感分析(定制化模型,自定义学习资料)。根据以下几个点进行对比。

  • 未处理的原版数据
  • 通用模型-       原版分类置信度
  • 定制模型 -  原版分类置信度     (800条学习资料样本,     85.96%准确率的学习资料)
  • 定制模型 -  原版分类置信度     (1800条学习资料样本,     65.93%准确率的学习资料)
  • 原版评论分类置信度     (华为云 仅2000条左右数据)
  • 通用模型-       原版评论负面倾向概率
  • 定制模型  - 原版评论负面倾向概率     (800条学习资料样本,     85.96%准确率的学习资料)
  • 定制模型  - 原版评论负面倾向概率     (1800条学习资料样本,     65.93%准确率的学习资料)
  • 通用模型-       原版评论正面倾向概率
  • 使用定制模型  -      原版评论正面倾向概率     (800条学习资料样本,     85.96%准确率的学习资料)
  • 使用定制模型  -      原版评论正面倾向概率     (1800条学习资料样本,     65.93%准确率的学习资料)
  • 通用模型-  原     版评论分析正负结果值
  • 定制模型 -       原版评论分析正负结果值      (800条学习资料样本,     85.96%准确率的学习资料)
  • 定制模型 -       原版评论分析正负结果值      (1800条学习资料样本,     65.93%准确率的学习资料)
  • 原版评论正负结果值     (华为云 仅2000条左右数据)
  • 处理掉@和#后的评论数据:
  • 通用模型-       原版分类置信度
  • 定制模型 -  原版分类置信度     (800条学习资料样本,     85.96%准确率的学习资料)
  • 定制模型 -  原版分类置信度     (1800条学习资料样本,     65.93%准确率的学习资料)
  • 原版评论分类置信度     (华为云 仅2000条左右数据)
  • 通用模型-       原版评论负面倾向概率
  • 定制模型  - 原版评论负面倾向概率     (800条学习资料样本,     85.96%准确率的学习资料)
  • 定制模型  - 原版评论负面倾向概率     (1800条学习资料样本,     65.93%准确率的学习资料)
  • 通用模型-       原版评论正面倾向概率
  • 使用定制模型  -      原版评论正面倾向概率     (800条学习资料样本,     85.96%准确率的学习资料)
  • 使用定制模型  -      原版评论正面倾向概率     (1800条学习资料样本,     65.93%准确率的学习资料)
  • 通用模型-  原     版评论分析正负结果值
  • 定制模型 -       原版评论分析正负结果值      (800条学习资料样本,     85.96%准确率的学习资料)
  • 定制模型 -       原版评论分析正负结果值      (1800条学习资料样本,     65.93%准确率的学习资料)
  • 原版评论正负结果值     (华为云 仅2000条左右数据)


解决的问题:


  1. 对比了两家的情感分析之后,经过综合分析,百度云情感分析(通用模型)的准确率是最高的。
  2. 目前综合来看,百度云的情感分析通用模式是自然语言分析的最好选择。
  3. 定制化的百度模型实际测试不如通用模型准确(可能为学习模型数据不够准确)。


挑战:


  1. 首次使用华为云情感分析,对于接口调用方面自己阅读文档不够详细,走了较多的弯路,不过经过仔细研究自行解决。
  2. 由于存在QPS限制,调用的时候需要限制调用频率。
  3. 由于网络原因可能存在频繁调用的情况。
  4. 数据较多的情况下处理数据的时长比较久(针对试用而言)。
  5. 根据不同的定制化模型。
  6. 可能存在无法分析的特殊字符数据。


使用服务:


自然语言处理 - 情感分析


如何解决:


1. 在不超过**qps**限制的情况下,试用分页形式,分段请求,在数据库中设置 判断值判断数据是否进行分析,如果重复调用会直接过滤掉已经进行情感分析的数据。
   2. 对于线程进行`休眠`操作,防止调用请求过于频繁接口调用失败。
   3. 使用日志记录失败请求信息,失败请求原因,失败请求数据。
   4. 多次调用数据确保大部分数据可以产生结果,个别数据请求失败以及没有数据的忽略。
复制代码


使用场景:


  1. 比对市面上几家华为云的情感分析使用,根据分析结果数据进行比对。
  2. 对比百度云通用模型和定制化模型的使用。
  3. 对比不同的环境下分析的数据,数据差异值。


方案截图:


网络异常,图片无法展示
|


(处理掉特殊字符前的截图)


网络异常,图片无法展示
|


(处理掉特殊字符后的截图)


使用规模:


共1000条数据左右。(其实总共有18000条数据)


使用收益:


  1. 单单从纸面数据来看,可能百度的稍好一些
  2. 最后BOSS让我用的百度云的情感分析
  3. 很好奇情感分析的原理


结语


原数据报表有 18000条,如果有对情感分析感兴趣,或者想要了解情感分析对比结果的,可以留言邮箱,我会抽空把报表数据发送至您的邮箱

如果觉得对您有帮助欢迎扩散

目录
打赏
0
0
0
0
4
分享
相关文章
|
9月前
|
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
【4月更文挑战第16天】研究人员集成12个大型语言模型(LLM)组成“硅基群体”,在预测比赛中与925名人类预测者对比。研究发现,LLM群体的预测准确性与人类群体无显著差异,且通过集成可抵消个体模型的偏差,提高预测准确。GPT-4和Claude 2等模型结合人类预测后,准确度提升17%至28%。然而,个别LLM预测精度不一,模型选择和校准度是提升预测性能的关键,同时LLM在时间跨度和现实场景适应性方面仍有挑战。
129 6
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
AiTrust下预训练和小样本学习在中文医疗信息处理挑战榜CBLUE表现
可以看出在样本量还算大的情况下,预训练方式更有优势(准确率略高一点且训练更快一些),通过AITrust可信分析:稀疏数据筛选、脏数据清洗、数据增强等方案看到模型性能都有提升; 这里提升不显著的原因是,这边没有对筛选出来数据集进行标注:因为没有特定背景知识就不花时间操作了,会导致仍会有噪声存在。相信标注完后能提升3-5%点 1. 对于大多数任务,我们使用预训练模型微调作为首选的文本分类方案:准确率较高,训练较快 2. 提示学习(Prompt Learning)适用于标注成本高、标注样本较少的文本分类场景。在小样本场景中,相比于预训练模型微调学习,提示学习能取得更好的效果。对于标注样本充足、标
R语言IRT理论:扩展Rasch模型等级量表模型lltm、 rsm 和 pcm模型分析心理和教育测验数据可视化
R语言IRT理论:扩展Rasch模型等级量表模型lltm、 rsm 和 pcm模型分析心理和教育测验数据可视化
基于Python的微博热点李佳琦忒网友话题的评论采集和情感分析的方法,利用情感分析技术对评论进行情感倾向性判断
本文介绍了一种基于Python的方法,用于采集微博热点话题下的评论数据,并运用情感分析技术对这些评论进行情感倾向性判断,进而通过统计分析和可视化技术展示网友对特定话题的情感态度,对品牌或个人形象管理、用户需求发现、舆情监测和危机管理等方面具有重要价值。
126 2
基于Python的微博热点李佳琦忒网友话题的评论采集和情感分析的方法,利用情感分析技术对评论进行情感倾向性判断
RAG 系统高效检索提升秘籍:如何精准选择 BGE 智源、GTE 阿里与 Jina 等的嵌入与精排模型的完美搭配
RAG 系统高效检索提升秘籍:如何精准选择 BGE 智源、GTE 阿里与 Jina 等的嵌入与精排模型的完美搭配
RAG 系统高效检索提升秘籍:如何精准选择 BGE 智源、GTE 阿里与 Jina 等的嵌入与精排模型的完美搭配
TITAN:哈佛医学院推出多模态全切片病理基础模型,支持病理报告生成、跨模态检索
TITAN 是哈佛医学院研究团队开发的多模态全切片病理基础模型,通过视觉自监督学习和视觉-语言对齐预训练,能够在无需微调或临床标签的情况下提取通用切片表示,生成病理报告。
81 8
TITAN:哈佛医学院推出多模态全切片病理基础模型,支持病理报告生成、跨模态检索
数据分析案例-基于snownlp模型的MatePad11产品用户评论情感分析(上)
数据分析案例-基于snownlp模型的MatePad11产品用户评论情感分析
306 0
Satori:快速体验MIT与哈佛推出7B参数的推理专家模型,具备自回归搜索和自我纠错能力
Satori 是由 MIT 和哈佛大学等机构联合推出的 7B 参数大型语言模型,专注于提升推理能力,具备强大的自回归搜索和自我纠错功能。
26 5

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等