LLM系列 | 20:Claude2剑指ChatGPT,长文档问答,真香!

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
实时数仓Hologres,5000CU*H 100GB 3个月
简介: 亲测Claude2的效果,长文档问答效果惊艳!

简介

银烛秋光冷画屏,轻罗小扇扑流萤。小伙伴们好,我是微信公众号《小窗幽记机器学习》的小编:卖片皮鸭的小女孩。早在今年4月份卖核弹的小女孩就已经实测对比:Claude vs ChatGPT vs 文心一言

后续会在微信公众号《小窗幽记机器学习》持续整理模型加速、模型部署、模型压缩、LLM、AI艺术等系列专题,敬请关注!

时隔3个月,2023年7月11日Anthropic宣布推出Claude 2,支持长达100K token的文本输入,同时支持10MB以内的文档直接上传,关键还免费。Claude是Anthropic (https://www.anthropic.com) 公司推出的一款类似于 ChatGPT 的 AI 助手。Anthropic 公司是由OpenAI的前首席科学家Ilya Sutskever和Dario Amodei共同创立,其产品Claude被认为是ChatGPT的最强竞品。

Claude 2特点

这次推出的Claude 2网页版完全免费,支持多种格式文档的问答,包括PDF、txt等格式文档(最高不超过10MB)。Claude 2主要有以下几个特点:

  • 支持超长输入和输出。最高支持10万tokens的输入和4000个tokens的输出。尽管之前Anthropic就推出最高支持10万tokens输入的Claude,但是不对免费用户开放。这次升级的Claude 2可以直接白嫖!在生成回复方面,Claude 2可以生成最多4000个token的连贯文档,相当于大约 3000 个单词。
  • 支持剪切板里面的文本直接txt上传,无需先本地存储为txt文件。
  • 更新的训练数据。Claude 2 的训练数据包括 2022 年和 2023 年初的数据,所以能够更好地了解近年的信息。
  • 加量不加价。Claude 2 商用 API 的价格与 1.3 版本相同。
  • 编码能力提升很大。Claude2在编码基准和人类反馈评估方面性能显著提升。Claude 2在Codex HumanEval(一项Python编码测试)上的得分从56.0%提高到了71.2%。官方的演示视频中,你可以直接上传一个代码文件(js库),然后Claude就可以自动分析代码并给出这个库的使用方法。
  • 更强大的逻辑能力。Claude 2在编码、数学和推理能力大幅提高,如编程题得分提高15%。在Bar exam的多选中Claude 2相比于Claude 1.3版本从73%提升到76.5%。

最后2点,小伙伴们看看就好。毕竟,实践是检验真理的唯一标准!

如何注册

在官网:https://claude.ai 直接邮箱登录,即可白嫖使用!注意,目前只支持US和UK的用户,梯子自己挪下位置即可。

从下面这些任务进行实测:

  • 小说问答:以《阿Q正传》为例
  • PDF问答:以《不良人》为例
  • 微博问答:以热搜为例
  • 编程:以leetcode为例

小说问答:以《阿Q正传》为例

阿Q-问答.png

可以看出,文档问答的效果相当不错。比LangChain+ChatGPT的文档问答效果好很多,忍不住安利一波!

PDF问答:以《不良人》为例

不良人.png

可以看出,不管如何调整问题,回复始终缺了"惊虹"。原始上传文档中该答案出处如下:

惊鸿.jpg

大概率是上述表格存在行列数据公用问题。其他问题,Claude 2都可以轻松应对:

袁天罡实力.jpg

微博问答:以热搜为例

微博热搜分类.png

整体看,效果不错,但是在更大范围的分组上,效果不够理想。

编程能力实测

本着题目还是新鲜的好的原则,选用leetcode最近的赛题对Claude 2进行考(刁)验(难)。
题目:2772. 使数组中的所有元素都等于零
题目链接:
https://leetcode.cn/problems/apply-operations-to-make-all-array-elements-equal-to-zero/

Claude 2给出的代码只能通过部分测试用例,这里就不展示具体代码了。所以,Claude 2的编程能力仍有待较大进步空间。

总结

Claude 2刷新现有商业产品的输入上限,长达100k个token。同时支持多种如PDF、TXT等文档格式作为输入,在文档问答、文档大纲和摘要生成方面效果显著。文档问答效果是真不错,忍不住安利!但在面对稍微复杂表格(比如行列数据共用)的问答时仍然力不从心,有待优化。此外,对于编程题目的解答,Claude 2也存在较大提升空间。

相关文章
|
2月前
|
机器学习/深度学习 自然语言处理 语音技术
ChatGPT高效提问—基础知识(LM、PLM以及LLM)
ChatGPT高效提问—基础知识(LM、PLM以及LLM)
50 0
|
机器学习/深度学习 人工智能 自然语言处理
LLM系列 | 11: 基于ChatGPT构建智能客服系统(query分类&安全检查&防注入)
本文主要介绍如何使用ChatGPT对智能客服领域中的客户咨询进行分类。此外还补充构建真实应用中如何对用户咨询内容和模型生成内容进行安全检查及其如何预防用户注入。
|
机器学习/深度学习 自然语言处理 算法
【网安AIGC专题10.25】论文7:Chatgpt/CodeX引入会话式 APR 范例+利用验证反馈+LLM 长期上下文窗口:更智能的反馈机制、更有效的信息合并策略、更复杂的模型结构、鼓励生成多样性
【网安AIGC专题10.25】论文7:Chatgpt/CodeX引入会话式 APR 范例+利用验证反馈+LLM 长期上下文窗口:更智能的反馈机制、更有效的信息合并策略、更复杂的模型结构、鼓励生成多样性
144 0
|
人工智能 测试技术
Orca LLM:模拟 ChatGPT 的推理过程
Orca 是一个 13B 参数模型,它学习模仿 LFM 的推理过程。它使用ChatGPT的渐进式学习和教师协助来克服能力差距。通过利用来自 GPT-4 的丰富信号,Orca 增强了其功能并提高模仿学习性能。
221 0
|
机器学习/深度学习 人工智能 自然语言处理
LLM 系列 | 18:如何基于LangChain打造联网版ChatGPT?
今天这篇小作文是LangChain实践专题的第2篇,简单介绍LangChain的用途及如何利用LangChain将ChatGPT和搜索引擎(Google)结合起来,从而实现一个极简的联网版ChatGPT。
|
机器学习/深度学习 人工智能 自然语言处理
LLM系列 | 13: 亲测ChatGPT的重磅功能:函数调用 (以天气问答为例)
本文以天气问答为例,实践方式介绍ChatGPT的函数调用
LLM系列 | 13:  亲测ChatGPT的重磅功能:函数调用 (以天气问答为例)
|
机器学习/深度学习 JSON 人工智能
LLM 系列 | 10: 如何用ChatGPT构建点餐机器人?
今天这篇小作文主要介绍如何用ChatGPT构建一个定制化的闲聊机器人和订餐机器人。
|
机器学习/深度学习 人工智能 自然语言处理
LLM 系列 | 09:吴恩达ChatGPT Prompt课程实践:以智能客服邮件为例
主要介绍如何用ChatGPT进行文本扩展,并以如何根据客户评价和情感撰写自定义电子邮件为例详细说明。
|
机器学习/深度学习 XML JSON
LLM 系列 | 08:ChatGPT Prompt实践:文本转换
今天这篇小作文主要介绍如何通过构建ChatGPT Prompt以解决文本转换任务。
|
4月前
|
人工智能 自然语言处理 搜索推荐
chatgpt这么火,现在AI搜索引擎有哪些呢?
国外AI搜索引擎包括ChatGPT,擅长自然语言处理与内容生成;Google Bard,提供智能个性化搜索体验;Microsoft Bing集成GPT模型增强智能检索;Perplexity AI以简洁答案及文献引用著称;Neeva强调隐私保护与无广告服务。国内方面,天工AI支持多种功能如知识问答与代码编程;腾讯元宝基于混元模型助力内容创造与学习;360AI搜索以精准全面的信息搜索见长;秘塔AI专注提升写作质量和效率;开搜AI搜索提供个性化智能搜索服务。以上引擎均利用先进AI技术提升用户体验。更多详情参阅[AI搜索合集](zhangfeidezhu.com/?page_id=651)。
120 8
chatgpt这么火,现在AI搜索引擎有哪些呢?