简介
银烛秋光冷画屏,轻罗小扇扑流萤。小伙伴们好,我是微信公众号《小窗幽记机器学习》的小编:卖片皮鸭的小女孩。早在今年4月份卖核弹的小女孩就已经实测对比:Claude vs ChatGPT vs 文心一言。
后续会在微信公众号《小窗幽记机器学习》持续整理模型加速、模型部署、模型压缩、LLM、AI艺术等系列专题,敬请关注!
时隔3个月,2023年7月11日Anthropic宣布推出Claude 2,支持长达100K token的文本输入,同时支持10MB以内的文档直接上传,关键还免费。Claude是Anthropic (https://www.anthropic.com) 公司推出的一款类似于 ChatGPT 的 AI 助手。Anthropic 公司是由OpenAI的前首席科学家Ilya Sutskever和Dario Amodei共同创立,其产品Claude被认为是ChatGPT的最强竞品。
Claude 2特点
这次推出的Claude 2网页版完全免费,支持多种格式文档的问答,包括PDF、txt等格式文档(最高不超过10MB)。Claude 2主要有以下几个特点:
- 支持超长输入和输出。最高支持10万tokens的输入和4000个tokens的输出。尽管之前Anthropic就推出最高支持10万tokens输入的Claude,但是不对免费用户开放。这次升级的Claude 2可以直接白嫖!在生成回复方面,Claude 2可以生成最多4000个token的连贯文档,相当于大约 3000 个单词。
- 支持剪切板里面的文本直接txt上传,无需先本地存储为txt文件。
- 更新的训练数据。Claude 2 的训练数据包括 2022 年和 2023 年初的数据,所以能够更好地了解近年的信息。
- 加量不加价。Claude 2 商用 API 的价格与 1.3 版本相同。
- 编码能力提升很大。Claude2在编码基准和人类反馈评估方面性能显著提升。Claude 2在Codex HumanEval(一项Python编码测试)上的得分从56.0%提高到了71.2%。官方的演示视频中,你可以直接上传一个代码文件(js库),然后Claude就可以自动分析代码并给出这个库的使用方法。
- 更强大的逻辑能力。Claude 2在编码、数学和推理能力大幅提高,如编程题得分提高15%。在Bar exam的多选中Claude 2相比于Claude 1.3版本从73%提升到76.5%。
最后2点,小伙伴们看看就好。毕竟,实践是检验真理的唯一标准!
如何注册
在官网:https://claude.ai 直接邮箱登录,即可白嫖使用!注意,目前只支持US和UK的用户,梯子自己挪下位置即可。
从下面这些任务进行实测:
- 小说问答:以《阿Q正传》为例
- PDF问答:以《不良人》为例
- 微博问答:以热搜为例
- 编程:以leetcode为例
小说问答:以《阿Q正传》为例
可以看出,文档问答的效果相当不错。比LangChain+ChatGPT的文档问答效果好很多,忍不住安利一波!
PDF问答:以《不良人》为例
可以看出,不管如何调整问题,回复始终缺了"惊虹"。原始上传文档中该答案出处如下:
大概率是上述表格存在行列数据公用问题。其他问题,Claude 2都可以轻松应对:
微博问答:以热搜为例
整体看,效果不错,但是在更大范围的分组上,效果不够理想。
编程能力实测
本着题目还是新鲜的好的原则,选用leetcode最近的赛题对Claude 2进行考(刁)验(难)。
题目:2772. 使数组中的所有元素都等于零
题目链接:
https://leetcode.cn/problems/apply-operations-to-make-all-array-elements-equal-to-zero/
Claude 2给出的代码只能通过部分测试用例,这里就不展示具体代码了。所以,Claude 2的编程能力仍有待较大进步空间。
总结
Claude 2刷新现有商业产品的输入上限,长达100k个token。同时支持多种如PDF、TXT等文档格式作为输入,在文档问答、文档大纲和摘要生成方面效果显著。文档问答效果是真不错,忍不住安利!但在面对稍微复杂表格(比如行列数据共用)的问答时仍然力不从心,有待优化。此外,对于编程题目的解答,Claude 2也存在较大提升空间。