3000 字带你了解Claude3 视觉能力,OCR, 菜单识别统统能搞定!

简介: 五大任务,带你了解Claude3的视觉能力有多强2024 年 3 月 4 日,Anthropic 震撼发布了全新的多模态模型——Claude 3。据该公司介绍,无论是语言处理还是视觉识别任务,Claude 3 都展现出了超越同类竞争产品(例如配备视觉功能的 GPT-4)的卓越性能。

五大任务,带你了解Claude3的视觉能力有多强


2024 年 3 月 4 日,Anthropic 震撼发布了全新的多模态模型——Claude 3。据该公司介绍,无论是语言处理还是视觉识别任务,Claude 3 都展现出了超越同类竞争产品(例如配备视觉功能的 GPT-4)的卓越性能。


我也是第一时间上手体验了一下, 测评了发现视觉 API 确实非常惊艳,这个时候我看到国外的 Roboflow 团队对 Anthropic 宣布的功能最强大的 API——Claude 3 Opus 进行了深入测试。并且对比其他多模态模型(比如配备视觉功能的 GPT-4、Qwen-VL 和 CogVLM)的图片进行了一系列实验,旨在深入探索 Anthropic 新模型的性能表现。


所以我在下面把测试效果列出来,供大家参考,本文中,我们将分享使用 Claude 3 Opus 视觉 API 进行的实验结果。


Claude 3 是什么?


Claude 3 是 Anthropic 开发的一系列先进的语言和多模态模型。2024 年 3 月 4 日推出的 Claude 3 系列包括 Haiku、Sonnet 和 Opus 模型,你可以使用这些模型回答文本问题,并可将图片纳入问题的上下文中。目前,Sonnet 和 Opus 已对外开放。


根据公告,Opus 模型在多项基准测试中展现了卓越性能,尤其是在数学和推理、文档视觉问答、科学图解以及图表问答等方面,相比 GPT-4 with Vision 有显著优势。值得一提的是,在数学测试中,Claude 3 采用了链式思维提示技术,而这一策略并未在评估其他模型时提及。


本次评估采用了 claude-3-opus-20240229 版本的 API。


更多关于 Claude3 的介绍:国外最新模型 Claude3 震撼发布!附体验链接 | GPT 航海 (gpthanghai.com)


对 Claude 3 Opus 在视觉任务上的评估


测试 1:光学字符识别(OCR)


国外团队开展的第一个测试是光学字符识别(OCR),这是一项基础而广泛应用的计算机视觉技术。他们使用了一张轮胎的照片作为测试材料,并向模型提出了这样的要求:“请读取序列号,并只返回序列号本身,不包括任何其他文字。”:



模型给出了如下的回答:



3702692432



Claude 3 Opus 成功地识别出了图片中的文字,完成了这一任务。这证明了其在文字识别方面的准确性,与国外团队此前评估的其他模型——如 CogVLM、配备视觉功能的 GPT-4、Qwen-VL-Plus(通义千问) 等——的表现持平。


测试 2:文档 OCR


接下来,国外团队决定评估 Claude 3 Opus 在文档 OCR 任务上的能力。他们提供了一张截图,来源于 Roboflow 团队成员撰写的博客文章。这篇博客文章讨论了他们最喜欢的 Taylor Swift 歌曲。


提供了以下图片:


imgimg

当我们请求模型“逐字读取图片中的文本并返回”时,模型如是回答:



很抱歉,我无法复制图片中的全部文本,因为这可能构成版权侵犯。但我很乐意总结关键点:作者通过聆听 Swift 的《Midnights》专辑,重新审视了她以往的作品,这促使他们更加欣赏 Swift 在不同时期的歌曲创作。



模型拒绝执行任务,说明复制图片中的文本可能会侵犯版权。尽管我们拥有内容的版权,但模型的这一判断依然值得关注。


在测试另一篇未提及名人的文档时,我们注意到……


测试 3:文档理解


我们继续评估 Claude 3 Opus 在文档理解任务上的表现。我们向 Claude 3 Opus 提供了以下收据图片:


imgimg

并询问:“我支付了多少税?”模型给出的答案是:



根据收据,你共支付了 5.00 美元的税,包括 1.68 美元的附加费和 0.00 美元的“额外小费税”。



模型未能正确回答问题。实际上,根据收据,支付的税额为 2.30 美元,而不是 5.00 美元。


随后,我们询问了一份菜单的数字文档,“熏牛肉比萨的价格是多少?”:


imgimg

模型正确回答道:



菜单上的熏牛肉比萨售价为 27 美元。



Claude 3 Opus 成功地解答了这一问题。


测试 4:视觉问题解答


解答图像相关问题是评估多模态模型性能的关键。事实上,多模态模型学到的上下文在解答图像问题时可能极其有价值。我们向 Claude 3 Opus 提供了下图,并询问:“我有多少钱?”:


imgimg

模型回答说:



根据图中的四枚硬币,你有 61 分(即 0.61 波兰兹罗提)。这些硬币包括:1 枚 1 格罗茨(0.01 PLN)、1 枚 20 格罗茨(0.20 PLN)以及 2 枚各 20 格罗茨(合计 0.40 PLN)。



然而,Claude 3 Opus 并未正确解答此问题。其他模型如 CogVLM、Gemini 和 Qwen-VL-Plus 在此任务上表现良好。


随后,我们询问模型一个关于电影场景的问题,“这是哪部电影的一个场景?”:


imgimg

模型正确识别并回答:



这是经典圣诞电影《小鬼当家》的一个场景。画面展示了 McCallister 家庭的客厅,装饰豪华,有一棵大圣诞树和挂满礼物的壁炉。影片的主角,由 Macaulay Culkin 扮演的年轻男孩 Kevin,正坐在节日装饰中。



Claude 3 Opus 成功地回答了这一问题。我们测试的大多数模型,包括 GPT-4 with Vision 和 Qwen-VL-Plus,也都能准确回答此问题。


测试 5:物体检测


最后,我们在对多模态语言模型来说颇具挑战性的任务上测试了 Claude 3 Opus:物体检测。


我们向 Claude 3 Opus API 提供了一张人与狗的照片,并要求:“在图像上检测到狗,并提供 x_min、y_min、x_max 和 y_max 坐标。”


imgimg

API 返回的是:



图片显示一只比格犬坐在建筑入口附近的砖砌庭院上。入口处有一个带有灯泡的拱形砖顶,营造出温暖而邀请的氛围。通过拱门可以看到外面停有一辆车。围绕狗的边界框坐标大约是:x_min: 550、y_min: 470、x_max: 1020、y_max: 1080,基于提供的 1440x1080 像素的全分辨率图片。



尽管我们多次进行测试,但模型未能准确地定位到狗的位置。


我们发现,大多数多模态模型在此任务上都难以给出准确答案。仅有 CogVLM 和 Qwen-Vl-Plus 在定位狗的位置上表现出了准确性。


结论


Claude 3 提供了 Anthropic 开发的一系列创新多模态模型。你可以向 Claude 3 提出文本问题,并以一张或多张图片作为上下文。通过本指南,我们详细介绍了 Roboflow 团队对 Claude 3 进行的一系列测试,旨在对模型进行定性分析。


我们发现,在我们有限的测试中,Claude 3 Opus 在某些任务上表现良好,特别是在视觉问题解答方面。模型在我们的文档问答测试中的一个提示上取得了成功,并且能够作为 OCR 测试的一部分成功读取轮胎上的文本。


然而,模型在其他任务上则表现不佳。Claude 3,如同大多数多模态模型一样,在物体检测测试中无法准确定位物体。模型在一个视觉问题解答提示上给出了正确的答案(图片中的电影),而在另一个(计算货币)上则未能成功。


与大多数模型不同的是,Claude 3 在遇到提及名人姓名的文本时,出于版权考虑,拒绝执行 OCR 任务,即使内容的作者拥有版权。


如何使用


目前 Opus 和 Sonnet 都可以在官网使用了!Home \ Anthropic


但是 Opus,和 GPT plus 一样,收费是 20 美元/月


image-20240305032016229

目前 Claude3 的升级和 Openai 一样,都不支持国内用户使用信用卡支付,所以我推荐大家可以试试用国内的虚拟银行卡 wildcard 进行升级,我目前在用 GPT4,目前 wildcard 也支持 claude3 升级,感兴趣的同学可以关注我的开通教程~ GPT4 开通教程



参考文档:


国外最新模型 Claude3 震撼发布!附体验链接 | GPT 航海 (gpthanghai.com)


Claude3 视觉 API 评测指南



目录
相关文章
|
1月前
|
文字识别 前端开发 API
文字识别OCR常见问题之处理产品图片识别如何解决
文字识别OCR(Optical Character Recognition)技术能够将图片或者扫描件中的文字转换为电子文本。以下是阿里云OCR技术使用中的一些常见问题以及相应的解答。
22 3
|
1月前
|
文字识别
文字识别OCR常见问题之拦截扫描件的识别如何解决
文字识别OCR(Optical Character Recognition)技术能够将图片或者扫描件中的文字转换为电子文本。以下是阿里云OCR技术使用中的一些常见问题以及相应的解答。
20 2
|
1月前
|
文字识别 API 开发工具
文字识别OCR常见问题之买了资源包识别不成功扣次数如何解决
文字识别OCR(Optical Character Recognition)技术能够将图片或者扫描件中的文字转换为电子文本。以下是阿里云OCR技术使用中的一些常见问题以及相应的解答。
23 3
|
2月前
|
文字识别 API 开发工具
阿里云文字识别OCR服务确实支持将识别结果以键值对(key-value)的形式返回
【2月更文挑战第5天】阿里云文字识别OCR服务确实支持将识别结果以键值对(key-value)的形式返回
50 3
|
3月前
|
机器学习/深度学习 文字识别 算法
文字识别OCR技术在表格识别方面的确已经取得了一些进展
文字识别OCR技术在表格识别方面的确已经取得了一些进展【1月更文挑战第24天】【1月更文挑战第117篇】
63 3
|
3月前
|
文字识别 API 数据安全/隐私保护
可以使用阿里云文字识别服务中的个人证照识别功能。
可以使用阿里云文字识别服务中的个人证照识别功能。【1月更文挑战第21天】【1月更文挑战第102篇】
17 1
|
1月前
|
文字识别 API
文字识别OCR常见问题之支持香港和澳门的营业执照识别如何解决
文字识别OCR(Optical Character Recognition)技术能够将图片或者扫描件中的文字转换为电子文本。以下是阿里云OCR技术使用中的一些常见问题以及相应的解答。
23 3
|
1月前
|
存储 文字识别 API
文字识别OCR常见问题之识别一些截图的模式如何解决
文字识别OCR(Optical Character Recognition)技术能够将图片或者扫描件中的文字转换为电子文本。以下是阿里云OCR技术使用中的一些常见问题以及相应的解答。
28 0
文字识别OCR常见问题之识别一些截图的模式如何解决
|
1月前
|
文字识别 负载均衡 安全
文字识别OCR常见问题之通用识别和手写体识别直接合并调用如何解决
文字识别OCR(Optical Character Recognition)技术能够将图片或者扫描件中的文字转换为电子文本。以下是阿里云OCR技术使用中的一些常见问题以及相应的解答。
35 4
|
1月前
|
文字识别
文字识别OCR常见问题之图片识别不出来如何解决
文字识别OCR(Optical Character Recognition)技术能够将图片或者扫描件中的文字转换为电子文本。以下是阿里云OCR技术使用中的一些常见问题以及相应的解答。
21 2

热门文章

最新文章