知识评估
在一项任务中,BloombergGPT 比 BLOOM176B、GPT-NeoX 和 OPT66B 性能都高。在其他三项中排名第二(表 14)。与上一节类似,它优于类似尺寸的模型,同时几乎与更大的模型持平。Massive Multitask Language Understanding (MMLU, Hendrycks et al., 2021) 涵盖了 57 个不同的主题,因此比上述任务的覆盖面要广得多。
表 15 中的结果遵循了在 BIG-bench hard 中看到的见解。BloombergGPT 始终优于 OPT66B,后者又优于 GPT-NeoX,而 GPT-3 表现最佳。与前面的部分相比,BloombergGPT 在这一类别中的表现也优于 BLOOM176B,尽管差距很小。它落后于 GPT-3 的报告表现,尤其是在社会科学类别中。与 GPT-3 的差距在 STEM 和 “其他” 领域最为接近,其中包括与财务和会计相关的问题。
阅读理解
下表 16 反映了在阅读理解任务上的排名:虽然 GPT-3 的性能最高,但 BloombergGPT 紧随其后。除 OpenBookQA 外,BloombergGPT 的性能是 BLOOM176B、GPT-NeoX、OPT66B 中最高的。令人惊讶的是,BLOOM176B 在这一类别中明显落后。
语言学任务
下表 17 展示了在语言学任务上的结果,这与知识类别任务有相似的趋势。BloombergGPT 略落后于 GPT-3,但优于其他模型。与阅读理解类别类似,BLOOM176B 落后于 BloombergGPT。
最后,需要注意的是,使用金融 GPT 进行投资,可能仍然会跑输大盘指数: