Infection-2.5登场,训练计算量仅40%、性能直逼GPT-4!

简介: 【2月更文挑战第18天】Infection-2.5登场,训练计算量仅40%、性能直逼GPT-4!

微信图片_20240224080954.jpg
在人工智能技术的飞速发展中,个人AI助手已经成为了我们生活中不可或缺的一部分。2024年3月7日,Inflection公司在加利福尼亚州帕洛阿尔托宣布了其最新研发成果——Inflection-2.5,这款个人AI助手以其卓越的性能和高效的训练模式,引起了业界的广泛关注。

Inflection公司的愿景是为每个人提供一个智能的个人伙伴。去年五月,他们推出了Pi,这是一款以同理心、帮助性和安全性为核心设计理念的AI助手。紧接着,十一月,Inflection公司又发布了Inflection-2,这一当时世界上排名第二的大型语言模型(LLM),为AI领域带来了新的里程碑。而今,Inflection公司再次突破技术壁垒,推出了升级版的Inflection-2.5。这款模型不仅在性能上与世界领先的LLMs如GPT-4和Gemini相媲美,更在训练效率上取得了革命性的进展。

在技术层面,Inflection-2.5在多个行业基准测试中展现了其与GPT-4相当的智商能力。尽管Inflection-2.5的训练FLOPs仅为GPT-4的40%,但其在多样化的智商导向任务上的平均性能却达到了GPT-4的94%以上。在STEM领域,Inflection-2.5的性能提升尤为显著,这不仅体现在MMLU基准测试上,还在GPQA Diamond基准测试这一专家级测试中得到了验证。在匈牙利数学考试和物理GRE考试中,Inflection-2.5的表现同样令人印象深刻。在BIG-Bench-Hard这一对大型语言模型来说难度较大的问题子集上,Inflection-2.5的表现也超过了Inflection-1,与最先进的模型竞争。

在MT-Bench这一广泛使用的社区排行榜上,Inflection-2.5也进行了评估。尽管在评估过程中发现了一些问题,但Inflection公司及时纠正了这些问题,并发布了修正后的数据集。在正确修正的版本中,Inflection-2.5的表现更加符合预期,这进一步证明了其在数学和编程性能上的显著提升。

Inflection-2.5的成功,不仅在于其技术性能的提升,更在于它保持了Pi独特的个性和高标准的安全性能。Inflection公司感谢Azure和CoreWeave等合作伙伴的支持,他们的帮助使得Pi背后的最先进语言模型得以服务于全球数百万用户。现在,用户可以通过pi.ai网站、iOS和Android应用,或者新的桌面应用,体验到Inflection-2.5带来的全新个人AI助手。随着技术的不断进步,Inflection-2.5将为用户带来更加丰富和智能的生活体验。

目录
相关文章
|
18天前
|
自然语言处理 测试技术 计算机视觉
ECCV 2024:提升GPT-4V、Gemini检测任务性能,你需要这种提示范式
【8月更文挑战第14天】在2024年ECCV上,一篇论文介绍了DetToolChain——一种创新提示范式,旨在提升GPT-4V等多模态大型语言模型在检测任务上的表现。它利用精心设计的视觉提示引导模型关注图像的关键区域,并通过Chain-of-Thought方法将复杂任务分解为简单步骤,显著提高了零样本目标检测的准确性。实验显示,在多个基准测试上,DetToolChain带来了高达24.23%的性能提升。然而,这种方法可能需要大量计算资源,并且在不同任务和数据集上的效果仍有待验证。
115 66
|
10月前
|
存储 人工智能 调度
GPT-4 Turbo 发布 | 大模型训练的新时代:超算互联网的调度与调优
算力对训练模型的重要性日益凸显。随着大模型训练的流行,全球显卡和算力正在快速增长。算力后周期市场也在迅速崛起。其中“后”更多是指后服务市场,涵盖从显卡服务器到货IDC之后,形成稳定算力到输出稳定商业推理结果全过程。该过程主要涉及云化、调优、调度、部署、落地和数据管理等环节。
|
2月前
|
机器学习/深度学习 自然语言处理 Swift
从头构建和训练 GPT-2 |实战
从头构建和训练 GPT-2 |实战
38 4
|
2月前
|
测试技术
8B尺寸达到GPT-4级性能!北大等提出医疗专家模型训练方法
【7月更文挑战第8天】北京大学等研究者提出的新方法缓解了大模型如Llama-3-8B在持续预训练时的“稳定性差距”,通过多轮次训练、高质量子语料库选择和数据混合策略,提升性能和效率。在医疗领域,他们将OpenLlama-3B性能提升至40.7%,并创建的Llama-3-Physician模型达到GPT-4级别。尽管取得突破,该方法在其他模型和领域的适用性仍需探索,且持续预训练仍资源密集。[链接: https://arxiv.org/abs/2406.14833]
65 25
|
2月前
|
数据采集 人工智能 自然语言处理
GPT被封锁了怎么办?轻松获取高质量的数据,训练自己的人工智能和大语言模型。
2023年标志着AI大模型时代的到来,GPT-4等模型在多个领域展现巨大潜力。然而,OpenAI对中国区服务的限制提出了挑战。本文探讨如何使用亮数据代理获取训练大模型所需的数据,包括确定目标、选择代理、数据抓取、清洗,并以西方历史为例,展示如何使用亮数据的静态住宅代理稳定获取DE区域数据,最终在国产AI平台上训练模型,提升知识库的丰富度和准确性。尽管面临外部障碍,但自主获取和训练数据能增强本土AI能力。
|
3月前
|
人工智能
拯救被掰弯的GPT-4!西交微软北大联合提出IN2训练治疗LLM中间迷失
【6月更文挑战第1天】研究人员为解决大型语言模型(LLM)的“中间迷失”问题,提出了IN2训练方法。此方法通过显式监督增强模型对长文本上下文的理解,改善了信息检索能力。应用IN2训练的FILM-7B模型在长文本任务上表现出色,尤其在NarrativeQA数据集上的F1分数提升了3.4。尽管面临数据合成和计算成本的挑战,IN2训练为LLM的进步开辟了新途径,预示着未来在长文本处理领域的潜力。论文链接:https://arxiv.org/pdf/2404.16811
44 5
|
4月前
|
自然语言处理
Meta首发变色龙挑战GPT-4o,34B参数引领多模态革命!10万亿token训练刷新SOTA
【5月更文挑战第27天】Meta推出34B参数的多模态模型Chameleon,通过早期融合技术处理图像和文本,实现全面的多模态建模。在10万亿token的训练数据下,Chameleon在图像字幕生成和文本推理任务中刷新SOTA,展现出在混合模态生成和推理的潜力。然而,模型可能无法完全捕捉图像语义信息,且在某些特定任务上有优化空间。[论文链接](https://arxiv.org/pdf/2405.09818)
68 1
|
3月前
|
人工智能 机器人 测试技术
马斯克推出Grok-1.5,接近GPT-4级别的性能
马斯克推出Grok-1.5,接近GPT-4级别的性能
|
4月前
|
人工智能
苹果推出理解、转化模型ReALM,性能超GPT-4
【5月更文挑战第13天】苹果发布ReALM模型,将参考解析转化为语言建模,超越GPT-4。ReALM通过将非文本实体转为文本处理,解决了AI在处理特定问题时的局限。实验显示,ReALM在多种参考解析任务上优于GPT-3.5和GPT-4,尤其在屏幕实体参考解析上提升超5%。但模型可能因信息丢失和高计算需求带来挑战。[链接](https://arxiv.org/abs/2403.20329)
39 3
|
4月前
|
人工智能 PyTorch iOS开发
苹果AppleMacOs最新Sonoma系统本地训练和推理GPT-SoVITS模型实践
GPT-SoVITS是少有的可以在MacOs系统下训练和推理的TTS项目,虽然在效率上没有办法和N卡设备相提并论,但终归是开发者在MacOs系统构建基于M系列芯片AI生态的第一步。
苹果AppleMacOs最新Sonoma系统本地训练和推理GPT-SoVITS模型实践

热门文章

最新文章

下一篇
云函数