Infection-2.5登场,训练计算量仅40%、性能直逼GPT-4!

简介: 【2月更文挑战第18天】Infection-2.5登场,训练计算量仅40%、性能直逼GPT-4!

微信图片_20240224080954.jpg
在人工智能技术的飞速发展中,个人AI助手已经成为了我们生活中不可或缺的一部分。2024年3月7日,Inflection公司在加利福尼亚州帕洛阿尔托宣布了其最新研发成果——Inflection-2.5,这款个人AI助手以其卓越的性能和高效的训练模式,引起了业界的广泛关注。

Inflection公司的愿景是为每个人提供一个智能的个人伙伴。去年五月,他们推出了Pi,这是一款以同理心、帮助性和安全性为核心设计理念的AI助手。紧接着,十一月,Inflection公司又发布了Inflection-2,这一当时世界上排名第二的大型语言模型(LLM),为AI领域带来了新的里程碑。而今,Inflection公司再次突破技术壁垒,推出了升级版的Inflection-2.5。这款模型不仅在性能上与世界领先的LLMs如GPT-4和Gemini相媲美,更在训练效率上取得了革命性的进展。

在技术层面,Inflection-2.5在多个行业基准测试中展现了其与GPT-4相当的智商能力。尽管Inflection-2.5的训练FLOPs仅为GPT-4的40%,但其在多样化的智商导向任务上的平均性能却达到了GPT-4的94%以上。在STEM领域,Inflection-2.5的性能提升尤为显著,这不仅体现在MMLU基准测试上,还在GPQA Diamond基准测试这一专家级测试中得到了验证。在匈牙利数学考试和物理GRE考试中,Inflection-2.5的表现同样令人印象深刻。在BIG-Bench-Hard这一对大型语言模型来说难度较大的问题子集上,Inflection-2.5的表现也超过了Inflection-1,与最先进的模型竞争。

在MT-Bench这一广泛使用的社区排行榜上,Inflection-2.5也进行了评估。尽管在评估过程中发现了一些问题,但Inflection公司及时纠正了这些问题,并发布了修正后的数据集。在正确修正的版本中,Inflection-2.5的表现更加符合预期,这进一步证明了其在数学和编程性能上的显著提升。

Inflection-2.5的成功,不仅在于其技术性能的提升,更在于它保持了Pi独特的个性和高标准的安全性能。Inflection公司感谢Azure和CoreWeave等合作伙伴的支持,他们的帮助使得Pi背后的最先进语言模型得以服务于全球数百万用户。现在,用户可以通过pi.ai网站、iOS和Android应用,或者新的桌面应用,体验到Inflection-2.5带来的全新个人AI助手。随着技术的不断进步,Inflection-2.5将为用户带来更加丰富和智能的生活体验。

目录
相关文章
|
2月前
|
API 云栖大会
通义千问升级旗舰模型Qwen-Max,性能接近GPT-4o
通义旗舰模型Qwen-Max全方位升级,性能接近GPT-4o
744 10
|
1月前
|
存储 数据采集 数据安全/隐私保护
商汤、清华、复旦等开源百亿级多模态数据集,可训练类GPT-4o模型
商汤科技、清华大学和复旦大学等机构联合开源了名为OmniCorpus的多模态数据集,规模达百亿级,旨在支持类似GPT-4级别的大型多模态模型训练。该数据集包含86亿张图像和1696亿个文本标记,远超现有数据集规模并保持高质量,具备广泛来源和灵活性,可轻松转换为纯文本或图像-文本对。经验证,该数据集质量优良,有望促进多模态模型研究,但同时也面临存储管理、数据偏见及隐私保护等挑战。
140 60
|
10天前
|
人工智能 语音技术 UED
仅用4块GPU、不到3天训练出开源版GPT-4o,这是国内团队最新研究
【10月更文挑战第19天】中国科学院计算技术研究所提出了一种名为LLaMA-Omni的新型模型架构,实现与大型语言模型(LLMs)的低延迟、高质量语音交互。该模型集成了预训练的语音编码器、语音适配器、LLM和流式语音解码器,能够在不进行语音转录的情况下直接生成文本和语音响应,显著提升了用户体验。实验结果显示,LLaMA-Omni的响应延迟低至226ms,具有创新性和实用性。
28 1
|
3月前
|
自然语言处理 测试技术 计算机视觉
ECCV 2024:提升GPT-4V、Gemini检测任务性能,你需要这种提示范式
【8月更文挑战第14天】在2024年ECCV上,一篇论文介绍了DetToolChain——一种创新提示范式,旨在提升GPT-4V等多模态大型语言模型在检测任务上的表现。它利用精心设计的视觉提示引导模型关注图像的关键区域,并通过Chain-of-Thought方法将复杂任务分解为简单步骤,显著提高了零样本目标检测的准确性。实验显示,在多个基准测试上,DetToolChain带来了高达24.23%的性能提升。然而,这种方法可能需要大量计算资源,并且在不同任务和数据集上的效果仍有待验证。
157 66
|
2月前
|
数据可视化 Swift
小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!
旗舰端侧模型面壁「小钢炮」系列进化为全新 MiniCPM 3.0 基座模型,再次以小博大,以 4B 参数,带来超越 GPT-3.5 的性能。并且,量化后仅 2GB 内存,端侧友好。
小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!
|
2月前
|
人工智能 安全 测试技术
忘掉GPT-5!OpenAI推出全新AI模型系列o1,声称性能达到博士级
忘掉GPT-5!OpenAI推出全新AI模型系列o1,声称性能达到博士级
|
2月前
|
人工智能 自然语言处理 数据挖掘
【通义】AI视界|性能超越GPT-4o?最强大的开源AI模型来了……
本文介绍了五项最新AI技术动态,包括性能超越GPT-4o的开源AI模型Reflection70B、智谱清言App限时免费的视频通话功能、哈佛医学院研发的癌症诊断AI模型CHIEF、Replit推出的AI编程助手,以及英特尔与日本AIST合作设立的芯片制造研发中心。这些进展展示了AI领域的快速创新与广泛应用。更多详情,请访问通义官网体验。
|
2月前
|
机器学习/深度学习 数据采集 人工智能
Llama 8B搜索100次超越GPT-4o!推理+搜索即可提升性能,新Scaling Law诞生?
【9月更文挑战第8天】在人工智能领域,理查德·萨顿提出了一项重要观点,即利用通用计算方法最终是最有效的途径,这一理念在诸如计算机象棋、围棋、语音识别及视觉等多个子领域中得到了验证。萨顿强调,计算能力的指数增长使得依赖大量计算的技术更加吸引人,并且从长远来看,计算能力将是唯一重要的因素。尽管他的观点强调了搜索和学习方法的力量,但也有人批评其忽略了领域知识和其他因素的重要性。
37 2
|
4月前
|
机器学习/深度学习 自然语言处理 Swift
从头构建和训练 GPT-2 |实战
从头构建和训练 GPT-2 |实战
52 4
|
4月前
|
测试技术
8B尺寸达到GPT-4级性能!北大等提出医疗专家模型训练方法
【7月更文挑战第8天】北京大学等研究者提出的新方法缓解了大模型如Llama-3-8B在持续预训练时的“稳定性差距”,通过多轮次训练、高质量子语料库选择和数据混合策略,提升性能和效率。在医疗领域,他们将OpenLlama-3B性能提升至40.7%,并创建的Llama-3-Physician模型达到GPT-4级别。尽管取得突破,该方法在其他模型和领域的适用性仍需探索,且持续预训练仍资源密集。[链接: https://arxiv.org/abs/2406.14833]
87 25

热门文章

最新文章