Infection-2.5登场,训练计算量仅40%、性能直逼GPT-4!

简介: 【2月更文挑战第18天】Infection-2.5登场,训练计算量仅40%、性能直逼GPT-4!

微信图片_20240224080954.jpg
在人工智能技术的飞速发展中,个人AI助手已经成为了我们生活中不可或缺的一部分。2024年3月7日,Inflection公司在加利福尼亚州帕洛阿尔托宣布了其最新研发成果——Inflection-2.5,这款个人AI助手以其卓越的性能和高效的训练模式,引起了业界的广泛关注。

Inflection公司的愿景是为每个人提供一个智能的个人伙伴。去年五月,他们推出了Pi,这是一款以同理心、帮助性和安全性为核心设计理念的AI助手。紧接着,十一月,Inflection公司又发布了Inflection-2,这一当时世界上排名第二的大型语言模型(LLM),为AI领域带来了新的里程碑。而今,Inflection公司再次突破技术壁垒,推出了升级版的Inflection-2.5。这款模型不仅在性能上与世界领先的LLMs如GPT-4和Gemini相媲美,更在训练效率上取得了革命性的进展。

在技术层面,Inflection-2.5在多个行业基准测试中展现了其与GPT-4相当的智商能力。尽管Inflection-2.5的训练FLOPs仅为GPT-4的40%,但其在多样化的智商导向任务上的平均性能却达到了GPT-4的94%以上。在STEM领域,Inflection-2.5的性能提升尤为显著,这不仅体现在MMLU基准测试上,还在GPQA Diamond基准测试这一专家级测试中得到了验证。在匈牙利数学考试和物理GRE考试中,Inflection-2.5的表现同样令人印象深刻。在BIG-Bench-Hard这一对大型语言模型来说难度较大的问题子集上,Inflection-2.5的表现也超过了Inflection-1,与最先进的模型竞争。

在MT-Bench这一广泛使用的社区排行榜上,Inflection-2.5也进行了评估。尽管在评估过程中发现了一些问题,但Inflection公司及时纠正了这些问题,并发布了修正后的数据集。在正确修正的版本中,Inflection-2.5的表现更加符合预期,这进一步证明了其在数学和编程性能上的显著提升。

Inflection-2.5的成功,不仅在于其技术性能的提升,更在于它保持了Pi独特的个性和高标准的安全性能。Inflection公司感谢Azure和CoreWeave等合作伙伴的支持,他们的帮助使得Pi背后的最先进语言模型得以服务于全球数百万用户。现在,用户可以通过pi.ai网站、iOS和Android应用,或者新的桌面应用,体验到Inflection-2.5带来的全新个人AI助手。随着技术的不断进步,Inflection-2.5将为用户带来更加丰富和智能的生活体验。

目录
相关文章
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
123_自监督任务变体:Causal LM详解 - GPT-style下一词预测机制与训练优化
2025年,自监督学习已成为大型语言模型(LLM)训练的核心范式,其中因果语言建模(Causal Language Modeling, CLM)作为GPT系列模型的基础训练目标,展现出了卓越的生成能力和下游任务迁移性能。与掩码语言建模(Masked Language Modeling, MLM)不同,因果语言建模专注于预测序列中的下一个词元,这种训练方式自然地适应了自回归生成的需求,为文本生成、对话系统等任务奠定了坚实基础。
625 1
|
数据可视化 API Swift
全模态图像模型Nexus-Gen对齐GPT-4o!同时搞定,数据、训练框架、模型全面开源
OpenAI GPT-4o发布强大图片生成能力后,业界对大模型生图能力的探索向全模态方向倾斜,训练全模态模型成研发重点。
539 17
|
API 云栖大会
通义千问升级旗舰模型Qwen-Max,性能接近GPT-4o
通义旗舰模型Qwen-Max全方位升级,性能接近GPT-4o
10468 12
|
人工智能 Python
JoyCaption:开源的图像转提示词生成工具,支持多种风格和场景,性能与 GPT4o 相当
JoyCaption 是一款开源的图像提示词生成工具,支持多种生成模式和灵活的提示选项,适用于社交媒体、图像标注、内容创作等场景,帮助用户快速生成高质量图像描述。
2359 21
JoyCaption:开源的图像转提示词生成工具,支持多种风格和场景,性能与 GPT4o 相当
|
机器学习/深度学习 人工智能 PyTorch
使用PyTorch实现GPT-2直接偏好优化训练:DPO方法改进及其与监督微调的效果对比
本文将系统阐述DPO的工作原理、实现机制,以及其与传统RLHF和SFT方法的本质区别。
1511 22
使用PyTorch实现GPT-2直接偏好优化训练:DPO方法改进及其与监督微调的效果对比
|
人工智能 编解码 算法
Doubao-1.5-pro:字节跳动最新豆包大模型,性能超越GPT-4o和Claude 3.5 Sonnet
豆包大模型1.5是字节跳动推出的最新大模型,采用大规模稀疏MoE架构,支持多模态输入输出,具备低时延语音对话能力,综合性能优于GPT-4o和Claude 3.5 Sonnet。
2805 2
Doubao-1.5-pro:字节跳动最新豆包大模型,性能超越GPT-4o和Claude 3.5 Sonnet
|
存储 数据采集 数据安全/隐私保护
商汤、清华、复旦等开源百亿级多模态数据集,可训练类GPT-4o模型
商汤科技、清华大学和复旦大学等机构联合开源了名为OmniCorpus的多模态数据集,规模达百亿级,旨在支持类似GPT-4级别的大型多模态模型训练。该数据集包含86亿张图像和1696亿个文本标记,远超现有数据集规模并保持高质量,具备广泛来源和灵活性,可轻松转换为纯文本或图像-文本对。经验证,该数据集质量优良,有望促进多模态模型研究,但同时也面临存储管理、数据偏见及隐私保护等挑战。
769 61
|
数据采集 人工智能 数据可视化
InternVL 2.5,首个MMMU超过70%的开源模型,性能媲美GPT-4o
近期Internvl2.5发布,性能与GPT-4o和Claude-3.5-sonnet等领先的商业模型相媲美,成为首个在MMMU上超过70%的开源模型,通过链式思考(CoT)推理实现了3.7个百分点的提升,展示了强大的测试时间可扩展性潜力。
1301 25
|
自然语言处理 测试技术 计算机视觉
ECCV 2024:提升GPT-4V、Gemini检测任务性能,你需要这种提示范式
【8月更文挑战第14天】在2024年ECCV上,一篇论文介绍了DetToolChain——一种创新提示范式,旨在提升GPT-4V等多模态大型语言模型在检测任务上的表现。它利用精心设计的视觉提示引导模型关注图像的关键区域,并通过Chain-of-Thought方法将复杂任务分解为简单步骤,显著提高了零样本目标检测的准确性。实验显示,在多个基准测试上,DetToolChain带来了高达24.23%的性能提升。然而,这种方法可能需要大量计算资源,并且在不同任务和数据集上的效果仍有待验证。
532 66
|
数据可视化 Swift
小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!
旗舰端侧模型面壁「小钢炮」系列进化为全新 MiniCPM 3.0 基座模型,再次以小博大,以 4B 参数,带来超越 GPT-3.5 的性能。并且,量化后仅 2GB 内存,端侧友好。
小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!