微软发布强大的新Phi-3.5模型,击败谷歌、OpenAI等

简介: 微软发布强大的新Phi-3.5模型,击败谷歌、OpenAI等

本文来源:企业网D1net


微软近期推出了三款全新Phi 3.5系列AI模型,包括Phi-3.5-mini-instruct、Phi-3.5-MoE-instruct和Phi-3.5-vision-instruct,这些模型专为基础推理、复杂推理以及视觉处理任务而设计,展示了微软在多语言和多模态AI领域的强大进展,这些模型不仅在多个第三方基准测试中表现出色,甚至超越了包括Google和OpenAI在内的其他顶尖AI产品。微软通过MIT开源许可发布这些模型,允许开发者自由使用和修改,从而推动商业和研究领域的创新。


微软并没有满足于与OpenAI的合作取得的AI成功,这家总部位于华盛顿州,被称为“Redmond”的公司,今天推出了其不断演进的Phi系列语言/多模态AI中的3个新模型,展示了其不懈的进取心。


这三款新的Phi 3.5模型包括:拥有38.2亿参数的Phi-3.5-mini-instruct,拥有419亿参数的Phi-3.5-MoE-instruct,以及拥有41.5亿参数的Phi-3.5-vision-instruct,分别针对基础/快速推理、更强大的推理以及视觉(图像和视频分析)任务设计。

所有这三款模型都可供开发者在Hugging Face上下载、使用,并根据需要进行微调和自定义,使用的是微软品牌的MIT许可协议,允许商业使用和修改,无任何限制。


令人惊讶的是,这三款模型在许多第三方基准测试中表现出接近最先进的性能,甚至在某些情况下超越了其他AI供应商的产品,包括Google的Gemini 1.5 Flash、Meta的Llama 3.1,甚至OpenAI的GPT-4o。


Phi-3.5 Mini Instruct:为计算资源受限的环境优化


Phi-3.5 Mini Instruct模型是一款轻量级AI模型,拥有38亿参数,专为遵循指令设计,并支持128k token的上下文长度。


该模型非常适合在内存或计算资源受限的环境中需要强大推理能力的场景,包括代码生成、数学问题求解和基于逻辑的推理任务。


尽管体积小巧,Phi-3.5 Mini Instruct模型在多语言和多轮对话任务中表现出竞争力,相较于其前代产品有显著的改进。


它在多个基准测试中展现了接近最先进的性能,并在“长上下文代码理解”的RepoQA基准测试中超越了其他类似大小的模型(Llama-3.1-8B-instruct和Mistral-7B-instruct)。


Phi-3.5 MoE:微软的‘专家混合’


Phi-3.5 MoE(专家混合)模型似乎是微软首次推出的此类模型,它将多种不同类型的模型结合在一起,每种模型专门针对不同的任务。


该模型采用了具有420亿活跃参数的架构,支持128k token的上下文长度,为需求苛刻的应用提供可扩展的AI性能,然而,根据Hugging Face的文档,该模型实际上只使用了66亿的活跃参数。


Phi-3.5 MoE模型专为在各种推理任务中表现出色而设计,在代码、数学和多语言理解方面表现出强劲的性能,常常在特定基准测试中超越更大规模的模型。


它在STEM(科学、技术、工程和数学)、人文学科和社会科学等多个学科的5-shot MMLU(Massive Multitask Language Understanding)测试中,表现优异,甚至超越了GPT-4o mini。

MoE模型的独特架构使其在处理多语言复杂AI任务时保持高效。


Phi-3.5 Vision Instruct:高级多模态推理


作为Phi系列的最后一款模型,Phi-3.5 Vision Instruct模型整合了文本和图像处理功能。


这一多模态模型特别适合于一般图像理解、光学字符识别、图表和表格理解以及视频摘要等任务。


与Phi-3.5系列中的其他模型一样,Vision Instruct支持128k token的上下文长度,使其能够处理复杂的多帧视觉任务。


微软强调,该模型是通过合成数据和经过筛选的公开数据集训练的,重点在于高质量和富含推理的数据。


新Phi三款模型的训练


Phi-3.5 Mini Instruct模型在使用512个H100-80G GPU的情况下,经过10天的训练,处理了3.4万亿个tokens,而Vision Instruct模型则使用256个A100-80G GPU,经过6天的训练,处理了5000亿个tokens。


采用专家混合架构的Phi-3.5 MoE模型,使用512个H100-80G GPU,在23天内处理了4.9万亿个tokens。


MIT许可下的开源


所有三款Phi-3.5模型均在MIT许可协议下发布,体现了微软对支持开源社区的承诺。


此许可允许开发者自由使用、修改、合并、发布、分发、再许可或出售软件的副本。


该许可还包括免责声明,即软件是“按原样”提供的,不附带任何形式的保证。微软及其他版权持有人不对因使用该软件而引发的任何索赔、损害或其他责任承担责任。

微软发布的Phi-3.5系列代表了多语言和多模态AI开发的一个重要进展。


通过以开源许可的形式提供这些模型,微软使开发者能够将最先进的AI能力集成到他们的应用中,从而推动商业和研究领域的创新。


版权声明:本文为企业网D1net编译,转载需在文章开头注明出处为:企业网D1net,如果不注明出处,企业网D1net将保留追究其法律责任的权利。


相关文章
|
12天前
|
机器学习/深度学习 人工智能 UED
OpenAI o1模型:AI通用复杂推理的新篇章
OpenAI发布了其最新的AI模型——o1,这款模型以其独特的复杂推理能力和全新的训练方式,引起了业界的广泛关注。今天,我们就来深入剖析o1模型的特点、背后的原理,以及一些有趣的八卦信息。
193 73
|
22天前
|
人工智能 Serverless API
一键服务化:从魔搭开源模型到OpenAI API服务
在多样化大模型的背后,OpenAI得益于在领域的先发优势,其API接口今天也成为了业界的一个事实标准。
一键服务化:从魔搭开源模型到OpenAI API服务
|
7天前
|
搜索推荐 算法
模型小,还高效!港大最新推荐系统EasyRec:零样本文本推荐能力超越OpenAI、Bert
【9月更文挑战第21天】香港大学研究者开发了一种名为EasyRec的新推荐系统,利用语言模型的强大文本理解和生成能力,解决了传统推荐算法在零样本学习场景中的局限。EasyRec通过文本-行为对齐框架,结合对比学习和协同语言模型调优,提升了推荐准确性。实验表明,EasyRec在多个真实世界数据集上的表现优于现有模型,但其性能依赖高质量文本数据且计算复杂度较高。论文详见:http://arxiv.org/abs/2408.08821
26 7
|
17天前
|
机器学习/深度学习 人工智能 供应链
【通义】AI视界|OpenAI的“草莓”模型预计两周内上线!像人类一样思考!
本文介绍了近期科技领域的五大亮点:OpenAI即将推出的新一代AI模型“草莓”,具备高级推理能力;亚马逊测试AI技术加速有声读物生产,通过语音克隆提高效率;Kimi API新增联网搜索功能,拓宽信息来源;顺丰发布物流行业专用大语言模型“丰语”,提升工作效率;钉钉推出“AI班级群”功能,改善家校沟通体验。更多详情,请访问[通义官网]。
|
1月前
|
人工智能 机器人
OpenAI推出了其最强大模型的迷你版本
OpenAI推出了其最强大模型的迷你版本
OpenAI推出了其最强大模型的迷你版本
|
1月前
|
编解码 自然语言处理 计算机视觉
OpenAI 生成视频模型 Sora 论文翻译
OpenAI 生成视频模型 Sora 论文翻译
20 1
|
1月前
|
人工智能 机器人 API
OpenAI内斗对GPT是福是祸?对人类?对微软?
OpenAI内斗对GPT是福是祸?对人类?对微软?
|
3月前
|
机器学习/深度学习 人工智能 算法
OpenAI发布全新AI视频模型Sora:引领视频创作新纪元
OpenAI发布全新AI视频模型Sora:引领视频创作新纪元
|
3月前
|
API 异构计算
开源模型破局OpenAI服务限制,15分钟灵活搭建RAG和Agent应用
今天,我们做了两个实验,目标在15分钟内,完成下载社区的开源模型,部署成API,替换LlamaIndex中RAG和LangChain中OpenAI接口Agent的最佳实践,并取得符合预期的结果。
|
3月前
|
人工智能 安全 机器人
Claude3发布成为大模型之王,Openai是否真的跌落神坛,附试用链接
Claude3发布成为大模型之王,Openai是否真的跌落神坛,附试用链接
44 3