❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
DeepSeek-R1-Lite:深度求索推出的新一代 AI 推理模型
DeepSeek-R1-Lite 是深度求索推出的新一代 AI 推理模型,用强化学习训练,具备长思维链推理能力,能实时展示推理思考过程,性能在多个基准测试中超越 GPT-4 等模型。
模型在数学、编程和复杂逻辑推理任务上表现出色,提供媲美 OpenAI o1-preview 的推理效果。
DeepSeek-R1-Lite 拥有“深度思考”模式,专门针对复杂推理问题设计,展现出更高的效率和准确率。
目前 DeepSeek-R1-Lite 只是一个较小的基座模型,仅支持网页使用,暂不支持 API 调用。正式版 DeepSeek-R1 模型即将完全开源,并公开技术报告,支持部署 API 服务。
资源
Samsung Gauss2:三星推出的第二代多模态生成式 AI 模型
Samsung Gauss2 是三星公司推出的第二代多模态生成式 AI 模型,能够提升 Galaxy AI 功能的性能和效率。
Samsung Gauss2 能同时处理文本、代码和图像等多种数据类型,并分为三个版本:精简版(Compact)、均衡版(Balanced)和至尊版(Supreme),适应不同的计算环境和应用场景。
模型支持多种语言和编程语言,性能比前代提升 1.5 到 3 倍,显著减少了用户等待时间。三星已在内部广泛应用 Samsung Gauss2 提高员工的工作效率,特别是在编码辅助、文档摘要、邮件撰写和翻译等方面。
资源
XiYan-SQL:阿里推出文本到 SQL 的多生成器集成框架
XiYan-SQL 是阿里巴巴推出的自然语言到 SQL(NL2SQL)框架,基于多生成器集成策略,结合提示工程和监督微调,提升 SQL 查询生成质量。
XiYan-SQL 引入 M-Schema 半结构化架构表示,增强对数据库结构的理解,包括数据类型、主键和示例值。
XiYan-SQL 基于三阶段流程生成和优化 SQL 查询,包括架构链接、基于示例学习(ICL)和 SFT 的生成器,及纠错和选择模型。
资源
- GitHub 仓库:https://github.com/XGenerationLab/XiYan-SQL
- arXiv 技术论文:https://arxiv.org/pdf/2411.08599
AtomThink:华为诺亚方舟联合多所高校推出的多模态数学推理框架
AtomThink 是中山大学、香港科技大学、上海交通大学、香港大学及华为诺亚方舟实验室的研究人员共同推出的多模态数学推理框架。
框架基于构建长链的思维(CoT)引导多模态大型语言模型(MLLMs)进行复杂推理,包含自动 CoT 注释引擎、原子步骤微调和多种搜索策略。
AtomThink 基于提升原子步骤的质量,显著增强 MLLMs 在解决数学问题时的推理能力,为开发通用的慢思维模型提供新的方向。
资源
- GitHub 仓库:https://github.com/Quinn777/AtomThink
- arXiv 技术论文:https://arxiv.org/pdf/2411.11930
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦