📣📣📣视觉智能开放平台子社区建立新版块——AI热点日报~
我们汇总了世界各地最具影响力的AI项目、研究成果和创新应用的信息,为读者带来前沿的科技资讯。无论你是科技爱好者、人工智能从业者或者只是对未来科技趋势感兴趣的读者,我们都致力于满足你的需求。通过简明易懂的报道和深入的分析,本系列文章将带你领略未来的畅想,了解人工智能正在如何改变我们的生活和社会。
不容错过的每一期,让我们与科技同行,共同探索AI的无限可能。
🌈热点内容直通车
1. 微软 Ignite 全球技术大会 11 月 15 日举行,全面拥抱 AI
微软宣布,将于 11 月 15 日 - 17 日举行 Microsoft Ignite 全球技术大会。
据介绍,在本次技术大会上,全球顶级技术专家及合作伙伴将汇聚一堂,围绕三大热点议题展开讨论:
- 如何将 AI 功能全面渗透进工作环境中
- 如何保护您的基础架构安全
- 如何管理数据和商业应用
本次大会的主要内容就是围绕 AI 展开,包括 Microsoft 365 Copilot、Security Copilot 等。
2. 智谱AI推出第三代基座大模型和新一代AI助手
智谱AI在2023中国计算机大会(CNCC)上推出了全自主研发的第三代基座大模型ChatGLM3,其多模态理解、代码增强、网络搜索等模块有了大幅度的提升。此外,智谱AI还发布了新一代生成式AI助手智谱清言,可支持图像处理、数学计算、数据分析等多种使用场景。据介绍,ChatGLM3在44个中英文公开数据集测试中,排名国内同尺寸模型中的第一位。
ChatGLM3集成了智谱AI自主研发的AgentTuning技术,激活了模型的智能体能力,尤其在智能规划和执行方面,相比于ChatGLM二代提升了1000%。此外,ChatGLM3还推出了可手机部署的端测模型ChatGLM3-1.5B和ChatGLM3-3B,支持多种手机和车载平台,可在移动平台上的CPU芯片上进行推理,速度可达20 Tokens/s。在精度方面,ChatGLM3-1.5B和ChatGLM3-3B在公开Benchmark上与ChatGLM2-6B模型性能相近。
3. 波士顿动力机器狗变“导游”:接入ChatGPT对答如流
波士顿动力公司通过将ChatGPT、Spot以及其他AI模型相结合,开发了一种会说话的导游机器狗。这种机器狗可以用英国口音与员工聊天,带他们参观公司的设施。机器人能够回答问题,甚至可以张开“嘴巴”,让它看起来像是真的在说话。此外,该机器狗还能够根据文字、语音提示与人类进行交谈,并提供视觉问答功能,可以分析摄像头拍摄的画面,自动生成图像说明。波士顿动力还安装了一个扬声器,增加了文本转语音功能。为了让机器狗具备拟人化动作,例如点头和伸脖子等,使用了Spot的点臂和夹具相机,并使用一台电脑作为机器狗的控制大脑,并通过Spot SDK与其实现数据交互。
📖新鲜论文早知道
Google DeepMind|基于大型语言模型的创造性机器人工具使用
基于大型语言模型的创造性机器人工具使用
- 提出RoboTool,一个基于大型语言模型的创造性机器人工具使用系统。
- RoboTool包含四个关键模块:分析器、规划器、计算器和编码器,可以处理含模糊物理约束的长时间规划任务。
- 可以识别环境和机器人约束,并创造性地使用工具解决无法直接完成的任务。
- 在模拟和实物试验中,RoboTool可以灵活选择、顺序使用以及制造工具,解决需要创造性使用工具的任务。
- 与多个基准对比表明,RoboTool显著提高了在需要创新工具使用的任务上的成功率。
动机:研究如何赋予机器人创造性使用工具的能力,以解决涉及隐含物理约束和长期规划的任务。
方法:利用大型语言模型(LLM),开发了名为RoboTool的系统,可以接受自然语言指令并输出控制机器人的可执行代码。
优势:与传统的任务和运动规划(TAMP)方法相比,基于LLMs的系统提供了更灵活、高效和用户友好的解决方案,能处理复杂的机器人任务。
通过利用大型语言模型(LLM)开发了RoboTool系统,实现了机器人对工具的创造性使用,为复杂的机器人任务提供了灵活、高效、用户友好的解决方案。
https://arxiv.org/abs/2310.13065
🔥开源模型先体验
“最强7B开源模型”Mistral
“欧洲OpenAI”的“最强7B开源模型”Mistral,它各方面的测试指标全面超越了13B的Llama2,甚至让一众网友觉得羊驼不香了。
Mistral不仅全面战胜了13B Llama2,在数学、代码和推理方面,34B的Llama1也不是Mistral的对手。在推理任务上,Mistral的表现更是直逼10倍参数量的Llama2-70B。但Mistral消耗的资源却很少,只需要6GB显存,MacBook就能流畅运行。为了用更少消耗达到更好的效果,Mistral可谓是使出了浑身解数。
介绍了Mistral 7B语言模型,通过利用分组查询注意力和滑动窗口注意力机制,实现了高性能和高效推理,在多个基准测试中超越了之前的模型的表现。
- 介绍Mistral 7B,一个拥有70亿参数、在保持高效的同时达到最先进性能的语言模型。它在所有基准测试中优于之前最好的13B模型Llama 2,并在推理、数学和代码生成方面优于最好的34B模型Llama 1。
- 使用组查询注意力(GQA)来减少内存使用和增加吞吐量,还使用滑动窗口注意力(SWA)来更有效地处理长序列。
- 微调后的版本称为Mistral 7B-Instruct,在人类和自动化评估中优于Llama 2 13B-Chat模型。
- 达到比其大2-3倍的模型的性能,展示了模型设计的效率。由于优化了推理、数学和代码生成,优于更大的模型。
- 可以添加“护栏”来生成更安全、更高质量的响应,展示了进行自我反思和内容审核的能力。
- 结论:仔细的模型设计可以实现高性能和高效率,探索最优的性能与效率与成本之间的平衡仍有机会。
动机:在自然语言处理领域,为了追求更高的模型性能,往往需要增加模型的大小,但这也会增加计算成本和推理延迟,限制了在实际应用中的部署。因此,需要设计既能提供高性能又能保持高效推理的平衡模型。
方法:论文介绍了Mistral 7B,一个拥有70亿参数的语言模型。该模型利用了分组查询注意力(GQA)和滑动窗口注意力(SWA)的机制,提高了推理速度和效率。GQA加速了推理速度,减少了解码过程中的内存需求,从而实现更高的批处理大小和吞吐量;SWA通过降低计算成本,更有效地处理任意长度的序列。
优势:Mistral 7B在所有评估基准中超过了最好的开源13B模型(Llama 2),在推理、数学和代码生成方面也超过了最好的发布34B模型(Llama 1)。此外,论文还提供了Mistral 7B - Instruct,一个针对遵循指令的模型,它在人工和自动化基准测试中均超过了Llama 2 13B - chat模型。
关注子社区,每周热点抢先看~
更多精彩内容欢迎点击下方链接,了解更多viapi相关信息。