暂时未有相关云产品技术能力~
共建共享
在2024年CCS会议上,苏黎世联邦理工学院的研究人员提出,当前对机器学习隐私保护措施的评估可能存在严重误导。研究通过LiRA攻击评估了五种经验性隐私保护措施(HAMP、RelaxLoss、SELENA、DFKD和SSL),发现现有方法忽视最脆弱数据点、使用较弱攻击且未与实际差分隐私基线比较。结果表明这些措施在更强攻击下表现不佳,而强大的差分隐私基线则提供了更好的隐私-效用权衡。
Meissonic是一种新型图像生成模型,采用非自回归的掩码图像建模(MIM)方法,在性能和效率上超越了当前最先进的扩散模型SDXL。其创新点包括改进的注意力机制、多尺度特征提取、先进位置编码策略和优化采样条件等,能够生成高质量、高分辨率图像。此外,Meissonic引入人类偏好评分和特征压缩层,提升图像质量和计算效率。尽管存在一些挑战,Meissonic为统一语言-视觉模型的发展提供了新思路,并在创意设计、虚拟现实等领域展现出广泛应用前景。
普林斯顿大学和耶鲁大学研究人员发布报告,探讨链式思维(CoT)提示对大型语言模型(LLM)推理能力的影响。研究通过移位密码任务,揭示了三个关键因素:任务输出概率、预训练阶段的隐性学习及中间操作数量(噪声推理)。实验使用GPT-4、Claude 3和Llama 3.1模型,发现CoT提示可显著提升模型准确性,但也存在局限性。论文地址:https://arxiv.org/abs/2407.01687。
微软研究团队提出了一种名为“GRIN(GRadient-INformed MoE training)”的新型训练方法,针对专家混合(MoE)模型优化难题。MoE通过稀疏计算提高效率,但传统梯度优化难以直接应用。GRIN利用梯度信息指导专家路由,引入稀疏梯度估计和并行配置,克服了这一局限,显著提升了MoE模型的训练效率和性能。实验表明,GRIN在语言建模等任务上超越了密集模型,并在多个基准测试中取得领先。尽管存在计算复杂度高等挑战,GRIN为MoE模型训练提供了新思路。论文地址:https://arxiv.org/abs/2409.12136
在生物医学领域,蛋白质的结构与功能研究至关重要。ByteDance Research团队开发的CryoSTAR软件,结合AI与冷冻电镜技术,通过深度学习模型、结构先验和异质性重构算法,成功解析了蛋白质的动态行为,尤其在处理结构异质性方面表现出色。该软件已在多个蛋白质体系中取得显著成果,如TRPV1通道蛋白的动态变化研究,为理解蛋白质功能及疾病机制提供了新思路。论文链接:https://www.nature.com/articles/s41592-024-02486-1
在人工智能领域,大型语言模型(LLM)尤其在代码生成等任务中展现出巨大潜力。然而,高质量、可复现的开源代码LLM仍稀缺。为此,多领域专家团队推出了OpenCoder,一个顶级开源代码LLM。它不仅性能卓越,还提供了完整的数据处理流程和训练协议,确保研究的可复现性。OpenCoder的开放性为研究社区提供了从数据准备到模型训练的全流程指导,成为推动代码AI领域发展的关键工具。论文链接:https://arxiv.org/abs/2411.04905
在信息爆炸时代,知识图谱的构建和维护面临数据稀疏与动态变化等挑战。CIKM 2024会议上,两位本科生提出将**持续学习与少样本学习结合**的新方法,有效应对这些难题。该方法通过持续学习框架适应动态变化,并利用少样本学习提高数据稀疏场景下的补全效果,显著提升了知识图谱的完整性和准确性。实验结果表明,此方法在准确性、鲁棒性和泛化能力上均有显著优势,为知识图谱补全领域带来了新思路。
谷歌和苹果的研究揭示了大型语言模型(LLM)的惊人秘密:尽管LLM能自主识别错误,却在生成答案时装作不知情。这一“幻觉”现象背后,模型内部已编码了关于输出真实性的信息,但其外部表现与内部判断常有矛盾,暴露出LLM在实际应用中的局限性。研究为未来开发更有效的错误检测和缓解策略提供了新思路。论文地址:https://arxiv.org/pdf/2410.02707
著名数学家陶哲轩联合60多位数学家推出FrontierMath基准测试,评估AI在高级数学推理方面的能力。该测试涵盖数论、实分析等多领域,采用新问题与自动化验证,结果显示最先进AI通过率仅2%。尽管存在争议,这一基准为AI数学能力发展提供了明确目标和评估工具,推动AI逐步接近人类数学家水平。
近日,谷歌DeepMind团队在《自然》期刊上发表了一项名为SynthID-Text的研究成果。该方法通过引入隐形水印,为大型语言模型(LLM)生成的文本添加统计签名,从而实现AI生成文本的准确识别和追踪。SynthID-Text采用独特的Tournament采样算法,在保持文本质量的同时嵌入水印,显著提高了水印检测率。实验结果显示,该方法在多个LLM中表现出色,具有广泛的应用潜力。论文地址:https://www.nature.com/articles/s41586-024-08025-4。
“Augmented Physics”是由卡尔加里大学和香港城市大学研究人员开发的创新工具,利用机器学习将静态物理图表转化为交互式模拟,帮助学生通过操作亲身体验物理现象的变化过程,增强理解、提高兴趣并实现个性化学习。该工具在课堂教学、自主学习和虚拟实验中具有广泛应用前景。论文链接:https://arxiv.org/pdf/2405.18614。
哈佛大学研究团队开发的新型AI模型CHIEF,在《自然》期刊发表,癌症诊断准确率达96%。CHIEF基于深度学习,能自动识别、分类癌症并预测生存期,具高准确性、多任务能力和泛化性。它结合病理图像与基因组学等数据,显著提升诊断效率和个性化治疗水平,有望改善医疗资源不平等。但数据隐私和临床效果验证仍是挑战。论文见:https://www.nature.com/articles/s41586-024-07894-z
AI²BMD(AI-driven Biomolecular Dynamics)是由微软华人科学家团队领衔的研究,发表于《自然》杂志。该方法通过将蛋白质分解为21种常见单元,并利用机器学习模型预测其相互作用,实现高效精准的生物分子模拟。相比传统方法,AI²BMD在能量和力预测上精度更高,计算速度提升数个数量级,尤其适用于大规模蛋白质模拟,为药物设计等领域提供了有力工具。未来研究将扩展至更多生物分子类型并优化效率。论文地址:https://www.nature.com/articles/s41586-024-08127-z
清华大学研究团队提出模块化LLM智能体搜索(MoLAS)框架AgentSquare,将LLM智能体设计抽象为规划、推理、工具使用和记忆四大模块,实现模块间的轻松组合与替换。通过模块进化和重组机制,AgentSquare显著提升了智能体的适应性和灵活性,并在多个基准测试中表现出色,平均性能提高17.2%。此外,该框架还具备可解释性,有助于深入理解智能体架构对任务性能的影响。论文地址:https://arxiv.org/abs/2410.06153
TEG-DB是NeurIPS 2024发布的全新数据集,首次将丰富的文本描述引入图的边中,填补了现有TAG数据集只关注节点文本信息的空白。该数据集涵盖多个领域,提供全面的节点和边文本描述,助力更深入挖掘实体间上下文关系,提升图结构数据的理解。实验表明,现有技术在利用文本边信息方面仍有提升空间,未来研究需关注文本描述的质量、隐私和伦理问题。论文地址:https://arxiv.org/abs/2406.10310
在机器人技术领域,人形机器人的全身控制一直极具挑战。传统方法为不同任务(如导航、移动操作等)单独训练控制策略,限制了策略的可转移性。Jim Fan团队提出HOVER框架,通过全身运动模仿作为共同抽象,整合多种控制模式,实现无缝过渡,显著提升控制效率和灵活性。HOVER不仅为人形机器人应用带来巨大潜力,也为机器人技术发展提供新思路。论文地址:https://arxiv.org/abs/2410.21229
近日,加州大学洛杉矶分校和麻省理工学院的数学家团队成功推翻了存在39年的“上下铺猜想”(Bunkbed Conjecture),该猜想由1985年提出,涉及图论中顶点路径问题。尽管AI在研究中发挥了重要作用,但最终未能完成证明。人类数学家通过深入分析与创新思维,找到了推翻猜想的关键证据,展示了人类智慧在数学证明中的不可替代性。成果发表于arXiv,引发了关于AI在数学领域作用的广泛讨论。
论文提出推理边界框架(RBF),通过定义推理边界(RB)及其组合定律,提供了一种量化CoT上限的新方法,并提出了三种类别的RB及优化策略。该研究在27个模型和5个任务上进行了广泛实验,验证了RBF的有效性,为理解与优化LLMs的推理能力提供了新见解。 此外,MIT的一项研究探讨了完全微调和低秩适配(LoRA)的差异。尽管两者在模型准确性上相似,但它们在谱结构、泛化行为和参数空间访问方面存在显著不同。完全微调保留了预训练模型的大部分谱结构,而LoRA引入了“入侵维度”,导致在多任务学习中的泛化能力较差。研究还提出了一些减少入侵维度影响的方法,以改善LoRA模型的表现。
马里兰大学研究人员提出AutoHallusion框架,旨在通过自动化生成幻觉图像和问题对,深入研究大型视觉语言模型(LVLMs)中的幻觉现象。幻觉指LVLMs生成与图像内容不符的描述,限制其广泛应用。AutoHallusion通过异常对象插入、配对对象插入和相关对象删除三种策略,揭示LVLMs在处理视觉信息时的弱点。实验结果显示,该框架能在多种SOTA模型上以高成功率引发幻觉,为改进模型提供宝贵线索。未来将提升图像质量和扩展问题设计范围。论文链接:https://arxiv.org/pdf/2406.10900
AFlow是由Jiayi Zhang等学者提出的一项新研究,发表于arXiv。它通过将工作流优化问题转化为代码表示空间中的搜索,并引入蒙特卡洛树搜索(MCTS)算法,实现了高效的工作流自动化生成与优化。在六个基准数据集上,AFlow性能比现有基线平均提高5.7%,并使小模型以较低成本超越GPT-4。尽管存在一些局限性,如通用性和计算复杂度,AFlow为降低大型语言模型应用成本提供了新思路,推动了人工智能技术的进步。论文地址:https://arxiv.org/abs/2410.10762。
近年来,神经网络在MLP和Transformer等模型上取得显著进展,但在处理周期性特征时存在缺陷。北京大学提出傅里叶分析网络(FAN),基于傅里叶分析建模周期性现象。FAN具有更少的参数、更好的周期性建模能力和广泛的应用范围,在符号公式表示、时间序列预测和语言建模等任务中表现出色。实验表明,FAN能更好地理解周期性特征,超越现有模型。论文链接:https://arxiv.org/pdf/2410.02675.pdf
近年来,视觉语言模型(VLMs)在视觉问答(VQA)任务中取得进展,但最新研究NaturalBench揭示其面对自然对抗样本时的不足。该研究通过10,000个经人类验证的VQA样本,评估53种先进VLMs,发现它们的表现落后于人类50%-70%。NaturalBench采用以视觉为中心的设计,强调组合性和减少偏见,为VLMs的改进提供了方向。论文链接:https://arxiv.org/abs/2410.14669
近日,华为诺亚方舟实验室与伦敦大学学院(UCL)联合开发的智能体Agent K v1.0在Kaggle竞赛中达到Grandmaster水平,引发广泛关注。该智能体采用创新的结构化推理框架,优化长期和短期记忆,动态处理复杂推理任务。通过自动化协议,Agent K v1.0能自动完成数据收集、清理、预处理等任务,并在多种数据模态下取得优异成绩。其Elo-MMR评分位于前38%,获得多枚奖牌,展示了强大的预测和决策能力。这一突破为AI在数据科学领域的应用开辟了新可能,但也需关注其局限性和伦理影响。论文地址:https://arxiv.org/pdf/2411.03562。
中国人民大学胡迪团队提出MS-Bot方法,通过阶段性引导的动态多感官融合,使机器人能像人类一样灵活运用视觉、听觉和触觉完成复杂任务。实验表明,该方法提高了操作准确性和效率,但仍面临数据依赖、计算复杂度和泛化能力等挑战。论文链接:https://arxiv.org/abs/2408.01366v2
无问芯穹团队提出Mixture of Attention(MoA)方案,通过自动调整不同注意力头和层的稀疏注意力配置,解决大型语言模型(LLM)处理长文本时的内存和吞吐量需求问题。MoA能够显著增加有效上下文长度,提升检索准确性和解码吞吐量,减少GPU内存使用。实验结果表明,MoA在多个模型上表现出色,但构建和探索搜索空间仍需大量计算资源。
杨笛一团队最新研究揭示,简单弹窗可操控AI智能体,使其在执行任务时陷入混乱。实验显示,在OSWorld和VisualWebArena环境中,攻击成功率分别达86%和60%以上。该发现强调了AI安全的重要性,提醒我们在享受AI便利的同时需警惕潜在风险。研究指出,弹窗设计中的四个关键要素(注意力钩子、指令、信息横幅、ALT描述符)对攻击成功至关重要,并建议通过安全训练、人类监督和环境感知提升防御能力。
FreeVS(Free View Synthesis)是一种创新技术,能够在真实驾驶场景中合成车辆的摄像头视角视频,不仅限于已知轨迹,还能生成全新轨迹上的视频。它采用伪图像表示和视角变换模拟技术,突破了传统方法对已知轨迹的依赖,提升了自动驾驶技术的测试和验证能力。实验结果显示,FreeVS在Waymo Open Dataset上表现出色,具有广泛的应用前景。论文链接:https://arxiv.org/abs/2410.18079
近日,字节跳动豆包大模型团队发布论文,探讨视频生成模型(如类Sora模型)在理解物理规律方面的能力,引起广泛关注并获Yann LeCun点赞。研究通过2D模拟平台测试扩散模型,发现其在分布内表现优异,但在分布外和组合泛化上存在不足,揭示了基于案例的泛化和特征优先级机制。这表明,仅靠视觉数据难以学习到真正的物理规律,未来需引入物理先验知识以提升模型性能。
在AI快速发展中,大型语言模型(LLMs)如GPTs等展现了巨大潜力。然而,表格数据整合这一关键领域发展不足。浙江大学提出TableGPT2,使用593.8K张表格和2.36M查询-表格-输出三元组进行预训练和微调。该模型创新性地引入了表格编码器,增强了处理模糊查询、缺失列名和不规则表格的能力。TableGPT2在23个基准测试指标上表现出色,7B模型性能提升35.20%,72B模型提升49.32%。其开源代码和模型为社区提供了强大的研究工具。
最近,一项名为《Derail Yourself: Multi-turn LLM Jailbreak Attack through Self-discovered Clues》的研究揭示了大型语言模型(LLM)在多轮交互中的安全漏洞。该研究提出了一种基于行动者网络理论的新型攻击方法ActorAttack,通过构建语义相关行动者网络,生成多样化攻击路径,隐藏有害意图并利用LLM知识发现通向有害目标的路径。研究表明,ActorAttack在多轮攻击中表现优于现有方法,引发了对LLM安全性的担忧。研究团队计划发布SafeMTData数据集,以帮助训练更安全的LLM,并强调跨学科合作的重要性。
字节跳动豆包大模型团队提出“超连接”创新方法,突破残差连接局限,引入可学习的深度和宽度连接,动态调整网络层间连接强度。该方法在大型语言模型预训练中实现最快收敛速度,加速80%,并在图像生成、分类等任务中表现出色,显著提升准确率和稳定性。论文链接:https://arxiv.org/pdf/2409.19606
腾讯混元团队近日发布了开源Transformer-based MoE模型Hunyuan-Large,参数量达3890亿,激活参数520亿,处理tokens高达256K。该模型在多个基准测试中超越LLama3.1-70B,在某些方面媲美更大规模的LLama3.1-405B。其成功源于合成数据集、混合专家路由策略、键值缓存压缩及专家特定学习率等创新技术。尽管面临训练成本高和数据质量等挑战,Hunyuan-Large仍为AI行业注入新活力,并推动技术进步与应用创新。
近期研究通过调整网络智能体的观察和动作空间,使其与大型语言模型(LLM)的能力对齐,显著提升了基于LLM的网络智能体性能。AgentOccam智能体在WebArena基准上超越了先前方法,成功率提升26.6个点(+161%)。该研究强调了与LLM训练目标一致的重要性,为网络任务自动化提供了新思路,但也指出其性能受限于LLM能力及任务复杂度。论文链接:https://arxiv.org/abs/2410.13825。
《A Systematic Survey on Large Language Models for Algorithm Design》综述了过去三年大型语言模型(LLMs)在算法设计中的应用。LLMs通过自然语言处理技术,助力生成、优化和验证算法,在优化、机器学习、数学推理等领域展现出广泛应用前景。尽管存在资源需求高、结果不确定等挑战,LLMs仍为算法设计带来新机遇。论文地址:https://arxiv.org/abs/2410.14716。
在人工智能领域,大语言模型(LLM)展现出强大的语言理解和生成能力,但也带来了安全性和可靠性挑战。OpenAI研究人员提出“规则基于奖励(RBR)”方法,通过明确规则引导LLM行为,确保其符合人类价值观和道德准则。实验显示,RBR方法在安全性与有用性之间取得了良好平衡,F1分数达97.1。然而,规则制定和维护复杂,且难以完全捕捉语言的多样性。论文:https://arxiv.org/pdf/2411.01111。
2024年NeurIPS大会展示了一项关于新一代芯片电路逻辑综合的研究,提出一种可扩展且可解释的神经电路生成框架。该框架通过引入正则化机制和三角形网络结构,解决了传统方法在处理大型电路时的过拟合、结构偏差和学习不平衡问题。实验表明,该框架能准确生成多达1200个节点的电路,并显著优于现有方法。论文地址:https://neurips.cc/virtual/2024/poster/94631
谷歌提出了一种名为Evolving Alignment via Asymmetric Self-Play(eva)的新RLHF框架,通过创造者和解决者交替优化,生成具有挑战性的提示,提高模型泛化能力、样本效率和对齐鲁棒性。实验结果显示,eva在多个基准上显著提升性能,展示了其创新性和有效性。然而,eva的实现较为复杂,且实际应用中的长期效果仍待验证。
在NeurIPS 2024会议上,GTA(General Tool Agents Benchmark)基准测试被提出,旨在评估大型语言模型(LLM)在真实世界复杂任务中的工具调用能力。GTA采用真实用户查询、真实部署工具和多模态输入,全面评估LLM的推理和执行能力。结果显示,现有LLM在真实世界任务中仍面临巨大挑战,为未来研究提供了重要方向。
检索增强生成(RAG)技术结合检索和生成模型,有效提升大型语言模型的知识获取能力。然而,高推理延迟限制了其在实时场景的应用。论文《Block-Attention for Low-Latency RAG》提出块状注意力机制,通过将输入序列划分为独立块并预先计算缓存KV状态,显著降低推理延迟。实验结果显示,该机制在保持模型准确性的同时,大幅提高了推理效率。
中国科学技术大学研究团队提出了一种新的评估指标——模态融合率(MIR),用于评估多模态预训练模型的对齐质量。MIR通过衡量不同模态之间的分布距离,有效反映了模型的对齐质量,并在多种训练配置下表现出良好的鲁棒性和通用性。实验结果表明,MIR能够准确评估训练数据选择、训练策略调度和模型架构设计对预训练结果的影响,为多模态学习提供了可靠的方法。
MetaGPT团队开源了Tree-Search Enhanced LLM Agents(SELA)系统,通过蒙特卡罗树搜索(MCTS)优化AutoML过程,显著提升了机器学习模型的构建效率和性能。SELA在20个数据集上的实验结果表明,其性能优于传统AutoML方法和基于LLM的代理,为AutoML领域带来了新的突破。
在图像分割领域,传统方法依赖大量手动标注数据,效率低下且难以适应复杂场景。为解决这一问题,研究人员提出了“任务通用可提示分割”方法,利用多模态大型语言模型(MLLM)生成实例特定提示。然而,MLLM常出现幻觉,影响分割精度。为此,研究团队开发了“Prompt-Mask Cycle”(ProMaC)框架,通过迭代生成和验证提示及掩码,有效利用幻觉信息,提高了分割精度和效率。实验结果表明,ProMaC在多个基准数据集上表现出色,为图像分割技术的发展提供了新思路。
近年来,大型语言模型(LLM)在自然语言处理方面取得了显著进展。最新研究《内省:语言模型可以通过内省学习自我》揭示了LLM在自我反省方面的潜力。通过微调,LLM能够预测自身行为,表现出“特权访问”能力。实验显示,模型在预测自己行为时比预测其他模型的行为更准确,且在校准度和行为变化预测上表现优异。尽管存在任务复杂性和泛化能力的局限,内省能力仍对技术发展和伦理问题提出了重要思考。
PIVOT-R是一种新型世界模型,专注于预测与任务相关的路点,以提高语言引导的机器人操作的性能和效率。该模型由路点感知世界模型(WAWM)和轻量级动作预测模块组成,辅以异步分层执行器(AHE),在SeaWave基准测试中表现优异,平均相对改进达19.45%,执行效率提高28倍。
苹果公司在arXiv上发布论文《The AdEMAMix Optimizer: Better, Faster, Older》,提出了一种基于双指数移动平均(EMA)的新型优化器AdEMAMix。该优化器通过使用快速和慢速EMA,同时利用近期和远期梯度信息,显著提升了模型训练的速度和效果。实验表明,AdEMAMix在语言建模和图像分类等任务上表现出色,尤其在大型语言模型的训练中,相比传统优化器如AdamW,训练效率提高了95%。
上下铺猜想是图论中的一个命题,断言在任何有限图中,如果将顶点排成一行,使每条边连接的顶点位置相邻或相隔一个位置,则图一定是二分图。然而,近期研究通过构造反例证明了这一猜想是错误的。这一结果不仅挑战了数学家的直觉,也为图论的结构性质提供了新的视角,强调了数学的严谨性和反直觉现象的重要性。
清华大学研究团队在机器人操作领域发现了数据规模定律,通过大规模数据训练,机器人策略的泛化性能显著提升。研究揭示了环境和对象多样性的重要性,提出了高效的數據收集策略,使机器人在新环境中成功率达到约90%。这一发现有望推动机器人技术的发展,实现更广泛的应用。
近年来,大型语言模型(LLM)的内部运作机制备受关注。麻省理工学院的研究人员在论文《The Geometry of Concepts: Sparse Autoencoder Feature Structure》中,利用稀疏自编码器(SAE)分析LLM的激活空间,揭示了其丰富的几何结构。研究发现,特征在原子、大脑和星系三个尺度上展现出不同的结构,包括晶体结构、中尺度模块化结构和大尺度点云结构。这些发现不仅有助于理解LLM的工作原理,还可能对模型优化和其他领域产生重要影响。
Richard Sutton领导的团队提出了一种称为“奖励中心化”的方法,通过从观察到的奖励中减去其经验平均值,使奖励更加集中,显著提高了强化学习算法的性能。该方法在解决持续性问题时表现出色,尤其是在折扣因子接近1的情况下。论文地址:https://arxiv.org/pdf/2405.09999
Meta提出了一种名为约束生成策略优化(CGPO)的新型后训练范式,用于解决基于人类反馈的强化学习(RLHF)在多任务学习中的挑战,如奖励欺骗和极端多目标优化。CGPO通过混合裁判(MoJ)技术,结合成本效益约束策略优化和分层技术,系统化地识别RLHF中的平衡点。与传统方法相比,CGPO在多个任务上表现出色,包括一般聊天、STEM问题、指令遵循、数学、编程和知识等,且具有理论保证。CGPO还能够检测并缓解奖励欺骗行为,显著提升了多任务学习的性能。论文链接:https://arxiv.org/pdf/2409.20370