暂时未有相关云产品技术能力~
共建共享
【5月更文挑战第6天】Cobra,首个基于Mamba的多模态大语言模型,开源了其权重和训练代码。Cobra结合Mamba的高效语言模型与视觉模态,以线性计算复杂度提升MLLM效率,适用于更多实际场景。通过优化模态融合,Cobra在速度、性能和参数效率上超越现有方法,如在封闭集挑战预测中表现优秀,并能在参数量减少的情况下保持强效性能。[链接](https://arxiv.org/pdf/2403.14520v2.pdf)
【5月更文挑战第3天】PreFLMR是扩展的细粒度晚期交互多模态检索器,用于提升知识视觉问答(KB-VQA)性能。基于FLMR,PreFLMR结合大型语言模型和检索增强生成,增强准确性与效率。通过M2KR框架全面评估,PreFLMR展示出色性能,尤其在E-VQA和Infoseek等任务。然而,其在预训练阶段未充分训练知识密集型任务,且仍有优化训练方法和数据集混合比例的空间。[论文链接](https://arxiv.org/abs/2402.08327)
【4月更文挑战第26天】Meta 研究团队推出7亿参数的MEGALODON,这是一个专为无限长文本序列建模设计的神经网络架构。通过复数指数移动平均(CEMA)和时间步归一化层等技术创新,MEGALODON在效率和准确性上超越Transformer,且在多种基准测试中表现优秀。源代码已开源,为长序列建模提供新工具,但面临资源限制和处理极端长度序列的挑战。[论文链接](https://arxiv.org/pdf/2404.08801.pdf)
【4月更文挑战第27天】Latte是全球首个开源文生视频DiT,基于Transformer,能高效处理大量令牌,实现高质量视频生成。在四个标准数据集和T2V任务中表现优越,成为视频生成技术里程碑。然而,计算需求大限制其在资源受限环境的应用,且处理复杂视频内容时可能性能下降。[论文链接](https://arxiv.org/pdf/2401.03048v1.pdf)
【4月更文挑战第29天】SalUn是一种新的机器反学习方法,专注于图像分类和生成的精确反学习。通过关注权重的梯度显著性,SalUn能更准确、高效地从模型中移除特定数据影响,提高反学习精度并保持稳定性。适用于多种任务,包括图像生成,且在条件扩散模型中表现优越。但计算权重梯度的需求可能限制其在大规模模型的应用,且在数据高度相关时效果可能不理想。[链接](https://arxiv.org/abs/2310.12508)
【5月更文挑战第2天】TextMonkey是一款无OCR的大型多模态模型,设计用于高效提取文本信息。它采用Shifted Window Attention和零初始化技术处理高分辨率文档,减少训练成本。通过假设图像中的冗余标记,模型能精简标记并提升性能。TextMonkey还能定位文本答案在图像中的位置,增强可解释性,在场景文本任务和关键信息提取中表现优越,特别是在OCRBench基准测试中刷新记录。然而,它在处理小图像和需要深层推理的任务时仍面临挑战。[链接](https://arxiv.org/abs/2403.04473)
【5月更文挑战第2天】LLMLingua-2是一种针对大型语言模型(LLMs)的数据蒸馏方法,旨在实现高效且忠实的提示压缩。通过从LLMs中提取知识,该方法在压缩提示的同时保持关键信息,提高模型泛化能力和效率。采用Transformer编码器,LLMLingua-2将提示压缩转化为标记分类问题,确保压缩后的提示忠实度并减少延迟。实验表明,该方法在多个数据集上优于基线,并在压缩延迟上取得显著改进,但也存在泛化能力和扩展性限制。论文链接:https://arxiv.org/abs/2403.12968
【4月更文挑战第27天】中国AI大模型产业快速发展,受益于政策支持、技术创新及市场需求,已在电商等领域广泛应用,展现巨大潜力。但面临算力瓶颈、技术局限和数据不足等挑战。未来,AI大模型将向通用化与专用化发展,开源趋势将促进小型开发者参与,高性能芯片升级也将助力产业进步。[报告下载链接](http://download.people.com.cn/jiankang/nineteen17114578641.pdf)
【4月更文挑战第23天】北京大学团队提出的新方法PiSSA,基于SVD进行参数高效微调,降低计算成本。PiSSA通过聚焦低秩矩阵训练,实现与全参数微调相当甚至更好的性能,快于LoRA收敛且在五个基准测试中胜出。PiSSA继承LoRA的参数效率,初始化仅需几秒,适合快速适应不同下游任务。尽管有潜力,但其在更大模型和任务上的效果,以及与LoRA结合的可能优化,仍是未来研究课题。[链接](https://arxiv.org/pdf/2404.02948.pdf)
【4月更文挑战第20天】谷歌DeepMind团队推出了SELF-DISCOVER框架,让大型语言模型能自我发现并构建推理结构,提升在复杂任务中的性能。该框架模仿人类解决问题方式,分两阶段选择和适应原子推理模块,以解决挑战。在多任务测试中,SELF-DISCOVER相比传统方法表现出色,性能提升42%,计算量减少10至40倍。它具有跨模型应用的普适性,并与人类思维方式相通。然而,它在某些任务类型上仍有优化空间,且需解决计算成本问题。论文链接:https://arxiv.org/abs/2402.03620
【4月更文挑战第20天】DS-Agent是结合案例推理(CBR)和大型语言模型的新研究,旨在提升自动化数据科学任务效率。通过自动迭代管道,它能理解任务、构建模型并优化性能。在开发阶段,成功率高达100%,部署阶段平均提高36%的一次通过率,降低成本,使开源LLMs也能高效处理数据科学任务。然而,LLMs的生成问题和资源限制仍是挑战。论文链接:https://arxiv.org/pdf/2402.17453.pdf
【4月更文挑战第22天】**TIME-LLM** 论文提出将大型语言模型重编程用于时序预测,克服数据稀疏性问题。通过文本原型重编码和Prompt-as-Prefix策略,使LLMs能处理连续时序数据。在多基准测试中超越专业模型,尤其在少量样本场景下效果突出。但面临跨领域泛化、模型调整复杂性和计算资源需求的挑战。[论文链接](https://openreview.net/pdf?id=Unb5CVPtae)
【4月更文挑战第22天】北京大学与字节跳动联合研发的Visual AutoRegressive modeling (VAR)是一种创新的图像生成范式,通过“下一尺度预测”而非传统的“下一标记预测”学习视觉分布。VAR在ImageNet基准上提升了自回归模型的FID和IS,同时加快了20倍推理速度,超越扩散变换器。该模型展示出与大型语言模型相似的缩放定律,解决了自回归模型的计算成本问题和扩散模型的速度不足。VAR具备零样本泛化能力,适用于图像修复等任务,未来研究将探索其在高分辨率图像和视频生成中的潜力。[论文链接](https://arxiv.org/abs/2404.02905)
【4月更文挑战第19天】不列颠哥伦比亚大学与Invertible AI合作开发的FinTral模型,是一款专为金融分析设计的多模态大型语言模型,超越ChatGPT-3.5,具备处理文本、数值、表格和图像数据的能力。通过直接偏好优化(DPO)提升性能,FinTral能执行多种金融任务,如情感分析、股票预测等,且在与GPT-3.5和GPT-4的对比中胜出。然而,其金融领域的专注可能限制了其跨领域应用,且依赖准确的实时数据。FinTral为金融分析提供高效工具,提升理解和决策支持的可靠性。
【4月更文挑战第21天】天津大学在ICLR 2024发布RLHF新框架Uni-RLHF,以人类反馈引导强化学习,降低奖励函数设计需求,适应现实决策场景。该框架提供通用平台和基准,支持大规模众包注释,促进研究。尽管面临准确捕捉人类反馈、数据质量和多任务处理等挑战,但开源特性加速了学术进步。[链接](https://arxiv.org/abs/2402.02423)
【4月更文挑战第23天】论文《Usable XAI: 10 Strategies Towards Exploiting Explainability in the LLM Era》探讨了在大型语言模型时代提升可解释性的10种策略,旨在增强LLM的透明度和可靠性。面对LLM的复杂性,这些策略包括使用归因方法理解决策过程、通过样本基础解释进行模型调试、利用知识增强的提示提升内容质量和使用自然语言解释以方便用户理解。尽管提出有益方法,但如何确保解释准确性、处理错误信息及平衡模型性能与可解释性仍是挑战。
【4月更文挑战第17天】苹果公司推出Ferret-UI,一款专为移动UI理解的新型MLLM,优于GPT-4V。该模型针对移动UI特点优化,采用“任意分辨率”技术处理屏幕细节,通过广泛的基础UI任务和高级任务训练,提升理解和推理能力。在基准测试中,Ferret-UI表现突出,显示了苹果在多模态语言模型领域的领先地位。尽管面临灵活性和训练数据质量挑战,Ferret-UI为移动应用自动化和智能助手发展开辟新路径。
【4月更文挑战第16天】研究人员集成12个大型语言模型(LLM)组成“硅基群体”,在预测比赛中与925名人类预测者对比。研究发现,LLM群体的预测准确性与人类群体无显著差异,且通过集成可抵消个体模型的偏差,提高预测准确。GPT-4和Claude 2等模型结合人类预测后,准确度提升17%至28%。然而,个别LLM预测精度不一,模型选择和校准度是提升预测性能的关键,同时LLM在时间跨度和现实场景适应性方面仍有挑战。
【4月更文挑战第16天】清华大学研究团队开发出大规模光子芯片“太极”,在《科学》杂志发表,该芯片基于创新的光子计算架构,实现百万神经元级别的ONN,能效比高达160 TOPS/W。实验中,太极芯片成功执行1000类别分类任务,提升AI内容生成质量,为AGI发展开辟新路径。然而,光子集成电路的制造成本高、技术成熟度不足及软件支持限制了其广泛应用。
【4月更文挑战第13天】Mamba模型,一种新型序列建模架构,通过选择性状态空间提高处理长序列数据的效率,实现线性时间复杂度。在语言、音频和DNA序列建模中展现优秀性能,尤其在大规模预训练中超越Transformer。然而,面对连续信号数据时可能不及LTI模型,且模型参数优化及硬件实现具有挑战性。
【4月更文挑战第15天】APISR是一款由密歇根大学、耶鲁大学和浙江大学联合研发的AI模型,专攻动漫风格的超分辨率问题。在CVPR会议上发表的这项成果,通过理解动漫制作流程,针对性地收集和处理训练数据,提升了动漫图像的清晰度和视觉效果。APISR引入预测导向的压缩模块和平衡的双感知损失函数,有效恢复手绘线条并减少颜色伪影。此外,模型关注图像复杂性,优化训练数据质量和学习效率。尽管面临处理复杂场景和颜色偏差的挑战,APISR为动漫图像处理开辟了新方向。
【4月更文挑战第17天】香港中文大学(深圳)研究团队发表综述论文,探讨大型语言模型(LLMs)与强化学习(RL)结合的四条技术路线:信息处理器、奖励设计者、决策制定者和生成器。LLMs提升RL在多任务学习和样本效率,但处理复杂环境时仍有挑战。它们能设计奖励函数,但预训练知识限制在专业任务中的应用。作为决策者和生成器,LLMs提高样本效率和行为解释,但计算开销是问题。
【4月更文挑战第12天】研究人员推出Octopus v2,一个在设备上运行的高效语言模型,优于GPT-4,减少上下文长度,降低延迟和能耗。通过函数名称标记化提高调用性能,适用于各种硬件环境,如手机、PC和VR头盔。尽管训练成本和复杂任务处理仍有优化空间,但其创新标记技术和架构调整显著提升了准确性和响应速度。
【4月更文挑战第13天】KAUST和哈佛大学联合研发的MiniGPT4-Video模型在AI视频理解上取得突破,能处理视觉信息和文本对话,提升视频内容分析能力。该模型在多个基准测试中超过现有最佳方法,尤其在有字幕的情况下表现优异。然而,受限于大型语言模型的上下文窗口,目前仅能处理有限帧数的视频,未来研究将致力于扩展处理长视频的能力。
【4月更文挑战第10天】英伟达新推出的FoundationPose模型在6D对象姿态估计和跟踪上取得重大突破,荣登BOP排行榜首。该模型以统一框架兼容有模型和无模型设置,利用大规模合成数据和对比学习提高泛化能力,且在复杂场景中表现出高适应性。尽管在处理某些困难情况时仍有局限,如无纹理物体的定位,但它展示了巨大的潜力和对未来技术的启示。
【4月更文挑战第15天】中国人民大学和浙江大学的研究团队利用GPT-4模型预测论文撤稿,研究基于3,505篇撤稿及未撤稿论文的推特数据,发现16%的撤稿论文提及含有预警信号,预测准确度高达92.86%。GPT-4预测一致性达95%,为学术诚信监控提供新途径。但研究受限于主观偏见、撤稿原因区分及推特互动等因素。
【4月更文挑战第7天】谷歌推出SEEDS AI模型,运用生成式扩散模型提升天气预报效率和准确性。该模型通过学习历史数据生成预测样本,降低计算成本,增强极端天气预测准确性。结合ERA5数据,SEEDS能校正预报偏差,尤其在极端事件预测上表现出色。然而,模型依赖高质量训练数据,且解释性不足,未来需关注数据偏差、信息提取及模型透明度问题。
【4月更文挑战第10天】KAUST和哈佛大学联合研发的MiniGPT4-Video模型在视频理解任务中打破多项纪录,成为业界关注点。这款多模态AI系统基于大型语言模型,能同时处理视觉和文本信息,提升了视频内容理解的深度。通过创新的视觉-文本混合处理,模型在MSVD、MSRVTT等基准测试中取得显著性能提升。然而,由于依赖上下文窗口,目前对较长视频处理有限制。该模型的出现推动了视频理解领域的进步,具有广阔的应用前景。
【4月更文挑战第6天】2024年,中国AI大模型产业蓬勃发展,成为科技和经济增长新引擎。人民网财经研究院与至顶科技联合发布报告,详述产业发展背景、现状、挑战与趋势。政策支持下,AI大模型技术进步显著,在办公、制造等领域广泛应用。报告提及云侧与端侧大模型,以及科大讯飞、百度、阿里巴巴等企业的大模型案例。挑战包括算力瓶颈、资源消耗及训练数据不足。未来趋势包括云侧与端侧模型的分化、通用与专用模型并存、大模型开源及芯片技术升级。
【4月更文挑战第12天】谷歌DeepMind的Gecko模型以小巧身形(256维)展现出媲美大型语言模型的检索性能,且在MTEB基准测试中超越768维模型。采用两步蒸馏法训练,适用于多任务及硬件环境,尤其在多语言处理上表现出色。尽管训练成本高、泛化能力待优化,但其创新为文本嵌入技术带来新可能。
【4月更文挑战第5天】MLCommons发布了最新MLPerf推理基准测试结果,涉及数据中心和边缘计算,引入了大型语言模型Llama 2进行性能评估。Llama 2在OPEN ORCA数据集上的表现提升测试复杂性,提供了更全面的性能数据。MLPerf测试涵盖图像分类、对象检测等边缘计算任务,为开发者和研究人员提供参考。测试结果存在硬件和软件配置影响的局限性,但仍是衡量AI系统性能的重要标准。
【4月更文挑战第3天】哥伦比亚大学研究人员开发了一款名为Emo的机器人,能观察并模仿人类面部表情,实现更自然的人机交互。Emo配备26个面部执行器和高分辨率摄像头,通过“自我建模”学习模仿表情,并能预测人类表情变化。这一创新有望改善人机理解和响应情绪的能力,应用于教育、医疗等领域,但也引发了关于情感依赖和伦理问题的讨论。
【4月更文挑战第2天】Linux压缩工具XZ Utils 5.6.0/5.6.1曝光严重后门(CVE-2024-3094),影响预发布版Linux发行版,包括Fedora、Debian测试版。攻击者通过供应链攻击在OpenSSH中植入后门,允许远程完全控制。开源社区迅速响应,提供旧版本升级和临时修复。安全公司如JFrog助力修复,防止大规模安全危机。事件暴露供应链安全漏洞,强调开源软件安全监控与防护的重要性。攻击者身份未知,凸显社区协作防御力量。
【4月更文挑战第4天】苹果研究团队推出了ReALM,一种利用大型语言模型解决引用解析的新方法,提升智能助手理解用户意图和上下文的能力。ReALM将引用解析转化为语言建模问题,尤其擅长处理屏幕上的实体,比现有系统提升超5%,性能接近GPT-4但参数更少。其模块化设计易于集成,可在不同场景下扩展。然而,复杂查询处理和依赖上游数据检测器可能影响其准确性和稳定性。
Stability AI发布Stable Code Instruct 3B,一款高效代码模型,参数量仅30亿却在多编程语言基准测试中表现媲美70亿至150亿参数模型。该模型专为代码补全、逻辑推理等任务设计,其指令优化版提供直观交互,提升开发效率。团队通过Hugging Face公开模型权重,支持复现与应用。在Multi-PL基准和MT-Bench测试中表现出色,即使面对更大数据训练的模型也能保持高效性能。量化版本确保兼容性和低延迟应用。
**马斯克的xAI发布Grok-1.5,超越GPT-4!**\n\nGrok-1.5以128K上下文长度提升文本理解,强化推理能力,在MATH与GSM8K数学测试中展现出色性能,HumanEval代码任务得分74.1%。基于JAX、Rust和Kubernetes的训练框架加速了研发,但更大规模带来资源需求挑战。开源策略促进发展,但也引出滥用与安全问题。
联发科天玑9300芯片携手阿里云通义千问大模型,实现移动端AI重大突破。通义千问在天玑9300上的高效运行,标志手机AI技术新高度,提供即时多轮对话体验。双方深度合作优化模型,通义千问18亿参数版在推理时内存占用低,速度高,为行业设定标准。双方启动AI智能体解决方案计划,推动下一代智能终端应用生态发展。高通等竞争对手也在加速大模型移动端部署,端侧AI市场竞争加剧。
MIT Tech Review报告显示,中国贡献了全球26%的顶尖AI研究者,成为重要的人才基地。中国AI研究生留存率高达90%,正快速追赶美国在AI领域的主导地位。2019至2022年间,美国顶尖AI人才比例从2/3降至1/2。尽管面临中美关系影响及部分领域差距,中国AI产业的繁荣促进了人才增长。
Sakana AI,由前谷歌研究员创立,利用进化算法自动化创建强大的基础模型,革新大型语言模型开发。公司研发的日语数学LLM和文化意识VLM在基准测试中表现出色,其多智能体框架提升了视频生成效率和灵活性。尽管存在局限,如视频质量和数据集问题,但其开放框架对AI社区有重大贡献,推动技术发展。
Suno公司推出AI音乐生成模型,基于深度学习和大数据,快速创作符合用户喜好的歌曲,简化音乐创作流程,让业余爱好者也能参与。该模型高度可定制,支持二次创作,引发行业关注。创始人强调,目标是辅助而非取代人类音乐家,旨在促进音乐产业创新与发展。
零一万物API开放平台向开发者开放,提供多领域AI模型,包括自然语言处理、图像识别和语音识别,助力开发者轻松实现智能化功能。平台以简单API调用实现易用性,高性能计算资源保证服务稳定性。按需付费模式降低成本,免费体验机会鼓励尝试。全面的开发者支持包括详细文档、技术支持和定期技术交流会,构建友好社区。开发者需注意账户余额管理。访问平台:<https://platform.lingyiwanwu.com/playground>。
Stability AI的核心团队面临挑战,关键成员Robin Rombach离职,引发对公司技术发展和内部管理问题的担忧。尽管公司表示将继续专注技术商业化,但人才流失对保持团队稳定和创新能力构成考验。Rombach的离开既是损失,也可能带来变革机会,吸引新人才将成为Stability AI未来关键。
英伟达发布AI Workbench,革新大模型开发流程,简化GPU工作站配置,降低AI技术门槛。该工具提供预建AI项目、交互式文档功能及自定义图像生成,支持LLM定制,助力高效开发与协作。虽对新手有一定学习曲线,但已成AI民主化重要一步。
阿里通义千问宣布免费开放1000万字长文档处理功能,助力专业人士高效处理信息,引领AI在长文本处理领域的进步。虽然在处理文档前端内容时有待优化,但该功能对企业构建内部知识库和提供智能客户服务具有广阔应用前景,标志着AI技术的又一里程碑。
Transformer模型,由Google Brain和Google Research在2017年的论文中提出,颠覆了传统NLP依赖RNN和CNN的局面。该模型基于完全的注意力机制,解决了RNN的并行化难题,通过编码器和解码器中的多头自注意力机制捕捉全局依赖。训练策略结合Adam优化器、标签平滑和dropout,使其在机器翻译任务中表现卓越。尽管面临长序列处理的挑战和可能的上下文忽略问题,Transformer仍展示了注意力机制的巨大潜力,对NLP领域产生了深远影响。
Meta的SceneScript技术革新了室内场景重建,采用基于标记的结构化语言模型,从视频流中预测三维场景。受Transformer和LLMs启发,SceneScript将自然语言处理应用于三维建模,通过场景语言编码器-解码器推断结构化命令。使用大规模合成数据集Aria Synthetic Environments进行训练,SceneScript在建筑布局和3D对象检测上表现出色,具备适应新任务的灵活性。尽管面临细节处理和自动化限制,但其潜力和创新性已得到业界认可。
华人团队推出视频扩展模型MOTIA,通过智能算法扩展视频内容,适应不同设备和场景。该模型分为输入特定适应和模式感知扩展两阶段,有效保持视频帧内帧间一致性,提升扩展质量。在DAVIS和YouTube-VOS基准上超越现有先进方法,且无需大量任务调整,降低创作者的时间成本。然而,源视频信息不足或模式不明显时,MOTIA性能受限,且对计算资源要求较高。
【2月更文挑战第30天】英伟达发布NeMo平台,简化生成式AI模型开发,加速AIGC进程。平台提供NeMo Curator、Customizer和Evaluator微服务,覆盖数据准备至模型评估全周期。Curator加速数据处理,Customizer支持模型微调,Evaluator全面评估模型性能。虽有学习曲线挑战,但NeMo为AI创新与应用带来更多可能性。
【2月更文挑战第30天】Larimar是一种新型的人工智能研究,旨在解决大型语言模型的知识更新问题。通过引入分布式情景记忆机制,类似人脑海马体的功能,Larimar能动态更新知识而无需完全重训。在实验中,它在事实编辑基准测试中展现出高准确性和速度提升,比基础LLM快4到10倍。Larimar的精巧架构包含编码器、解码器和自适应记忆模块,能在多种场景下有效应用。该模型的记忆操作包括写入、读取和生成,且在序列事实编辑任务中表现出色,防止信息遗忘。
微软推出NaturalSpeech 3,第三代文本到语音(TTS)系统采用创新的因子化扩散模型,无需先例样本即可生成自然、高质量语音。该技术通过分解语音为内容、韵律等属性并独立处理,实现更精细控制,提高语音自然度。使用神经编解码器和因子化向量量化,以及新的因子化扩散模型,增强了语音合成的可控性和质量。在大规模训练基础上,NaturalSpeech 3在多项指标上超越现有TTS系统,并具备数据和模型扩展性。微软已通过开源项目分享研究成果,推动行业进步,但未来仍需解决多语言、少数据场景的挑战及技术伦理问题。