达摩院联合高德发布业界首个多模态地理文本预训练模型MGeo,并在ModelScope社区开源!

简介: 达摩院联合高德发布业界首个多模态地理文本预训练模型MGeo,并在ModelScope社区开源!

2月21日,达摩院联合高德发布业界首个多模态地理文本预训练模型MGeo,其可充分理解地图上的每一个元素,并精准完成地图搜索、地理位置分析等任务。MGeo是阿里通义模型系列旗下的新模型,目前已在魔搭社区开放(https://modelscope.cn/models/damo/mgeo_backbone_chinese_base/summary)。

地理文本信息处理是导航软件、物流以及零售等行业的基础。然而,目前传统地理文本AI算法对于地理信息的理解仍局限在经纬度以及经纬度的远近上,无法像人类一样理解地图上的元素,该方法难以精准表示景区、园区、商业街等大型地理实体的具体形状,以及不同地图元素之间复杂的临近、包含等关系。

针对上述问题,达摩院联合高德提出地理文本多模态模型,使用对抗MLM预训练、句子对预训练及多模态预训练三大技术,并用多任务预训练将这三种预训练任务进行动态组合,最终训练得到适合于多类地理文本任务的预训练底座MGeo。该模型拥有丰富的地理知识,能像人类一样跨模态理解地图与地理文本的信息,相关研究成果已被EMNLP、AAAI等国际顶级会议收录。

image.png

MGeo像人类一样具备跨模态理解能力,可识别地图元素之间的位置关系

据悉,高德基于MGeo研发了全新的模型,不仅显著提高泛化语义的表示能力,还可准确识别不同地图元素之间的位置关系,有效提升用户的搜索体验。例如,当用户在杭州输入“星光荟对面中国美术”时,MGeo能根据位置关系准确定位到中国美术学院象山校区,而传统BERT模型则给出了错误定位结果;此外,在用户书写有误的情况下,该模型也能匹配正确的结果。该能力已逐步在高德灰度上线。

image.png

在四平市搜索“佣兵小区”,高德可准确定位“拥军社区”

达摩院语言技术实验室负责人黄非表示:“地理信息与AI的融合已是业界公认的趋势,但传统AI比如文本处理在地理信息应用场景中有一定局限性 ,我们需要让AI学习人类对于空间信息的理解范式,例如,通过地图中的地理实体以及他们之间的关系来判定地理文本中各个元素的归属以及指向。”

作为最早投入预训练语言模型研究的团队之一,达摩院研发了阿里通义AliceMind,该体系涵盖预训练模型、多语言预训练模型、超大中文预训练模型等,具备阅读理解、机器翻译、对话问答、文档处理等多种能力,该模型体系已斩获36项国际赛事冠军。

相关文章
|
5月前
|
人工智能 缓存 自然语言处理
Java与多模态AI:构建支持文本、图像和音频的智能应用
随着大模型从单一文本处理向多模态能力演进,现代AI应用需要同时处理文本、图像、音频等多种信息形式。本文深入探讨如何在Java生态中构建支持多模态AI能力的智能应用。我们将完整展示集成视觉模型、语音模型和语言模型的实践方案,涵盖从文件预处理、多模态推理到结果融合的全流程,为Java开发者打开通往下一代多模态AI应用的大门。
489 41
|
6月前
|
自然语言处理 安全
Min-p采样:通过动态调整截断阈值让大模型文本生成兼顾创造力与逻辑性
大语言模型通过预测下一个词生成文本,采样策略决定其创造力与连贯性。Min-p采样根据模型置信度动态调整选择阈值,在高不确定性时扩大候选范围,低不确定性时聚焦高概率词,相较Top-k、Top-p等方法,更好平衡了多样性与质量,尤其在高温下仍保持输出稳定,提升生成文本的流畅性与创新性。
283 3
|
5月前
|
人工智能 自然语言处理 自动驾驶
超越文本:多模态大语言模型如何让AI“看世界
超越文本:多模态大语言模型如何让AI“看世界
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
88_多模态提示:图像与文本融合
在人工智能领域的快速发展中,多模态融合已成为突破单一模态限制、实现更全面智能理解的关键技术方向。人类理解世界的方式天然是多模态的——我们同时通过视觉、听觉、语言等多种感官获取信息并进行综合分析。例如,在餐厅点餐时,我们会同时处理菜单上的图片、服务员的介绍和菜品的文字描述,最终做出决策。这种自然的多模态信息整合能力,正是人工智能系统长期以来努力追求的目标。
|
10月前
|
存储 机器学习/深度学习 人工智能
多模态RAG实战指南:完整Python代码实现AI同时理解图片、表格和文本
本文探讨了多模态RAG系统的最优实现方案,通过模态特定处理与后期融合技术,在性能、准确性和复杂度间达成平衡。系统包含文档分割、内容提取、HTML转换、语义分块及向量化存储五大模块,有效保留结构和关系信息。相比传统方法,该方案显著提升了复杂查询的检索精度(+23%),并支持灵活升级。文章还介绍了查询处理机制与优势对比,为构建高效多模态RAG系统提供了实践指导。
2489 0
多模态RAG实战指南:完整Python代码实现AI同时理解图片、表格和文本
|
12月前
|
人工智能 缓存 Apache
Mistral Small 3.1:240亿参数多模态黑马!128k长文本+图像分析,推理速度150token/秒
Mistral Small 3.1 是 Mistral AI 开源的多模态人工智能模型,具备 240 亿参数,支持文本和图像处理,推理速度快,适合多种应用场景。
473 7
Mistral Small 3.1:240亿参数多模态黑马!128k长文本+图像分析,推理速度150token/秒
|
SQL 人工智能 关系型数据库
SQL玩转多模态AI,轻松搞定图片+文本混合搜索
本文介绍了一种通过原生SQL实现多模态智能检索的破局思路,基于PolarDB创新融合AI智能引擎,解决传统AI检索系统数据迁移冗余和工具链割裂的问题。方案优势包括低门槛AI集成、灵活适配多场景、全链路数据安全及按需付费免运维。文章详细描述了部署资源、应用配置及方案验证步骤,并提供清理资源指南以避免额外费用。适合希望快速构建智能搜索应用的开发者参考实践。
|
机器学习/深度学习 人工智能 缓存
SepLLM:开源大模型加速神器!400万Token长文本推理提速50%,告别OOM噩梦
SepLLM 是一个用于加速大语言模型的高效框架,通过压缩段落信息并消除冗余标记,显著提高了模型的推理速度和计算效率,适用于长文本处理和多场景部署。
544 7
SepLLM:开源大模型加速神器!400万Token长文本推理提速50%,告别OOM噩梦
|
11月前
|
人工智能 自然语言处理 图形学
多模态交互3D建模革命!Neural4D 2o:文本+图像一键生成高精度3D内容
Neural4D 2o是DreamTech推出的突破性3D大模型,通过文本、图像、3D和运动数据的联合训练,实现高精度3D生成与智能编辑,为创作者提供全新的多模态交互体验。
784 0
多模态交互3D建模革命!Neural4D 2o:文本+图像一键生成高精度3D内容
|
机器学习/深度学习 人工智能 自然语言处理
Baichuan-Omni-1.5:百川智能开源全模态理解与生成模型,支持文本、图像、音频和视频的多模态输入和输出
Baichuan-Omni-1.5 是百川智能开源的全模态理解模型,支持文本、图像、音频和视频的多模态输入和输出,显著提升多模态交互体验。
1013 22
Baichuan-Omni-1.5:百川智能开源全模态理解与生成模型,支持文本、图像、音频和视频的多模态输入和输出

热门文章

最新文章