达摩院联合高德发布业界首个多模态地理文本预训练模型MGeo,并在ModelScope社区开源!

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 达摩院联合高德发布业界首个多模态地理文本预训练模型MGeo,并在ModelScope社区开源!

2月21日,达摩院联合高德发布业界首个多模态地理文本预训练模型MGeo,其可充分理解地图上的每一个元素,并精准完成地图搜索、地理位置分析等任务。MGeo是阿里通义模型系列旗下的新模型,目前已在魔搭社区开放(https://modelscope.cn/models/damo/mgeo_backbone_chinese_base/summary)。

地理文本信息处理是导航软件、物流以及零售等行业的基础。然而,目前传统地理文本AI算法对于地理信息的理解仍局限在经纬度以及经纬度的远近上,无法像人类一样理解地图上的元素,该方法难以精准表示景区、园区、商业街等大型地理实体的具体形状,以及不同地图元素之间复杂的临近、包含等关系。

针对上述问题,达摩院联合高德提出地理文本多模态模型,使用对抗MLM预训练、句子对预训练及多模态预训练三大技术,并用多任务预训练将这三种预训练任务进行动态组合,最终训练得到适合于多类地理文本任务的预训练底座MGeo。该模型拥有丰富的地理知识,能像人类一样跨模态理解地图与地理文本的信息,相关研究成果已被EMNLP、AAAI等国际顶级会议收录。

image.png

MGeo像人类一样具备跨模态理解能力,可识别地图元素之间的位置关系

据悉,高德基于MGeo研发了全新的模型,不仅显著提高泛化语义的表示能力,还可准确识别不同地图元素之间的位置关系,有效提升用户的搜索体验。例如,当用户在杭州输入“星光荟对面中国美术”时,MGeo能根据位置关系准确定位到中国美术学院象山校区,而传统BERT模型则给出了错误定位结果;此外,在用户书写有误的情况下,该模型也能匹配正确的结果。该能力已逐步在高德灰度上线。

image.png

在四平市搜索“佣兵小区”,高德可准确定位“拥军社区”

达摩院语言技术实验室负责人黄非表示:“地理信息与AI的融合已是业界公认的趋势,但传统AI比如文本处理在地理信息应用场景中有一定局限性 ,我们需要让AI学习人类对于空间信息的理解范式,例如,通过地图中的地理实体以及他们之间的关系来判定地理文本中各个元素的归属以及指向。”

作为最早投入预训练语言模型研究的团队之一,达摩院研发了阿里通义AliceMind,该体系涵盖预训练模型、多语言预训练模型、超大中文预训练模型等,具备阅读理解、机器翻译、对话问答、文档处理等多种能力,该模型体系已斩获36项国际赛事冠军。

相关文章
|
1月前
|
人工智能 自然语言处理 IDE
模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验
通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。
448 109
|
24天前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
141 2
|
24天前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
792 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
1月前
|
机器学习/深度学习 数据采集 人工智能
通义实验室Mobile-Agent-v3开源,全平台SOTA的GUI智能体,支持手机电脑等多平台交互
近日,通义实验室MobileAgent团队正式开源全新图形界面交互基础模型 GUI-Owl,并同步推出支持多智能体协同的自动化框架 Mobile-Agent-v3。该模型基于Qwen2.5-VL打造,在手机端与电脑端共8个GUI任务榜单中全面刷新开源模型性能纪录,达成全平台SOTA。
397 2
|
1月前
|
人工智能 Java 开发者
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
JManus是阿里开源的Java版OpenManus,基于Spring AI Alibaba框架,助力Java开发者便捷应用AI技术。支持多Agent框架、网页配置、MCP协议及PLAN-ACT模式,可集成多模型,适配阿里云百炼平台与本地ollama。提供Docker与源码部署方式,具备无限上下文处理能力,适用于复杂AI场景。当前仍在完善模型配置等功能,欢迎参与开源共建。
937 58
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
|
21天前
|
人工智能 缓存 自然语言处理
Java与多模态AI:构建支持文本、图像和音频的智能应用
随着大模型从单一文本处理向多模态能力演进,现代AI应用需要同时处理文本、图像、音频等多种信息形式。本文深入探讨如何在Java生态中构建支持多模态AI能力的智能应用。我们将完整展示集成视觉模型、语音模型和语言模型的实践方案,涵盖从文件预处理、多模态推理到结果融合的全流程,为Java开发者打开通往下一代多模态AI应用的大门。
194 41
|
26天前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
286 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
22天前
|
自然语言处理 安全
Min-p采样:通过动态调整截断阈值让大模型文本生成兼顾创造力与逻辑性
大语言模型通过预测下一个词生成文本,采样策略决定其创造力与连贯性。Min-p采样根据模型置信度动态调整选择阈值,在高不确定性时扩大候选范围,低不确定性时聚焦高概率词,相较Top-k、Top-p等方法,更好平衡了多样性与质量,尤其在高温下仍保持输出稳定,提升生成文本的流畅性与创新性。
87 3
|
23天前
|
自然语言处理 机器人 图形学
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型
腾讯混元图像3.0,真的来了——开源,免费开放使用。 正式介绍一下:混元图像3.0(HunyuanImage 3.0),是首个工业级原生多模态生图模型,参数规模80B,也是目前测评效果最好、参数量最大的开源生图模型,效果可对…
412 2
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型