AddressCLIP：一张照片就能准确定位！中科院联合阿里云推出街道级图像地理定位模型

2025-01-07 47

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

视觉智能开放平台，图像资源包5000点

视觉智能开放平台，分割抠图1万点

视觉智能开放平台，视频资源包5000点

简介： AddressCLIP 是由中科院和阿里云联合开发的端到端图像地理定位模型，通过图像-文本对齐和地理匹配技术，实现街道级精度的定位，适用于城市管理、社交媒体、旅游导航等场景。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日分享大模型与 AI 领域的最新开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

正文（附运行示例）

公众号: 蚝油菜花 - AddressCLIP

AddressCLIP 是由中科院自动化所和阿里云联合开发的端到端图像地理定位模型。它基于 CLIP 技术，能够通过一张照片实现街道级精度的定位，直接预测图像拍摄地点的可读文本地址。

与传统的图像地理定位方法不同，AddressCLIP 不依赖于复杂的 GPS 系统，而是通过图像-文本对齐和图像-地理匹配技术，将图像特征与地理空间距离相结合。模型在多个数据集上的表现优于现有的多模态模型，适用于社交媒体个性化推荐、多模态问答等场景。

首先，确保安装了以下依赖：

python == 3.8
clip == 1.0
torch == 2.1.1
torchvision == 0.16.1
matplotlib
scikit-image
opencv

下载并解压 Pittsburgh-250k 数据集，将其放置在 ./datasets/Pitts-IAL/ 文件夹中。

训练和评估代码即将发布，请关注项目 GitHub 仓库获取最新更新。

🥦 微信公众号｜搜一搜：蚝油菜花 🥦