目录

GeoAgent: Learning to Geolocate Everywhere with Reinforced Geographic Characteristic

Modi Jin1 · Yiming Zhang1 · Boyuan Sun1 · Dingwen Zhang2 · Mingming Cheng1 · Qibin Hou1†

1南开大学 VCIP 2 西北工业大学 自动化学院

†通讯作者

English | 简体中文

Paper PDF Project Page Demo

teaser

GeoAgent 是一个面向图像地理定位的视觉语言模型,能够以接近人类的推理方式得出细粒度地址结论。基于 Qwen2.5-VL 构建,在多个地理粒度(城市、区域、国家、大陆)上表现优异,同时生成可解释的思维链推理。

GeoAgent 的主要贡献包括:

  1. 地理相似度奖励:结合空间相似度与语义相似度,处理自然语言与地理位置之间的多对一映射;
  2. 一致性奖励:通过一致性智能体评估,确保推理链的完整性与一致性。模型在 GeoSeek 上训练,这是一个包含人类标注思维链和去偏采样的新型地理定位数据集。

我们同时提出 GeoSeek 数据集,包含以下组成部分:

  • GeoSeek-CoT(10k):由地理专家与专业地理定位游戏玩家标注的高质量思维链数据。每条数据包含街景图像、GPS 坐标、三级位置标签(国家、城市、具体位置)以及人类推理过程,并统一为标准化的 CoT 格式。
  • GeoSeek-Loc(20k):用于基于强化学习的微调,采用分层采样策略,综合考虑人口、国土面积和公路里程以降低地理偏差。
  • GeoSeek-Val(3k):验证基准,包含可定位性评分和场景类别(人造建筑、自然景观等),用于模型评估。

新闻

2026-02-17: 🚀 GeoAgent 入选 HuggingFace Daily Papers 当日论文 第 6 名

  • 2026-02-16: 🔥 GeoAgent 论文发布。
  • 2026-02-13: 🔥 GeoAgent 代码开源。
  • 2026-02-13: 🔥 GeoAgent 模型与 GeoSeek 数据集发布。

TODO

  • 训练数据集下载与处理说明
  • GeoAgent 的 Jittor 实现
  • 发布视频演示

模型架构

architecture

安装

环境要求

  • Python>=3.9
  • torch==2.6.0
  • torchvision==0.21.0
  • torchaudio==2.6.0
  • ms-swift>=3.8.0
  • xformers==0.0.27.post2
  • deepspeed==0.15.0
  • cuda==12.4

安装步骤

git clone https://github.com/HVision-NKU/GeoAgent.git
cd GeoAgent

conda create -n GeoAgent python=3.9
conda activate GeoAgent
pip install -r requirements.txt

使用

获取 GeoAgent 模型

Hugging Face 下载预训练权重:

mkdir checkpoints
cd checkpoints

# 可选:使用 Hugging Face 镜像
export HF_ENDPOINT=https://hf-mirror.com

huggingface-cli download --resume-download ghost233lism/GeoAgent --local-dir ghost233lism/GeoAgent

快速推理

infer/ 目录提供单张/批量图片推理脚本,详见 infer/README_zh

训练

bash tools/train_sft.sh 
bash tools/train_grpo.sh

引用

@article{jin2026geoagent,
  title={GeoAgent: Learning to Geolocate Everywhere with Reinforced Geographic Characteristics},
  author={Jin, Modi and Zhang, Yiming and Sun, Boyuan and Zhang, Dingwen and Cheng, Ming-Ming and Hou, Qibin},
  journal={arXiv preprint arXiv:2602.12617},
  year={2026}
}

许可证

本代码采用 Creative Commons Attribution-NonCommercial 4.0 International 许可,仅供非商业使用。

商业使用需事先获得正式授权。

联系方式

技术问题请联系:jin_modi[AT]mail.nankai.edu.cn

商业授权请联系:andrewhoux[AT]gmail.com

致谢

我们衷心感谢 Yue ZhangH.M.Haowen HeYuke Jun 以及地理学领域的其他专家和优秀地理定位游戏玩家,感谢他们在 GeoSeek 数据集构建过程中提供的宝贵指导、提示词设计建议和数据支持。

我们还要感谢 Zhixiang WangChilin ChenJincheng ShiLiupeng ZhangYuan GuYanghang ShaoJinhua ZhangJiachen ZhuGucheng QiuyueQingyang GuoJingchen YangWeilong KongXinyuan Li 以及 Dawei Xu 在提供高质量推理过程数据方面的杰出贡献。

邀请码
    Gitlink(确实开源)
  • 加入我们
  • 官网邮箱:gitlink@ccf.org.cn
  • QQ群
  • QQ群
  • 公众号
  • 公众号

版权所有:中国计算机学会技术支持:开源发展技术委员会
京ICP备13000930号-9 京公网安备 11010802032778号