GeoAgent: Learning to Geolocate Everywhere with Reinforced Geographic Characteristic

Modi Jin¹ · Yiming Zhang¹ · Boyuan Sun¹ · Dingwen Zhang² · Mingming Cheng¹ · Qibin Hou^1†

¹南开大学 VCIP ² 西北工业大学自动化学院

†通讯作者

English | 简体中文

teaser

GeoAgent 是一个面向图像地理定位的视觉语言模型，能够以接近人类的推理方式得出细粒度地址结论。基于 Qwen2.5-VL 构建，在多个地理粒度（城市、区域、国家、大陆）上表现优异，同时生成可解释的思维链推理。

GeoAgent 的主要贡献包括：

地理相似度奖励：结合空间相似度与语义相似度，处理自然语言与地理位置之间的多对一映射；
一致性奖励：通过一致性智能体评估，确保推理链的完整性与一致性。模型在 GeoSeek 上训练，这是一个包含人类标注思维链和去偏采样的新型地理定位数据集。

我们同时提出 GeoSeek 数据集，包含以下组成部分：

GeoSeek-CoT（10k）：由地理专家与专业地理定位游戏玩家标注的高质量思维链数据。每条数据包含街景图像、GPS 坐标、三级位置标签（国家、城市、具体位置）以及人类推理过程，并统一为标准化的 CoT 格式。
GeoSeek-Loc（20k）：用于基于强化学习的微调，采用分层采样策略，综合考虑人口、国土面积和公路里程以降低地理偏差。
GeoSeek-Val（3k）：验证基准，包含可定位性评分和场景类别（人造建筑、自然景观等），用于模型评估。

新闻

2026-02-17: 🚀 GeoAgent 入选 HuggingFace Daily Papers 当日论文 第 6 名。

2026-02-16: 🔥 GeoAgent 论文发布。
2026-02-13: 🔥 GeoAgent 代码开源。
2026-02-13: 🔥 GeoAgent 模型与 GeoSeek 数据集发布。

TODO

训练数据集下载与处理说明
GeoAgent 的 Jittor 实现
发布视频演示

模型架构

architecture

安装

环境要求

Python>=3.9
torch==2.6.0
torchvision==0.21.0
torchaudio==2.6.0
ms-swift>=3.8.0
xformers==0.0.27.post2
deepspeed==0.15.0
cuda==12.4

安装步骤

git clone https://github.com/HVision-NKU/GeoAgent.git
cd GeoAgent

conda create -n GeoAgent python=3.9
conda activate GeoAgent
pip install -r requirements.txt

使用

获取 GeoAgent 模型

从 Hugging Face 下载预训练权重：

mkdir checkpoints
cd checkpoints

# 可选：使用 Hugging Face 镜像
export HF_ENDPOINT=https://hf-mirror.com

huggingface-cli download --resume-download ghost233lism/GeoAgent --local-dir ghost233lism/GeoAgent

快速推理

infer/ 目录提供单张/批量图片推理脚本，详见 infer/README_zh。

训练

bash tools/train_sft.sh 
bash tools/train_grpo.sh

引用

@article{jin2026geoagent,
  title={GeoAgent: Learning to Geolocate Everywhere with Reinforced Geographic Characteristics},
  author={Jin, Modi and Zhang, Yiming and Sun, Boyuan and Zhang, Dingwen and Cheng, Ming-Ming and Hou, Qibin},
  journal={arXiv preprint arXiv:2602.12617},
  year={2026}
}

许可证

本代码采用 Creative Commons Attribution-NonCommercial 4.0 International 许可，仅供非商业使用。

商业使用需事先获得正式授权。

联系方式

技术问题请联系：jin_modi[AT]mail.nankai.edu.cn

商业授权请联系：andrewhoux[AT]gmail.com

致谢

我们衷心感谢 Yue Zhang、H.M.、Haowen He、Yuke Jun 以及地理学领域的其他专家和优秀地理定位游戏玩家，感谢他们在 GeoSeek 数据集构建过程中提供的宝贵指导、提示词设计建议和数据支持。

我们还要感谢 Zhixiang Wang、Chilin Chen、Jincheng Shi、Liupeng Zhang、Yuan Gu、Yanghang Shao、Jinhua Zhang、Jiachen Zhu、Gucheng Qiuyue、Qingyang Guo、Jingchen Yang、Weilong Kong、Xinyuan Li 以及 Dawei Xu 在提供高质量推理过程数据方面的杰出贡献。