@article{jin2026geoagent,
title={GeoAgent: Learning to Geolocate Everywhere with Reinforced Geographic Characteristics},
author={Jin, Modi and Zhang, Yiming and Sun, Boyuan and Zhang, Dingwen and Cheng, Ming-Ming and Hou, Qibin},
journal={arXiv preprint arXiv:2602.12617},
year={2026}
}
GeoAgent: Learning to Geolocate Everywhere with Reinforced Geographic Characteristic
Modi Jin1 · Yiming Zhang1 · Boyuan Sun1 · Dingwen Zhang2 · Mingming Cheng1 · Qibin Hou1†
1南开大学 VCIP 2 西北工业大学 自动化学院
†通讯作者
English | 简体中文
GeoAgent 是一个面向图像地理定位的视觉语言模型,能够以接近人类的推理方式得出细粒度地址结论。基于 Qwen2.5-VL 构建,在多个地理粒度(城市、区域、国家、大陆)上表现优异,同时生成可解释的思维链推理。
GeoAgent 的主要贡献包括:
我们同时提出 GeoSeek 数据集,包含以下组成部分:
新闻
2026-02-17: 🚀 GeoAgent 入选 HuggingFace Daily Papers 当日论文 第 6 名。
TODO
模型架构
安装
环境要求
安装步骤
使用
获取 GeoAgent 模型
从 Hugging Face 下载预训练权重:
快速推理
infer/目录提供单张/批量图片推理脚本,详见 infer/README_zh。训练
引用
许可证
本代码采用 Creative Commons Attribution-NonCommercial 4.0 International 许可,仅供非商业使用。
商业使用需事先获得正式授权。
联系方式
技术问题请联系:jin_modi[AT]mail.nankai.edu.cn
商业授权请联系:andrewhoux[AT]gmail.com
致谢
我们衷心感谢 Yue Zhang、H.M.、Haowen He、Yuke Jun 以及地理学领域的其他专家和优秀地理定位游戏玩家,感谢他们在 GeoSeek 数据集构建过程中提供的宝贵指导、提示词设计建议和数据支持。
我们还要感谢 Zhixiang Wang、Chilin Chen、Jincheng Shi、Liupeng Zhang、Yuan Gu、Yanghang Shao、Jinhua Zhang、Jiachen Zhu、Gucheng Qiuyue、Qingyang Guo、Jingchen Yang、Weilong Kong、Xinyuan Li 以及 Dawei Xu 在提供高质量推理过程数据方面的杰出贡献。