[1]Radford A, Kim J W, Hallacy C, et al. Learning transferable visual models from natural language supervision[C]//International conference on machine learning. PMLR, 2021: 8748-8763.
[2] Zhang R, Fang R, Zhang W, et al. Tip-adapter: Training-free CLIP-adapter for better vision-language modeling[J]. arXiv preprint arXiv:2111.03930, 2021.
[3] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778.
[4]Tan M, Le Q. Efficientnet: Rethinking model scaling for convolutional neural networks[C]//International conference on machine learning. PMLR, 2019: 6105-6114.
jittor-怎么才能涨分啊-开放域少样本视觉分类赛题
1环境配置与目录结构
1.1 环境配置
1.2 目录结构
2 方法的详细思路
2.1 训练阶段
2.1.1 训练集图像粗分类
2.1.2 提取每个类别的4张训练图像
2.1.3 训练Caltech分类模型
2.1.4 训练Food分类模型
2.2 测试图像预处理阶段
2.2.1 测试图像粗分类
2.2.2 Thu-dog类别预处理
2.3 推理阶段
2.3.1 推理Food类别
2.3.2 推理Animal类别
2.3.3 推理Caltech类别
2.3.4 推理Thudog类别
2.3.5 推理Car类别
2.3.6 汇总推理结果
4 训练
5 测试
6 使用的预训练模型种类
OpenAI官方预训练的ViT-B/32版本的CLIP模型:144.28MB OpenAI官方预训练的ResNet101版本的CLIP模型:114.25MB Clatech类别的ResNet50模型:22.65MB Clatech类别的adapter模型:0.17MB Food类别在CLIP视觉编码器基础上微调后的模型:84.08MB Food类别的adapter模型:0.25MB efficientnet-B6模型:41.26MB
最终参数量之和:406.94MB 最终得分:0.8063
8 联系方式
qq:205992690 手机:18617521225
9 开源协议
本项目的发布受 Apache License Version 2.0 许可认证。
参考文献