اخیرا مقالهای جالب در زمینه image captioning منتشر شده که بلوک دیاگرام اون رو در بالا میتونید ببینید. روش پیشنهادی شامل دو بخش CNN و Transformer هست.
نکته جالب کار اینجاست که مولف مقاله میگه:
Language is all you need!
اونها این معماری رو با 100 هزار نمونه آموزش دادن و نتیجه این شده که شبکه در 6 تسک کامپیوتر ویژن، دقتش با پریترین imagenet برابری میکنه!
بله، یعنی وزنهای پریترین این روش با وجود آموزش روی 100 هزار نمونه دستکمی از وزنهای پریترین imagenet با حداقل 1 میلیون نمونه نداره.