شرح تصاویر در یادگیری عمیق

اخیرا مقاله‌ای جالب در زمینه image captioning منتشر شده که بلوک دیاگرام اون رو در بالا می‌تونید ببینید. روش پیشنهادی شامل دو بخش CNN و Transformer هست.

نکته جالب کار اینجاست که مولف مقاله میگه:

Language is all you need!

اونها این معماری رو با 100 هزار نمونه آموزش دادن و نتیجه این شده که شبکه در 6 تسک کامپیوتر ویژن، دقتش با پری‌ترین imagenet برابری میکنه!

بله، یعنی وزن‌های پری‌ترین این روش با وجود آموزش روی 100 هزار نمونه دست‌کمی از وزن‌های پری‌ترین imagenet با حداقل 1 میلیون نمونه نداره.

مقاله کدپایتورچ

سوال شده تیر 1, 1399 بوسیله ی احمد دوست دار (امتیاز 24)

1 پاسخ

سلام دوست عزیز خیلی جالب هست

اگر برات مقدور هست کمی بیشتر توضیح بده. مثلا ترانسفورمر داره چی کار می کنه و شبکش چطور هست؟

دو قسمت بعد از resnet و قبل ترانسفورمر دارند چی کار می کنند؟

پ. ن: اگر در مورد ensemble learning هم اطلاعی داری ممنون میشم کمی توضیح بدی.

پاسخ داده شده تیر 2, 1399 بوسیله ی pilapila (امتیاز 232)

وبـــلاگ هــفت خــط کــد

شرح تصاویر در یادگیری عمیق

لطفا وارد شوید یا ثبت نام کنید برای اضافه کردن دیدگاه .

پاسخ شما

1 پاسخ

لطفا وارد شوید یا ثبت نام کنید برای اضافه کردن دیدگاه .

سوالات مرتبط

وبـــلاگ هــفت خــط کــد

شرح تصاویر در یادگیری عمیق

لطفا وارد شوید یا ثبت نام کنید برای اضافه کردن دیدگاه .

پاسخ شما

1 پاسخ

لطفا وارد شوید یا ثبت نام کنید برای اضافه کردن دیدگاه .