معماری شبکه VGG16 - هفت خط کد انجمن پرسش و پاسخ برنامه نویسی

معماری شبکه VGG16

+1 امتیاز

(نام دیگر OxfordNet ) یک معماری شبکه عصبی کانولوشن است که گروه هندسه تصویری از آکسفورد آن را توسعه داده است. این مدل برای برنده شدن در رقابت ILSVRC2014 (چالش شناسایی بصری در مقیاس بزرگ 2014)) در سال 2014 استفاده شد. این مدل هنوز هم به عنوان یک مدل بینایی عالی در نظر گرفته می شود.
این مدل 16 لایه کانولوشن عمق دارد و پس از بارگزاری با وزنهای پیش آموزش دیده ImageNet میتواند به دقت بالای 92.7 درصد برسد.
این مدل با بیش از 14 میلیون تصویر آموزش دیده و قادر است 1000 شی مختلف را تشخیص دهد.

اندازه تصویر ورودی پیش فرض برای مدل 224*224 پیکسل با 3 کانال برای تصویر RGB است. دارای لایه های پیچشی از فیلتر 3x3 با گام 1 و لایه maxpool با فیلتر 2x2 و گام 2 است.

 

vgg16

سوال شده آبان 7, 1400  بوسیله ی Nitro (امتیاز 335)   3 18 30

1 پاسخ

+1 امتیاز
 
بهترین پاسخ
VGG16 یک معماری شبکه عصبی کانولوشن است که توسط گروه هندسه تصویری در دانشگاه آکسفورد توسعه یافته است. نام این معماری VGG16 است زیرا دارای 16 لایه است (13 لایه کانولوشن و 3 لایه کاملاً متصل).
 
در اینجا یک نمای کلی از معماری VGG16 آورده شده است:
 
1- لایه ورودی: یک تصویر با اندازه ثابت را به عنوان ورودی می پذیرد (به عنوان مثال 224x224x3 برای تصاویر RGB).
 
2- لایه های کانولوشن: 13 لایه کانولوشن با فیلترهای کوچک (3×3) و گامی 1. تعداد فیلترها در هر لایه با عمیق تر شدن شبکه افزایش می یابد و به آن امکان می دهد ویژگی های پیچیده تر را یاد بگیرد.
 
3- حداکثر لایه‌های ادغام: 5 لایه حداکثر با لایه‌های کانولوشن درهم می‌آیند تا وضوح فضایی نقشه‌های ویژگی کاهش یابد و میدان دریافتی افزایش یابد.
 
4-لایه های کاملا متصل: 3 لایه کاملا متصل که خروجی آخرین لایه کانولوشن را به خروجی نهایی شبکه متصل می کند.
 
5- لایه خروجی: یک لایه کاملاً متصل نهایی که احتمالات پیش‌بینی‌شده برای کلاس‌های مسئله طبقه‌بندی را خروجی می‌دهد.
 
معماری VGG16 در بسیاری از کارهای طبقه بندی تصاویر موفق بوده و به طور گسترده به عنوان معیاری برای معماری های دیگر استفاده شده است.
پاسخ داده شده بهمن 11, 1401 بوسیله ی farnoosh (امتیاز 8,362)   20 44 59
انتخاب شد بهمن 21, 1401 بوسیله ی Nitro
...