در برخی از موارد تو پروسه آموزش هر چقدر به سمت لایه های پایین می ریم گرادیان کوچک و کوچک تر میشه بطورئیکه وزن های در لایه های پایین عملاً بروز رسانی نمیشه این پدیده باعث میشه که شبکه نتونه همگرا بشه.
در واقع باید کاری که میزان واریانس در ورودی و خروجی لایه ها یکسان باشه جهت جلوگیری از پدیده vanishing gradientsاز مقادیر تصادفی با توزیع نرمال استفاده می کنیم