stratified split در یادگیری ماشین

سلام

stratified split چه فرقی با split معمولی دیتا دو ماشین لرنیگ داره من دیتاست را به صورت رندوم شافل می کنم بعدش به دسته train,val,test تقسیم می کنم آیا باید کار دیگری هم انجام داد؟

سوال شده تیر 21, 1402 بوسیله ی Lori3 (امتیاز 857)

1 پاسخ

بهترین پاسخ

سلام.

در حالت عادی، شما ممکن است داده‌های خود را به صورت تصادفی به دو بخش تقسیم کنید. اما در بعضی از موارد، ممکن است تقسیم داده به صورت تصادفی باعث شود تعداد داده‌های هر دسته متفاوت باشد و این می‌تواند به نتایج غلط در آموزش و ارزیابی مدل شما منجر شود.

در اینجا مفهوم تقسیم داده با رویکرد Stratified Split که اغلب در مواردی که دارای برچسب دار هستند استفاده می‌شود، بررسی می‌شود. تقسیم داده با رویکرد Stratified Split، به این معنی است که داده‌ها به صورت تصادفی به دو بخش تقسیم می‌شوند، اما در هر بخش، نسبت هر برچسب به صورت دقیق حفظ می‌شود.

به عنوان مثال، اگر ۷۰٪ داده‌های شما دارای برچسب A و ۳۰٪ دارای برچسب B باشند، در تقسیم داده با رویکرد Stratified Split نسبت برچسب A و B در هر بخش حفظ خواهد شد. این بدان معنی است که در هر بخش، ۷۰٪ از داده‌ها دارای برچسب A و ۳۰٪ دارای برچسب B خواهند بود.

استفاده از روش Stratified Split بهترین نتیجه را در مواردی که داده‌های شما دارای برچسب هستند، به دست می‌دهد. به همین دلیل، در مسائل دارای برچسب، بهتر است از روش Stratified Split استفاده کنید تا نتایج بهتری در آموزش و ارزیابی مدل خود داشته باشید.

پاسخ داده شده تیر 22, 1402 بوسیله ی farshid_siyah (امتیاز 1,463)
انتخاب شد شهریور 8, 1402 بوسیله ی مصطفی ساتکی

وبـــلاگ هــفت خــط کــد

stratified split در یادگیری ماشین

لطفا وارد شوید یا ثبت نام کنید برای اضافه کردن دیدگاه .

پاسخ شما

1 پاسخ

لطفا وارد شوید یا ثبت نام کنید برای اضافه کردن دیدگاه .

سوالات مرتبط

وبـــلاگ هــفت خــط کــد

stratified split در یادگیری ماشین

لطفا وارد شوید یا ثبت نام کنید برای اضافه کردن دیدگاه .

پاسخ شما

1 پاسخ

لطفا وارد شوید یا ثبت نام کنید برای اضافه کردن دیدگاه .