سلام.
در حالت عادی، شما ممکن است دادههای خود را به صورت تصادفی به دو بخش تقسیم کنید. اما در بعضی از موارد، ممکن است تقسیم داده به صورت تصادفی باعث شود تعداد دادههای هر دسته متفاوت باشد و این میتواند به نتایج غلط در آموزش و ارزیابی مدل شما منجر شود.
در اینجا مفهوم تقسیم داده با رویکرد Stratified Split که اغلب در مواردی که دارای برچسب دار هستند استفاده میشود، بررسی میشود. تقسیم داده با رویکرد Stratified Split، به این معنی است که دادهها به صورت تصادفی به دو بخش تقسیم میشوند، اما در هر بخش، نسبت هر برچسب به صورت دقیق حفظ میشود.
به عنوان مثال، اگر ۷۰٪ دادههای شما دارای برچسب A و ۳۰٪ دارای برچسب B باشند، در تقسیم داده با رویکرد Stratified Split نسبت برچسب A و B در هر بخش حفظ خواهد شد. این بدان معنی است که در هر بخش، ۷۰٪ از دادهها دارای برچسب A و ۳۰٪ دارای برچسب B خواهند بود.
استفاده از روش Stratified Split بهترین نتیجه را در مواردی که دادههای شما دارای برچسب هستند، به دست میدهد. به همین دلیل، در مسائل دارای برچسب، بهتر است از روش Stratified Split استفاده کنید تا نتایج بهتری در آموزش و ارزیابی مدل خود داشته باشید.