بایاس و واریانس دو مفهوم در یادگیری ماشین هستند که خطاهایی را که ممکن است در پیشبینیهای یک مدل رخ دهد، توصیف میکنند. بایاس به خطایی اشاره دارد که با تقریب یک مسئله دنیای واقعی، که می تواند پیچیده باشد، توسط یک مدل ساده شده، معرفی می شود. یک مدل با سوگیری بالا توجه کمی به داده های آموزشی دارد و مشکل را بیش از حد ساده می کند. این منجر به عملکرد ضعیف در دادههای آموزشی و خطای زیاد در دادههای غیرقابل مشاهده میشود که به نام بیشبرازش نیز شناخته میشود.
از سوی دیگر، واریانس به خطایی اشاره دارد که با تغییرپذیری پیشبینیهای یک مدل برای دادههای آموزشی مختلف ایجاد میشود. مدلی با واریانس بالا توجه زیادی به داده های آموزشی دارد و به خوبی به داده های دیده نشده جدید تعمیم نمی یابد. این منجر به عملکرد خوب در دادههای آموزشی میشود، اما عملکرد ضعیف در دادههای دیده نشده، همچنین به عنوان underfitting شناخته میشود.
به طور کلی، یک مدل یادگیری ماشین خوب باید دارای تعادلی بین سوگیری و واریانس باشد که به آن مبادله بایاس واریانس می گویند. مدلی که بیش از حد پیچیده باشد واریانس بالا و بایاس کم خواهد داشت، در حالی که مدلی که خیلی ساده است واریانس کم و بایاس بالا خواهد داشت. یافتن تعادل مناسب بین سوگیری و واریانس بخش مهمی از فرآیند انتخاب مدل است.