از پیکسل‌ها تا عملکردهای رابط کاربری - هفت خط کد انجمن پرسش و پاسخ برنامه نویسی

از پیکسل‌ها تا عملکردهای رابط کاربری

0 امتیاز
عنوان مقاله : From Pixels to UI Actions: Learning to Follow Instructions via Graphical User Interfaces
لینک مقاله : https://arxiv.org/pdf/2306.00245.pdf
 
یادگیری پیروی از دستورات از طریق رابط کاربری گرافیکی توسط پژوهشگران هوش مصنوعی گوگل، رویکرد جدیدی برای آموزش عامل‌ها را معرفی می‌کند که می‌توانند با پیروی از دستورات از طریق رابط کاربری گرافیکی (GUI) وظایف را تکمیل کنند.
 
رویکرد پیشنهادی به نام PIX2ACT از یک مدل تصویر به متن مبتنی بر Transformer استفاده می‌کند تا خروجی‌هایی را که مربوط به عملکردهای ماوس و صفحه کلید هستند بر اساس تصاویر پیکسلی از GUI ها ایجاد کند. این مدل بر روی یک مجموعه داده از تصاویر صفحه نمایش و دستورالعمل‌های مربوطه آموزش داده شده است و قادر است به یادگیری پیروی از دستورالعمل‌ها از منابع مختلف، از جمله برنامه‌های وب، برنامه‌های تلفن همراه و برنامه‌های رایانه شخصی بپردازد.
 
نویسندگان مقاله PIX2ACT را بر روی یک بنچمارک از وظایف پیروی از دستورات مبتنی بر GUI ارزیابی کرده‌اند و نشان داده‌اند که این رویکرد قادر است برتری نسبت به کارگران انبوه انسانی در این بنچمارک را داشته باشد. آنها همچنین نشان داده‌اند که PIX2ACT قادر به تعمیم‌پذیری به وظایف و برنامه‌های جدیدی است که بر روی آن آموزش داده نشده‌اند.
 
نویسندگان مقاله اعتقاد دارند که PIX2ACT می‌تواند برای ایجاد عامل‌هایی که می‌توانند وظایف خسته کننده را خودکار سازی کنند، بهبود دسترسی‌پذیری و گسترش کاربردی برای دستیاران دیجیتال استفاده شود. آنها همچنین معتقدند که PIX2ACT می‌تواند برای توسعه ابزارهای آموزشی جدیدی که به افراد یاد می‌دهند چگونه از GUI ها استفاده کنند، استفاده شود.
 
اینجا چند تا از ویژگی های  مقاله آورده شده است:
 
* PIX2ACT رویکرد جدیدی برای آموزش عامل‌ها است که می‌توانند با پیروی از دستورالعمل‌ها از طریق رابط کاربری گرافیکی وظایف را تکمیل کنند.
* PIX2ACT از یک مدل تصویر به متن مبتنی بر Transformer استفاده می‌کند تا خروجی‌هایی را مربوط به عملکردهای ماوس و صفحه کلید ایجاد کند.
* PIX2ACT قادر است به یادگیری پیروی از دستورالعمل‌ها از منابع مختلف، از جمله برنامه‌های وب، برنامه‌های تلفن همراه و برنامه‌های رایانه شخصی بپردازد.
* PIX2ACT قادر است برتری نسبت به کارگران انبوه انسانی در بنچمارک وظایف پیروی از دستورات مبتنی بر GUI را داشته باشد.
* PIX2ACT می‌تواند برای خودکارسازی وظایف خسته کننده، بهبود دسترسی‌پذیری و گسترش کاربردی دستیاران دیجیتال استفاده شود.
 
 
سوال شده تیر 2, 1402  بوسیله ی Nitro (امتیاز 335)   3 18 30
ویرایش شده تیر 2, 1402 بوسیله ی Nitro

پاسخ شما

اسم شما برای نمایش (دلخواه):
از ایمیل شما فقط برای ارسال اطلاعات بالا استفاده میشود.
تایید نامه ضد اسپم:

برای جلوگیری از این تایید در آینده, لطفا وارد شده یا ثبت نام کنید.
...