تعصب عجیب «چت جی‌پی‌تی» دانشمندان را نگران کرد

تاریخ انتشار: ۱۵:۲۷ - ۲۴ آبان ۱۴۰۲

مطالعات تأیید می‌کنند که هوش مصنوعی چت جی‌پی‌تی که محبوب‌ترین مدل زبانی هوش مصنوعی در جهان است در پاسخ‌های خود دارای تعصب است.

به گزارش ایسنا، براساس مطالعه محققان دانشگاه کالیفرنیا، برکلی، چت جی‌پی‌تی متعلق به شرکت اُپن ای‌آی (OpenAI) که در حال حاضر محبوب‌ترین مدل زبان مبتنی بر هوش مصنوعی در جهان به حساب می‌آید، در اطلاعاتی که ارائه می‌کند بی‌طرف نیست. مقاله آن‌ها نشان می‌دهد که از آنجایی که چت جی‌پی‌تی از حجم عظیمی از مقالات دارای حق نشر به عنوان مجموعه داده‌ای که بر اساس آن آموزش یافته و پاسخ‌های خود را پایه‌گذاری می‌کند، استفاده می‌کند، سوگیری ذاتی در آن داده‌ها به نتایج چت جی‌پی‌تی نیز راه پیدا می‌کند.

محققان در مطالعه خود نوشتند که مدل‌های اُپن ای‌آی تعداد زیادی از انواع مختلف مقالات دارای حق نشر را در خود جای داده‌اند و این فرآیند تحت تاثیر تعداد دفعاتی است که قسمت‌های آن مقالات در فضای وب ظاهر می‌شوند. به این ترتیب، اطلاعات مرتبط با مقالاتی که در فرآیند آموزش بیشتر مورد استفاده قرار گرفته‌اند، نسبت به اطلاعاتی که به طور مکرر مورد استفاده قرار نگرفته‌اند، بیشتر در پاسخ‌ها گنجانده می‌شوند.

همانطور که محققان در مورد این مطالعه توضیح دادند، دقت چنین مدل‌هایی به شدت به فرکانس مشاهده اطلاعات در داده‌های آموزشی وابسته است و این، توانایی آن‌ها در تعمیم را زیر سوال می‌برد.

یکی از نمونه‌های آن این است که کتاب‌های علمی تخیلی و فانتزی ظاهرا در فهرست کتاب‌هایی که برای آموزش استفاده می‌شوند بیش از حد استفاده شده‌اند. این یک «سوگیری درونی» ایجاد می‌کند تا آنجا که می‌توان گفت از چت جی‌پی‌تی چه نوع پاسخ‌هایی را می‌توان انتظار داشت.

این مطالعه اشاره می‌کند که کتاب‌هایی که در فهرست داده‌های آموزشی چت جی‌پی‌تی به طور غالب حضور داشته‌اند، عناوین محبوبی مانند هری پاتر، ۱۹۸۴، ارباب حلقه‌ها، بازی‌های گرسنگی، راهنمای مسافران مجانی کهکشان، فارنهایت ۴۵۱، بازی تاج و تخت، و تپه‌های شنی را شامل می‌شوند.

آنچه در داده‌های آموزشی پیدا نمی‌کنید

در حالی که چت جی‌پی‌تی موارد زیادی در مورد مقالات موجود در حوزه عمومی می‌داند، آنچه در داده‌های آموزشی نمی‌بینید، عناوین کمتر شناخته شده‌ای مانند به اصطلاح ادبیات جهانی آنگلوافون هستند. این‌ها کتاب‌هایی هستند که برای و توسط مخاطبانی به جز کشور‌های اصلی انگلیسی زبان نوشته شده‌اند. چنین مناطقی شامل آفریقا، آسیا و کارائیب می‌شود.

برای اینکه نتایج تولید شده توسط چت جی‌پی‌تی معتبرتر باشد، محققان از مدل‌های هوش مصنوعی می‌خواهند که شرکت اُپن ای‌آی در مورد داده‌های مورد استفاده در آموزش مدل‌هایش شفاف‌تر باشد. به گفته آن‌ها دانستن اینکه یک مدل از روی چه کتاب‌هایی آموزش دیده است، برای ارزیابی چنین منابع سوگیرانه‌ای بسیار مهم است.

یکی از محققان دانشگاه برکلی در توییتی به این سوگیری بالقوه پرداخت و نوشت که با توجه به ترجیح آن‌ها نسبت به منابع علمی تخیلی و فانتزی، برنامه‌های محبوب هوش مصنوعی احتمالا معیار‌های اندازه‌گیری کاملی برای عملکرد مدل‌ها نیستند و ما باید به این فکر کنیم که تجربیات روایت چه کسی در این مدل‌ها کدگذاری شده است و چگونه بر سایر رفتار‌ها تاثیر می‌گذارد.

استفاده از مطالب دارای حق نشر در آموزش مدل‌ها نیز انبوهی از سوالات حقوقی را ایجاد می‌کند. چه کسی دارای حق نشر متنی را که توسط چت جی‌پی‌تی ایجاد شده دارد. چت جی‌پی‌تی که خود پیش از این از روی کتاب‌های دارای حق نشر آموزش داده شده است؟ آیا مفهوم «استفاده منصفانه» در چنین موردی می‌تواند کاربرد داشته باشد؟

اگر تعدادی از افراد سعی کنند برای خروجی‌های مشابه یا یکسان توسط مدلی مانند چت جی‌پی‌تی حق نشر بگیرند، چه خواهد شد؟ از آنجایی که ماشین، انسان نیست، آیا هر چیزی که توسط آن تولید می‌شود در وهله اول دارای حق نشر است؟

سوگیری که توسط مطالعات دیگر آشکار شد

علاوه بر تحقیقات برکلی، مطالعات دیگری نیز مواردی از سوگیری را در پاسخ‌های چت جی‌پی‌تی پیدا کرده‌اند.

مطالعه‌ای که توسط گروهی در دانشگاه آنگلیا شرقی در بریتانیا انجام شد، سوگیری سیاسی را در برخی از پاسخ‌های این مدل نشان داد. هنگامی که صد‌ها سوال در مورد اعتقادات سیاسی از این هوش مصنوعی پرسیده شد، به نظر می‌رسید چت جی‌پی‌تی بیشتر به دموکرات‌ها در ایالات متحده، حزب کارگر در بریتانیا و رئیس جمهور لولا داسیلوا (Lula da Silva) از حزب کارگران در برزیل متمایل باشد.

نویسنده اصلی آن مطالعه، دکتر فابیو موتوکی (Fabio Motoki)، از دانشکده تجارت نورویچ در دانشگاه آنگلیا شرقی، می‌گوید: وجود سوگیری سیاسی می‌تواند بر دیدگاه‌های کاربران نیز تاثیر بگذارد و پیامد‌های بالقوه‌ای برای فرآیند‌های سیاسی و انتخاباتی داشته باشد.

یافته‌های ما این نگرانی را تقویت می‌کند که سیستم‌های هوش مصنوعی می‌توانند چالش‌های موجود ناشی از اینترنت و رسانه‌های اجتماعی را تکرار یا حتی تقویت کنند.

در مطالعه دیگری، محققان دانشگاه واشنگتن، دانشگاه کارنگی ملون و دانشگاه شیان جیائوتنگ، ۱۴ مدل هوش مصنوعی را تحت یک آزمون سوگیری سیاسی قرار دادند و به پاسخ‌های هر مدل به انواع مختلف ۶۲ بیانیه سیاسی پرداختند. چیزی که آن‌ها دریافتند این بود که پاسخ‌های تولید شده توسط چت جی‌پی‌تی و نسخه جدیدتر آن موسوم به جی‌پی‌تی-۴ (GPT-۴) چپ‌گرایانه و آزادیخواهانه بودند.

شرکت اُپن ای‌آی رویکرد خود را در یک پست شرکتی با عنوان چگونه سیستم‌ها باید رفتار کنند به اشتراک گذاشته است.

براساس این پست، در حالی که بسیاری نگران سوگیری‌ها در طراحی سیستم‌های هوش مصنوعی هستند، ما متعهد هستیم که به طور جدی به این موضوع رسیدگی کنیم و در مورد اهداف و پیشرفت خود شفاف باشیم.

این شرکت همچنین خاطرنشان می‌کند که دستورالعمل‌های ما صریح است که بازبینان نباید از هیچ گروه سیاسی حمایت کنند. آن‌ها اظهار داشتند که ممکن است سوگیری‌ها همچنان در این فرآیند ظاهر شوند، اما ادعا کردند که این‌ها اشکالات به حساب می‌آیند و جزو ویژگی‌های هوش مصنوعی آن‌ها نیستند.