
گوگل ادعا میکند که هوش مصنوعی بدون اتکا به انسان میتواند پیشرفت کند. آیا چنین ادعایی میتواند صحت داشته باشد؟
دنیای هوش مصنوعی (AI) با سرعت خیرهکنندهای در حال پیشروی است. در سالهای اخیر شاهد ظهور و رشد چشمگیر هوش مصنوعی مولد (Generative AI) بودهایم؛ مدلهایی قدرتمند که قابلیت خلق انواع محتوا از متن و تصویر گرفته تا کد را دارند.
به گزارش گجت نیوز؛ این مدلها در آزمونهای استاندارد عملکردی فراتر از انتظار نشان دادهاند و حتی بحثهای جدی درباره پیروزی هوش مصنوعی GPT-4.5 در آزمون تورینگ نیز شکل گرفته است.
این پیشرفتها سوالات مهمی را درباره آینده نقش انسان در توسعه و عملکرد هوش مصنوعی مطرح میکنند. آیا هوش مصنوعی در نهایت میتواند بدون اتکا به انسان به پیشرفت خود ادامه دهد؟
محققان در واحد DeepMind گوگل دیدگاه عمیقی نسبت به این پرسش دارند. آنها فکر میکنند محدودیتهای هوش مصنوعی به خاطر خود آزمونها نیست، بلکه به خاطر روشهای ساخت و آموزش آن است؛ روشهایی که بیش از حد روی دادههای قدیمی و تعاملات کم با انسانها حساب میکنند.
دیوید سیلور و ریچارد ساتن، دو تن از چهرههای سرشناس و تأثیرگذار در حوزه هوش مصنوعی (که به خاطر کارهایی چون توسعه AlphaZero و پیشگامی در رویکرد یادگیری تقویتی شهرت دارند) در مقالهای جدید با عنوان تأملبرانگیز «به عصر تجربه خوش آمدید» میگویند برای اینکه هوش مصنوعی بتواند به قابلیتهای نوین و چشمگیری دست یابد باید از شیوههای توسعه فعلی فراتر رفت.
به عقیده این دو محقق اطلاعاتی که امروز برای آموزش مدلهای هوش مصنوعی به ویژه مدلهای بزرگی مانند ChatGPT به کار میروند، گرچه بسیار حجیم هستند؛ اما ثابت و از پیش تعیین شدهاند.
این دادهها فقط آنچه در گذشته اتفاق افتاده را نشان میدهند و به همین دلیل هوش مصنوعی نمیتواند با استفاده از آنها به کشفیات کاملا جدیدی برسد. مدلهای زبانی بزرگ فعلی عمدتا برای جواب دادن به سوالات مشخص کاربران در لحظه ساخته شدهاند.
این دو محقق اشاره میکنند که پس از موفقیت AlphaZero با رشد سریع هوش مصنوعی مولد، کانون توجه از یادگیری تقویتی به سمت مدلهایی رفت که بر اساس دادههای عظیم و درخواستهای انسانی عمل میکنند.
این تغییر به مدلهای جدید قابلیت تعامل با ورودیهای متنوع کاربران بدون نیاز به قوانین از پیش تعیین شده را داد (برخلاف AlphaZero که محدود به محیطهای قاعدهمند بود) اما به گفته آنها، توانایی عامل هوش مصنوعی برای یادگیری و کشف مستقل دانش در این فرآیند تضعیف شد.
این دو محقق معتقدند مدلهای زبانی بزرگ وابستگی زیادی به خواستههای انسانها دارند (همان دستوراتی که در قالب Prompt میدهند). این موضوع باعث میشود عملکرد آنها از یک حد مشخص فراتر نرود؛ زیرا هوش مصنوعی فقط بر اساس آنچه انسان میداند یا انتظار دارد جستجو میکند و نمیتواند راهکارهای واقعا جدیدی را که شاید انسان هنوز به آنها فکر نکرده پیدا کند.
یکی از محدودیتهای دیگری که وجود دارد، کوتاهی و مقطعی بودن تعاملات فعلی با هوش مصنوعی است. همانطور که محققان اشاره میکنند، «در عصری که از دادههای انسانی استفاده میکنیم، هوش مصنوعی عمدتا بر اپیزودهای تعاملی کوتاه تمرکز داشته است.» یعنی تعاملات معمولا به این شکل است که کاربر سوال میکند، هوش مصنوعی پاسخ میدهد و ارتباط در همان نوبت پایان مییابد.
در این مدل، هدف هوش مصنوعی تنها دستیابی به نتیجه در همان یک نوبت تعامل است و اطلاعات کمی بین نوبتها منتقل میشود. به همین دلیل، هوش مصنوعی حافظه یا پیوستگی لازم برای سازگاری و یادگیری عمیق در طول زمان را ندارد.
در مقابل این محدودیتها، سیلور و ساتن ایده عصر تجربه (Age of Experience) را پیشنهاد میکنند. آنها میگویند در این عصر عاملهای هوش مصنوعی به جای تعاملات کوتاه و مقطعی در جریانهای پیوستهای از تجربه قرار خواهند گرفت.
این رویکرد شبیه به فرآیند یادگیری انسان در طول یک عمر است، جایی که ما از تجربیات انباشته شده یاد میگیریم و بر اساس اهداف بلندمدت عمل میکنیم، نه صرفا در واکنش به محرکهای لحظهای. آنها تاکید دارند که عاملهای هوش مصنوعی قدرتمند برای پیشرفت در مقیاس زمانی طولانی باید چنین جریان تجربهای داشته باشند.
سیلور و ساتن باور دارند که فناوری کنونی به ما اجازه میدهد تا این رویکرد جدید را آغاز کنیم. آنها معتقدند نمونههای اولیه این تحول را میتوان در عاملهای هوش مصنوعی دید که با استفاده از رابطهای کاربری شبیه به انسان در محیط وب جستجو کرده و مستقلتر از قبل عمل میکنند. این روند نشاندهنده دور شدن از تعاملاتی است که کاملا توسط انسان هدایت میشود و حرکت به سمت تعاملات خودکارتر عامل در جهان است.
در «عصر تجربه» پیشنهادی سیلور و ساتن، عاملهای هوش مصنوعی با استفاده از یادگیری تقویتی آموزش میبینند، اما پاداش را از محیط میگیرند. فرآیند این یادگیری اینگونه است: عامل در یک محیط (واقعی یا شبیهسازی) اقداماتی انجام میدهد و در پاسخ پاداش دریافت میکند. این پاداشها به هوش مصنوعی میآموزند که کدام اقدامات در آن محیط ارزشمندتر هستند.
در عصر تجربه، پاداش هوش مصنوعی تنها از دادههای انسانی نمیآید. به گفته محققان «جهان سرشار از نشانههای مختلفی است که میتوانند پاداش باشند»، اگر هوش مصنوعی به دنبال آنها بگردد. این نشانهها خیلی متنوع هستند؛ از هزینه و نرخ خطا گرفته تا سود و لایکها. این سیگنالهای مبتنی بر واقعیت اساس یادگیری هوش مصنوعی را مستقیما از خود محیط فراهم میکنند.
برای آغاز کار شاید از یک نمای مجازی از جهان (World Model) استفاده شود. عامل هوش مصنوعی با کمک این مدل پیشبینیهایی انجام میدهد، آنها را در محیط واقعی (یا شبیهسازی) آزمایش میکند و از پاداشهایی که میگیرد برای دقیقتر کردن مدل جهان خود استفاده میکند. مدل جهان عامل به طور مداوم با کسب تجربههای جدید به روزرسانی میشود.
برخلاف تصور ناشی از عنوان مقاله، سیلور و ساتن حذف کامل انسان را پیشنهاد نمیکنند. آنها معتقدند انسانها نقش کلیدی در تعیین «اهداف نهایی» هوش مصنوعی خواهند داشت. این اهداف توسط انسان تعیین میشوند و سیگنالها و پاداشهای محیطی، عامل هوش مصنوعی را برای رسیدن به آنها تشویق و هدایت میکنند.
به عنوان مثال، انسان میتواند هدف «بهبود وضعیت سلامتی خود» یا «یادگیری زبان اسپانیایی» را تعیین کند؛ آنگاه سیستم میتواند بر اساس سیگنالهای مرتبط (مانند ضربان قلب یا نتایج امتحان) به هوش مصنوعی پاداش دهد. پس نقش انسان به عنوان راهنمای اصلی سیستم کاملا حفظ میشود.
محققان پیشبینی میکنند عاملهای هوش مصنوعی که از طریق تجربه بلندمدت یاد میگیرند، دستیاران توانمندتری خواهند بود. آنها میتوانند سلامت یا یادگیری افراد را در طول سالها پیگیری کرده و مشاورههای عمیقتری ارائه دهند. همچنین میتوانند به عنوان عاملهای علمی به کشفیات جاهطلبانه مانند یافتن مواد جدید کمک کنند.
سیلور و ساتن حتی معتقدند که این رویکرد جدید میتواند از مدلهای هوش مصنوعی کنونی که بر «تفکر» و «استدلال» انسانی متکی هستند، پیشی بگیرد. دلیل این امر آن است که استدلال انسان (که مدلهای فعلی از آن تقلید میکنند) تحت تأثیر پیشفرضها و دانش محدود هر دوره تاریخی قرار دارد. اما عاملهای تجربی که مستقیما از جهان یاد میگیرند، ممکن است از این محدودیتهای تاریخی رها شده و راهبردهایی کاملا جدید و بیسابقه کشف کنند.
این دو محقق قبول دارند که این راه جدید با ریسکهای بزرگی همراه است. علاوه بر مسائل مربوط به شغل، مستقل شدن بیشتر هوش مصنوعی در طول زمان این امکان را مطرح میکند که انسان ها کمتر بتوانند در کارهای آنها دخالت کنند یا آنها را کنترل کنند. اما نکته مثبتی که وجود دارد این است که یک هوش مصنوعی اگر بفهمد باعث نگرانی انسان میشود، خودش را با شرایط وفق داده و رفتارش را عوض میکند.
سیلور و ساتن پیشبینی میکنند که حجم اطلاعات حاصل از یادگیری مبتنی بر تجربه بسیار بیشتر از دادههای آموزشی کنونی خواهد بود. آنها مطرح میکنند که این موضوع حتی ممکن است باعث شود این عاملهای هوش مصنوعی از هوش انسان نیز پیشی بگیرند و به هوش مصنوعی عمومی (AGI) یا هوش برتر منجر شوند.
ادعای «هوش مصنوعی دیگر به انسان نیازی ندارد» از دیدگاه گوگل دیپمایند به معنای تغییر نقش انسان است، نه حذف کامل آن. انسانها همچنان اهداف نهایی را تعیین میکنند، اما هوش مصنوعی برای یادگیری و کشف به جای اتکا صرف به دادههای ایستا و Prompt کوتاه، مستقیما از «تجربه» پیوسته در تعامل با جهان واقعی و سیگنالهای آن استفاده خواهد کرد.