AlphaGo استاد میشود!!
نسخه جدید AlphaGo بدون هیچ گونه نیاز به دستوالعمل انسانی و تنها متکی به هوش مصنوعی خود آموخت که چگونه بهترین انسانِ بازیکنِ سختترین بازیِ دنیا یعنی Go را درهم بشکند.
تنها ۱۹ ماه بعد از شکست دادن بهترین انسانِ بازیکنِ بازی Go، برنامه کامپیوتری AlphaGo Zero مانع حتی مهمتری را از سر راه برداشت، اینکه با آموزش دادن به خود به سطح بینظیری از استادی برسد.
AlphaGo Zero از صفر شروع میکند!!
نسخه جدید AlphaGo Zero با سطح اطلاعات صفر از استراتژیهای بازی Go و بدون اینکه از قبل با انسانی بازی کرده باشد، تنها به ۳ روز زمان احتیاج دارد تا پیشرفته ترین و ناشناخته ترین استراتژی هایی از بازی Go که تا به حال توسط هزاران انسانِ بازیکنِ بازی Go که در تاریخ این بازی استفاده نشده بودند را کشف کند. آزاد شدن هوش مصنوعی از قید و بند دانش انسانی، محدودیتهای بنیادی را در حوزه ماشینهای هوشمند از میان برداشت.
روش آموزش AlphaGo
نسخههای قبلی AlphaGo Zero آموزش داده شده بودند تا در دو مرحله بازی کنند. در مرحله اول که مرحله یادگیری نظارتی (supervised learning) نامیده می شود، محققان برنامه را با ۱۰۰۰۰۰ بازیِ بازیکنان برتر AlphaGo Zero تغذیه می کنند، سپس با روشی که یادگیری تقویتی (reinforcement learning) نامیده می شود برنامه را مجبور میکنند تا علیه خودش بازی کند و از نتایج به دست آمده درس بگیرد و آن ها را بیاموزد.
AlphaGo Zero از مرحله اول بینیاز است. برنامه تنها با دانستن قوانین بازی و سطح دانش صفر شروع به بازی علیه خودش میکند. در ابتدا تنها به صورت اتفاقی مهرهها را بر روی صفحه قرار میدهد. با گذشت زمان در ارزیابی موقعیتهای صفحه و شناختنهای مفید پیشرفت میکند. همچنین بسیاری از عناصر بنیادی در استراتژیهای بازی و نیز استراتژی های ناشناخته را کشف می کند. زیرا همان طور که یکی از محققان بیان کرده است : «دربسیاری از موقعیتهای پیچیده بینشها و زوایای دیدی وجود دارد که شما هرگز متوجه آنها نخواهید شد.»
بعد از ۳ روز بازی و ۴.۹ میلیون بازی تمرینی با خودش، محققان AlphaGo Zero را مقابل نسخه قبلی برنامه که به قهرمانی رسیده بود قرار دادند. AlphaGo Zero از ۱۰۰ بازی در ۱۰۰ بازی پیروز شد.
برای متخصصان این نتیجه حیرتآور بود، زیرا تنها استفاده محض از روش یادگیری تقویتی آن هم در یک بازی که به مراتب دشوارتر از شطرنج است و تعداد حرکتهای احتمالی سرسامآور است، موثر به نظر نمیرسید و انتظار میرفت که برنامه برای پیدا کردن استراتژی مناسب تا ابد کورکورانه تقلا کند، اما برخلاف انتظارات برنامه به سرعت راه خود را به سوی تواناییهای فرا انسانی یافت. این پیش بینی به نظر منطقی میرسد اما چه چیزی مانع این اتفاق میشود؟
جست و جوی درختی
کارایی برنامه مدیون حلقه بازخورد (feedback loop) است. همانند نسخه قبلی خود، AlphaGo Zero نیز برای اینکه چه حرکتی را انجام دهد از فرآیندی به نام “جست و جوی درختی” استفاده میکند. برنامه با وضعیت فعلی بازی آغاز میشود و حرکتهای ممکن را در نظر میگیرد و سپس در نظر میگیرد که حریف چه حرکتهایی را در وضعیت بعدی از بازی میتواند انجام دهد و خود برنامه نیز چه حرکتی را در پاسخ به آن میتواند انجام دهد و به همین ترتیب تا آخر درختی از ترکیبات متفاوت در بازی و نتایج آن میسازد.
AlphaGo Zero نمیتواند هر شاخه را از ابتدا تا انتها بررسی کند زیرا با توجه به وسیع بودن درخت، به قدرت محاسباتی بسیار زیادی نیاز خواهد داشت. بنابراین شاخههای مختلف درخت را با توجه به این که کدام شاخه احتمالاً مفید خواهد بود هرس میکند. که البته محاسبات مورد نیاز برای این کار و انتخاب شاخه مفید بر پایه بازیهای گذشته بنا شده که کدام حرکتها و مهرهها منجر به پیروزی و یا شکست شدهاند.
تغییر AlphaGo Zero نسبت به بازی های پیشین
بنابراین AlphaGo Zero به جای اینکه تنها فرایند جست و جوی درختی را اجرا کرده و حرکتی را با هرس کردن درخت برای بازی کردن انتخاب کند، نتیجه جست و جوهای قبلی و بازیهای پیشین را به یاد میآورد. سپس از این اطلاعات برای به روزرسانی تخمینهای بعدی خود استفاده میکند تا انتخابهای مفیدتری که به احتمال بیشتری منجر به پیروزی میشوند را برگزیند. درواقع تخمینهایی که به کار میبرد به صورت مداوم بهبود مییابند.
استراتژی محاسباتی که AlphaGo Zero را پایه گذاری میکند عمدتا درشرایطی به کار می آید که شما احتمالات بسیاری برای بررسی در اختیار دارید و میخواهید مقدار بهینهای برای آن ها پیدا کنید. یکی از نویسندههای AlphaGo Zero پیشنهاد میکند که سیستم آنها می تواند در اکتشاف مواد (زمانی که شما می خواهید ترکیبات اتمی را شناسایی کنید که مواد با خواص مختلفی را تولید میکنند) و یا پوشیدگی پروتئین (جایی که شما میخواهید بدانید که چگونه ساختار دقیق سه بعدی پروتئین عملکرد آن را تعیین می کند.) موثر باشد.
تاثیرات AlphaGo Zero
اثرات AlphaGo Zero احتمالا می تواند بسیار مهم باشد. امروزه شرکتهای بازی سازی، در تلاش هایشان برای توسعه مدلی جهانی و فراگیر از Go شکست خورده اند. AlphaGo Zero احتمالا این وضعیت را تغییر خواهد داد.
اندرو جکسون، معاون اجرایی انجمن آمریکایی Go، بیان می کند:
« دور نیست زمانی که برنامه های Go در فروشگاه ها حضور پیدا کنند.»
و این پیشرفت احتمالا شیوه تمرین کردن بازیکنان انسان Go را تغییر خواهد داد و البته تقلب کردن را نیز آسانتر خواهد نمود!.
با الفبایت همراه باشید.