theme wordpress
اخبارعلمیفناوری

هوش مصنوعی به تنهایی فرا می گیرد که چگونه فرا بگیرد!

AlphaGo استاد میشود!!

نسخه جدید AlphaGo بدون هیچ گونه نیاز به دستوالعمل انسانی و تنها متکی به هوش مصنوعی خود آموخت که چگونه بهترین انسانِ بازیکنِ سخت‌ترین بازیِ دنیا یعنی Go را درهم بشکند.

AlphaGo

تنها ۱۹ ماه بعد از شکست دادن بهترین انسانِ بازیکنِ بازی Go، برنامه کامپیوتری AlphaGo Zero مانع حتی مهم‌تری را از سر راه برداشت، اینکه با آموزش دادن به خود به سطح بی‌‌نظیری از استادی برسد.

رقابت AlphaGo با انسان

AlphaGo Zero از صفر شروع می‌کند!!

نسخه جدید AlphaGo Zero با سطح اطلاعات صفر از استراتژی‌های بازی Go و بدون اینکه از قبل با انسانی بازی کرده باشد، تنها به ۳ روز زمان احتیاج دارد تا پیشرفته ترین و ناشناخته ترین استراتژی هایی از بازی Go که تا به حال توسط هزاران انسانِ بازیکنِ بازی Go که در تاریخ این بازی استفاده نشده بودند را کشف کند. آزاد شدن هوش مصنوعی از قید و بند دانش انسانی، محدودیت‌های بنیادی را در حوزه ماشین‌های هوشمند از میان برداشت.

روش آموزش AlphaGo

نسخه‌های قبلی AlphaGo Zero آموزش داده شده بودند تا در دو مرحله بازی کنند. در مرحله اول که مرحله یادگیری نظارتی (supervised learning) نامیده می شود، محققان برنامه را با ۱۰۰۰۰۰ بازیِ بازیکنان برتر AlphaGo Zero تغذیه می کنند، سپس با روشی که یادگیری تقویتی (reinforcement learning) نامیده می شود برنامه را مجبور می‌کنند تا علیه خودش بازی کند و از نتایج به دست آمده درس بگیرد و آن ها را بیاموزد.

AlphaGo Zero از صفر شروع می کند

AlphaGo Zero از مرحله اول بی‌نیاز است. برنامه تنها با دانستن قوانین بازی و سطح دانش صفر شروع به بازی علیه خودش می‌کند. در ابتدا تنها به صورت اتفاقی مهره‌ها را بر روی صفحه قرار می‌دهد. با گذشت زمان در ارزیابی موقعیت‌های صفحه و شناختن‌های مفید پیشرفت می‌کند. همچنین بسیاری از عناصر بنیادی در استراتژی‌های بازی و نیز استراتژی های ناشناخته را کشف می کند. زیرا همان طور که یکی از محققان بیان کرده است : «دربسیاری از موقعیت‌های پیچیده بینش‌ها و زوایای دیدی وجود دارد که شما هرگز متوجه آن‌ها نخواهید شد.»

بعد از ۳ روز بازی و ۴.۹ میلیون بازی تمرینی با خودش، محققان AlphaGo Zero را مقابل نسخه قبلی برنامه که به قهرمانی رسیده بود قرار دادند. AlphaGo Zero از ۱۰۰ بازی در ۱۰۰ بازی پیروز شد.

برای متخصصان این نتیجه حیرت‌آور بود، زیرا تنها استفاده محض از روش یادگیری تقویتی آن هم در یک بازی که به مراتب دشوارتر از شطرنج است و تعداد حرکت‌های احتمالی سرسام‌آور است، موثر به نظر نمی‌رسید و انتظار می‌رفت که برنامه برای پیدا کردن استراتژی مناسب تا ابد کورکورانه تقلا کند، اما برخلاف انتظارات برنامه به سرعت راه خود را به سوی توانایی‌های فرا انسانی یافت. این پیش بینی به نظر منطقی می‌رسد اما چه چیزی مانع این اتفاق می‌شود؟

جست و جوی درختی

کارایی برنامه مدیون حلقه بازخورد (feedback loop) است. همانند نسخه قبلی خود، AlphaGo Zero نیز برای اینکه چه حرکتی را انجام دهد از فرآیندی به نام “جست و جوی درختی” استفاده می‌کند. برنامه با وضعیت فعلی بازی آغاز می‌شود و حرکت‌های ممکن را در نظر می‌گیرد و سپس در نظر می‌گیرد که حریف چه حرکت‌‎هایی را در وضعیت بعدی از بازی می‌تواند انجام دهد و خود برنامه نیز چه حرکتی را در پاسخ به آن می‌تواند انجام دهد و به همین ترتیب تا آخر درختی از ترکیبات متفاوت در بازی و نتایج آن می‌سازد.

جست و جوی درختی

AlphaGo Zero نمی‌تواند هر شاخه را از ابتدا تا انتها بررسی کند زیرا با توجه به وسیع بودن درخت، به قدرت محاسباتی بسیار زیادی نیاز خواهد داشت. بنابراین شاخه‌های مختلف درخت را با توجه به این که کدام شاخه احتمالاً مفید خواهد بود هرس می‌کند. که البته محاسبات مورد نیاز برای این کار و انتخاب شاخه مفید بر پایه بازی‌های گذشته بنا شده که کدام حرکت‌ها و مهره‌ها منجر به پیروزی و یا شکست شده‌اند.

تغییر AlphaGo Zero نسبت به بازی های پیشین 

بنابراین AlphaGo Zero به جای اینکه تنها فرایند جست و جوی درختی را اجرا کرده و حرکتی را با هرس کردن درخت برای بازی کردن انتخاب کند، نتیجه جست و جوهای قبلی و بازی‌های پیشین را به یاد می‌آورد. سپس از این اطلاعات برای به روزرسانی تخمین‌های بعدی خود استفاده می‌کند تا انتخاب‌های مفیدتری که به احتمال بیش‌تری منجر به پیروزی می‌شوند را برگزیند. درواقع تخمین‌هایی که به کار می‌برد به صورت مداوم بهبود می‌یابند.

هوش مصنوعی

استراتژی محاسباتی که AlphaGo Zero را پایه گذاری می‌کند عمدتا درشرایطی به کار می آید که شما احتمالات بسیاری برای بررسی در اختیار دارید و می‌خواهید مقدار بهینه‌ای برای آن ها پیدا کنید. یکی از نویسنده‌های AlphaGo Zero پیشنهاد می‌کند که سیستم آنها می تواند در اکتشاف مواد (زمانی که شما می خواهید ترکیبات اتمی را شناسایی کنید که مواد با خواص مختلفی را تولید می‌کنند) و یا پوشیدگی پروتئین (جایی که شما می‌خواهید بدانید که چگونه ساختار دقیق سه بعدی پروتئین عملکرد آن را تعیین می کند.) موثر باشد.

تاثیرات AlphaGo Zero

اثرات AlphaGo Zero احتمالا می تواند بسیار مهم باشد. امروزه شرکت‌های بازی سازی، در تلاش هایشان برای توسعه مدلی جهانی و فراگیر از Go شکست خورده اند. AlphaGo Zero احتمالا این وضعیت را تغییر خواهد داد.

اندرو جکسون، معاون اجرایی انجمن آمریکایی Go، بیان می کند:

« دور نیست زمانی که برنامه های Go در فروشگاه ها حضور پیدا کنند.»

و این پیشرفت احتمالا شیوه تمرین کردن بازیکنان انسان Go را تغییر خواهد داد و البته تقلب کردن را نیز آسان‌تر خواهد نمود!.

با الفبایت همراه باشید.

برچسب ها
نمایش بیشتر

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

بستن
بستن