مرکز هوشمندسازی

هوش مصنوعی

قوانین فیزیک به کمک هوش مصنوعی می آیند

قوانین فیزیک صرف نظر نقطه ی دید افراد، یکسان باقی می مانند. درنتیجه براساس این اصل، کامپیوترها می توانند مشخصات فضاهای منحنی یا فضاهایی با ابعاد بیشتر را شناسایی کنند.

امروزه کامپیوترها می‌توانند خودروها را هدایت کنند، قهرمان‌های جهان را در بازی‌های تخته‌ای مانند شطرنج و Go شکست دهند و حتی نثرهای ادبی بنویسند. بخش زیادی از تحولات هوش مصنوعی به نوع مشخصی از شبکه‌های عصبی مصنوعی وابسته‌اند با الهام از لایه‌های نورون در کورتکس بینایی پستانداران طراحی شده است. توانایی شگفت‌انگیز «شبکه‌های عصبی هم‌گشتی» (CNN-ها) در الگوهای یادگیری داده‌های دوبعدی به‌ویژه در عملیات بینایی کامپیوتر از جمله تشخیص کلمات دست‌نوشته و تشخیص اشیاء در تصاویر دیجیتالی، ثابت شده است.

اما پیاده‌سازی معماری قدرتمند یادگیری ماشین در مجموعه‌های داده‌ای بدون درنظرگرفتن هندسه‌ی مسطح نتیجه‌ی خوبی نخواهد داشت. هندسه‌ی مسطح به مدل‌هایی از اشکال نامنظم گفته می‌شود که در انیمیشن‌های کامپیوتری سه‌بعدی یا ابرهای نقطه‌ای کاربرد دارند که توسط خودروهای خودران برای نقشه‌برداری از محیط اطراف ساخته می‌شوند. در سال ۲۰۱۶، روش جدیدی به‌نام یادگیری عمیق هندسی با هدف خارج کردن CNN-ها از حالت مسطح، ظهور کرد.

امروزه، پژوهشگرها موفق به ارائه‌ی چارچوب جدید تئوری برای ساخت شبکه‌های عصبی شده‌اند. این شبکه‌ها می‌توانند روی انواع سطوح هندسی به یادگیری الگو بپردازند. این شبکه‌ها که با عنوان CNN-های پیمانه‌ای هم شناخته می‌شوند، قادر به تشخیص الگوها در آرایه‌‌ پیکسل‌های دوبعدی و اشیای منحنی نامتقارن و کروی هستند. تاکو کوهن، ماری ویلر، برکی کیکاناگلو و مکس ویلینگ از توسعه‌دهندگان شبکه‌های عصبی همگشتی هستند. ویلینگ می‌گوید: «این چارچوب، پاسخی قطعی به مسئله یادگیری عمیق روی سطوح منحنی است.»

عملکرد CNN-های پیمانه‌ای در یادگیری الگو از داده‌های شبیه‌سازی‌شده‌ی جوی به طرز چشمگیری از شبکه‌های عصبی گذشته بهتر است. داده‌های جوی معمولا روی سطوح کروی نگاشته می‌شوند. الگوریتم‌های یادشده همچنین برای بهبود دید پهپادها و وسایل خودکاری که اشیای سه‌بعدی را زیر نظر دارند و برای شناسایی الگو در داده‌های سطوح منحنی نامنظم قلب، مغز و دیگر اعضای بدن، عملکرد سودمندی دارند.

راه‌حل پژوهشگرها برای عملکرد یادگیری عمیق فراتر از سطوح تخت، ارتباط عمیقی با دانش فیزیک دارد. نظریه‌های فیزیکی مانند نظریه‌ی نسبیت عام آلبرت اینشتین و مدل استاندارد فیزیک ذرات برای توصیف جهان به کار رفته‌اند. این نظریه‌ها دارای خصوصیتی به‌نام «هم وردایی پیمانه‌ای» (gauge equivariance)هستند. هم وردایی پیمانه‌ای یعنی کمیت‌های جهان و روابط آن‌ها به چارچوب‌های دلخواه مرجع («پیمانه‌ها») بستگی ندارند؛ بلکه صرف ‌نظر از حرکت یا ایستایی ناظر یا فاصله‌ی اعداد روی خط‌کش، ثابت می‌مانند. اندازه‌گیری‌های پیمانه‌های مختلف باید قابل تبدیل به یکدیگر باشند به‌طوری‌که روابط بنیادی بین اشیا حفظ شود.

برای مثال، اندازه‌گیری طول زمین فوتبال را براساس یارد در نظر بگیرید، سپس دوباره آن را براساس متر اندازه‌گیری کنید؛ اعداد به شیوه‌ای قابل پیش‌بینی تغییر خواهند کرد. به‌طور مشابه، فرض کنید دو عکاس از دو نقطه‌ی متفاوت عکس می‌گیرند و خروجی‌های متفاوتی را تولید می‌کنند، اما می‌توان دو تصویر را به یکدیگر ربط داد. هم‌وردایی پیمانه‌ای، سازگاری مدل‌های فیزیکی واقعی را صرف‌نظر از پرسپکتیو یا واحدهای اندازه‌گیری آن‌ها تضمین می‌کند. CNN-های پیمانه‌ای هم دقیقا چنین فرآیندی را روی داده‌ها اجرا می‌کنند. کایل گرانمر، فیزیکدان دانشگاه نیویورک، از یادگیری ماشین برای داده‌های فیزیک ذرات استفاده می‌کند. او می‌گوید:

در فیزیک هیچ جهت‌گیری خاصی وجود ندارد و هدف، رسیدن به نتیجه‌ی مشابهی برای شبکه‌های عصبی است؛ و حالا روش مناسبی برای رسیدن به این نتیجه ابداع شده است.

 

فرار از سطح


مایکل برونستین، دانشمند کامپیوتر کالج سلطنتی لندن، در سال ۲۰۱۵، اصطلاح «یادگیری عمیق هندسی» را در سال ۲۰۱۵، به‌عنوان مقدمه‌ای برای رهایی از سطح و طراحی شبکه‌های عصبی با قابلیت یادگیری داده‌های غیرسطحی، ابداع کرد. محبوبیت این روش خیلی زود، افزایش یافت.

برونستین و همکاران او می‌دانستند برای فرا رفتن از صفحه‌ی اقلیدسی باید به بازسازی روالی محاسباتی بپردازند و کارایی شبکه‌های عصبی در تشخیص تصویر دوبعدی را افزایش دهد. این روال که «هم‌گشت» نامیده می‌شود، به لایه‌ای از شبکه‌ی عصبی اجازه می‌دهد عملیات ریاضی را روی بخش‌های کوچکی از داده‌های ورودی اجرا کند و سپس نتایج را به لایه‌ی بعدی در شبکه ارسال کند. برونستین می‌گوید:

می‌توان هم‌گشت را به پنجره‌ای کشویی تشبیه کرد.» شبکه‌ی عصبی هم‌گشتی، تعداد زیادی از این پنجره‌ها را روی فیلترهای شبه‌ داده‌ای ورق می‌زند. هر کدام از فیلترها برای کشف نوع مشخصی از الگوهای داده‌ای طراحی شده‌اند. برای مثال در جستجوی تصویر یک گربه، CNN می‌تواند از فیلترهایی استفاده کند که دیگر لایه‌های شبکه را نادیده می‌گیرند و با اجرای همگشت‌های دیگر، مشخصه‌های سطح بالاتری مثل چشم‌ها، دم یا گوش‌های مثلثی گربه را استخراج می‌کنند. شبکه‌ای عصبی که برای تشخیص گربه‌ها آموزش دیده است از نتایج هم‌گشت‌های لایه‌ای برای تخصیص برچسب «گربه» یا «غیرگربه» به تصاویر، استفاده می‌کند. اما روش CNN تنها روی صفحه عمل می‌کند. به‌گفته‌ی ویلینگ: «با خم شدن صفحه، CNN دچار مشکل می‌شود.

اجرای عمل هم‌گشت روی سطحی منحنی که در هندسه با عنوان خم هم شناخت می‌شود، مانند نگه‌داشتن یکی از مربع‌های کاغذ شطرنجی روی جهان و تلاش برای ردیابی دقیق خط ساحل گرینلند است. برای قرار دادن مربع روی گرینلند باید کل کاغذ را روی سطح فرود آورد و با برداشتن مجدد کاغذ، طرح دچار انحراف می‌شود. از طرفی نگه‌داشتن مربع کاغذی به‌صورت مماس با جهان در یک نقطه و سپس ردیابی لبه‌ی گرینلد در حال دیدن کاغذ (روشی که به آن نقشه‌ی مرکاتور هم گفته می‌شود) هم منجر به ایجاد اعوجاج و انحراف خواهد شد. از طرفی می‌توان کاغذ شطرنجی را به‌جای کره‌ی جغرافیایی روی یک نقشه‌ی کاغذی مسطح قرار داد، اما با این کار میزان انحراف‌ها دو برابر خواهد شد. برای مثال کل لبه‌ی بالایی نقشه تنها یک نقطه در جهان را نشان می‌دهد (قطب شمال)؛ و در صورتی که منحنی، مانند جهان کاملا کروی نباشد و مانند بطری سه‌بعدی یا مولکول پروتئین، پیچیده‌تر و بی‌نظم‌تر باشد، اعمال فرایند هم‌گشت روی آن دشوارتر خواهد شد.

برونستین و همکاران او در سال ۲۰۱۵، راه‌حلی برای مسئله‌ی هم‌گشت روی منحنی‌های غیراقلیدسی ابداع کردند. آن‌ها در این روش، پنجره‌ی کشویی را به‌جای تکه‌ای کاغذ شطرنجی، به تارعنکبوتی مدور تشبیه کردند. به‌طوری‌که بتوان آن‌ را بدون مچاله شدن، کشیدگی یا پارگی روی هر نقطه از سطح منحنی قرار داد.

با تغییر خصوصیات فیلتر کشویی، عملکرد CNN در درک روابط مشخص هندسی، بهبود پیدا کرد. برای مثال در شکلی سه‌بعدی که به دو حالت مختلف خم شده است (مانند فیگور انسانی که ایستاده و انسانی که یک پای خود را بلند کرده است)، الگوریتم تشخیص می‌دهد هر دو حالت، مربوط به یک شیء هستند نه دو شیء متفاوت. تغییرات، بازدهی شبکه‌ی عصبی را در یادگیری به شکل چشمگیری افزایش دادند. به‌گفته‌ی برونستین: «CNN-های استاندارد به مدت چند هفته، از میلیون‌ها نمونه شکل و آموزش استفاده کردند. ما از ۱۰۰ شکل در حالت‌های مختلف برای آموزش در مدت زمان سی دقیقه استفاده کردیم.»