زندگی با هوش مصنوعی
حميد اناري
در چند سال اخير، رشد هوش مصنوعي آنقدر سريع و چشمگير بوده كه طبيعي است بسياري از مردم از خودشان بپرسند چطور ممكن است يك سيستم كامپيوتري بتواند تصوير بسازد، صدا تقليد كند يا جملههايي بنويسد كه گاهي از نوشته آدمها هم طبيعيتر به نظر ميرسد. اين قابليتها در نگاه اول شايد شبيه يك شعبدهبازي مدرن به نظر برسند، اما پشت آنها نه جادو وجود دارد و نه رازهاي پنهان؛ همه چيز بر پايه رياضيات، محاسبات عظيم و مدلهايي است كه به مرور زمان پيچيدهتر شدهاند. اگر فهم اين روند براي ما دشوار است، دليلش بزرگي و پيچيده بودن اين فرآيندهاست، نه مبهم بودنشان. براي اينكه تصوير سادهتري از كار شبكههاي عصبي به دست بياوريم، ميتوان آنها را مثل يك ساختمان چند طبقه در نظر گرفت. داده خام - مثلا يك عكس يا يك فايل صوتي - از در ورودي وارد ميشود. طبقه اول فقط عناصر خيلي ابتدايي را تشخيص ميدهد: روشنايي، سايه، خطها، لبهها. طبقههاي بعدي اين اجزاي ساده را با هم تركيب ميكنند و شكلهاي آشناتري ميسازند؛ چيزي شبيه چشم، دهان، گوشه صورت يا تغييرات زير و بمي صدا. هر چه بالاتر برويم، لايهها از سطح جزييات ظاهري فاصله ميگيرند و به مفهوم نزديكتر ميشوند. در نهايت، سيستم در بالاترين طبقه ديگر درگير خطوط و سايهها نيست؛ فقط ميفهمد كه «اين تصوير يك صورت است» يا «اين صدا احتمالا متعلق به همان فردي است كه چند لحظه پيش شنيدم.» نكته مهمي كه در اين ميان نقش اصلي را بازي ميكند، چيزي است كه ما آن را «بُعد» ميناميم. هر بخش از داده در هر مرحله با يك فهرست طولاني از اعداد نمايش داده ميشود؛ مجموعهاي از ويژگيها كه شايد براي چشم انسان نامرئي باشند، اما براي سيستم معنا دارند. اگر اين فهرست ۵۱۲ عدد داشته باشد، ميگوييم داده در فضايي ۵۱۲ بُعدي قرار دارد. هر يك از اين اعداد ميتواند نشاندهنده بخشي كوچك از واقعيت باشد: شدت نور، شباهت به چهره، آهنگ بيان يك حرف، لرزش تارهاي صوتي و چيزهايي كه ما حتي برايشان اسم نداريم.
نكته جالب اين است كه هيچكس اين ويژگيها را از پيش براي مدل تعريف نميكند؛ شبكه خودش طي آموزش و با مشاهده ميليونها نمونه ياد ميگيرد هر عدد بيانگر چه چيزي باشد.
اگر تعداد اين ابعاد زياد به نظر ميرسد، دليلش پيچيدگي دنيايي است كه ميخواهيم بازسازياش كنيم. چهره انسان، بافت پوست، تغييرات نور، حالت چشم، تفاوت صداها و هزاران جزييات ريز ديگر در جهان واقعي، همگي ويژگيهايي هستند كه نميشود با چند عدد ساده خلاصهشان كرد. به همين دليل مدلهاي بزرگ معمولا هزاران بُعد و صدها لايه دارند تا بتوانند اين سطح از ظرافت را بفهمند و بازتوليد كنند.
در فرآيند توليد تصوير، مدلها معمولا از روشي به نام «ديفيوژن» استفاده ميكنند. اين روش برخلاف تصور، ساده شروع ميشود: مدل ابتدا يك صفحه پر از نويز توليد ميكند، چيزي شبيه برفك تلويزيون. سپس در مرحلههاي پياپي كمي از اين نويز كم و جزييات معناداري به تصوير اضافه ميشود. انگار يك عكس از دل آشوب اوليه آرامآرام ظاهر ميشود. هر يك از اين تغييرها حاصل كار لايههاي مختلف و ويژگيهايي است كه مدل در مرحله آموزش ياد گرفته است. همه اين فرآيند كاملا قابل توضيح است، اما چون ميليونها بار در چند لحظه انجام ميشود، طبيعتا ذهن ما نميتواند تكتك جزيياتش را دنبال كند.
گاهي شنيده ميشود كه «هيچ كس نميداند هوش مصنوعي واقعا چطور كار ميكند.» اين جمله تا حدي اغراقآميز است. ما ساختار و قواعد كلي الگوريتمها را ميشناسيم، معادلات آنها مشخص است و دقيقا ميدانيم هر لايه با داده چه ميكند. آنچه براي ما مبهم ميماند، معناي انساني تكتك ويژگيهاست؛ درست شبيه وضعيتي كه درباره مغز خودمان داريم. ما ميدانيم نورونها چگونه فعال ميشوند، اما نميتوانيم ادعا كنيم كدام نورون مسوول كدام فكر يا كدام احساس است. اين محدوديت ناشي از ناتواني ما در رديابي ميلياردها جزييات ريز است، نه از اسرارآميز بودن موضوع.
در نهايت بايد گفت كه هوش مصنوعي بر پايه مجموعهاي از اصول ساده بنا شده، اما همين اصول در مقياسي بسيار بزرگ و با تكرار فراوان اجرا ميشوند. همين تكرار وسيع است كه باعث ميشود ماشين بتواند تصوير خلق كند، صدا را تقليد كند يا متنهاي پيچيده را تحليل كند. فهم كلي اين اصول ممكن است ساده باشد، اما دنبالكردن جزييات دقيق و لحظهبهلحظه آن از توان ذهن انسان فراتر ميرود؛ همانطور كه نميتوانيم فعاليت تكتك نورونهاي مغزمان را لحظهبهلحظه رصد كنيم ولي ميدانيم مغز چگونه كار ميكند.