موفقیت هوش مصنوعی مایکروسافت در درک زبان طبیعی

درک زبان طبیعی که به اختصار NLU خوانده می‌شود، یکی از مهم‌ترین اهداف در حال اجرای هوش مصنوعی است. تلاش هوش مصنوعی برای درک زبان طبیعی به سال‌های ۱۹۵۰ برمی‌گردد، زمانی‌که آزمون تورینگ برای ارزیابی میزان هوشمندی یک عامل هوشمند به کار می‌رفت. آزمون تورینگ، یکی از رایج‌ترین روش‌های ارزیابی هوش مصنوعی است. در سال‌های اخیر نتایج بسیار امیدوارکننده‌ای از تکالیف درک زبان طبیعی در پروژه‌های تحقیقاتی در دانشگاه‌ها و هم به‌صورت کاربردی در صنعت مشاهده شده، زیرا نتایج پیشرفت‌هایی که در حوزه یادگیری عمیق حاصل شده، به حوزه مطالعاتی درک زبان طبیعی اعمال شده، مانند مدل زبانی BERT که گوگل در سال ۲۰۱۸ توسعه داده است.

ارزشیابی درک زبان عمومی که به اختصار GLUE خوانده می‌شود، یک بنچمارک شناخته‌شده است که شامل ۹ تکلیف درک زبان طبیعی است. این ۹ تکلیف زبانی شامل پرسش و پاسخ، تجزیه و تحلیل احساسات، شباهت متنی و استلزام متنی هستند که به‌خوبی برای ارزیابی تعمیم و استحکام مدل‌های درک زبان طبیعی طراحی شده است. از زمان انتشار در اوایل سال ۲۰۱۸، بسیاری از مدل‌های پیشرفته درک زبان طبیعی (قبلی) مانند BERT،GPT،Stanford Snorkel و MT-DNN همان‌طور که روی جدول رده‌بندی GLUE نمایش داده شده است، روی آن معیار شده‌اند. تیم‌های تحقیقاتی برتر دنیا در حال همکاری برای توسعه مدل‌های جدید بسیار نزدیک به عملکرد درک زبانی انسان در GLUE هستند.

در چند ماه گذشته، مایکروسافت به‌طور قابل توجهی رویکرد MT-DNN را در حوزه درک زبان طبیعی بهبود بخشید و درنتیجه موفق شد در ژوئن ۲۰۱۹ به‌طور کلی با نمره متوسط ۸۷.۶ در مقابل ۸۷.۱ نسبت به عملکرد درک زبانی در GLUE پیشی بگیرد. نتیجه حاصل‌شده از روش MT-DNN به‌طور قابل ملاحظه‌ای حتی بهتر از دومین روش با نمره (۸۶.۳) در جدول رده‌‌بندی است.

دلیل موفقیت رویکرد MT-DNN در درجه اول، ترکیب روش جدیدی به نام تکلیف رابط زبان طبیعی وینوگراد (WNLI) است که در آن هوش مصنوعی باید بتواند به‌درستی ضمایر مبهم جملات را شناسایی کند و تشخیص دهد که مرجع آن ضمایر در جملات به کدام اسامی مشخص در جمله بازمی‌گردد.

برای مثال، در این تکلیف زبانی، جمله‌ای را در اختیار هوش مصنوعی قرار می‌دهند:

شورای شهر اجازه تظاهرات به تظاهرت‌کنندگان را نداد، زیرا آن‌ها از خشونت [می‌ترسیدند/ حمایت می‌کردند].

اگر واژه «ترسیدن» انتخاب شود، بنابراین ضمیر آن‌ها به شورای شهر برمی‌گردد و اگر واژه «حمایت کردن» انتخاب شود، ضمیر به واژه تظاهرات کنندگان اشاره دارد.

انسان‌ها چنین تکالیف زبانی‌ را براساس شم زبانی خود به‌صورت شهودی و با توجه به دانش جهانی خود انجام می‌دهند اما انجام چنین تکالیفی برای ماشین بسیار دشوار است.

این تکلیف زبانی به‌عنوان یکی از چالش‌برانگیزترین تکالیف در GLUE به ثبت رسیده است، تا جایی که مدل‌های قبلی یادگیری ماشین مانند BERT به‌سختی توانستند عملکرد بهتری از سطح ابتدایی با اکثریت آرا (نمره ۶۵.۱) به‌دست آورند.

اگرچه نسخه‌های اولیه MT-DNN (که توسط لیو و همکاران در مقالاتی در سال ۲۰۱۹ به ثبت رسیده است) در حال حاضر نمرات بهتری نسبت به انسان‌ها به دست ‌آورده‌اند، اما در چندین تکلیف زبانی مانند MRPC ،QQP و QNI عملکرد بسیار ضعیف‌تری نسبت به انسان در تکلیف زبانی WNLI داشتند، به‌طوری که هوش مصنوعی توانست نمره‌ی ۶۵.۱ را درمقابل نمره‌‌ی ۹۵.۹ انسان کسب کند. بنابراین، پژوهشگران به‌طور کلی معتقد هستند که بهبود نمره آزمون در تکلیف زبانی WNLI برای دستیابی به عملکرد درک زبان انسانی براساس نمره کلی در GLUE بسیار حیاتی است. تیم تحقیقاتی مایکروسافت با روشی مبتنی بر مدل جدید یادگیری عمیق به کمک بهبود حل تکلیف WNLI برای هوش مصنوعی آمده است. این مدل میزان واضح بودن ضمایر را با توجه به محاسبه شباهت معنایی بین ضمایر و مرجع‌های پیشنهادی در جمله فریم بندی می‌کند. با استفاده از این روش نمره آزمون نهایی در ماشین به ۸۹.۰ ارتقا یافت. نمره آزمون همراه‌با بهبود بخش‌های دیگر، به‌طور کلی به ۸۷.۶ رسید و توانست در عملکرد درک زبان انسانی در GLUE پیشی بگیرد که نقطه عطفی در جهت رسیدن به هدف درک زبان طبیعی در ماشین محسوب می‌شود.