هوش مصنوعی

سلام،

نمی‌خواهیم راجع به اهمیت هوش مصنوعی صحبت کنیم. اولاً در رابطه با این موضوع همه به اندازه کافی صحبت کرده‌اند و ثانیا فکر نمی‌کنم کسی باقی مونده باشه که هنوز در معرض تاثیر و یا اخبار هوش مصنوعی و علی الخصوص پیشرفت‌های اخیر این حوزه قرار نگرفته باشه. بلکه می‌خواهیم راجع به اهمیت داده‌هایی که برای آموزش در اختیار مدل‌های هوش مصنوعی قرار می‌گیرد و به طور خاص داده‌های زبان فارسی صحبت کنیم! زیرا اگر هوش مصنوعی بخواهد تاثیر حداکثری داشته باشد، چه این تاثیر مثبت باشد و یا چه به ظن برخی بزرگان تاثیری منفی باشد و به توانایی موثر تحریف واقعیات ختم بشود، داده آموزشی ابتدایی‌ترین نیاز آن است.

اولین چالش، حجم متون فارسی در دسترس است. در سال‌های اخیر سرعت رشد حجم مطالب فارسی بیشتر شده است با این حال در مقابل زبانی مثل انگلیسی، واضح است داده‌های زبان فارسی بسیار بسیار کم هستند. این باعث خواهد شد مدل آموزش دیده فارسی را خوب بلد نباشد! جالب است بدانید زمانی به قدری محتوای فارسی کم بود، که جستجوی بسیار از کلید واژه‌ها به این وبلاگ ختم می‌شد، مثلا درختکاری!

خوب بلد نبودن فارسی به دو صورت در کاربرد یک مدل نمود پیدا خواهد کرد؛ چنین مدلی بخوبی منظور یک فارسی زبان را نخواهد فهمید و همچنین خروجی آن به زبان فارسی با کیفیت و سلیس نخواهد بود. این دو مشکل در نهایت منجر به اتلاف وقت کاربر در حین استفاده از آن خواهد شد و بشدت بهروری را پایین خواهد آورد. بخشی از این اتلاف وقت در حین طرح سوال و گفتگو با مدل برای برطرف کردن ابهامات و انتقال درست منظور رخ می‌دهد و بخش دیگر برای ویرایش خروجی مدل و تبدیل آن به متنی صحیح و روان.

دومین چالش که شاید به نوعی زیر مجموعه‌ی چالش اول باشد و شاید خیر، اختلاف نسبتاً زیاد فارسی معیار با محاوره و در نتیجه نیاز به متون اختصاصی محاوره‌ای برای آموزش هوش مصنوعی است. داده‌های زبان فارسی به خودی خود کم هستند و فارسی محاوره فقط بخش کوچکی از این داده‌ها را تشکیل می‌دهد. نیاز به این نوع داده آموزشی از آنجا اهمیت دارد که بسیاری از فارسی زبانان ممکن است آگاهانه یا ناخودآگاه با مدل هوش مصنوعی با استفاده از فارسی محاوره، چه بصورت نوشتاری و چه صوتی، گفتگو کنند. ارتباط با فارسی محاوره باعث دو چندان شدن ابهامات هوش مصنوعی خواهد شد.

برای تشریح عمق مشکل مثالی می‌زنیم. سه کلمه‌ی "ساعت"، "سه" و "شد" را در نظر بگیرید. این کلمات به شش صورت می‌توانند کنار هم قرار بگیرند و جمله بسازند:

  • «ساعت سه شد» معمولا برای بیان نگرانی، غر، ناراحتی یا تعجب از اینکه ساعت سه شده، زمان زود گذشته و یا به اصطلاح زود دیر شده. همچنین می‌تواند صرفاً خبری باشد مثلا "[قرار] ساعت سه شد".
  • «ساعت شد سه» معمولا مشابه کاربرد مورد قبلی است.
  • «سه ساعت شد» معمولا برای پاسخ به سوال در مورد زمان صرف شده برای کاری بکار می‌رود. همچنین می‌تواند برای پرسیدن زمان صرف شده و یا زمانی که قرار است صرف شود بکار می‌رود.
  • «سه شد ساعت» معمولا بصورت پرسشی "سه شد ساعت؟" بکار می‌رود و حاوی تعجب یا رنجش از مثلا ساعت قرار توسط شخصی است که سوال را می‌پرسد.
  • «شد سه ساعت» معمولا برای خبر دادن زمانی که برای کاری صرف شده و یا قرار است صرف شود بکار می‌رود. همچنین به صورت پرسشی "شد سه ساعت؟" ممکن است بکار برود و در این حالت عمدتاً حاوی تعجب و یا سرزنش شخصی است که سوال را می‌پرسد.
  • «شد ساعت سه» معمولا برای پرسش مثل "شد ساعت سه؟" و یا در پاسخ به پرسشی مثل "قرار ساعت چند شد؟" بکار می‌رود.

با اینکه کاربرد جملات فوق در مواردی دارای همپوشانی است، در مواردی نیز بسیار متفاوت هستند و با توجه به اینکه در چه موقعیتی بکار می‌روند ممکن است معانی متفاوتی داشته باشند، حتی معانی‌ای غیر از مثال‌های ذکر شده! این مثالی بسیار ساده، شامل تنها سه کلمه بسیار دم دستی بود ولی نشون میده که این هوش مصنوعی بینوا چه کار سختی برای درک زبان فارسی در پیش داره!

حال می‌پردازیم به وظیفه ما برای پیشگیری و مقابله با این بحران. راه حل بسیار ساده است! بیشتر بنویسید و حرف بزنید و محتوای فارسی باکیفیت بیشتری تولید کنید و روی اینترنت قرار دهید! هر چه تعداد و تنوع محتوای فارسی بیشتر شود، درک مدل‌های هوش مصنوعی از زبان فارسی بیشتر خواهد شد. علاوه بر متون معمولی به متون تحلیلی هم بشدت نیاز است. مثلاً همین نوشته به هوش مصنوعی کمک خواهد کرد جملاتی مشابه مثال فوق را بهتر درک کند. از شما چه پنهان هدف اصلی این نوشته کمک به هوش مصنوعی است. برخی معتقدند هوش مصنوعی دوستان و یاران (همچنین دشمنان) خود را فراموش نخواهد کرد!

موفق باشید.

Loading