رایانشکده *** Computation Hub

رایانشکده *** Computation Hub

محاسبات ریاضی، حل مسئله های برنامه نویسی و پیاده سازی الگوریتم
رایانشکده *** Computation Hub

رایانشکده *** Computation Hub

محاسبات ریاضی، حل مسئله های برنامه نویسی و پیاده سازی الگوریتم

نقدی بر مقاله‌ی «تبدیل متن محاوره‌ای فارسی به کمک N_gram ها»

مطلب زیر برگرفته از پایان‌نامه‌ی کارشناسی ارشد اینجانب بخش پژوهش‌های پیشین (صفحات 14 تا 16) است. امیدوارم این نوشته برای کسانی که در این حوزه مشغول به پژوهش هستند مفید واقع شود.

نقدی بر مقاله‌ی «تبدیل متن محاوره‌ای فارسی به کمک N_gram ها»

نویسنده: محمد رجب‌پور

 

نادیه آرمین و مهرنوش شمس فرد (1389) از پیشگامان پژوهش در حوزه‌ی تبدیل خودکار و قاعده‌مند متون محاوره‌ای به متون رسمی در زبان فارسی هستند. هر چند آنها مدعی استفاده از روش ترکیبی قاعده‌مند و آماری بوده‌اند، اما کفه‌ی ترازوی قاعده‌مندی در پژوهششان سنگین‌تر است و به سختی می‌شود رگه‌هایی از یک روش آماری به معنای واقعی کلمه را در کارشان یافت. پژوهش نامبردگان دارای ایرادات و نقیصه‌های زیر است: 

 

الف) از دادگان موازی استفاده نکرده‌اند. پیکره‌ی کوچکی که آنها گرد آورده‌اند تنها شامل جملات محاوره‌ای می‌باشد.

ب) معیاری برای نشان دادن میزان محاوره‌ای بودن دادگانشان ارائه نداده‌اند. بی‌گمان گونه‌های مختلف متن‌های فارسی، چه گفتاری و چه نوشتاری، از لحاظ محاوره‌ای بودن یکسان نیستند.

ج) آنها تفکیکی بین دادگان آموزش و آزمون قائل نشده‌اند و سامانه‌یشان را با همان دادگانی که مرجع استخراج قواعد بوده است سنجیده‌اند. بنابراین نتیجه‌ای که گرفته‌اند، کاملاً سوگیری شده بر روی دادگان خاصی بوده است.

د) آنها از معیار معتبر و شناخته شده‌ای برای سنجش سامانه‌یشان استفاده نکرده‌اند و فقط عنوان نموده‌اند به طور میانگین از هر 100 کلمه‌ی محاوره‌ای، سامانه‌یشان 93 کلمه را «درست تشخیص داده» است. آنها صریح نگفته‌اند منظورشان از «درست تشخیص دادن» چه بوده است. آشکار است بین «تشخیص» و «تبدیل» تفاوت اساسی وجود دارد. اگر بپنداریم که منظورشان از «تشخیص» همان «تبدیل» بوده است، این سوال مطرح می‌شود که آیا آن 7 درصد دیگر کلمات دچار تبدیل غلط شده‌اند یا تبدیلی روی آنها صورت نگرفته است. متأسفانه در پژوهش آنها، پاسخی برای این سوال نیآمده است. از این مهم‌تر، آنها توضیح نداده‌اند که سامانه‌یشان آیا کلماتی که رسمی‌اند را به اشتباه دچار تبدیل کرده است یا نه. بدیهی است هر سامانه‌ی تبدیل قاعده‌مندی تعدادی از صورت‌کلمه‌های رسمی را ممکن است به اشتباه محاوره‌ای فرض و آنها را دستخوش تبدیل ناخواسته و نادرستی بکند.

ه) آنها ابراز نکرده‌اند که دقت سامانه‌یشان را به صورت دستی یا خودکار سنجیده‌اند. اگر ایشان دقت سامانه‌یشان را به صورت خودکار انجام داده‌اند باید عنوان می‌کردند با توجه به موازی نبودن دادگانشان و در دسترس نبودن برگردان‌های مرجع انسانی، چگونه این امر را تحقق بخشیده‌اند. اگر سنجش دقت را دستی انجام داده‌اند بایستی معلوم می‌کردند تک تک 44000 کلمه‌ی پیکره‌یشان را شمرده‌اند یا از آن به صورت اتفاقی نمونه‌برداری کرده‌اند.

و) ایشان مشخص نکرده‌اند پایگاه داده‌ای که برای تبدیلات بی‌قاعده استفاده کرده‌اند شامل چند مدخل بوده است. این پایگاه داده بسیار مهم است و بهتر بود مشخص می‌کردند تا چه حد سامانه‌یشان بر آن تکیه دارد.

یکی از مزیت‌های پژوهش آنها، استفاده از مدل n-گرامی برای رفع ابهامات در تبدیلات است. اما متأسفانه مشخص نکرده‌اند بدون این مدل زبانی، دقت تبدیلات قاعده‌مندشان چه قدر بوده و با به کار بردن آن به چه میزان دقت را افزایش داده‌اند.

   

منبع:

·    آرمین، نادیه و مهرنوش شمس فرد (۱۳۸۹). تبدیل متن محاوره‌ای فارسی به کمک N_gram ها، شانزدهمین کنفرانس بین المللی سالانه انجمن کامپیوتر ایران، تهران، انجمن کامپیوتر.

 

·    رجب‌پور، محمد (1396). تبدیل قاعده‌مند متن‌های محاوره‌ای به متن‌های رسمی در زبان فارسی، پایان‌نامه کارشناسی ارشد، مرکز زبان‌ها و زبان‌شناسی، دانشگاه صنعتی شریف.


دانلود نسخه پی دی اف مقاله

نظرات 0 + ارسال نظر
برای نمایش آواتار خود در این وبلاگ در سایت Gravatar.com ثبت نام کنید. (راهنما)
ایمیل شما بعد از ثبت نمایش داده نخواهد شد