ش | ی | د | س | چ | پ | ج |
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 |
مطلب زیر برگرفته از پایاننامهی کارشناسی ارشد اینجانب بخش پژوهشهای پیشین (صفحات 14 تا 16) است. امیدوارم این نوشته برای کسانی که در این حوزه مشغول به پژوهش هستند مفید واقع شود.
نقدی بر مقالهی «تبدیل متن محاورهای فارسی به کمک N_gram ها»
نویسنده: محمد رجبپور
نادیه آرمین و مهرنوش شمس فرد (1389) از پیشگامان پژوهش در حوزهی تبدیل خودکار و قاعدهمند متون محاورهای به متون رسمی در زبان فارسی هستند. هر چند آنها مدعی استفاده از روش ترکیبی قاعدهمند و آماری بودهاند، اما کفهی ترازوی قاعدهمندی در پژوهششان سنگینتر است و به سختی میشود رگههایی از یک روش آماری به معنای واقعی کلمه را در کارشان یافت. پژوهش نامبردگان دارای ایرادات و نقیصههای زیر است:
الف) از دادگان موازی استفاده نکردهاند. پیکرهی کوچکی که آنها گرد آوردهاند تنها شامل جملات محاورهای میباشد.
ب) معیاری برای نشان دادن میزان محاورهای بودن دادگانشان ارائه ندادهاند. بیگمان گونههای مختلف متنهای فارسی، چه گفتاری و چه نوشتاری، از لحاظ محاورهای بودن یکسان نیستند.
ج) آنها تفکیکی بین دادگان آموزش و آزمون قائل نشدهاند و سامانهیشان را با همان دادگانی که مرجع استخراج قواعد بوده است سنجیدهاند. بنابراین نتیجهای که گرفتهاند، کاملاً سوگیری شده بر روی دادگان خاصی بوده است.
د) آنها از معیار معتبر و شناخته شدهای برای سنجش سامانهیشان استفاده نکردهاند و فقط عنوان نمودهاند به طور میانگین از هر 100 کلمهی محاورهای، سامانهیشان 93 کلمه را «درست تشخیص داده» است. آنها صریح نگفتهاند منظورشان از «درست تشخیص دادن» چه بوده است. آشکار است بین «تشخیص» و «تبدیل» تفاوت اساسی وجود دارد. اگر بپنداریم که منظورشان از «تشخیص» همان «تبدیل» بوده است، این سوال مطرح میشود که آیا آن 7 درصد دیگر کلمات دچار تبدیل غلط شدهاند یا تبدیلی روی آنها صورت نگرفته است. متأسفانه در پژوهش آنها، پاسخی برای این سوال نیآمده است. از این مهمتر، آنها توضیح ندادهاند که سامانهیشان آیا کلماتی که رسمیاند را به اشتباه دچار تبدیل کرده است یا نه. بدیهی است هر سامانهی تبدیل قاعدهمندی تعدادی از صورتکلمههای رسمی را ممکن است به اشتباه محاورهای فرض و آنها را دستخوش تبدیل ناخواسته و نادرستی بکند.
ه) آنها ابراز نکردهاند که دقت سامانهیشان را به صورت دستی یا خودکار سنجیدهاند. اگر ایشان دقت سامانهیشان را به صورت خودکار انجام دادهاند باید عنوان میکردند با توجه به موازی نبودن دادگانشان و در دسترس نبودن برگردانهای مرجع انسانی، چگونه این امر را تحقق بخشیدهاند. اگر سنجش دقت را دستی انجام دادهاند بایستی معلوم میکردند تک تک 44000 کلمهی پیکرهیشان را شمردهاند یا از آن به صورت اتفاقی نمونهبرداری کردهاند.
و) ایشان مشخص نکردهاند پایگاه دادهای که برای تبدیلات بیقاعده استفاده کردهاند شامل چند مدخل بوده است. این پایگاه داده بسیار مهم است و بهتر بود مشخص میکردند تا چه حد سامانهیشان بر آن تکیه دارد.
یکی از مزیتهای پژوهش آنها، استفاده از مدل n-گرامی برای رفع ابهامات در تبدیلات است. اما متأسفانه مشخص نکردهاند بدون این مدل زبانی، دقت تبدیلات قاعدهمندشان چه قدر بوده و با به کار بردن آن به چه میزان دقت را افزایش دادهاند.
منبع:
· آرمین، نادیه و مهرنوش شمس فرد (۱۳۸۹). تبدیل متن محاورهای فارسی به کمک N_gram ها، شانزدهمین کنفرانس بین المللی سالانه انجمن کامپیوتر ایران، تهران، انجمن کامپیوتر.
· رجبپور، محمد (1396). تبدیل قاعدهمند متنهای محاورهای به متنهای رسمی در زبان فارسی، پایاننامه کارشناسی ارشد، مرکز زبانها و زبانشناسی، دانشگاه صنعتی شریف.