رایانشکده *** Computation Hub

رایانشکده *** Computation Hub

محاسبات ریاضی، حل مسئله های برنامه نویسی و پیاده سازی الگوریتم
رایانشکده *** Computation Hub

رایانشکده *** Computation Hub

محاسبات ریاضی، حل مسئله های برنامه نویسی و پیاده سازی الگوریتم

چکیده‌ی پایان‌نامه‌ی کارشناسی ارشد اینجانب

مرکز زبان‌ها و زبان‌شناسی


پایان ­نامه به عنوان تحقق بخشی از شرایط دریافت درجه کارشناسی ­ارشد

گرایش زبان‌شناسی رایانشی 


تبدیل قاعده‌مند متن‌های محاوره‌ای به متن‌های رسمی در زبان فارسی

 

نگارش

محمد رجب‌پور

 

استاد راهنما

دکتر محمد بحرانی

 

دی ماه 1396


چکیده


در این پژوهش نخست به جمع‌آوری دادگانی که دربرگیرنده‌ی جمله‌های محاوره‌ای بودند همت گمارده شد. دادگان گردآوری شده همگی توسط انسان به فارسی رسمی برگردانده شدند تا برای استخراج قواعد و سنجش دقت سامانه، یک پیکره‌ی دادگان موازی حاوی 1698 جفت جمله فراهم شود. سپس برای هر جمله‌ی محاوره‌ای و برگردان رسمی آن بردار فراوانی کلمات استخراج و میزان شباهت هر دو جمله بر اساس فاصله‌ی کسینوسی محاسبه گردید. برای کل دادگان نیز میانگین و انحراف معیار فاصله‌های کسینوسی محاسبه شد. آن گاه از طریق «تصادفی‌سازی طبقه‌بندی شده»، مجموعه‌ی دادگان به دو دسته‌ی آموزش (جهت استخراج قواعد) و آزمون (جهت ارزیابی سامانه) تقسیم‌بندی شدند به نحوی که از لحاظ محاوره‌ای بودن یعنی میانگین و انحراف معیار فاصله‌های کسینوسی بردارهای فراوانی کلمات، هر دو دسته به تقریب بسیار نزدیکی با یکدیگر یکسان باشند. در گام بعدی، از درون دادگان آموزش قاعده‌های تبدیل به سه صورت «تبدیل از طریق جدول مراجعه»، «تبدیل فعل‌ها بر اساس ریشه‌ها، پسوندهای تصریفی و واژه‌بست‌ها»، و «تبدیل از طریق قواعد مبتنی بر واژه‌نامه‌ی صورت کلمه‌های رسمی» استخراج شدند. الگوریتم تبدیل متون محاوره‌ای به متون رسمی بر اساس این قواعد پیاده‌سازی و کامپیوتر قادر شد تا واژگان فارسی را از شکل محاوره‌ای به شکل رسمی برگرداند. سرانجام دقت سامانه بر روی دادگان آزمون با معیارهای فاصله‌ی کسینوسی و دقت بلو سنجیده شد. دادگان آزمون پیش از برگردان ماشینی در مقایسه با برگردان‌های مرجع انسانی خود، میانگین شباهت فاصله‌ی کسینوسی پایه‌ی 0.531 و میانگین دقت بلوی پایه‌ی 0.520 را نشان می‌دادند. سامانه با تبدیل دادگان آزمون از گونه‌ی محاوره‌ای به رسمی، میانگین شباهت فاصله‌ی کسینوسی را به 0.842 و میانگین دقت بلو را به 0.801 افزایش داد.

 

کلمات کلیدی: تبدیل خودکار متون، روش قاعده‌مند، ترجمه‌ی ماشینی درون‌زبانی، هنجارسازی، فارسی محاوره‌ای، فارسی رسمی، زبان‌شناسی رایانشی


  1. شماره پایان نامه:50709
  2. کد دانشکده:31
  3. پدیدآور:رجب‌پور، محمد
  4. عنوان:تبدیل قاعده‌مند متن‌های محاوره‌ای به متن‌های رسمی در زبان فارسی.
  5. نام دانشگاه/پژوهشگاه:صنعتی شریف
  6. سال اخذ مدرک:1396.
  7. نام دانشکده:مرکز زبان ها و زبان شناسی
  8. مقطع:کارشناسی ارشد
  9. گرایش:زبان شناسی رایانشی
  10. توصیف ظاهری:91ص.: جدول، نمودار، کتابنامه؛ چکیده به فارسی و انگلیسی
  11. توصیفگر:بهنجارسازیNormalization
  12. توصیفگر:زبان شناسی رایانشیComputational Linguistics
  13. توصیفگر:روش قانون مندRule-Based Aproach
  14. توصیفگر:متن های محاوره ایColloquial Texts
  15. توصیفگر:تبدیل خودکار متونTexts Automatic Conversion
  16. توصیفگر:ترجمه ماشینی درون زبانیInterlanguage Machine Translation
  17. توصیفگر:فارسی رسمیFormal Persian
  18. استاد راهنما.بحرانی، محمد


مشخصات پایان نامه در کتابخانه مرکزی دانشگاه صنعتی شریف


Sharif University of Technology

(Languages and Linguistics Center)


A Thesis Submitted in Partial Fulfillment of the Requirement 

for the M.Sc. Degree in Computational Linguistics


Rule-Based Conversion of Colloquial Texts into Official Texts in Persian


By:

Mohammad Rajabpur


Supervisor:

Dr. Mohammad Bahrani


January, 2018


Abstract


In this study, first a set of data was colleted which consisted of colloquial sentences in Persian. Each of these sentences was rendered into standard Persian by native speakers. As a result, a corpus of parallel data including 1698 pairs of sentences was created. Then each colloquial sentence and its formal equivalent were converted into term-frequency vectors and the cosine distance similarity between the two vectors was calculated. Besides the mean and the standard deviation of all cosine distances were obtained. Afterwards the whole set of data was divided into two halves through Stratified randomization so that the two halves resembled each other in terms of cosine distance similarity. The first half was used to extract the rules and the second half was used in the evaluation of the system. The most productive rules involved the conversion of verb forms based on their roots, inflectional suffixes, and clitics and the conversion of nonverbial forms through consulting a lexicon of formal word forms. The exceptions, the irregularities and the conversions through unproductive rules were included in a look-up table. Subsequently the algorithm of rule-based conversion of colloquial sentences into formal sentences was designed and implemented. Eventually the colloquial sentences of the testing half of the data were fed into the system. For each colloquial sentence, the converted formal output was automatically compared and contrasted with the human rendering of the same sentence. The results demonstrate that the mean of cosine distances increased from a baseline of 0.531 to 0.842 and the mean of Bleu precision scores increased from a baseline of 0.520 to 0.801.      

 

Keywords: Automatic Conversion of Texts, Rule-Based Method, Intralanguge Machine Translation, Normalization, Colloquial Persian, Formal Persian, Computational Linguistics