ش | ی | د | س | چ | پ | ج |
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 |
مرکز زبانها و زبانشناسی
پایان نامه به عنوان تحقق بخشی از شرایط دریافت درجه کارشناسی ارشد
گرایش زبانشناسی رایانشی
تبدیل قاعدهمند متنهای محاورهای به متنهای رسمی در زبان فارسی
نگارش
محمد رجبپور
استاد راهنما
دکتر محمد بحرانی
در این پژوهش نخست به جمعآوری دادگانی که دربرگیرندهی جملههای محاورهای بودند همت گمارده شد. دادگان گردآوری شده همگی توسط انسان به فارسی رسمی برگردانده شدند تا برای استخراج قواعد و سنجش دقت سامانه، یک پیکرهی دادگان موازی حاوی 1698 جفت جمله فراهم شود. سپس برای هر جملهی محاورهای و برگردان رسمی آن بردار فراوانی کلمات استخراج و میزان شباهت هر دو جمله بر اساس فاصلهی کسینوسی محاسبه گردید. برای کل دادگان نیز میانگین و انحراف معیار فاصلههای کسینوسی محاسبه شد. آن گاه از طریق «تصادفیسازی طبقهبندی شده»، مجموعهی دادگان به دو دستهی آموزش (جهت استخراج قواعد) و آزمون (جهت ارزیابی سامانه) تقسیمبندی شدند به نحوی که از لحاظ محاورهای بودن یعنی میانگین و انحراف معیار فاصلههای کسینوسی بردارهای فراوانی کلمات، هر دو دسته به تقریب بسیار نزدیکی با یکدیگر یکسان باشند. در گام بعدی، از درون دادگان آموزش قاعدههای تبدیل به سه صورت «تبدیل از طریق جدول مراجعه»، «تبدیل فعلها بر اساس ریشهها، پسوندهای تصریفی و واژهبستها»، و «تبدیل از طریق قواعد مبتنی بر واژهنامهی صورت کلمههای رسمی» استخراج شدند. الگوریتم تبدیل متون محاورهای به متون رسمی بر اساس این قواعد پیادهسازی و کامپیوتر قادر شد تا واژگان فارسی را از شکل محاورهای به شکل رسمی برگرداند. سرانجام دقت سامانه بر روی دادگان آزمون با معیارهای فاصلهی کسینوسی و دقت بلو سنجیده شد. دادگان آزمون پیش از برگردان ماشینی در مقایسه با برگردانهای مرجع انسانی خود، میانگین شباهت فاصلهی کسینوسی پایهی 0.531 و میانگین دقت بلوی پایهی 0.520 را نشان میدادند. سامانه با تبدیل دادگان آزمون از گونهی محاورهای به رسمی، میانگین شباهت فاصلهی کسینوسی را به 0.842 و میانگین دقت بلو را به 0.801 افزایش داد.
کلمات کلیدی: تبدیل خودکار متون، روش قاعدهمند، ترجمهی ماشینی درونزبانی، هنجارسازی، فارسی محاورهای، فارسی رسمی، زبانشناسی رایانشی
مشخصات پایان نامه در کتابخانه مرکزی دانشگاه صنعتی شریف
Sharif University of Technology
(Languages and Linguistics Center)
A Thesis Submitted in Partial Fulfillment of the Requirement
for the M.Sc. Degree in Computational Linguistics
Rule-Based Conversion of Colloquial Texts into Official Texts in Persian
By:
Mohammad Rajabpur
Supervisor:
Dr. Mohammad Bahrani
January, 2018
Abstract
In this study, first a set of data was colleted which consisted of colloquial sentences in Persian. Each of these sentences was rendered into standard Persian by native speakers. As a result, a corpus of parallel data including 1698 pairs of sentences was created. Then each colloquial sentence and its formal equivalent were converted into term-frequency vectors and the cosine distance similarity between the two vectors was calculated. Besides the mean and the standard deviation of all cosine distances were obtained. Afterwards the whole set of data was divided into two halves through Stratified randomization so that the two halves resembled each other in terms of cosine distance similarity. The first half was used to extract the rules and the second half was used in the evaluation of the system. The most productive rules involved the conversion of verb forms based on their roots, inflectional suffixes, and clitics and the conversion of nonverbial forms through consulting a lexicon of formal word forms. The exceptions, the irregularities and the conversions through unproductive rules were included in a look-up table. Subsequently the algorithm of rule-based conversion of colloquial sentences into formal sentences was designed and implemented. Eventually the colloquial sentences of the testing half of the data were fed into the system. For each colloquial sentence, the converted formal output was automatically compared and contrasted with the human rendering of the same sentence. The results demonstrate that the mean of cosine distances increased from a baseline of 0.531 to 0.842 and the mean of Bleu precision scores increased from a baseline of 0.520 to 0.801.
Keywords: Automatic Conversion of Texts, Rule-Based Method, Intralanguge Machine Translation, Normalization, Colloquial Persian, Formal Persian, Computational Linguistics