رایانشکده *** Computation Hub

رایانشکده *** Computation Hub

محاسبات ریاضی، حل مسئله های برنامه نویسی و پیاده سازی الگوریتم
رایانشکده *** Computation Hub

رایانشکده *** Computation Hub

محاسبات ریاضی، حل مسئله های برنامه نویسی و پیاده سازی الگوریتم

دانلود مجموعه داده‌ی موازی فارسی محاوره‌ای-رسمی

مجموعه جملاتی به فارسی محاوره‌ای با برگردان رسمی آنها

گردآوری: محمد رجب‌پور

 

مجموعه‌ی دادگان دربرگیرنده‌ی 1698 جمله‌ی فارسی است که در آنها صورت کلمه‌های محاوره‌ای وجود دارد. تمامی این 1698 جمله‌ی محاوره‌ای به فارسی رسمی برگردانده شده‌اند. به عبارت دیگر، برای هر جمله‌ی محاوره‌ای نوعی ترجمه‌ی درون‌زبانی به فارسی رسمی معیار صورت گرفته است.

تلاش شده است که دادگان محاوره‌ای استخراجی نمونه‌هایی با سبک و سیاق گوناگون باشد. جمله‌های محاوره‌ای از 7 سخنرانی سیاسی و مذهبی (6 سخنرانی از رهبر انقلاب و 1 سخنرانی از پیکره‌ی بی‌جن‌خان)، 2 داستان کوتاه (از صادق هدایت و جلال آل‌احمد)، 1 رمان (از محمد گلابدره‌یی)، 1 نمایشنامه (از حسین پاکدل) و 1 شعر (ترجمه‌ای از پژوهشگر) برگزیده شده‌اند. برگردان جملات به فارسی رسمی توسط پژوهشگر صورت گرفته است. 

ادامه مطلب ...

دانلود برنامه‌ی تبدیل متون فارسی محاوره‌ای به متون رسمی


در سال1396، اینجانب در راستای موضوع پایان‌نامه‌ی خود نسبت به طراحی یک سامانه‌ی تبدیل متن‌های محاوره‌ای به متن‌های رسمی برای زبان فارسی اقدام کردم که نتیجه‌ی آن برنامه‌ای است که لینک دانلود آن در زیر آمده است. امیدوارم که این برنامه برای پژوهشگران و مهندسان کامپیوتری که در این حوزه مشغول به فعالیت‌اند مفید باشد.


دانلود تبدیلگر متون فارسی محاوره‌ای به متون رسمی

 

ادامه مطلب ...

زبان‌شناسی رایانشی چیست؟

زبان‌شناسی رایانشی چیست؟

نویسنده: محمد رجب‌پور

زبان‌شناسی رایانشی یا زبان‌شناسی محاسباتی (به انگلیسی: Computational Linguistics یا CL) حوزه‌ای بینارشته‌ای است که از آمیزش مهندسی کامپیوتر، علوم کامپیوتر و زبان‌شناسی پدید آمده است. واژه‌ی «رایانش» در زبان فارسی به معنای «محاسبات» است. پژوهشگران این رشته معمولاً متن‌های مختلف را تبدیل به بردارهای فراوانی کلمات می‌کنند و سپس برای رسیدن به نتیجه‌ی موردنظرشان محاسبات لازم را بر روی این بردارها انجام می‌دهند. از این جهت است که به آن زبان‌شناسی «رایانشی» یا «محاسباتی» می‌گویند. تقریباً نیمی از دروسی که دانشجویان این رشته می‌گذرانند در حوزه‌ی مهندسی و علوم کامپیوتر و نیم دیگر در زمینه‌ی زبان‌شناسی است. 

ادامه مطلب ...

نقدی بر مقاله‌ی «تبدیل متن محاوره‌ای فارسی به کمک N_gram ها»

مطلب زیر برگرفته از پایان‌نامه‌ی کارشناسی ارشد اینجانب بخش پژوهش‌های پیشین (صفحات 14 تا 16) است. امیدوارم این نوشته برای کسانی که در این حوزه مشغول به پژوهش هستند مفید واقع شود.

نقدی بر مقاله‌ی «تبدیل متن محاوره‌ای فارسی به کمک N_gram ها»

نویسنده: محمد رجب‌پور

 

نادیه آرمین و مهرنوش شمس فرد (1389) از پیشگامان پژوهش در حوزه‌ی تبدیل خودکار و قاعده‌مند متون محاوره‌ای به متون رسمی در زبان فارسی هستند. هر چند آنها مدعی استفاده از روش ترکیبی قاعده‌مند و آماری بوده‌اند، اما کفه‌ی ترازوی قاعده‌مندی در پژوهششان سنگین‌تر است و به سختی می‌شود رگه‌هایی از یک روش آماری به معنای واقعی کلمه را در کارشان یافت. پژوهش نامبردگان دارای ایرادات و نقیصه‌های زیر است: 

ادامه مطلب ...

درخت‌بانک نحوی یا Treebank

در زبان‌شناسی، درخت‌بانک یک پیکره‌ی متنی پارس‌شده است که ساختار معنایی یا نحوی جمله‌ها را حاشیه‌نویسی می‌کند. ساخت پیکره‌های پارس‌شده در اوایل دهه نود قرن بیستم میلادی انقلابی در زبان‌شناسی رایانشی به پا کرد و متخصصان این رشته توانستند از داده‌های تجربی انبوه بهره ببرند. به‌کارگیری داده‌های درخت‌بانک از زمانی که نخستین درخت‌بانک در مقیاس انبوه (The Penn Treebank) منتشر شد، حائز اهمیت بوده است.

 

ادامه مطلب ...