ش | ی | د | س | چ | پ | ج |
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 |
مجموعه جملاتی به فارسی محاورهای با برگردان رسمی آنها
گردآوری: محمد رجبپور
مجموعهی دادگان دربرگیرندهی 1698 جملهی فارسی است که در آنها صورت کلمههای محاورهای وجود دارد. تمامی این 1698 جملهی محاورهای به فارسی رسمی برگردانده شدهاند. به عبارت دیگر، برای هر جملهی محاورهای نوعی ترجمهی درونزبانی به فارسی رسمی معیار صورت گرفته است.
تلاش شده است که دادگان محاورهای استخراجی نمونههایی با سبک و سیاق گوناگون باشد. جملههای محاورهای از 7 سخنرانی سیاسی و مذهبی (6 سخنرانی از رهبر انقلاب و 1 سخنرانی از پیکرهی بیجنخان)، 2 داستان کوتاه (از صادق هدایت و جلال آلاحمد)، 1 رمان (از محمد گلابدرهیی)، 1 نمایشنامه (از حسین پاکدل) و 1 شعر (ترجمهای از پژوهشگر) برگزیده شدهاند. برگردان جملات به فارسی رسمی توسط پژوهشگر صورت گرفته است.
ادامه مطلب ...در سال1396، اینجانب در راستای موضوع پایاننامهی خود نسبت به طراحی یک سامانهی تبدیل متنهای محاورهای به متنهای رسمی برای زبان فارسی اقدام کردم که نتیجهی آن برنامهای است که لینک دانلود آن در زیر آمده است. امیدوارم که این برنامه برای پژوهشگران و مهندسان کامپیوتری که در این حوزه مشغول به فعالیتاند مفید باشد.
دانلود تبدیلگر متون فارسی محاورهای به متون رسمی
ادامه مطلب ...
زبانشناسی رایانشی چیست؟
نویسنده: محمد رجبپور
زبانشناسی رایانشی یا زبانشناسی محاسباتی (به انگلیسی: Computational Linguistics یا CL) حوزهای بینارشتهای است که از آمیزش مهندسی کامپیوتر، علوم کامپیوتر و زبانشناسی پدید آمده است. واژهی «رایانش» در زبان فارسی به معنای «محاسبات» است. پژوهشگران این رشته معمولاً متنهای مختلف را تبدیل به بردارهای فراوانی کلمات میکنند و سپس برای رسیدن به نتیجهی موردنظرشان محاسبات لازم را بر روی این بردارها انجام میدهند. از این جهت است که به آن زبانشناسی «رایانشی» یا «محاسباتی» میگویند. تقریباً نیمی از دروسی که دانشجویان این رشته میگذرانند در حوزهی مهندسی و علوم کامپیوتر و نیم دیگر در زمینهی زبانشناسی است.
ادامه مطلب ...مطلب زیر برگرفته از پایاننامهی کارشناسی ارشد اینجانب بخش پژوهشهای پیشین (صفحات 14 تا 16) است. امیدوارم این نوشته برای کسانی که در این حوزه مشغول به پژوهش هستند مفید واقع شود.
نقدی بر مقالهی «تبدیل متن محاورهای فارسی به کمک N_gram ها»
نویسنده: محمد رجبپور
نادیه آرمین و مهرنوش شمس فرد (1389) از پیشگامان پژوهش در حوزهی تبدیل خودکار و قاعدهمند متون محاورهای به متون رسمی در زبان فارسی هستند. هر چند آنها مدعی استفاده از روش ترکیبی قاعدهمند و آماری بودهاند، اما کفهی ترازوی قاعدهمندی در پژوهششان سنگینتر است و به سختی میشود رگههایی از یک روش آماری به معنای واقعی کلمه را در کارشان یافت. پژوهش نامبردگان دارای ایرادات و نقیصههای زیر است:
ادامه مطلب ...در زبانشناسی، درختبانک یک پیکرهی متنی پارسشده است که ساختار معنایی یا نحوی جملهها را حاشیهنویسی میکند. ساخت پیکرههای پارسشده در اوایل دهه نود قرن بیستم میلادی انقلابی در زبانشناسی رایانشی به پا کرد و متخصصان این رشته توانستند از دادههای تجربی انبوه بهره ببرند. بهکارگیری دادههای درختبانک از زمانی که نخستین درختبانک در مقیاس انبوه (The Penn Treebank) منتشر شد، حائز اهمیت بوده است.
ادامه مطلب ...