مجموعه جملاتی به فارسی محاورهای با برگردان رسمی آنها
گردآوری: محمد رجبپور
مجموعهی دادگان دربرگیرندهی 1698 جملهی فارسی است که در آنها صورت کلمههای محاورهای وجود دارد. تمامی این 1698 جملهی محاورهای به فارسی رسمی برگردانده شدهاند. به عبارت دیگر، برای هر جملهی محاورهای نوعی ترجمهی درونزبانی به فارسی رسمی معیار صورت گرفته است.
تلاش شده است که دادگان محاورهای استخراجی نمونههایی با سبک و سیاق گوناگون باشد. جملههای محاورهای از 7 سخنرانی سیاسی و مذهبی (6 سخنرانی از رهبر انقلاب و 1 سخنرانی از پیکرهی بیجنخان)، 2 داستان کوتاه (از صادق هدایت و جلال آلاحمد)، 1 رمان (از محمد گلابدرهیی)، 1 نمایشنامه (از حسین پاکدل) و 1 شعر (ترجمهای از پژوهشگر) برگزیده شدهاند. برگردان جملات به فارسی رسمی توسط پژوهشگر صورت گرفته است.
ادامه مطلب ...در سال1396، اینجانب در راستای موضوع پایاننامهی خود نسبت به طراحی یک سامانهی تبدیل متنهای محاورهای به متنهای رسمی برای زبان فارسی اقدام کردم که نتیجهی آن برنامهای است که لینک دانلود آن در زیر آمده است. امیدوارم که این برنامه برای پژوهشگران و مهندسان کامپیوتری که در این حوزه مشغول به فعالیتاند مفید باشد.
دانلود تبدیلگر متون فارسی محاورهای به متون رسمی
ادامه مطلب ...
زبانشناسی رایانشی چیست؟
نویسنده: محمد رجبپور
زبانشناسی رایانشی یا زبانشناسی محاسباتی (به انگلیسی: Computational Linguistics یا CL) حوزهای بینارشتهای است که از آمیزش مهندسی کامپیوتر، علوم کامپیوتر و زبانشناسی پدید آمده است. واژهی «رایانش» در زبان فارسی به معنای «محاسبات» است. پژوهشگران این رشته معمولاً متنهای مختلف را تبدیل به بردارهای فراوانی کلمات میکنند و سپس برای رسیدن به نتیجهی موردنظرشان محاسبات لازم را بر روی این بردارها انجام میدهند. از این جهت است که به آن زبانشناسی «رایانشی» یا «محاسباتی» میگویند. تقریباً نیمی از دروسی که دانشجویان این رشته میگذرانند در حوزهی مهندسی و علوم کامپیوتر و نیم دیگر در زمینهی زبانشناسی است.
ادامه مطلب ...مطلب زیر برگرفته از پایاننامهی کارشناسی ارشد اینجانب بخش پژوهشهای پیشین (صفحات 14 تا 16) است. امیدوارم این نوشته برای کسانی که در این حوزه مشغول به پژوهش هستند مفید واقع شود.
نقدی بر مقالهی «تبدیل متن محاورهای فارسی به کمک N_gram ها»
نویسنده: محمد رجبپور
نادیه آرمین و مهرنوش شمس فرد (1389) از پیشگامان پژوهش در حوزهی تبدیل خودکار و قاعدهمند متون محاورهای به متون رسمی در زبان فارسی هستند. هر چند آنها مدعی استفاده از روش ترکیبی قاعدهمند و آماری بودهاند، اما کفهی ترازوی قاعدهمندی در پژوهششان سنگینتر است و به سختی میشود رگههایی از یک روش آماری به معنای واقعی کلمه را در کارشان یافت. پژوهش نامبردگان دارای ایرادات و نقیصههای زیر است:
ادامه مطلب ...روش «جایگزین ارزیابی دوزبانه»: ابزاری معتبر برای سنجش دقت در ترجمهی ماشینی
نویسنده: محمد رجبپور
در سالهای اخیر مهندسان کامپیوتر توانستهاند با پردازش دادههای انبوه زبانی به خصوص پیکرههای موازی بزرگ و بهکارگیری روشهای آماری دقت ماشینهای ترجمه را افزایش دهند و از همین رو کاربران بیشتری از ماشینهای ترجمهای نظیر Google Translate در زندگی روزمره خود بهره میگیرند برای این که بتوانیم دقت ماشینهای ترجمه و کارایی آنها را بسنجیم نیاز به روشی است علمی و عینی. یکی از راهها این است که ترجمهی ماشینی از یک یا چند متن را با ترجمه یا ترجمههای انسانی همان متن بسنجیم. به عبارت دیگر، ترجمههای خوب و روان صورت گرفته توسط مترجمان مسلط به زبان مبدأ و مقصد ملاکی برای سنجش ترجمهی ماشینی قرار میگیرد.
ادامه مطلب ...