رایانشکده *** Computation Hub

رایانشکده *** Computation Hub

محاسبات ریاضی، حل مسئله های برنامه نویسی و پیاده سازی الگوریتم
رایانشکده *** Computation Hub

رایانشکده *** Computation Hub

محاسبات ریاضی، حل مسئله های برنامه نویسی و پیاده سازی الگوریتم

درخت‌بانک نحوی یا Treebank

در زبان‌شناسی، درخت‌بانک یک پیکره‌ی متنی پارس‌شده است که ساختار معنایی یا نحوی جمله‌ها را حاشیه‌نویسی می‌کند. ساخت پیکره‌های پارس‌شده در اوایل دهه نود قرن بیستم میلادی انقلابی در زبان‌شناسی رایانشی به پا کرد و متخصصان این رشته توانستند از داده‌های تجربی انبوه بهره ببرند. به‌کارگیری داده‌های درخت‌بانک از زمانی که نخستین درخت‌بانک در مقیاس انبوه (The Penn Treebank) منتشر شد، حائز اهمیت بوده است.

 

 واژه‌ی درخت‌بانک نخستین بار توسط زبان‌شناسی به نام جفری لیچ در دهه هشتاد قرن بیستم میلادی سکه زده شد. او این واژه را به قیاس از مخزن‌های دیگری از قبیل بانک دانه (seedbank) و بانک خون (blood bank) ابداع کرد. در یک درخت‌بانک هم ساختار معنایی و هم ساختار نحوی از لحاظ ترکیبی همانند ساختار یک درخت بازنمایی می‌شود. اصطلاح «پیکره‌ی پارس‌شده» نیز اغلب به جای درخت‌بانک با برجستگی بیشتر برتری جملات نسبت به درخت‌ها به کار می‌رود.

درخت‌بانک‌ها اغلب بر روی یک پیکره که برچسب نحوی خورده است ایجاد می‌گردد. درخت‌بانک‌ها می‌توانند کاملاً به صورت دستی خلق شوند، بدین صورت که زبان‌شناسان ساختار نحوی هر جمله را بدان ضمیمه می‌کنند. این امر به صورت نیمه‌خودکار نیز شدنی است، بدین صورت که یک پارسر نحوی ساختارهای نحوی را تعیین می‌کند و سپس زبان‌شناسان آنها را بازبینی و در صورت نیاز بازنویسی می‌کنند.

برخی ‌درخت‌بانک‌ها از یک نظریه زبانی مشخص در حاشیه‌نویسی نحوی‌شان استفاده می‌نمایند؛ برای مثال درخت‌بانک BulTreeBank از دستور ساختار گروهی هسته-محور (HPSG) پیروی می‌کند. اما توسعه‌دهندگان اغلب درخت‌بانک‌ها می‌کوشند که به نظریه‌ی خاصی وابسته نباشند.

دو دسته‌ی اصلی درخت‌بانک وجود دارد: نخست دسته‌ای که ساختار گروه را به پیکره می‌افزایند مانند Penn Treebank یا ICE-GB. دسته‌ی دوم ساختار وابستگی را به پیکره ضمیمه می‌کنند مانند درخت‌بانک وابستگی پراگ یا درخت‌بانک وابستگی عربی قرآنی.

مهم است که تفاوت بین بازنمود صوری و فرمت فایلی که برای ذخیره‌ی داده‌ها به کار می‌رود روشن شود. برای مثال تحلیل نحوی جمله‌ی John loves Mary می‌تواند به صورت زیر بازنمود صوری یابد:



ساختار فوق را در یک فایل متنی می‌توان با پرانتزهای برچسب‌زده‌شده همانند زیر ذخیره کرد:


این نوع بازنمایی بسیار محبوب است، چرا که این گونه می‌توان درخت‌بانک را در فایلی کم‌حجم و سبک ذخیره کرد و خواندن ساختار درختی نیز این گونه نسبتاً آسان است و نیاز به نرم‌افزار تخصصی نیست. البته از آنجا که پیکره‌ها به طور فزاینده‌ای در حال پیچیده‌تر شدن هستند، انواع دیگری از فایل‌ها برای ذخیره‌ی آنها ممکن است ترجیح داده شود. این فرمت‌های جایگزین شامل طرح‌های XML مخصوص درخت‌بانک، تورفتگی شماره‌گذاری‌شده و انواع مختلفی از علامت‌گذاری موازنه‌ای می‌شود.


کاربردها

از یک منظر محاسباتی و رایانشی، درخت‌بانک‌ها برای مهندسی سامانه‌های بسیار پیشرفته‌ی پردازش زبان طبیعی همانند برچسب‌زن‌های نحوی، پارسرها، تحلیلگرهای نحوی و سامانه‌های ترجمه ماشینی به کار رفته‌اند. اغلب سامانه‌های رایانشی از داده‌های درخت‌بانک‌های معتبری که معیار و سنگ محک امور محاسباتی قرار گرفته‌اند بهره می‌برند. البته پیکره‌هایی که کاملاً خودکار پارس شده‌اند و توسط زبان‌شناسان تصحیح نشده‌اند نیز ممکن است مفید واقع شوند. آنها می‌توانند شواهدی از فراوانی قاعده‌ها برای یک پارسر فراهم کنند. می‌توان یک پارسر را با کاربرد آن برای مقادیر انبوه متن و جمع‌آوری فراوانی قاعده‌ها بهبود بخشید. لیکن واضح و بدیهی است که تنها از طریق فرایند تصحیح و تکمیل دستی یک پیکره امکان دارد قواعدی که خارج از حیطه‌ی معلومات پارسر قرار دارند تشخیص داده شوند. افزون بر این، با بازبینی و بازنویسی دستی، فراوانی‌هایی که استخراج می‌شوند دقیق‌تر خواهند بود.

در زبان‌شناسی پیکره‌ای، درخت‌بانک‌ها برای مطالعه‌ی پدیده‌های نحوی مورد استفاده قرار می‌گیرند.برای مثال پیکره‌های درزمانی را می‌توان برای واکاوی مسیر زمانی دگرگونی‌های نحوی به کار برد. پس از پارس شدن، یک پیکره دربرگیرنده‌ی اطلاعاتی خواهد بود که فراوانی ساختارهای دستوری مورد استفاده را نشان می‌دهد. درخت‌بانک‌ها هم‌چنین برای تهیه‌ی گزارش شواهد سودمندی را فراهم می‌کنند و موجب کشف پدیده‌های دستوری جدید و غیر‌منتظره می‌گردند.

کاربرد دیگر درخت‌بانک‌ها در زبان‌شناسی نظری و روان‌شناسی زبان، تهیه‌ی شواهد برهم‌کنشی است. یک درخت‌بانک تکمیل‌شده می‌تواند زبان‌شناسان را یاری کند تا آزمایش‌هایی را انجام دهند که نشان می‌دهند چگونه تصمیم گویشوران در استفاده از یک ساختار دستوری خاص بر تصمیم آنها در به‌کارگیری ساختارهای دستوری دیگر اثر می‌گذارد. این گونه زبان‌شناسان می‌توانند تبیین کنند چگونه گویشوران و نویسندگان در حین تولید جملات تصمیم‌گیری می‌کنند. اگر لایه‌های معناشناختی و کاربردشناختی به درخت‌بانک افزوده شود، پژوهشگران قادر خواهند بود تأثیر پدیده‌های غیرنحوی را بر انتخاب‌های دستوری مورد ارزیابی قرار دهند.

 

درخت‌بانک‌های نحوی ژرف

یک درخت‌بانک نحوی ژرف در سطح مشترک نحو و معناشناسی قرار دارد و در آن می‌توان ساختار بازنمودی را به صورت گراف تفسیر و تعبیر کرد. برای زبان انگلیسی، یک درخت‌بانک نحوی ژرف می‌تواند فاعل گروه‌های مصدری، ریشه، it در ساختار شکافته، حذف فاعل مشترک و ... را بازنماید.

 

درخت‌بانک‌های موجود برای زبان فارسی


The Persian Treebank (PerTreeBank)

درخت‌بانک فارسی PerTreeBank مبتنی بر دستور ساختار گروهی هسته محور است که توسط دکتر مسعود قیومی در چارچوب سیستم کلارک توسعه داده شده است. داده‌های مورد استفاده در این درخت‌بانک از پیکره برچسب‌زده‌شده‌ی نحوی بیجن‌خان منبعث شده‌اند.

در حال حاضر این درخت‌بانک 1028 درخت را دربرمی‌گیرد. نسخه‌ی مبتنی بر وابستگی این درخت‌بانک DepPerTreeBank نام  دارد. برای دانلود این درخت‌بانک‌ها می‌توان به وبگاه دانشگاه آزاد برلین به نشانی زیر مراجعه کرد:

http://hpsg.fu-berlin.de/~ghayoomi/PTB.html

استفاده پژوهشی از این درخت‌بانک‌ها آزاد است، اما برای کاربرد تجاری آنها نیاز به کسب مجوز است.

 

 

Persian Dependency Treebank (PerDT)

این درخت‌بانک مبتنی بر وابستگی است و 30000 جمله‌ی فارسی را به همراه برچسب‌های صرفی و نحوی دربرمی‌گیرد.



این درخت‌بانک تحت مدیریت محمد صادق رسولی، پژوهشگر هوش مصنوعی از دانشگاه علم و صنعت، و به همت گروهی از دانشجویان تحصیلات تکمیلی رشته‌ی زبان‌شناسی تهیه شده است. برای دسترسی به آن می‌توان به نشانی اینترنتی زیر مراجعه کرد:

http://dadegan.ir/en/perdt

 

منبع:


Treebank. (2016, June 22). In Wikipedia, The Free Encyclopedia. Retrieved 02:04, June 29, 2016, from https://en.wikipedia.org/w/index.php?title=Treebank&oldid=726486052


نظرات 0 + ارسال نظر
برای نمایش آواتار خود در این وبلاگ در سایت Gravatar.com ثبت نام کنید. (راهنما)
ایمیل شما بعد از ثبت نمایش داده نخواهد شد