در زبانشناسی، درختبانک یک پیکرهی متنی پارسشده است که ساختار معنایی یا نحوی جملهها را حاشیهنویسی میکند. ساخت پیکرههای پارسشده در اوایل دهه نود قرن بیستم میلادی انقلابی در زبانشناسی رایانشی به پا کرد و متخصصان این رشته توانستند از دادههای تجربی انبوه بهره ببرند. بهکارگیری دادههای درختبانک از زمانی که نخستین درختبانک در مقیاس انبوه (The Penn Treebank) منتشر شد، حائز اهمیت بوده است.
واژهی درختبانک نخستین بار توسط زبانشناسی به نام جفری لیچ در دهه هشتاد قرن بیستم میلادی سکه زده شد. او این واژه را به قیاس از مخزنهای دیگری از قبیل بانک دانه (seedbank) و بانک خون (blood bank) ابداع کرد. در یک درختبانک هم ساختار معنایی و هم ساختار نحوی از لحاظ ترکیبی همانند ساختار یک درخت بازنمایی میشود. اصطلاح «پیکرهی پارسشده» نیز اغلب به جای درختبانک با برجستگی بیشتر برتری جملات نسبت به درختها به کار میرود.
درختبانکها اغلب بر روی یک پیکره که برچسب نحوی خورده است ایجاد میگردد. درختبانکها میتوانند کاملاً به صورت دستی خلق شوند، بدین صورت که زبانشناسان ساختار نحوی هر جمله را بدان ضمیمه میکنند. این امر به صورت نیمهخودکار نیز شدنی است، بدین صورت که یک پارسر نحوی ساختارهای نحوی را تعیین میکند و سپس زبانشناسان آنها را بازبینی و در صورت نیاز بازنویسی میکنند.
برخی درختبانکها از یک نظریه زبانی مشخص در حاشیهنویسی نحویشان استفاده مینمایند؛ برای مثال درختبانک BulTreeBank از دستور ساختار گروهی هسته-محور (HPSG) پیروی میکند. اما توسعهدهندگان اغلب درختبانکها میکوشند که به نظریهی خاصی وابسته نباشند.
دو دستهی اصلی درختبانک وجود دارد: نخست دستهای که ساختار گروه را به پیکره میافزایند مانند Penn Treebank یا ICE-GB. دستهی دوم ساختار وابستگی را به پیکره ضمیمه میکنند مانند درختبانک وابستگی پراگ یا درختبانک وابستگی عربی قرآنی.
مهم است که تفاوت بین بازنمود صوری و فرمت فایلی که برای ذخیرهی دادهها به کار میرود روشن شود. برای مثال تحلیل نحوی جملهی John loves Mary میتواند به صورت زیر بازنمود صوری یابد:
ساختار فوق را در یک فایل متنی میتوان با پرانتزهای برچسبزدهشده همانند زیر ذخیره کرد:
این نوع بازنمایی بسیار محبوب است، چرا که این گونه میتوان درختبانک را در فایلی کمحجم و سبک ذخیره کرد و خواندن ساختار درختی نیز این گونه نسبتاً آسان است و نیاز به نرمافزار تخصصی نیست. البته از آنجا که پیکرهها به طور فزایندهای در حال پیچیدهتر شدن هستند، انواع دیگری از فایلها برای ذخیرهی آنها ممکن است ترجیح داده شود. این فرمتهای جایگزین شامل طرحهای XML مخصوص درختبانک، تورفتگی شمارهگذاریشده و انواع مختلفی از علامتگذاری موازنهای میشود.
کاربردها
از یک منظر محاسباتی و رایانشی، درختبانکها برای مهندسی سامانههای بسیار پیشرفتهی پردازش زبان طبیعی همانند برچسبزنهای نحوی، پارسرها، تحلیلگرهای نحوی و سامانههای ترجمه ماشینی به کار رفتهاند. اغلب سامانههای رایانشی از دادههای درختبانکهای معتبری که معیار و سنگ محک امور محاسباتی قرار گرفتهاند بهره میبرند. البته پیکرههایی که کاملاً خودکار پارس شدهاند و توسط زبانشناسان تصحیح نشدهاند نیز ممکن است مفید واقع شوند. آنها میتوانند شواهدی از فراوانی قاعدهها برای یک پارسر فراهم کنند. میتوان یک پارسر را با کاربرد آن برای مقادیر انبوه متن و جمعآوری فراوانی قاعدهها بهبود بخشید. لیکن واضح و بدیهی است که تنها از طریق فرایند تصحیح و تکمیل دستی یک پیکره امکان دارد قواعدی که خارج از حیطهی معلومات پارسر قرار دارند تشخیص داده شوند. افزون بر این، با بازبینی و بازنویسی دستی، فراوانیهایی که استخراج میشوند دقیقتر خواهند بود.
در زبانشناسی پیکرهای، درختبانکها برای مطالعهی پدیدههای نحوی مورد استفاده قرار میگیرند.برای مثال پیکرههای درزمانی را میتوان برای واکاوی مسیر زمانی دگرگونیهای نحوی به کار برد. پس از پارس شدن، یک پیکره دربرگیرندهی اطلاعاتی خواهد بود که فراوانی ساختارهای دستوری مورد استفاده را نشان میدهد. درختبانکها همچنین برای تهیهی گزارش شواهد سودمندی را فراهم میکنند و موجب کشف پدیدههای دستوری جدید و غیرمنتظره میگردند.
کاربرد دیگر درختبانکها در زبانشناسی نظری و روانشناسی زبان، تهیهی شواهد برهمکنشی است. یک درختبانک تکمیلشده میتواند زبانشناسان را یاری کند تا آزمایشهایی را انجام دهند که نشان میدهند چگونه تصمیم گویشوران در استفاده از یک ساختار دستوری خاص بر تصمیم آنها در بهکارگیری ساختارهای دستوری دیگر اثر میگذارد. این گونه زبانشناسان میتوانند تبیین کنند چگونه گویشوران و نویسندگان در حین تولید جملات تصمیمگیری میکنند. اگر لایههای معناشناختی و کاربردشناختی به درختبانک افزوده شود، پژوهشگران قادر خواهند بود تأثیر پدیدههای غیرنحوی را بر انتخابهای دستوری مورد ارزیابی قرار دهند.
درختبانکهای نحوی ژرف
یک درختبانک نحوی ژرف در سطح مشترک نحو و معناشناسی قرار دارد و در آن میتوان ساختار بازنمودی را به صورت گراف تفسیر و تعبیر کرد. برای زبان انگلیسی، یک درختبانک نحوی ژرف میتواند فاعل گروههای مصدری، ریشه، it در ساختار شکافته، حذف فاعل مشترک و ... را بازنماید.
درختبانکهای موجود برای زبان فارسی
The Persian Treebank (PerTreeBank)
درختبانک فارسی PerTreeBank مبتنی بر دستور ساختار گروهی هسته محور است که توسط دکتر مسعود قیومی در چارچوب سیستم کلارک توسعه داده شده است. دادههای مورد استفاده در این درختبانک از پیکره برچسبزدهشدهی نحوی بیجنخان منبعث شدهاند.
در حال حاضر این درختبانک 1028 درخت را دربرمیگیرد. نسخهی مبتنی بر وابستگی این درختبانک DepPerTreeBank نام دارد. برای دانلود این درختبانکها میتوان به وبگاه دانشگاه آزاد برلین به نشانی زیر مراجعه کرد:
http://hpsg.fu-berlin.de/~ghayoomi/PTB.html
استفاده پژوهشی از این درختبانکها آزاد است، اما برای کاربرد تجاری آنها نیاز به کسب مجوز است.
Persian Dependency Treebank (PerDT)
این درختبانک مبتنی بر وابستگی است و 30000 جملهی فارسی را به همراه برچسبهای صرفی و نحوی دربرمیگیرد.
این درختبانک تحت مدیریت محمد صادق رسولی، پژوهشگر هوش مصنوعی از دانشگاه علم و صنعت، و به همت گروهی از دانشجویان تحصیلات تکمیلی رشتهی زبانشناسی تهیه شده است. برای دسترسی به آن میتوان به نشانی اینترنتی زیر مراجعه کرد:
منبع:
Treebank. (2016, June 22). In Wikipedia, The Free Encyclopedia. Retrieved 02:04, June 29, 2016, from https://en.wikipedia.org/w/index.php?title=Treebank&oldid=726486052