دانلود فايل ورد Word پروژه مدلي كارا براي ساخت پيكره متني موازي از روي پيكره متني تطبيقي

۷ بازديد
دسته بندي پردازش تصوير
فرمت فايل doc
حجم فايل 654 كيلو بايت

پس از پرداخت، لينك دانلود فايل براي شما نشان داده مي شود

پرداخت و دانلود

عنوان:مدلي كارا براي ساخت پيكره متني موازي از روي پيكره متني تطبيقي

تعداد صفحات : 98

چكيده:

اغلب رويكردهاي نوين ترجمه در حوزه ترجمه ماشيني از جمله ترجمه ماشيني آماري، ترجمه ماشيني مبتني بر مثال و ترجمه ماشيني تركيبي از مجموعه متون هم‌ترجمه تحت عنوان پيكره‌هاي متني موازي به عنوان داده آموزشي اصلي استفاده مي‌كنند. اما براي اغلب زبان‌ها پيكره‌هاي موازي به ميزان بسيار كمي در دسترس هستند و يا مربوط به دامنه خاصي از نوشتجات مي‌شوند. در طرف ديگر پيكره‌هاي تطبيقي قرار دارند كه مواد اوليه آنها به راحتي به دست مي‌آيد. پيكره‌هاي تطبيقي شامل متون هم‌ترجمه نيستند اما در آن هر دو متن در دو زبان مختلف از نظر شباهت معيارهايي چون محتوا، تاريخ انتشار، عنوان و … با يكديگر قابل تطبيق هستند.

پيكره‌هاي تطبيقي شامل جملاتي هستند كه مي‌توانند ترجمه خوبي براي يكديگر باشند. هدف اين رساله ساخت خودكار پيكره موازي با استخراج اينگونه جملات از پيكره تطبيقي است. مدلي كه در اين پژوهش ارائه مي‌شود از سه مرحله اصلي تشكيل مي‌شود: انتخاب جفت جملات كانديداي موازي بودن با استفاده از فيلتر نسبت طول جملات و فيلتر تعداد كلمات مشترك  انتخاب جفت جملات موازي با استفاده از طبقه‌بند آنتروپي بيشينه و در نظر گرفتن ويژگي‌هاي مربوط به طول دو جمله، كلمات مشترك آنها و ويژگي‌هاي مبتني بر همترازي در سطح كلمه بين دو جمله  بالابردن دقت جفت جملات استخراج شده با انتخاب تنها يكي از جملات جفت شده با هر جمله. اين كار را مي‌توان بوسيله محاسبه نزديكي آن جمله با ترجمه جملات جفت شده از طرف مقابل توسط معيار TER و انتخاب نزديك‌ترين جمله انجام داد.

در انتها كارآيي مدل ارائه شده در دو بخش  ارزيابي طبقه‌بند آنتروپي بيشينه طراحي شده و  ارزيابي ميزان سودمندي جفت جملات موازي استخراج شده در بهبود كيفيت ترجمه ماشيني بررسي مي‌شود.

فصل اول: مقدمه

1-1- مقدمه

به دليل افزايش ارتباطات متقابل منطقه‌اي و نياز براي تبادل اطلاعات، تقاضا براي ترجمه زبان بسيار افزايش يافته است. بسياري از نوشتجات نياز به ترجمه دارند از جمله مستندات علمي و فني، دستورالعمل‌هاي راهنما، مستندات حقوقي، كتاب‌هاي درسي، بروشورهاي تبليغاتي، اخبار روزنامه‌ها و غيره؛ كه ترجمه برخي از آنها سخت و چالش برانگيز است اما اكثرا خسته كننده و تكراري هستند و در عين حال به انسجام و دقت نياز دارند. برآوردن نيازهاي روز افزون ترجمه براي مترجمان حرفه‌اي دشوار است. در چنين موقعيتي ترجمه ماشيني مي‌تواند به عنوان يك جايگزين به كار گرفته شود.

ترجمه ماشيني بعد از 65 سال يكي از قديمي‌ترين كاربردهاي كامپيوتر است. در طول سال‌ها، ترجمه ماشيني مركز توجه تحقيقات زبان‌شناسان، روان‌شناسان، فيلسوفان، دانشمندان و مهندسان علم كامپيوتر بوده است. اغراق نيست اگر بگوييم كارهاي جديد در حوزه ترجمه ماشيني، به طور قابل ملاحظه‌اي در توسعه زمينه‌هايي نظير زبان شناسي رايانه‌اي، هوش مصنوعي و پردازش زبان‌هاي طبيعي برنامه‌گرا، مشاركت كرده است.

ترجمه ماشيني را مي‌توان به اين صورت تعريف كرد: “ترجمه از يك زبان طبيعي (زبان مبدأ) به زبان ديگر (زبان مقصد) با استفاده از سيستم‌هاي كامپيوتري شده و به همراه يا بدون كمك انسان”. كار پژوهشي در حوزه ترجمه ماشيني به هدف بزرگ ترجمه تمام خودكار با كيفيت بالا (قابل نشر) محدود نمي‌شود. غالبا ترجمه‌هاي ناهموار براي بازبيني موضوعات خارجي كافي است. تلاش‌هاي اخير، در جهت ساخت كاربردهاي محدودي در تركيب با تشخيص گفتار به خصوص براي دستگاه‌هاي دستي مي‌باشند. ترجمه ماشيني مي‌تواند به عنوان پايه‌اي براي ويرايش‌هاي بعدي به كار گرفته شود، مترجم‌ها معمولا با ابزارهايي نظير حافظه‌هاي ترجمه كه از فناوري ترجمه ماشيني استفاده مي‌كنند اما آنها را در كنترل خود قرار مي‌دهند، استفاده مي‌كنند.

ترجمه ماشيني يكي از حوزه‌هاي پژوهشي «زبانشناسي رايانه‌اي» است. تا كنون روش‌هاي مختلفي جهت خودكار كردن ترجمه ابداع شده است، كه در نوشتجات حوزه ترجمه ماشيني به صورت‌هاي مختلفي دسته‌بندي شده‌اند. شكل 1-1 انواع روش‌هاي ترجمه ماشيني موجود را در قالب دسته‌بندي كه در  آمده است نشان مي‌دهد.

1-1-1- ترجمه ماشيني مبتني بر فرهنگ لغت

اين نوع ترجمه ماشيني مبتني بر مدخل‌هاي فرهنگ لغت است؛ و در آن از معادل كلمه جهت توليد ترجمه استفاده مي‌شود. اولين نسل ترجمه ماشيني (از اواخر دهه 1940 تا اواسط دهه 1960) كاملا بر مبناي فرهنگ لغت‌هاي الكترونيك بودند. اين روش همچنان تا حدي در ترجمه عبارات و نه جملات مفيد است. اكثر روش‌هايي كه بعدا توسعه داده شدند كم يا بيش از فرهنگ لغات دوزبانه بهره مي‌گيرند .

2-1-1- ترجمه ماشيني مبتني بر قانون

ترجمه ماشيني مبتني بر قانون با اطلاعات ريخت شناسي، نحوي و معنايي زبان‌هاي مبدأ و مقصد سر و كار دارد. قوانين زباني از اين اطلاعات ساخته مي‌شوند. اين روش مي‌تواند با پديده‌هاي مختلف زباني مقابله كند و قابل گسترش و قابل نگهداشت است، اما استثنائات موجود در دستور زبان مشكلاتي به اين سيستم مي‌افزايد. همچنين فرآيند پژوهشي آن نياز به سرمايه‌گذاري زيادي دارد. هدف ترجمه ماشيني مبتني بر قانون تبديل ساختارهاي زبان مبدأ به ساختارهاي زبان مقصد است. اين روش رويكردهاي مختلفي دارد.

– رويكرد مستقيم: كلمات زبان مبدأ بدون عبور از يك نمايش مياني ترجمه مي‌شوند. در اين روش به بستر متن، معني و دامنه توجه نمي‌شود.

– رويكرد انتقالي: مدل انتقالي متعلق به نسل دوم ترجمه ماشيني است (از اواسط دهه 1960 تا دهه 1980). در اين مدل، زبان مبدأ به يك انتزاع كه نمايشي كمتر مختص به زبان است، انتقال مي‌يابد. سپس يك نمايش معادل براي زبان مقصد (با همان سطح انتزاع) با استفاده از فرهنگ لغات دوزبانه و قوانين گرامري توليد مي‌شود.

– ميان زباني: اين روش متعلق به نسل سوم ترجمه ماشيني است. در اين روش زبان مبدأ به يك زبان (نمايش) مياني تغيير شكل مي‌دهد كه اين زبان مياني مستقل از هر دو زبان شركت كننده (مبدأ و مقصد) در ترجمه است. سپس ترجمه براي زبان مقصد از اين نمايش كمكي به دست مي‌آيد. از اينرو در اين نوع سيستم تنها به دو ماژول تجزيه و تركيب نياز است. همچينن به دليل مستقل بودن اين روش از زبان‌هاي مبدأ و مقصد، بيشتر در ماشين‌هاي ترجمه چندزبانه استفاده مي‌شود. اين روش بر يك نمايش واحد از زبان‌هاي مختلف تأكيد مي‌كند.

3-1-1- ترجمه ماشيني مبتني بر دانش

اين روش با واژه‌نامه‌اي مفهومي‌كه يك دامنه را نشان مي‌دهد سر و كار دارد. اين روش شامل دو مرحله تحليل و توليد است. اجزاي پايه‌اي يك ماشين ترجمه مبتني بر دانش عبارتند از يك آنتولوژي از مفاهيم، واژه‌نامه و گرامر زبان مبدأ براي فرآيند تحليل، واژه‌نامه و گرامر براي زبان مقصد و قوانين نگاشت بين نحو زبان مياني و زبان‌هاي مبدأ و مقصد.

4-1-1- ترجمه ماشيني مبتني بر پيكره

رويكرد ترجمه ماشيني مبتني بر پيكره‌هاي متني از سال 1989 ظهور پيدا كرد و به طور وسيعي در حوزه ترجمه ماشيني به آن پرداخته شد؛ و به دليل دقت بالاي اين روش در ترجمه، بر ديگر روش‌ها غلبه يافت. در اين روش، دانش يا مدل ترجمه به طور خودكار از پيكره‌هاي متني (مجموعه متون) دوزبانه گرفته مي‌شود. از آنجايي كه اين رويكرد با حجم زيادي از داده‌ها كار مي‌كند، ترجمه ماشيني مبتني بر پيكره ناميده شده است. برخي از انواع روش‌هاي مبتني بر پيكره در ادامه شرح داده مي‌شوند.

ترجمه ماشيني آماري

با اينكه ايده اوليه ترجمه ماشيني آماري توسط وارن ويور در سال 1941 معرفي شد، اما از سال 1993 كه اين روش توسط محققان آي بي ام مدل شد به طور گسترده‌اي مورد استفاده قرار گرفت؛ به طوري‌كه در حال حاضر ترجمه ماشيني آماري رايج‌ترين رويكرد در ترجمه ماشيني به شمار مي‌آيد. در روش ترجمه ماشيني آماري از مدل‌هاي آماري استفاده مي‌شود كه پارامترهاي اين مدل‌ها از متون دوزبانه يا همان «پيكره‌هاي موازي» استخراج مي‌شوند. به عبارت ديگر سيستم ترجمه ماشيني آماري، احتمالات ترجمه را از پيكره موازي مي‌آموزد و با استفاده از اين احتمالات براي جملات ورودي كه در فرآيند آموزش ديده نشده‌اند، ترجمه‌اي مناسب توليد مي‌كند. در اين روش از دو مدل عمده به نام مدل‌هاي مبتني بر كلمه و مدل‌هاي مبتني بر عبارت استفاده مي‌شود.

ترجمه ماشيني مبتني بر مثال

روشهاي ترجمه ماشيني مبتني بر مثال، روشهاي مبتني بر حافظه نيز ناميده شده‌اند. ايده اين روش از سال 1980 در ژاپن شروع شد. اين نوع سيستم‌ها تلاش مي‌كنند تا جمله‌اي مشابه جمله ورودي در پيكره موازي پيدا كنند، و سپس با اِعمال تغييراتي بر روي جمله ترجمه شده كه قبلا ذخيره شده، ترجمه جمله ورودي را توليد كنند.

ايده اوليه در اين روش، استفاده از ترجمه‌هاي انساني موجود براي ترجمه متن‌هاي جديد است. لذا كافي است متون جديد به قطعه‌هاي كوچك شكسته شود و ترجمه معادل اين قطعات، در پايگاه داده‌اي از قطعات ترجمه شده جستجو شده و ترجمه مورد نظر توليد گردد. اين روش داراي محدوديت دادگان مي‌باشد. جمع‌آوري مجموعه مثال‌هاي بسيار بزرگ نيز كل زبان را پوشش نمي دهد. بنابراين معمولا اين روش براي زير مجموعه‌هاي محدودي از يك زبان استفاده مي‌شود.

پس از پرداخت، لينك دانلود فايل براي شما نشان داده مي شود

پرداخت و دانلود

تا كنون نظري ثبت نشده است
ارسال نظر آزاد است، اما اگر قبلا در مونوبلاگ ثبت نام کرده اید می توانید ابتدا وارد شوید.