دسته بندي | پردازش تصوير |
فرمت فايل | doc |
حجم فايل | 654 كيلو بايت |
پس از پرداخت، لينك دانلود فايل براي شما نشان داده مي شود
پرداخت و دانلود
عنوان:مدلي كارا براي ساخت پيكره متني موازي از روي پيكره متني تطبيقي
تعداد صفحات : 98
چكيده:
اغلب رويكردهاي نوين ترجمه در حوزه ترجمه ماشيني از جمله ترجمه ماشيني آماري، ترجمه ماشيني مبتني بر مثال و ترجمه ماشيني تركيبي از مجموعه متون همترجمه تحت عنوان پيكرههاي متني موازي به عنوان داده آموزشي اصلي استفاده ميكنند. اما براي اغلب زبانها پيكرههاي موازي به ميزان بسيار كمي در دسترس هستند و يا مربوط به دامنه خاصي از نوشتجات ميشوند. در طرف ديگر پيكرههاي تطبيقي قرار دارند كه مواد اوليه آنها به راحتي به دست ميآيد. پيكرههاي تطبيقي شامل متون همترجمه نيستند اما در آن هر دو متن در دو زبان مختلف از نظر شباهت معيارهايي چون محتوا، تاريخ انتشار، عنوان و … با يكديگر قابل تطبيق هستند.
پيكرههاي تطبيقي شامل جملاتي هستند كه ميتوانند ترجمه خوبي براي يكديگر باشند. هدف اين رساله ساخت خودكار پيكره موازي با استخراج اينگونه جملات از پيكره تطبيقي است. مدلي كه در اين پژوهش ارائه ميشود از سه مرحله اصلي تشكيل ميشود: انتخاب جفت جملات كانديداي موازي بودن با استفاده از فيلتر نسبت طول جملات و فيلتر تعداد كلمات مشترك انتخاب جفت جملات موازي با استفاده از طبقهبند آنتروپي بيشينه و در نظر گرفتن ويژگيهاي مربوط به طول دو جمله، كلمات مشترك آنها و ويژگيهاي مبتني بر همترازي در سطح كلمه بين دو جمله بالابردن دقت جفت جملات استخراج شده با انتخاب تنها يكي از جملات جفت شده با هر جمله. اين كار را ميتوان بوسيله محاسبه نزديكي آن جمله با ترجمه جملات جفت شده از طرف مقابل توسط معيار TER و انتخاب نزديكترين جمله انجام داد.
در انتها كارآيي مدل ارائه شده در دو بخش ارزيابي طبقهبند آنتروپي بيشينه طراحي شده و ارزيابي ميزان سودمندي جفت جملات موازي استخراج شده در بهبود كيفيت ترجمه ماشيني بررسي ميشود.
فصل اول: مقدمه
1-1- مقدمه
به دليل افزايش ارتباطات متقابل منطقهاي و نياز براي تبادل اطلاعات، تقاضا براي ترجمه زبان بسيار افزايش يافته است. بسياري از نوشتجات نياز به ترجمه دارند از جمله مستندات علمي و فني، دستورالعملهاي راهنما، مستندات حقوقي، كتابهاي درسي، بروشورهاي تبليغاتي، اخبار روزنامهها و غيره؛ كه ترجمه برخي از آنها سخت و چالش برانگيز است اما اكثرا خسته كننده و تكراري هستند و در عين حال به انسجام و دقت نياز دارند. برآوردن نيازهاي روز افزون ترجمه براي مترجمان حرفهاي دشوار است. در چنين موقعيتي ترجمه ماشيني ميتواند به عنوان يك جايگزين به كار گرفته شود.
ترجمه ماشيني بعد از 65 سال يكي از قديميترين كاربردهاي كامپيوتر است. در طول سالها، ترجمه ماشيني مركز توجه تحقيقات زبانشناسان، روانشناسان، فيلسوفان، دانشمندان و مهندسان علم كامپيوتر بوده است. اغراق نيست اگر بگوييم كارهاي جديد در حوزه ترجمه ماشيني، به طور قابل ملاحظهاي در توسعه زمينههايي نظير زبان شناسي رايانهاي، هوش مصنوعي و پردازش زبانهاي طبيعي برنامهگرا، مشاركت كرده است.
ترجمه ماشيني را ميتوان به اين صورت تعريف كرد: “ترجمه از يك زبان طبيعي (زبان مبدأ) به زبان ديگر (زبان مقصد) با استفاده از سيستمهاي كامپيوتري شده و به همراه يا بدون كمك انسان”. كار پژوهشي در حوزه ترجمه ماشيني به هدف بزرگ ترجمه تمام خودكار با كيفيت بالا (قابل نشر) محدود نميشود. غالبا ترجمههاي ناهموار براي بازبيني موضوعات خارجي كافي است. تلاشهاي اخير، در جهت ساخت كاربردهاي محدودي در تركيب با تشخيص گفتار به خصوص براي دستگاههاي دستي ميباشند. ترجمه ماشيني ميتواند به عنوان پايهاي براي ويرايشهاي بعدي به كار گرفته شود، مترجمها معمولا با ابزارهايي نظير حافظههاي ترجمه كه از فناوري ترجمه ماشيني استفاده ميكنند اما آنها را در كنترل خود قرار ميدهند، استفاده ميكنند.
ترجمه ماشيني يكي از حوزههاي پژوهشي «زبانشناسي رايانهاي» است. تا كنون روشهاي مختلفي جهت خودكار كردن ترجمه ابداع شده است، كه در نوشتجات حوزه ترجمه ماشيني به صورتهاي مختلفي دستهبندي شدهاند. شكل 1-1 انواع روشهاي ترجمه ماشيني موجود را در قالب دستهبندي كه در آمده است نشان ميدهد.
1-1-1- ترجمه ماشيني مبتني بر فرهنگ لغت
اين نوع ترجمه ماشيني مبتني بر مدخلهاي فرهنگ لغت است؛ و در آن از معادل كلمه جهت توليد ترجمه استفاده ميشود. اولين نسل ترجمه ماشيني (از اواخر دهه 1940 تا اواسط دهه 1960) كاملا بر مبناي فرهنگ لغتهاي الكترونيك بودند. اين روش همچنان تا حدي در ترجمه عبارات و نه جملات مفيد است. اكثر روشهايي كه بعدا توسعه داده شدند كم يا بيش از فرهنگ لغات دوزبانه بهره ميگيرند .
2-1-1- ترجمه ماشيني مبتني بر قانون
ترجمه ماشيني مبتني بر قانون با اطلاعات ريخت شناسي، نحوي و معنايي زبانهاي مبدأ و مقصد سر و كار دارد. قوانين زباني از اين اطلاعات ساخته ميشوند. اين روش ميتواند با پديدههاي مختلف زباني مقابله كند و قابل گسترش و قابل نگهداشت است، اما استثنائات موجود در دستور زبان مشكلاتي به اين سيستم ميافزايد. همچنين فرآيند پژوهشي آن نياز به سرمايهگذاري زيادي دارد. هدف ترجمه ماشيني مبتني بر قانون تبديل ساختارهاي زبان مبدأ به ساختارهاي زبان مقصد است. اين روش رويكردهاي مختلفي دارد.
– رويكرد مستقيم: كلمات زبان مبدأ بدون عبور از يك نمايش مياني ترجمه ميشوند. در اين روش به بستر متن، معني و دامنه توجه نميشود.
– رويكرد انتقالي: مدل انتقالي متعلق به نسل دوم ترجمه ماشيني است (از اواسط دهه 1960 تا دهه 1980). در اين مدل، زبان مبدأ به يك انتزاع كه نمايشي كمتر مختص به زبان است، انتقال مييابد. سپس يك نمايش معادل براي زبان مقصد (با همان سطح انتزاع) با استفاده از فرهنگ لغات دوزبانه و قوانين گرامري توليد ميشود.
– ميان زباني: اين روش متعلق به نسل سوم ترجمه ماشيني است. در اين روش زبان مبدأ به يك زبان (نمايش) مياني تغيير شكل ميدهد كه اين زبان مياني مستقل از هر دو زبان شركت كننده (مبدأ و مقصد) در ترجمه است. سپس ترجمه براي زبان مقصد از اين نمايش كمكي به دست ميآيد. از اينرو در اين نوع سيستم تنها به دو ماژول تجزيه و تركيب نياز است. همچينن به دليل مستقل بودن اين روش از زبانهاي مبدأ و مقصد، بيشتر در ماشينهاي ترجمه چندزبانه استفاده ميشود. اين روش بر يك نمايش واحد از زبانهاي مختلف تأكيد ميكند.
3-1-1- ترجمه ماشيني مبتني بر دانش
اين روش با واژهنامهاي مفهوميكه يك دامنه را نشان ميدهد سر و كار دارد. اين روش شامل دو مرحله تحليل و توليد است. اجزاي پايهاي يك ماشين ترجمه مبتني بر دانش عبارتند از يك آنتولوژي از مفاهيم، واژهنامه و گرامر زبان مبدأ براي فرآيند تحليل، واژهنامه و گرامر براي زبان مقصد و قوانين نگاشت بين نحو زبان مياني و زبانهاي مبدأ و مقصد.
4-1-1- ترجمه ماشيني مبتني بر پيكره
رويكرد ترجمه ماشيني مبتني بر پيكرههاي متني از سال 1989 ظهور پيدا كرد و به طور وسيعي در حوزه ترجمه ماشيني به آن پرداخته شد؛ و به دليل دقت بالاي اين روش در ترجمه، بر ديگر روشها غلبه يافت. در اين روش، دانش يا مدل ترجمه به طور خودكار از پيكرههاي متني (مجموعه متون) دوزبانه گرفته ميشود. از آنجايي كه اين رويكرد با حجم زيادي از دادهها كار ميكند، ترجمه ماشيني مبتني بر پيكره ناميده شده است. برخي از انواع روشهاي مبتني بر پيكره در ادامه شرح داده ميشوند.
ترجمه ماشيني آماري
با اينكه ايده اوليه ترجمه ماشيني آماري توسط وارن ويور در سال 1941 معرفي شد، اما از سال 1993 كه اين روش توسط محققان آي بي ام مدل شد به طور گستردهاي مورد استفاده قرار گرفت؛ به طوريكه در حال حاضر ترجمه ماشيني آماري رايجترين رويكرد در ترجمه ماشيني به شمار ميآيد. در روش ترجمه ماشيني آماري از مدلهاي آماري استفاده ميشود كه پارامترهاي اين مدلها از متون دوزبانه يا همان «پيكرههاي موازي» استخراج ميشوند. به عبارت ديگر سيستم ترجمه ماشيني آماري، احتمالات ترجمه را از پيكره موازي ميآموزد و با استفاده از اين احتمالات براي جملات ورودي كه در فرآيند آموزش ديده نشدهاند، ترجمهاي مناسب توليد ميكند. در اين روش از دو مدل عمده به نام مدلهاي مبتني بر كلمه و مدلهاي مبتني بر عبارت استفاده ميشود.
ترجمه ماشيني مبتني بر مثال
روشهاي ترجمه ماشيني مبتني بر مثال، روشهاي مبتني بر حافظه نيز ناميده شدهاند. ايده اين روش از سال 1980 در ژاپن شروع شد. اين نوع سيستمها تلاش ميكنند تا جملهاي مشابه جمله ورودي در پيكره موازي پيدا كنند، و سپس با اِعمال تغييراتي بر روي جمله ترجمه شده كه قبلا ذخيره شده، ترجمه جمله ورودي را توليد كنند.
ايده اوليه در اين روش، استفاده از ترجمههاي انساني موجود براي ترجمه متنهاي جديد است. لذا كافي است متون جديد به قطعههاي كوچك شكسته شود و ترجمه معادل اين قطعات، در پايگاه دادهاي از قطعات ترجمه شده جستجو شده و ترجمه مورد نظر توليد گردد. اين روش داراي محدوديت دادگان ميباشد. جمعآوري مجموعه مثالهاي بسيار بزرگ نيز كل زبان را پوشش نمي دهد. بنابراين معمولا اين روش براي زير مجموعههاي محدودي از يك زبان استفاده ميشود.
پس از پرداخت، لينك دانلود فايل براي شما نشان داده مي شود
پرداخت و دانلود