تبديل گابور[1]

اين تبديل تغيير يافته تبديل فوريه پنجره شده است كه در آن پنجره مورد استفاده بجاي آنكه يك اندازه گسسته داشته باشد ، بوسيله يك تابع گوسي تعريف مي گردد . به بيان ديگر ، تبديل گابور مشابه تبديل موجك است كه در آن توابع پايه طبيعت گوسي دارند و در نتيجه اين تبديل در جانمايي زماني فركانسي[2] بهينه است . موجك گابور از جهت حداقل سازي عدم قطعيت[3] دو بعدي توأم بين حوزه هاي مكان و فركانس ، يك تبديل بهينه مي باشد . اين موجك را مي توان به عنوان آشكارسازهاي جهت دار و تطبيق پذير با مقياس ، بمنظور آشكارسازي خطوط و لبه ها در تصاوير مورد استفاده قرار داد .همچنين از خواص آماري اين تبديل مي توان جهت تعيين ساختار و محتواي بصري تصاوير بهره گرفت . ويژگيهاي تبديل گابور در چندين كاربرد آناليز تصاوير شامل كلاسه بندي و قطعه بندي بافتها ، بازشناسي تصاوير ، بازشناسي حروف ، ثبت ت صاوير و مسيريابي حركت بكار رفته اند . به رغم غير متعامد بودن اين خانواده موجكها ، تابع گابور تنها تابعي است كه مي تواند حد تئوري دقت تفكيك توأم اطلاعات در هر دو حوزه مكان و فركانس را حاصل نمايد .

يك موجك گابور دو بعدي عبارت است از يك تابع گوسي مدوله شده با يك تابع سينوسي مختلط. اين تابع را مي توان بوسيله فركانس تابع سينوسي(W) و انحراف معيارهاي σy و σx پوشش تابع گوسي بصورت زير بيان نمود :

شکل 3-1-2-2

عليرغم اين شكل كلي ، هيچ تعريف استاندارد و دقيقي از تابع گابور دو بعدي وجود ندارد و اشكال مختلفي از اين تابع در مقالات ظاهر شده است . بيشتر اين اختلافات به اندازه هاي مختلف پوش تابع گوسي و فركانس تابع سينوسي مربوط مي شود . بر اساس تئوري موجك ، تابع گابور كه بنحو مناسبي نرماليزه شده باشد ، مي تواند به عنوان يك موجك مادر براي توليد خانواده اي از موجكهاي گاور غير متعامد بكار رود .

Ma و Manjunath بمنظور شاخص گذاري و بازيابي تصاوير بافت گونه ، بانكي از فيلترهاي گابور نرماليزه شده با پاسخ dc صفر را مورد استفاده قرار داده اند . اين فيلترها بنحوي طراحي شده اند كه نمايش آنها ، درجه افزونگي پاييني را شامل شود . موجكهاي گابور بكار رفته در اينجا ، از طريق انبساط[4]و چرخش تابع ψ(x, y) در (2-2-1-3 )ايجاد شده اند كه تابع مولد آنها به فرم زير مي باشد :

كه در آن(xo,yo) مركز فيلتر در حوزه مكان، θ = nπ /K و S و K بترتيب تعداد كل مقايسه ها[5] و راستاهاي[6] در نظر گرفته شده مي باشد . فاكتور در معادله فوق به اين دليل ظاهر شده است كه از مستقل بودن انرژي نسبت به m اطمينان حاصل شود .

جهت حصول اطمينان از اينكه بانك فيلتري طراحي شده را بتوان يك خانواده مناسب از موجكهاي گابور دو بعدي در نظر گرفت ، فيلترهاي ψ(x, y) بايستي شرط پذيرش «محدودیت انرژی»را برآورده سازند كه بر پايه آن ، تبديل فوريه اين فيلترها بايد توابع ميان گذر خا لص با پاسخ dcصفر باشد . اين شرط با صفر نمودن پاسخ فركانسي فيلترها در فركانس صفر (ψ(0,0) = 0) و يا با اضافه نمودن يك عدد ثابت به قسمت حقيقي (زوج) فیلترها تحقق مي يابد كه بدين وسيله از عدم پاسخ فيلترها به نواحي با شدت ثابت اطمينان حاصل مي شود . بحث فوق ، روابط زير را بمنظور محاسبه پارامترهاي σu و σv فيلتر نتيجه مي دهد:

در اين مقاله طراحي جهتها و مقياسها مبتني بر سه اصل زير بوده است :

-1 تفكيك يكنواخت جهتها : كليه فيلترهاي متعلق به يك مقياس خاص مي بايست انحراف استاندارد زاويه اي(σv ) يكساني داشته و اختلاف در جهت گيري آنها نسبت به يكديگر يكسان باشد .

2- تفكيك نمايي مقياسها : پهناي فيلترها بايد با افزايش فاصله از مركز صفحه ( u,v )بصورت نمايي افزايش يابد .

-3 پوشش پيوسته فضاي فركانسي : طراحي فيلترها مي بايست بنحوي باشد كه كانتورهاي نصف توان مجاور در هر دو سمت محورهاي مقياس و جهت با يكديگر تماس داشته باشند .شكل زير بانك فيلترهاي موجك گابور را مطابق طراحي فوق نمايش مي دهد .

از تبديل گابور در چند مقاله بمنظور بازش ناسي حروف چيني و لاتين استفاده گرديده است Hue . و همكارانش ،الگوريتمي بمنظور قرائي ارقام پلاك خودروها با استفاده از فيلترهاي گابور معرفي نموده اند . ابتدا مجموعه اي از فيلترهاي گابو ر[7] ، بردار ويژگي تصوير محاسبه مي گردد .

آزمايش نشان مي دهد كه اين الگوريتم قادر به تشخيص مناسب حروف حتي در زمينه هاي بسيار نويزي است. راندمان اين روش66-96 درصد برآورد شده است.

GE و همكارانش بتازگي يك موتور OCR براي شناسايي دستنوشته هاي زبان چيني ابداع نموده اند كه از تكنيكهاي مختلفي چون ويژگيهاي گابور و مشتقات مكاني آنها به عنوان ويژگيهاي خام، آناليز مبين خطي [8]( LDA ) بمنظور استخراج ويژگيها و كاهش ابعاد فضاي ويژگي، CDHMMها براي مدل كردن كاراكترهاي چيني در راستاي هر دو جهت افقي و عمودي ، و معيار حداقل خطاي كلاسه بندي جهت آموزش مدل بهره گرفته اند . در زمان تدوين اين گزارش ، موتور OCR آنها از يك فرهنگ لفت با 4616 كاراكتر(شامل 4516 كاراكتر چيني ساده ، 62 كاراكتر الفبايي عددي[9] و 38 علامت و نماد نقطه گذاري ) پشتيباني مي كند . با بكارگيري 1384800 نمونه كاراكتر جهت آموزش سيستم بازشناسي كننده ، دقت بازشناسي96/34 درصد حاصل گرديده است و اين در حالي است كه بهترين سيستم OCRچيني موجود در بازار ، روی اين مجموعه از راندمان 7/94 درصد برخوردار بوده است.

[1] Gabor Transform

[2] Time-frequency localization

[3] Uncertainty

[4] Dilation

[5] scales

[6] orientations

[7] Gabor Dominant Orientation Matrix

[8] Linear Discriminant Analysis

[9] Alphanumeric