جاییکه m بردار میانگین کل نمونهها و mi بردار میانگین کلاس i ام و li تعداد کلاس i ام و c تعداد کلاسها است. ضرایب مهم کسینوسی به LDA اعمال و بردار ویژگی از آن محاسبه شد.
۲-۸-۳-۵ DCT + LSDA
این روش ساختار هندسی و تفکیککنندگی را با هم در نظر میگیرد که برای این کار دو گراف ، گراف بین کلاسها Gb و گراف درون کلاسها Gw در نظر گرفته می شود. مجموعه ای شامل نقاط همسایه با xi که برچسب یکسانی دارند را با Nw(xi) و نقاطی که برچسب آنها متفاوت است یا به عبارتی مربوط به کلاسهای مختلفند با Nb(xi) نشان داده می شود. y = (y1 , y2 , ……, ym )T مدلی است که گراف بین کلاس و گراف درون کلاس را به یک خط نگاشت می کند به طوریکه نقاط اتصال از Gw تا جایی که ممکن است نزدیک به هم و نقاط اتصال Gb از هم دور بمانند.
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت nefo.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))
( الف) (ب) (ج)
(د)
شکل ۲-۱۱ (الف) نقاط با رنگ و شکل مشابه در یک کلاس قرار می گیرند. (ب) گراف درون کلاس نقاط با برچسب یکسان را متصل می کند. (ج) گراف بین کلاس نقاط با بر چسب متفاوت را متصل می کند. (د) بعد از اعمال LSDA فاصله بین کلاس های متفاوت ماکزیمم شده است.
معیار برای انتخاب این نقشه یا مدل بهینه سازی دو تابع زیر است.
رابطه (۲-۳۹)
رابطه (۲-۴۰)
جاییکه Ww , Wb ماتریسهای وزن گرافها میباشند و داریم:
رابطه (۲-۴۱)
رابطه (۲-۴۲)
جاییکه Nb(xi) , Nw(xi) برای k همسایه نزدیک بین کلاس و درون کلاس قرار میگیرند.) Nw ( xi همسایههایی که برچسب یکسان با xi دارند و Nb(xi) هسایههایی که برچسب متفاوت دارند را شامل می شود. بعد از یافتن بردار طرح [۶۰] داریم yT= aT X .
تابع هدف برای رابطه (۲-۳۹)، با باز کردن رابطه به max aTXWwXTa و برای رابطه (۲-۴۰) به max aTXLbXTa کاهش داده می شود. که Lb= Db – Wb لاپلاسین[۶۱] ماتریس Gb است. که Db ماتریسی قطری است که ورودیهایش مجموع ستونها یا سطرهای Wb میباشد.
رابطه (۲-۴۳) , DW,ii = Db,ii =
در نهایت مسئله بهینهسازی به یافتن arg max aTX(αLb+(1-α)Ww)XTa کاهش مییابد با توجه به اینکه aTXDwXTa=1 یا yTDwy=1 و α مقدار ثابتی که ۱≥ α≥۰ است.
با حل رابطه X(αLb+(1-α)Ww)XTa = λXDwXTa بردار ستونی شامل a1 , a2 ,…….. , ad به دست می آید.
مانند مراحل قبل پس از اعمال تبدیل کسینوسی به ناحیه مورد نظر و استخراج ضرایب مهم ، آنها به LSDA داده شده و خروجی به عنوان بردار ویژگی در نظر گرفته شده است.
این روشها بر روی پایگاه داده (HIT Bi CAVDB)[62] که شامل ۱۰۰۰ کلمه است که هر کدام ۳ مرتبه تکرار شده و فایلها دارای فرمت ‘Avi’ هستند و به صورت دستی به فریمهایشان مطابق با سیگنالهای صوتی سگمنتبندی شده اند اعمال شده است. که ۹۶ سیلاب متفاوت چینی (کلاس) را شامل می شود و با نرخ ۲۵ فریم بر ثانیه ضبط و سایز تصاویر ۲۵۶*۲۵۶ میباشد.
۲-۸-۳-۶ ماتریس انتقال ویژگی
چون برای یک کلمه ، تعداد متفاوتی فریم برای نمونههای مختلف وجود دارد بنابراین غیر ممکن است که برای آموزش ماتریس انتقال استفاده شوند. پس شکل لب به ده کلاس مطابق با ارتفاع و پهنای لب و گردشدگی و دندانها دستهبندی می شود. از هر نوع ۶۰ نمونه برای آموزش ماتریس انتقال ویژگی LSDA انتخاب شده است. در نهایت از این ماتریس برای استخراج ویژگی نهایی استفاده و چون شکل لب ها به ۱۰ کلاس دستهبندی شده ، بعد ویژگی ۹ در نظر گرفته شده و برای یک کلمه شامل n فریم برداری به سایز n*9 به دست آمده است. برای شناسایی DTW[63] بکار گرفته شده و روشها با هم مقایسه شده اند که نتایج حاصل از روش DCT + LSDA از سایر روشها بهتر بوده است.
۲-۹ مدل لب با منحنی بیزیر[۶۴]
در [۲۴] یک مدل لب جدید مبتنی بر منحنیهای بیزیر برای محاسبه حرکتهای لب استفاده شده است. این مدل توسط تعدادی نقطه که به وسیله مدل شکل فعال شکل گرفتهاند تعریف می شود. در اینجا ابتدا صورت و لبها آشکار میشوند. بعد لبها توسط پنج منحنی بیزیر مدل میشوند. که هر کدام توسط دو نقطه انتهایی p0 , p2 و یک نقطه کنترل p1 مانند شکل (۲- ۱۱) تعریف و به صورت زیر نوشته میشوند.
رابطه (۲- ۴۴) P(t)= ϕ۰(t) p0 + ϕ۱(t) p1+ ϕ۲(t)p2
ϕ۰(t)= (1–t)3 , ϕ۱(t)= 3t(1–t)2 , ϕ۲(t) = (3t2 – ۲t3) , tϵ [۰,۱]
شکل ۲- ۱۲ سمت چپ منحنی بیزیر و سمت راست مدل لب
مدل شامل چهار نقطه انتهایی e1 ,e2 ,e3 ,e4 و پنج نقطه کنترل c1 , c2 , c3 , c4 , c5 میباشد. این مدل ۱۵۰ نقطه ویژگی (جایی که هر منحنی شامل ۳۰ نقطه است) را که مرزهای لب را تعریف می کنند فشرده می کند. مدل هر شکل از ویزمهای آلمانی را تطبیق میدهد و قادر است که حرکتهای لب را محاسبه کند. که حرکتهای لب توسط مدل شکل فعال می تواند توصیف شود.
در[۲۵] سیستم دیداری انسان (HVS) مبتنی بر معیارهای کیفیت تصویر به ویژه شباهت ساختاری موجک پیچیده[۶۵] (CW-SSIM) و درستی اطلاعات تصویری[۶۶] (VIF)به عنوان معیارهای تشابه استفاده شده است.
CW-SSIM برای هر باند فرعی از اولین تجزیه موجک محاسبه می شود و سپس، میانگین این مقادیر چندین معیار CW-SSIM برای هر تصویر به دست میدهد. که جزئیات آن در [۲۶] بیان شده است. فرهنگی[۶۷] از مصوتها که شامل ۴ ویدیوی ضبط شده برای هر مصوت است جمعآوری شده و با ویدیوی آزمایش مقایسه می شود. SSIM تابعی از روشنایی، اختلاف روشنایی[۶۸] و تابع ساختار تصویر است.
S(x , y) = I(x , y). c(x , y).s(x , y)
رابطه (۲- ۴۵) = ().().(
چون SSIM عملکرد خوبی نداشته از CW-SSIM استفاده شده است. که در زیر روابط آن ذکر شده است.
(cx , cy) = (cx , cy) .(cx , cy)
رابطه (۲- ۴۶)= *
cx = {cx,i | i= 1,2,…,N} , cy = {cy,i |i= 1,2,….,N}
که cx و cy ضرایب موجک هستند. k مقدار ثابتی برای پایداری است.
همه تصاویر ویدیویی ابتدا به فریمهایشان با نرخ ۲۵ فریم بر ثانیه شکسته میشوند. هر ویدیو حدود ۱۰۰ فریم دارد. چند فریم با فریمهای متناظرش در دیگر دنبالهها توسط CW-SSIM و VIF مقایسه می شود.
۲-۱۰ جداسازی ناحیه لب با کا- مینز[۶۹]
در[۲۷] از روشی تلفیقی از روشهای استخراج رنگ قرمز، روش کا- مینز و باینری کردن تصاویر برای استخراج ناحیه دهان در فریمها استفاده شده است. در این مطالعه علاوه بر ویژگیهای ارتفاع و پهنای دهان، زاویه گشودگی عمودی و افقی دهان که در شکل (۲- ۱۲) نشان داده شده است نیز استخراج می شود.
شکل ۲- ۱۳ زاویه گشودگی افقی ۲α و زاویه گشودگی عمودی ۱α
بعد از تعیین ناحیه دهان بر روی رشته تصاویر رنگی مربوط به کلمات دو سیلابی فارسی، سیلابها جداسازی شده و مصوت موجود در هر یک از سیلابها شناسایی می شود.
در [۲۸] توسط قطعهبندی و روشهای مدلسازی یک بردار ویژگی تصویری متشکل از ویژگیهای داخلی و خارجی دهان از دنباله تصویر لب برای شناسایی به دست آمده است. از نمایش نوار باریک[۷۰] برای تبدیل ویژگیهای نمونه گیری شده زمان گسسته از فریمهای ویدیویی به حوزه پیوسته استفاده شده است.
بعد از ایجاد مدلهای مناسب کلمه از ضرایبspline ، روش کلاسهبندی ماکزیمم احتمال (EM) برای شناسایی اتخاذ شده است. از مدل شکل فعال استفاده شده، پهنا و ارتفاع لب به دست آورده شده و نرمالیزه شده و همچنین، بردارهای ویژه محاسبه و سه مقدار اول وزنها انتخاب شده اند. از ویژگیهای داخلی دهان نیز مساحت ناحیه دندانها و گشودگی داخلی دهان که نرمالیزه شده هستند نیز استفاده شده است.