پردازش صوت و گفتار نتتنن

وژه تشخیص جنسیت گوینده با استفاده از ماشین بردار پشتیبان (SVM) و ویژگی های MFCC، LPC و LPCC

    دسته: پردازش صوت و گفتار

azsoftir.com
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276az
softir@gmail.com
azsoftir.com
09367292276

هدف از این پروژه تشخیص جنسیت گوینده با استفاده از ویژگی‌های MFCC، LPC، LPCC و مدل دسته‌بند SVM است. از یک مجموعه داده کوچک فارسی به این منظور استفاده شده است. در روش پیاده‌سازی شده برای تشخیص جنسیت گوینده، ابتدا صوت فریم بندی شده و از هر فریم ویژگی‌های MFCC، LPC، LPCC استخراج می‌شود. این مرحله در واقع توصیفی فرکانسی از فریم را مدل می‌کند. در واقع ما انتظار داریم فریم‌های متناظر با جنسیت خاصی از (مثلا فریم‌های مربوط به مردان) بردار ویژگی MFCC مشابهی داشته ‌باشند. به عبارت دیگر اختلاف آنها ناچیز باشد. ویژگی‌های (مجموعا 36 ویژگی) هر فریم از یک صوت مربوط به یک گوینده، با برچسب جنسیت آن گوینده (1 [مرد] یا 2 [زن]) به دسته‌بند ماشین بردار پشتیبان داده می‌شود. برای مثال فرض کنید یک صوت مردان، شامل 100 فریم ‌باشد. از این 100 فریم، 100 بردار ویژگی 36-تایی (3 نوع ویژگی 12 بعدی) به دست می‌آید. هرکدام از این 100 بردار (36- بعدی) به دست آمده برچسب "1" می‌خورند و به دسته‌بند داده می‌شوند. در هنگام آزمون مدل آموزش دیده شده همین فرآیند تکرار می‌شود با این تفاوت که 100 برچسب توسط مدل SVM پیش‌بینی می‌شود. برای به دست آوردن برچسب، بین 100 پیش‌بینی به دست آمده رای اکثریت گرفته می‌شود تا برچسب نهایی یک صوت به عنوان یک زن یا مرد پیش بینی شود. در این پروژه دقت دسته‌بندی فریم‌های آزمون 89% و دقت دسته‌بندی در سطح صوت‌های آزمون 100% به دست آمد.
azsoftir.com
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276az
softir@gmail.com
azsoftir.com
09367292276
محتویات فایل قابل : سورس کد متلب، فایل ورد گزارش پروژه، مجموعه داده نمونه
زبان برنامه نویسی: متلب
پروژه تشخیص جنسیت گوینده با استفاده از ماشین بردار پشتیبان (SVM) و ویژگی های MFCC، LPC و LPCC

پروژه تشخیص صدای گوینده (دسته بندی صوت) با استفاده از ویژگی‌های MFCC و مدل دسته‌بند ماشین بردار پشتیبان

    دسته: پردازش صوت و گفتار

azsoftir.com
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276az
softir@gmail.com
azsoftir.com
09367292276
در این پروژه هدف تشخیص (دسته‌بندی) گوینده صوت ورودی است. برای این منظور از ویژگی‌های MFCC و مدل دسته‌بند ماشین بردار پشتیبان استفاده شده است. در روش پیاده‌سازی شده برای تشخیص گوینده، ابتدا صوت فریم بندی شده و از هر فریم ویژگی‌های MFCC استخراج می‌شود. این مرحله در اکثر پژوهش‌های پردازش گفتار رایج است و در واقع توصیفی فرکانسی از فریم را مدل می‌کند. در واقع ما انتظار داریم فریم‌های متناظر با بخش خاصی از یک واج (مثلا فریم‌های مربوط به بخش انفجاری واج انفجاری "ب") برای یک گوینده خاص، بردار ویژگی MFCC مشابهی داشته ‌باشند. به عبارت دیگر اختلاف آنها ناچیز باشد. ویژگی‌های MFCC هر فریم از یک صوت مربوط به یک گوینده، با برچسب آن گوینده (1 تا 10) به دسته‌بند ماشین بردار پشتیبان داده می‌شود. برای مثال فرض کنید یک صوت گوینده "پنج" ، شامل 100 فریم ‌باشد. از این 100 فریم، 100 بردار ویژگی MFCC به دست می‌آید. هرکدام از این 100 بردار (13- بعدی) به دست آمده برچسب "پنج" می‌خورند و به دسته‌بند داده می‌شوند. در هنگام آزمون مدل آموزش دیده شده همین فرآیند تکرار می‌شود با این تفاوت که 100 برچسب توسط مدل SVM پیش‌بینی می‌شود. برای به دست آوردن برچسب، بین 100 پیش‌بینی به دست آمده رای اکثریت گرفته می‌شود.
پروژه تشخیص صدای گوینده (دسته بندی صوت) با استفاده از ویژگی‌های MFCC و مدل دسته‌بند ماشین بردار پشتیبان

تمرین درس تبدیل متن به گفتار: طراحی رابط کاربری گرافیکی برای ضبط، پخش و نمایش سیگنال های صوتی و کار با نرم افزار WaveSurfer

    دسته: پردازش صوت و گفتار
azsoftir.com
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276az
softir@gmail.com
azsoftir.com
09367292276

در این تمرین قصد داریم تا با کارهای مقدماتی بر روی فایل‌های صوتی و نمایش آن به همراه طراحی یک واسط کاربری ساده، مهارت های اولیه را در این درس کسب نماییم. در این تمرین هر دانشجو باید یک واسط کاربری، مشابه آنچه در زیر نمایش داده شده را در MATLAB R2013b به بالا طراحی کند. در ادامه توضیحاتی مربوط به این واسط کاربری داده شده است. در هر مورد میتوانید با مراجعه به Help در MATLAB از جزئیات دستورات استفاده کنید.(در ادامه متن صورت مسئله و موارد خواسته شده آمده است)
تمرین درس تبدیل متن به گفتار: طراحی رابط کاربری گرافیکی برای ضبط، پخش و نمایش سیگنال های صوتی و کار با نرم افزار WaveSurfer

تشخیص گفتار آنلاین (تشخیص کلمات مجزا به صورت آنلاین) مبتنی بر مدل مارکوف مخفی

    دسته: پردازش صوت و گفتار
   azsoftir.com
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276az
softir@gmail.com
azsoftir.com
09367292276
تشخیص گفتار آنلاین (تشخیص کلمات مجزا به صورت آنلاین) مبتنی بر مدل مارکوف مخفی (Hidden markov model)
این پروژه به منظور تشخیص کلمات گفتاری طراحی و پیاده‌سازی شده است. توجه شود که مجموعه داده به سادگی قابل تغییر است کافی است که به ازای هر کلمه موردنظر حدودا 20 فایل صوتی (و یا بیشتر) ضبط شود (توسط واسط گرافیکی تهیه شده برای برنامه). برای مثال ما برای تشخیص کلمات بهرام، کامران، محمد و سعید، به ازای هرکدام از این کلمات 25 فایل صوتی ضبط کرده‌ایم که 18 فایل از هرکدام برای آموزش مدل و 7 فایل برای آزمون آفلاین مدل استفاده شده است. پس از آموزش مدل‌های HMM با ضبط هر کلمه توسط واسط گرافیکی به صورت آنلاین توسط برنامه، برچسب کلمه مشخص می‌شود.

امکانات پروژه
1- تشخیص کلمات گفتاری
2- امکان تغییر مجموعه داده به صورت ساده و با ضبط صوت توسط برنامه
3- ضبط صوت
4- نمایش صوت هنگام ضبط
5- ذخیره صوت
6- پخش صوت
7- باز کردن صوت‌های wav
8- تنظیم پارامترهای مدل HMM در واسط گرافیکی
azsoftir.com
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276az
softir@gmail.com
azsoftir.com
09367292276

محتویات فایل قابل : سورس کد متلب، فایل راهنمای ورد، فایل راهنمای توضیح روش استفاده شده به زبان انگلیسی (این پروژه بر اساس پروژه نهایی یکی از دانشگاههای دانمارک تهیه شده و برای مجموعه داده‌های گفتار فارسی و انگلیسی قابل استفاده است)، مجموعه داده شامل 4 کلمه و 25 فایل صوتی (قابل تغییر)
زبان برنامه نویسی: متلب
تشخیص گفتار آنلاین (تشخیص کلمات مجزا به صورت آنلاین) مبتنی بر مدل مارکوف مخفی

انجام پروژه های برنامه نویسی تشخیص ,بردار ,com09367292276azsoftir@gmail ,comazsoftir ,داده ,می‌شود ,com09367292276azsoftir@gmail comazsoftir ,ماشین بردار ,تشخیص کلمات ,comazsoftir com09367292276azsoftir@gmail ,azsoftir com09367292276azsoftir@g منبع

پردازش صوت و گفتار نتتنن

مشخصات

تبلیغات

آخرین مطالب این وبلاگ

آخرین ارسال ها

برترین جستجو ها

آخرین جستجو ها

درباره این سایت