مجموعه سایت های ما
جایی برای یادگیری بیشتر

دانلود رایگان مقاله فشرده سازی صوت

0

فشرده سازی صوت

کوانتیزه کردن

  • خطی
    • فواصل ثابت
    • مستقل از دامنه
  • غیر خطی
    • فواصل متغیر
    • افزایش فواصل در دامنه های بالا
    • نگاشت لگاریتمی

مدولاسیون داده

  • به جای کد کردن دامنه واقعی فقط افزایش یا کاهش را به کمک یک بیت کد کنیم

۲

PCM Differential

  • Differential PCM = DPCM
  • تفاضل دامنه فعلی با دامنه قبلی توسط بیت های کمتر
  • ADPCM
  • Adaptive Differential PCM
    • بخش های ساکت بیت کمتر
    • بخش های شلوغ بیت بیشتر

فشرده سازی به روش Psycho-Acoustic

  • حذف بخش های غیر قابل شنود
  • تاثیرات ماسکها
    • یک سیگنال با دامنه زیاد سیگنالهای کم دامنه مجاور خود را ماسک میکند

۲

 

MPEG  AUDIO

  • فشرده سازی:
    • ۳۲ ، ۶۴ ، ۹۶ ، ۱۲۸ یا ۱۹۲ کیلو بیت درثانیه
  • کانالها:
    • تک باند (mono )
    • دو باند مستقل
    • استریو مشترک Joint Stereo

MPEG  AUDIO

  • نرخ نمونه برداری :
    • ۳۲Khz
    • ۱ Khz
    • ۴۸ Khz
  • هر نمونه به صورت ۱۶ بیتی
  • حداکثر تاخیر در گدگذاری و کدگشایی : ۸۰ میلی ثانیه
  • استفاده از Psycho –acoustic در کوانتیزه کردن

 

کدگذار و کدگشای MPEG

۲

تاریخچه MP3

  • Fraunhofer Institut
    • موسسه تحقیقاتی ( کشور آلمان )
    • بکارگیری خواص شنوایی انسان برای فشرده سازی صوت
  • استاندارد –ISO
  • حداکثر ضریب فشرده سازی برابر با ۱۲
  • ISO کلیات را بیان کرده
  • جزئیات وابسته به نحوه پیاده سازی

 


لایه های صوت در MPEG

  • Frame ها
  • شامل ۳۸۴ نمونه
  • این نمونه های مربوط به ۳۲ Sub-Band هستند
  • برای هر sub-band 12 مقدار ذخیره میشود

۲

لایه های صوت در MPEG

  • لایه ۱: ماسک کردن فرکانس
    • استفاده از فیلتر DCT
    • بررسی فقط یک فریم
  • لایه ۲ : ماسک موقتی
    • سه فریم ( قبلی ، فعلی ، بعدی )
    • شبیه سازی شنوایی انسان

لایه های صوت در MPEG

  • لایه ۳ : ماسک غیرخطی :
    • فرکانس ها به باندهایی باپهنای متفاوت تقسیم میشوند
    • کانالهای استریو به صورت تفاضلی کدگذاری میشوند
    • فشرده سازی ضرایب به روش هافمن

لایه ۱

  • تاثیرات Psycho- Acoustic
  • حساسیت گوش انسان

۲

لایه ۱

  • تاثیرات ماسک فرکانس
    • یک سیگنال با فرکانس ۱KHz (فرکانس ماسک ) تولید میکنیم سپس سیگنالی با فرکانس نزدیک به آن مثلا ۱KHz و با شدت کم تولید میکنیم دامنه این فرکانس را به تدریج افزایش میدهیم تا شنیده شود

۲

لایه ۱

  • فشرده سازی
  • سیگنال اصلی به ۳۲ باند اصلی تقسیم میشود Critical Band
  • برای هر باند رویه ماسک تعریف میشود که نشان میدهد کدام سطح از سیگنال می تواند توسط باندهای مجاور ماسک شود .

۲

لایه ۱

  • الگوریتم :
    1. محاسبه انرژی در هر باند
    2. اگر انرژی آن کمتر از انرژی باند مجاور است آن را کدگذاری نکن
    3. درغیراینصورت باند را کدگذاری کن
    4. ضرایب را کوانتیزه کن
    5. فاکتور کوانتیزه را به گونه ای انتخاب کن که خطای آن کمتراز فاکتور ماسک باشد ( هر بیت کوانتیزه معادل ۶db است)

مثال

  • سطوح مربوط به ۱۶ باند ازبین ۳۲ باند اول

۲

 

لایه ۲ فشرده سازی

  • تاثیرات Psycho-Acoustic
    • Temporal Masking : یک صدای قوی که ناگهان قطع میشود
    • آزمایش :یک سیگنال قوی مثلا ۶۰db با فرکانس ۱kHz پخش میشود همراه با آن یک سیگنال ضعیف ۴۰db با فرکانس ۱KHz پخش میکنیم ( این سیگنال ماسک میشود)
    • با قطع سیگنال تست برای مدت زمان مشخضی سیگنال ضعیف نیز شنیده نمیشود

لایه ۲ فشرده سازی

  • آزمایش بالا را با فرکانسهای مختلف تکرار میکنیم

 

 

۲

لایه۲- فشرده سازی

  • مشابه با لایه ۱ از این امکان برای ماسک فریم های مجاور استفاده میکنیم
  • برای سادگی کار فرش میکنیم که این ماسک فقط میتواند بردی به اندازه یک فریم داشته باشد

لایه ۳ تاثیرات psycho- Acoustic

  • دقت تشخیص شنوایی انسان با افزایش فرکانس کاهش می یابد
  • در لایه ۱و ۲ طیف فرکانسی به ۳۲ فریم با اندازه های یکسان تقسیم شد
  • در لایه سوم فرکانس ها به روش غیرخطی تقسیم میشوند
  • به گونه ای که میزان خطای شنوایی در همه باند ها یکسان باشد

لایه ۳

  • Bark
  • برگرفته از نام Barkhausen
  • یک Bark برایر با عرض یک باند حیاتی Critical Band است

 

 

 

 

 

لایه ۳آستانده های موجود در باندهای حیاتی

 

لایه ۳

  • این لایه به سیستم شنوایی انسان نزدیکتراست چراکه از Bark ها برای تقسیم بندی فرکانس استفاده میکند
  • علاوه بر ماسکهای پوششی و موقتی در لایه های ۱ و ۲ در لایه سوم از کدگذاری تفاضلی برای ضرایب و نیز کدگذاری هافمن جهت فشرده سازی آنها استفاده میشود

کدگذاری گفتار

  • روش های تخصص یافته
  • حجم کم
  • فرکانسهای گفتار
    • ۳۰۰ تا ۳۴۰۰ هرتز
  • کدگذاری پیشگوی خطی LPC

Linear Predictive Coding

  • شبیه سازی آناتومی انسان
  • اتصال لوله هایی با ضخامت های متفاوت

 

 

Linear Predictive Coding

  • امواج صوتی توسط تارهای صوتی تولید میشوند
  • این اموا ج در لوله هایی با ضخامت های مختلف حرکت می کنند
  • در هر تغییر قطر بخشی از موج بازگردانده میشود
  • میزان این انعکاس توسط ضرایبی تعیین شده است
  • بنابراین تولید گفتار وابسته به گوینده فقط با تعیین این ضرایب امکانپذیر است

LPC Encoder

  • سیگنال صوتی به بخش های کوچکی به اندازه ۲۰ تا ۳۰ میلی ثانیه تقسیم میشود
  • برای هر فریم s[i] ، تعداد P وزن تعیین میکنیم lpc[0],lpc[1],…..lpc[p-1]   که s[i] تقریبا برابر خواهد بود با :
  • Lpc[0]*s[i-1]+lpc[1]*s[i-2]+….+lpc[p-1]*s[i-p]
  • معمولا p بین ۸ تا ۱۴ انتخاب میشود

LPC Encoder

  • سیگنال اولیه با سیگنال بازسازی شده مقایسه میشود
  • اختلاف موجود بین دو سیگنال محاسبه شده
  • ضرایب اصلاح می شوند

 

 

 

اشتراک
اطلاع از
guest
0 نظر
بازخورد های درون متن
مشاهده همه نظرات