:: ECONOMY :: ВПЛИВ РОЗМІРУ БЛОКУ НА ЕФЕКТИВНІСТЬ ПРИДУШЕННЯ ШУМУ ОДНОВИМІРНИМ ДКП-ФІЛЬТРОМ :: ECONOMY :: ВПЛИВ РОЗМІРУ БЛОКУ НА ЕФЕКТИВНІСТЬ ПРИДУШЕННЯ ШУМУ ОДНОВИМІРНИМ ДКП-ФІЛЬТРОМ
:: ECONOMY :: ВПЛИВ РОЗМІРУ БЛОКУ НА ЕФЕКТИВНІСТЬ ПРИДУШЕННЯ ШУМУ ОДНОВИМІРНИМ ДКП-ФІЛЬТРОМ
 
UA  PL  EN
         

Світ наукових досліджень. Випуск 38

Термін подання матеріалів

20 лютого 2025

До початку конференції залишилось днів 0



  Головна
Нові вимоги до публікацій результатів кандидатських та докторських дисертацій
Редакційна колегія. ГО «Наукова спільнота»
Договір про співробітництво з Wyzsza Szkola Zarzadzania i Administracji w Opolu
Календар конференцій
Архів
  Наукові конференції
 
 Лінки
 Форум
Наукові конференції
Наукова спільнота - інтернет конференції
Світ наукових досліджень www.economy-confer.com.ua

 Голосування 
З яких джерел Ви дізнались про нашу конференцію:

соціальні мережі;
інформування електронною поштою;
пошукові інтернет-системи (Google, Yahoo, Meta, Yandex);
інтернет-каталоги конференцій (science-community.org, konferencii.ru, vsenauki.ru, інші);
наукові підрозділи ВУЗів;
порекомендували знайомі.
з СМС повідомлення на мобільний телефон.


Результати голосувань Докладніше

 Наша кнопка
www.economy-confer.com.ua - Економічні наукові інтернет-конференції

 Лічильники
Українська рейтингова система

ВПЛИВ РОЗМІРУ БЛОКУ НА ЕФЕКТИВНІСТЬ ПРИДУШЕННЯ ШУМУ ОДНОВИМІРНИМ ДКП-ФІЛЬТРОМ

 
22.01.2025 19:25
Автор: Брисін Петро Володимирович, аспірант, Національний аерокосмічний університет ім. М.Є. Жуковського "ХАІ"; Лукін Володимир Васильович, доктор технічних наук, професор, Національний аерокосмічний університет ім. М.Є. Жуковського "ХАІ"
[2. Інформаційні системи і технології;]

ORCID: 0000-0003-2598-3907 Брисін П.В.

ORCID: 0000-0002-1443-9685 Лукін В.В.

Вступ

Придушення шуму в аудіо-сигналах з використанням різних фільтрів є важливим напрямом у цифровій обробці сигналів [1]. Дискретне косинусне перетворення (ДКП) використовується для покращення якості звуку в системах зв'язку, в обробці зображень, біомедичних сигналів та стисненні даних [2]. Фільтри на основі ДКП застосовуються завдяки їх здатності зосереджувати енергію сигналу в невеликій кількості коефіцієнтів, що робить їх ефективним інструментом для фільтрації шуму. Дослідження показують, що методи поліпшення мови на основі ДКП поєднують ефективність і низькі обчислювальні витрати, крім того, дані методи можуть перевершувати традиційні підходи в завданнях придушення шуму, особливо при обробці сигналів у реальному масштабі часу [3,4]. В основі ДКП фільтру лежить поділ вхідного сигналу на блоки і подальше перетворення кожного блоку в частотну область. Розмір блоку ДКП є критичним параметром, який впливає не тільки на здатність придушувати шум, а й на обчислювальну складність і потенційне виникнення спотворень. У цій роботі досліджується ефективність знешумлення сигналів мови залежно від розміру блоку обробки для ДКП-фільтра.

Основна частина

У дослідженні використано записи англійської мови з набору мовних сигналів, створеного в McGill University, Montreal, Canada[5]; на цих записах голос людини вимовляє гарвардські фрази. Для проведення досліджень було створено набір аудіофайлів, у кожному з яких до мовного сигналу було додано адитивний білий гаусів шум (Additive white Gaussian noise - AWGN) різної інтенсивності. Рівень шуму був обраний таким чином, щоб отримати суміш сигналу з шумом із співвідношенням сигнал-шум (Signal to noise ratio - SNR) 20 дБ. Дане значення дозволяє детально вивчити вплив шуму на сприйняття і розуміння мови, а також оцінити граничні умови, за яких сигнальна складова (корисний сигнал) залишається помітним для людського слуху.

Нагадаємо деякі основні принципи одновимірної фільтрації на основі ДКП. Нехай S(i), i = 1,...,I – сигнальна складова, яку треба оцінити (i – індекс відліку, I – загальна кількість відліків) щодо спостережуваної реалізації Sn (i) = S(i) + n(i), i = 1,...,I, де n(i) - шум в i-му відліку, що вважається адитивним, білим і гаусовим з нульовим середнім і заздалегідь відомою або точно оціненою дисперсією σ2. Завдання оцінювання вирішується шляхом отримання оцінки Sf (i), i = 1,...,I на виході фільтра, яка повинна бути якомога ближчою до S(i), i = 1,...,I відповідно до використовуваного критерію, в якості якого, наприклад, часто використовується середньоквадратична похибка (mean square error - MSE), яка для ефективного фільтра повинна бути істотно менше σ2.

Як метод знешумлення ми розглядаємо одномірну фільтрацію на основі ДКП, яка виконується наступним чином. Дані обробляються в блоках, де в блок входять значення Snbl(l) = Sn (l + j - 1), j = 1,..., N, N –розмір блоку, який зазвичай вибирається рівним ступеня двійки і l = 1,..., I - N +1 (нижче буде розглядатися варіант ДКП-фільтра з так званим повним перекриттям, який є найбільш ефективним у плані придушення завад і також забезпечує меншу кількість артефактів знешумлення), l - індекс крайнього лівого (початкового) відліку, що входить до блоку. Для кожного блоку виконується пряме ДКП і в результаті одержують ДКП-коефіцієнти D(k), k =1,..., N, де D(1) пов'язано із середнім у блоці і в подальшій пороговій обробці участі не бере. У цьому дослідженні використовуються два види порогової обробки - з жорстким і комбінованим порогом.

Після такої порогової обробки застосовують зворотне ДКП до Dthr (k), k = 1,..., N і отримують відфільтровані значення для даного блоку Sf bl ( l ) = Sf(l + j - 1), j= 1,...,N. Як можна бачити, для кожного відліку може бути від одного (для першого і останнього відліків) до N фільтрованих значень, що належать блокам, що перекриваються. Існують різні варіанти їх обробки. Однак більш складні варіанти не забезпечують істотного виграшу по ефективності, тому зупинимося на найпростішому варіанті - усереднення отриманих оцінок.

У цій роботі досліджується ефективність фільтрації для блоків розміром N рівним 16, 32 і 64 відліків. Для оцінки ефективності фільтрації використовується значення поліпшення SNR на виході фільтра (SNR improvement - ISNR). На малюнку 1 представлено шість графіків залежності ISNR від параметра β, що визначає поріг, для сигналу мови F1. Кольорами відображені графікі залежностей, отриманих для різної кількості відліків N в блоці обробки сигналу - графіки червоного кольору отримані при N = 16, зеленого кольору - при N = 32, синього - кольору при N = 64. Так само графіки відображені двума типами ліній - суцільною лінією відображені залежності ISNR при використанні жорсткого порогу в ДКП-фільтрі, пунктирною лінією відображені залежності, отримані при використанні комбінованого порогу. З графіків видно, що зі збільшенням розміру N збільшується максимальне значення ISNR, крім того, поліпшення фільтрації відбувається в певному діапазоні значень β (значення ISNR > 0), проте виражений максимум ISNR досягається при одному значенні коефіцієнта β. Також необхідно відзначити що оптимальні значення β різні для різних розмірів блоку та різних типів порога.




Мал. 1 Графіки ISNR для файлу F1.

Для розміру блоку N=16 і N=32 значення, при якому ISNR максимальний, дорівнює 3 (значення ISNR при цьому дорівнює 2.45дБ для випадку N = 16 і ISNR= 3.05 дБ для N=32), для N=64 оптимальне значення β менше і становить 2,8 (ISNR= 3.5 дБ). Максимуми графіків з використанням комбінованого порога зсунуті у бік більшого β. У цих випадках ISNR досягає максимального значення при наступних значеннях: для N=16 і N=32 параметр β становить 4.6 (значення ISNR при цьому дорівнює 2.62 дБ для випадку N = 16 і ISNR = 3.13 дБ для N = 32), а для N = 64 параметр β дорівнює 4,4 (ISNR = 3.51 дБ).

Дослідження було проведено для п'яти аудіозаписів людської мови F1 - F5, які були записані різними голосами. Для всіх аудіозаписів отримано схожі результати.

Висновок

Досліджено залежність якості фільтрації аудіо-сигналів людської мови, спотворених AWGN, за допомогою одновимірного ДКП-фільтра з повним перекриттям блоків і трьома розмірами блоків N = 16, N = 32 і N = 64. Для оцінки ефективності використана метрика ISNR на виході фільтра. Ефективність придушення шуму проаналізована при використанні жорсткого та комбінованого типів порога та параметра β, що лежить в діапазоні 2 – 10. Показано, що позитивний ефект (тобто максимальне значення ISNR) спостерігається за певного значення β, і це значення відрізняється залежно від розміру блоку та виду порогу - для всіх розмірів оптимальне значення β є нижчим за використання жорсткого порогу. Так само встановлено, що найбільша ефективність фільтрації відповідно до обраної метрики досягається при використанні жорсткого порогу та розміру блоку N=64. У подальших дослідженнях передбачається вивчення інтеграції методів фільтрації шуму на основі ДКП з алгоритмами на основі штучного інтелекту, розгляд гібридних методів фільтрації (комбінації ДКП і нейронних мереж), застосування ДКП фільтрів у попередньому обробленні даних для навчання моделей.

Література

1.Y. Hu, P. C. Loizou, Evaluation of Objective Quality Measures for Speech Enhancement, IEEE Transaction on Audio, Speech and Language Processing, Vol. 16, No. 1, 2008, pp. 229-238. doi:10.1109/TASL.2007.911054.

2. P. V. Brysin, V. V. Lukin, DCT-based denoising of speech signals, Herald of Khmelnytskyi National University Technical sciences, 2024(4):301-309, DOI:10.31891/2307-5732-2024-339-4-48

3. C. Geng, L. Wang, End-to-end speech enhancement based on discrete cosine transform, CoRR, abs/1910.07840, 2019, http://arxiv.org/abs/1910.07840

4. Q. Li, F. Gao, H. Guan, K. Ma, Real-time Monaural Speech Enhancement With Short-time Discrete Cosine Transform, 2021, https://arxiv.org/abs/2102.04629

5. TSP speech database. https://www.mmsp.ece.mcgill.ca/Documents/Data/TSP-Speech-Database/TSP-Speech-Database.pdf



Creative Commons Attribution Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License

допомогаЗнайшли помилку? Виділіть помилковий текст мишкою і натисніть Ctrl + Enter


 Інші наукові праці даної секції
STATISTICAL ANALYSIS OF IMAGE DISTORTIONS DUE TO LOSSY COMPRESSION
23.01.2025 13:35




© 2010-2025 Всі права застережені При використанні матеріалів сайту посилання на www.economy-confer.com.ua обов’язкове!
Час: 0.501 сек. / Mysql: 1659 (0.394 сек.)