Improving quality of music source separation in constrained and corrupted training data setting using loss masking

Monastyrskyi, M.

doi:https://doi.org/10.30837/ bi.2025.2(103).05

Публікація:
Improving quality of music source separation in constrained and corrupted training data setting using loss masking

Файли

5_103_34-39.pdf (127.58 KB)

Дата

2025

Автори

Monastyrskyi, M.

Видавець

ХНУРЕ

Анотація

This work aims to explore the efficiency of the loss masking strategy for training deep music source separation models in a setting where training data is corrupted, specifically with bleeding artefacts. A soft loss masking training strategy, which assigns weights to batch loss values inversely proportional to their magnitude, is proposed and compared to hard loss masking, where weights are computed as binary masks based on whether the loss function value exceeds a certain threshold. An investigation is conducted to determine whether a soft loss masking approach yields better results than hard masking in settings with low training data availability. Results indicate that, under constrained training data conditions with bleeding artefacts, the soft masking approach outperforms the hard loss masking method, specifically for the vocal source. Alongside, the evaluation strategy based on neural network approximation of the MUSHRA score is presented to account for both subjective and objective components of the music source separation system quality evaluation. В поточній роботі досліджується ефективність використання підходу маскування функції втрат для тренування моделей розділення музичних сигналів в умовах наявності похибок в даних, зокрема артефактів перетікання. Пропонується стратегія м’якого маскування функції втрат, суть якої полягає в присвоєнні ваг значенням функції втрат у батчі обернено пропорційно до їхньої величини, і порівнюється з підходом жорсткого маскування, де ваги обчислюються як бінарні маски на основі того, чи перевищує значення функції втрат певний пороговий рівень. Проводиться дослідження щодо того, чи дає підхід м’якого маскування функції втрат кращі результати порівняно з жорстким маскуванням в умовах обмеженої кількості доступних навчальних даних. Результати засвідчують, що в умовах обмеженої кількості тренувальних даних, за умови наявності в них артефактів перетікання, підхід м’якого маскування дозволяє отримати кращі результати за підхід жорсткого маскування зокрема для виокремлення вокалу. Пропонується також метод оцінки результатів розділення заснований на апроксимації метрики MUSHRA з використанням нейронної мережі, задля врахування як об’єктивної так і суб’єктивної компоненти оцінки якості розділення сигналів системою.

Ключові слова

music source separation, loss masking, perceptual quality assessment, signal processing, machine learning, neural networks, розділення музичних сигналів, маскування функції втрат, оцінка сприйманої якості, обробка сигналів, машинне навчання, нейронні мережі

Цитування

Monastyrskyi M. Improving quality of music source separation in constrained and corrupted training data setting using loss masking // Біоніка інтелекту. 2025. № 2(103). С. 34-39.

DOI

https://doi.org/10.30837/ bi.2025.2(103).05

URI

https://openarchive.nure.ua/handle/document/34028

Колекції

Біоніка інтелекту

Повна сторінка документа

Публікація:
Improving quality of music source separation in constrained and corrupted training data setting using loss masking

Файли

Дата

Автори

Назва журналу

ISSN журналу

Назва тому

Видавець

Дослідницькі проекти

Організаційні одиниці

Випуск журналу

Анотація

Опис

Ключові слова

Цитування

DOI

URI

Колекції

Схвалення

Рецензія

Доповнено

На які посилаються

Публікація: Improving quality of music source separation in constrained and corrupted training data setting using loss masking

Файли

Дата

Автори

Назва журналу

ISSN журналу

Назва тому

Видавець

Дослідницькі проекти

Організаційні одиниці

Випуск журналу

Анотація

Опис

Ключові слова

Цитування

DOI

URI

Колекції

Схвалення

Рецензія

Доповнено

На які посилаються

Публікація:
Improving quality of music source separation in constrained and corrupted training data setting using loss masking