Публікація: Improving quality of music source separation in constrained and corrupted training data setting using loss masking
Завантаження...
Дата
Автори
Назва журналу
ISSN журналу
Назва тому
Видавець
ХНУРЕ
Анотація
This work aims to explore the efficiency of the loss masking strategy for training deep music source separation models in a setting where training data is corrupted, specifically with bleeding artefacts. A soft loss masking training strategy, which assigns weights to batch loss values inversely proportional to their magnitude, is proposed and compared to hard loss masking, where weights are computed as binary masks based on whether the loss function value exceeds a certain threshold. An investigation is conducted to determine whether a soft loss masking approach yields better results than hard masking in settings with low training data availability. Results indicate that, under constrained training data conditions with bleeding artefacts, the soft masking approach outperforms the hard loss masking method, specifically for the vocal source. Alongside, the evaluation strategy based on neural network approximation of the MUSHRA score is presented to account for both subjective and objective components of the music source separation system quality evaluation.
В поточній роботі досліджується ефективність використання підходу маскування функції втрат для тренування моделей розділення музичних сигналів в умовах наявності похибок в даних, зокрема артефактів перетікання. Пропонується стратегія м’якого маскування функції втрат, суть якої полягає в присвоєнні ваг значенням функції втрат у батчі обернено пропорційно до їхньої величини, і порівнюється з підходом жорсткого маскування, де ваги обчислюються як бінарні маски на основі того, чи перевищує значення функції втрат певний пороговий рівень. Проводиться дослідження щодо того, чи дає підхід м’якого маскування функції втрат кращі результати
порівняно з жорстким маскуванням в умовах обмеженої кількості доступних навчальних даних. Результати засвідчують, що в умовах обмеженої кількості тренувальних даних, за умови наявності в них артефактів перетікання, підхід м’якого маскування дозволяє отримати кращі результати за підхід жорсткого маскування зокрема для виокремлення вокалу. Пропонується також метод оцінки результатів розділення заснований на апроксимації метрики MUSHRA з використанням нейронної мережі, задля врахування як об’єктивної так і суб’єктивної компоненти оцінки якості розділення сигналів системою.
Опис
Ключові слова
music source separation, loss masking, perceptual quality assessment, signal processing, machine learning, neural networks, розділення музичних сигналів, маскування функції втрат, оцінка сприйманої якості, обробка сигналів, машинне навчання, нейронні мережі
Цитування
Monastyrskyi M. Improving quality of music source separation in constrained and corrupted training data setting using loss masking // Біоніка інтелекту. 2025. № 2(103). С. 34-39.