Публікація: Розробка системи динамічної оптимізації обсягів збереження даних у Data Lake на основі класифікації корисності даних
Завантаження...
Дата
2025
Автори
Назва журналу
ISSN журналу
Назва тома
Видавництво
Анотація
Об’єкт дослідження – система управління обсягами даних у хмарному сховищі типу Data Lake. Предмет дослідження – методи динамічної оптимізації зберігання даних на основі класифікації їх корисності. Мета роботи – розробити систему автоматизованого управління обсягами збереження даних у Data Lake, яка дозволяє знижувати витрати на інфраструктуру за рахунок аналізу й класифікації корисності даних з використанням машинного навчання. Методи дослідження – аналіз літератури та сучасних підходів до зберігання даних у хмарних середовищах, моделювання, машинне навчання, побудова архітектури програмної системи, реалізація прототипу на основі Python та Apache Spark. У результаті роботи здійснено аналіз проблем надмірного зберігання даних у Data Lake, побудовано модель корисності даних на основі доступу, частоти використання та джерела надходження. Розроблено систему, що включає модуль класифікації даних, модуль моніторингу доступу та модуль застосування політик зберігання. Система протестована на реальних обсягах симульованих даних, що дозволило досягти зменшення витрат на зберігання до 38% без втрати критично важливої інформації. Виявлено обмеження поточної моделі та запропоновано шляхи подальшої оптимізації.
Опис
Ключові слова
архівація, життєвий цикл даних, хмарні технології, життєвий цикл даних, класифікація корисності, контроль доступу, оптимізація зберігання, політики зберігання
Бібліографічний опис
Мітрошкіна К. В. Розробка системи динамічної оптимізації обсягів збереження даних у Data Lake на основі класифікації корисності даних : пояснювальна записка до кваліфікаційної роботи здобувача вищої освіти на другому (магістерському) рівні, спеціальність 122 Комп’ютерні науки / К. В. Мітрошкіна ; М-во освіти і науки України, Харків. нац. ун-т радіоелектроніки. – Харків, 2025. – 60 с.