Методи пошуку та кодування схожих послідовностей даних в алгоритмах стиснення даних без втрат

Валлас, О. С.Вечур, О. В.Методи пошуку та кодування схожих послідовностей даних в алгоритмах стиснення даних без втратХНУРЭ2021стиснення даних без втратсхожі послідовності данихіндексні методиn-грамивідстань ЛевенштейнаMy UniversityMy University2023-06-102023-06-102021ukArticleВаллас О. С. Методи пошуку та кодування схожих послідовностей даних в алгоритмах стиснення даних без втрат / О. С. Валлас, О. В. Вечур // Бионика интеллекта : научно-технический журнал. – 2021. – № (96). – С. 41–49.https://openarchive.nure.ua/handle/document/23321Розглянуто методи пошуку та кодування схожих послідовностей даних, та їх використання для покращення алгоритмів стиснення даних без втрат. Досліджено сучасні підходи до пошуку послідовностей з неточним збігом – тривіальні та евристичні методи, індексні методи та методи, що базуються на N-грамах. Розглянуто підходи кодування відмінностей з використанням відстані Левенштейна та Геммінга. Запропонована розширена структура алгоритму стиснення даних. Комбінації вищезазначених методів у складі запропонованої структури було протестовано на двох датасетах – датасеті англійського тексту «enwik8» та комбінованому датасеті «Silesia Corpus». При тестування оцінювались ступінь стиснення, швидкість кодування та декодування, та загальний баланс. У результаті було розроблено нову структуру алгоритмів стиснення даних та виявлено найбільш ефективні комбінації методів для компресії різних типів даних.