Публікація: Застосування токенізації даних на основі BYTE-PAIR ENCODING
Завантаження...
Дата
Назва журналу
ISSN журналу
Назва тому
Видавець
ХНУРЕ
Анотація
Efficient data representation is essential for modern information systems, particularly in natural language processing (NLP) and secure data handling. The analysis examines Byte-Pair Encoding (BPE) as an effective and adaptive method of tokenization that transforms raw text into structured subword units through iterative merging of frequent symbol pairs. The approach is particularly relevant for NLP pipelines and large-scale data management, where compact and semantically consistent representations improve computational efficiency and system scalability. The analysis explores how the frequency-based merging strategy reduces vocabulary size and sequence length without compromising linguistic content. According to the results, BPE can be recommended as a standardized approach for text processing in large language model systems. Its simplicity, adaptability, and efficiency make it a reliable foundation for scalable, secure, and interoperable data pipelines in modern information environments.
Опис
Ключові слова
токенізація даних
Цитування
Оченашко М.О., Гороховатський В.О. Застосування токенізації даних на основі BYTE-PAIR ENCODING / М. О. Оченашко, В. О. Гороховатський // Інформаційно-комунікаційні технології та кібербезпека (IКTK-2025) : матеріали Міжнар. наук.-техн. конф., 4-5 грудня 2025 р. – Харків : ХНУРЕ, 2025. – С. 248-250.