Enhancing the performance of distributed big data processing systems using Hadoop and Polybase

Вантажиться...
Ескіз

Дата

2018

ORCID

DOI

Науковий ступінь

Рівень дисертації

Шифр та назва спеціальності

Рада захисту

Установа захисту

Науковий керівник

Члени комітету

Видавець

Eastern-European Journal of enterprise technologies = Східно-європейський журнал передових технологій. - 2018. - Vol. 4, No 2 (94). – P. 16-28

Анотація

Розглянуто пiдхiд до пiдвищення продуктивностi розподiлених iнформацiйних систем на основi спiльного використання технологiй кластера Hadoop та компонента PolyBase SQL Server. Показано, що актуальнiсть вирiшуваної в роботi проблеми пов'язана з необхiднiстю обробки великих даних, що мають рiзний спосiб подання вiдповiдно до рiшення рiзнопланових задач бiзнес-проектiв. Проведено аналiз методiв та технологiй створення гiбридних сховищ даних на основi рiзних даних типу SQL та NoSQL. Показано, що в даний час найбiльш поширеною є технологiя обробки великих даних з використанням середовища розподiлених обчислень Hadoop. Проаналiзовано iснуючi технологiї органiзацiї та доступу до даних в кластерi Hadoop iз SQLподiбних СУБД за допомогою конекторiв. Наведено порiвняльнi кiлькiснi оцiнки використання конекторiв Hive та Sqoop при експортi даних у сховище Hadoop. Проведено аналiз та особливостi обробки великих даних в архiтектурi розподiлених кластерних обчислень на базi Hadoop. Наведенi та описанi особливостi технологiї PolyBase як компонента SQL Server для органiзацiї моста мiж SQL Server та Hadoop даних типу SQL та NoSQL. Наведений склад модельної обчислювальної установки на базi вiртуальної машини для спiльного налаштування PolyBase та Hadoop для рiшення тестових завдань. Розроблено методичне забезпечення установки та конфiгурування програмного забезпечення Hadoop i PolyBase SQL Server з урахуванням обмежень на обчислювальнi потужностi. Розглянуто запити для використання PolyBase та сховища даних Hadoop при обробцi великих даних. Для оцiнки продуктивностi системи запропоновано абсолютнi та вiдноснi метрики. Для тестових даних великих об'ємiв приведенi результати експериментiв i проведений їх аналiз, що iлюструє пiдвищення продуктивностi iнформацiйної системи – часу виконання запитiв i величини тимчасових таблиць, що створюються при цьому. Проведений порiвняльний аналiз дослiджуваної технологiї з iснуючими конекторами з кластером Hadoop, який показав перевагу PolyBase над конекторами Sqoop та Hive. Результати проведених дослiджень можуть бути використанi при проведеннi наукових i тренiнгових експериментiв для вдосконалення бiзнес-процесiв органiзацiй при впровадженнi надсучасних IТ-технологiй.
The approach to improvement of performance of distributed information systems based on sharing technologies of the Hadoop cluster and component of SQL Server PolyBase was considered.
Рассмотрен подход к повышению производительности распределенных информационных систем на основе технологий совместного использования кластера Hadoop и компонента SQL Server PolyBase.

Опис

Minukhin S. Enhancing the performance of distributed big data processing systems using Hadoop and Polybase / S. Minukhin, V. Fedko, Y. Gnusov // Eastern-European Journal of enterprise technologies = Східно-європейський журнал передових технологій. – Kharkiv, Ukraine, 2018. – Vol 4, No 2 (94). – P. 16-28.

Ключові слова

Техніка. Технічні науки. Machinery. Engineering. Техника. Технические науки, Наукові публікації. Scientific publications. Научные публикации, publikatsii u Scopus, Hadoop, MapReduce, HDFS, PolyBase SQL Server, T-SQL, розподілені обчислення, grid computing, распределенные вычисления

Бібліографічний опис