Enhancing the performance of distributed big data processing systems using Hadoop and Polybase

dc.contributor.authorMinukhin, S. V.
dc.contributor.authorFedko, V.
dc.contributor.authorGnusov, Y. V.
dc.contributor.authorГнусов, Ю. В.
dc.contributor.authorORCID: http://orcid.org/0000-0002-9017-9635
dc.contributor.authorResearcherID: J-6825-2016
dc.date.accessioned2018-12-29T11:18:03Z
dc.date.available2018-12-29T11:18:03Z
dc.date.issued2018
dc.descriptionMinukhin S. Enhancing the performance of distributed big data processing systems using Hadoop and Polybase / S. Minukhin, V. Fedko, Y. Gnusov // Eastern-European Journal of enterprise technologies = Східно-європейський журнал передових технологій. – Kharkiv, Ukraine, 2018. – Vol 4, No 2 (94). – P. 16-28.uk_UA
dc.description.abstractРозглянуто пiдхiд до пiдвищення продуктивностi розподiлених iнформацiйних систем на основi спiльного використання технологiй кластера Hadoop та компонента PolyBase SQL Server. Показано, що актуальнiсть вирiшуваної в роботi проблеми пов'язана з необхiднiстю обробки великих даних, що мають рiзний спосiб подання вiдповiдно до рiшення рiзнопланових задач бiзнес-проектiв. Проведено аналiз методiв та технологiй створення гiбридних сховищ даних на основi рiзних даних типу SQL та NoSQL. Показано, що в даний час найбiльш поширеною є технологiя обробки великих даних з використанням середовища розподiлених обчислень Hadoop. Проаналiзовано iснуючi технологiї органiзацiї та доступу до даних в кластерi Hadoop iз SQLподiбних СУБД за допомогою конекторiв. Наведено порiвняльнi кiлькiснi оцiнки використання конекторiв Hive та Sqoop при експортi даних у сховище Hadoop. Проведено аналiз та особливостi обробки великих даних в архiтектурi розподiлених кластерних обчислень на базi Hadoop. Наведенi та описанi особливостi технологiї PolyBase як компонента SQL Server для органiзацiї моста мiж SQL Server та Hadoop даних типу SQL та NoSQL. Наведений склад модельної обчислювальної установки на базi вiртуальної машини для спiльного налаштування PolyBase та Hadoop для рiшення тестових завдань. Розроблено методичне забезпечення установки та конфiгурування програмного забезпечення Hadoop i PolyBase SQL Server з урахуванням обмежень на обчислювальнi потужностi. Розглянуто запити для використання PolyBase та сховища даних Hadoop при обробцi великих даних. Для оцiнки продуктивностi системи запропоновано абсолютнi та вiдноснi метрики. Для тестових даних великих об'ємiв приведенi результати експериментiв i проведений їх аналiз, що iлюструє пiдвищення продуктивностi iнформацiйної системи – часу виконання запитiв i величини тимчасових таблиць, що створюються при цьому. Проведений порiвняльний аналiз дослiджуваної технологiї з iснуючими конекторами з кластером Hadoop, який показав перевагу PolyBase над конекторами Sqoop та Hive. Результати проведених дослiджень можуть бути використанi при проведеннi наукових i тренiнгових експериментiв для вдосконалення бiзнес-процесiв органiзацiй при впровадженнi надсучасних IТ-технологiй.uk_UA
dc.description.abstractThe approach to improvement of performance of distributed information systems based on sharing technologies of the Hadoop cluster and component of SQL Server PolyBase was considered.en
dc.description.abstractРассмотрен подход к повышению производительности распределенных информационных систем на основе технологий совместного использования кластера Hadoop и компонента SQL Server PolyBase.ru
dc.identifier.urihttps://doi.org/10.15587/1729-4061.2018.139630
dc.identifier.urihttp://dspace.univd.edu.ua/xmlui/handle/123456789/4221
dc.language.isoenuk_UA
dc.publisherEastern-European Journal of enterprise technologies = Східно-європейський журнал передових технологій. - 2018. - Vol. 4, No 2 (94). – P. 16-28uk_UA
dc.subjectТехніка. Технічні науки. Machinery. Engineering. Техника. Технические наукиuk_UA
dc.subjectНаукові публікації. Scientific publications. Научные публикацииuk_UA
dc.subjectpublikatsii u Scopusuk_UA
dc.subjectHadoopuk_UA
dc.subjectMapReduceuk_UA
dc.subjectHDFSuk_UA
dc.subjectPolyBase SQL Serveruk_UA
dc.subjectT-SQLuk_UA
dc.subjectрозподілені обчисленняuk_UA
dc.subjectgrid computinguk_UA
dc.subjectраспределенные вычисленияuk_UA
dc.titleEnhancing the performance of distributed big data processing systems using Hadoop and Polybaseuk_UA
dc.title.alternativeПідвищення продуктивності розподілених систем обробки великих даних з Hadoop та Polybaseuk_UA
dc.title.alternativeПовышение производительности распределенных систем обработки больших данных с Hadoop и Polybaseuk_UA
dc.typeArticleuk_UA

Файли

Контейнер файлів

Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Enhancing the performance of distributed big data_ Minukhin_Fedko_Gnusov_2018.pdf
Розмір:
1.75 MB
Формат:
Adobe Portable Document Format
Опис:
Stattia

Ліцензійна угода

Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
license.txt
Розмір:
1.71 KB
Формат:
Item-specific license agreed upon to submission
Опис: