Как да създам клъстер Hadoop с Amazon EMR?



В тази статия ще проучим услугата AWS EMR и в процеса ще научим как да създадем клъстер Hadoop с Amazon EMR?

В тази статия за Как да създадете Клъстер С Amazon EMR ще видим как лесно да стартираме и мащабираме приложенията на Hadoop и Big Data. Следните указания ще бъдат обхванати в тази статия,

Продължаване с това Как да създам клъстер Hadoop с Amazon EMR?





Как да създам клъстер Hadoop с Amazon EMR?

Когато търсим нещо в Google или Yahoo, получаваме отговора за част от секундата. Как е възможно Google, Yahoo и други търсачки да връщат резултатите толкова бързо от непрекъснато нарастващата мрежа? Търсачките обхождат интернет, изтеглят уеб страниците и създават индекс, както е показано по-долу. За всяка наша заявка те използват индекса, за да разберат кои са всички уеб страници, съдържащи текста, който търсихме. Като разгледаме долния индекс от дясната страна, можем ясно да разберем, че Hadoop има уеб страница 1, 2 и 3.

Изображение - Как да създам клъстер Hadoop с Amazon EMR - EdurekaТогава Алгоритъм на PageRanking се използва, което се основава на начина на свързване на страниците, за да се разбере коя страница да се покаже отгоре и коя отдолу. В сценария по-долу W1 е „най-популярен“, защото всички се свързват с него, а W4 е „най-малко популярен“, тъй като никой не го свързва. И така, W1 е показана отгоре, а W4 отдолу в резултатите от търсенето.



С експлозията на уеб страниците тези търсачки намираха предизвикателства, за да създадат индекс и да изчисляват PageRanking изчисленията. Тук се ражда Hadoop в Yahoo и по-късно става FOSS (безплатен софтуер и софтуер с отворен код) при ASF (Apache Software Foundation). Веднъж в рамките на ASF, много компании започнаха да се интересуват от Hadoop и започнаха да допринасят за подобряването му. Hadoop беше този, който започна революцията на големите данни, но много други софтуери като Spark, Hive, Pig, Sqoop, Zookeeper, HBase, Cassandra, Flume започнаха да се развиват, за да отговорят на ограниченията и пропуските в Hadoop.

Уеб търсачките бяха първите, които използваха Hadoop, но по-късно много случаи на употреба започнаха да се развиват с генерирането на все повече и повече данни. Да вземем примера на приложение за електронна търговия, използвано за препоръчване на книги на потребителя. Съгласно диаграмата по-долу, потребител1 купи книга1, книга2 и книга3, потребител2 купи няколко книги и т.н. Като се вгледаме внимателно, можем да забележим, че потребител1 и потребител2 имат сходен вкус, както са закупили book1 и book2. И така, book3 може да се препоръча на user2 и book4 може да се препоръча на user1. Това се нарича съвместно филтриране, вид алгоритъм за машинно обучение. Можем да обърнем диаграмата по-долу и да получим подобни книги.

как да използвам итератор

В горния случай създадохме индекс, PageRanked и препоръчан на потребителя, размерът на данните беше малък и така успяхме да визуализираме данните и да изведем някои резултати от тях. Тъй като размерът на данните се увеличава всеки ден и излиза извън контрол, тук се появяват инструментите за големи данни като Hadoop.



Hadoop решава много проблеми, но инсталирането на Hadoop и друг софтуер за големи данни никога не е било лесна задача. Има много конфигурационни параметри, които трябва да промените, като интеграция, инсталиране и проблеми с конфигурацията, с които да работите. Тук компании като Cloudera, и Databricks помагат. Те улесняват инсталирането на софтуера Big Data и предоставят търговска поддръжка, например да кажем, че нещо се случва в производството. Amazon EMR (Elastic MapReduce) улеснява използването на Hadoop и т.н. много по-лесно. Името Elastic MapReduce е малко погрешно, тъй като EMR поддържа и други модели на разпределени изчисления като Resilient Distributed Datasets, а не само MapReduce.

В този урок ще проучим как да настроим EMR клъстер на AWS Cloud и в предстоящия урок ще разгледаме как да стартираме Spark, Hive и други програми върху него.

Продължаване с това Как да създам клъстер Hadoop с Amazon EMR?

Демонстрация: Създаване на EMR клъстер в AWS

Етап 1: Отидете до конзолата за управление на EMR и кликнете върху „Създаване на клъстер“. В конзолата метаданните за прекратен клъстер също се запазва за два месеца безплатно. Това позволява клонираният клъстер да бъде клониран и създаден отново.

Стъпка 2 : От екрана за бързи опции кликнете върху „Отидете на разширени опции“, за да посочите много повече подробности за клъстера.

Стъпка 3: В раздела Разширени опции можем да изберем различен софтуер, който да се инсталира на EMR клъстера. За SQL интерфейс може да бъде избран Hive. За интерфейс на езика на потока от данни може да бъде избран Pig. За разпределена координация на приложения може да се избере ZooKeeper и т.н. Този раздел също ни позволява да добавяме стъпки, което е незадължителна задача. Стъпките са задачи за обработка на големи данни, използващи MapReduce, Pig, Hive и др. Те могат да бъдат добавени в този раздел или по-късно, след като клъстерът е създаден. Щракнете върху „Напред“, за да изберете хардуера, необходим за EMR клъстера.

Стъпка 4: Hadoop следва архитектурата майстор-работник, където капитанът извършва цялата координация като планиране и възлагане на работата и проверка на техния напредък, докато работниците извършват действителната работа по обработка и съхраняване на данните. Единичният мастер е Single-Point-Of-Failure (SPOF). Amazon EMR поддържа мулти-мастер за висока наличност (HA). Предишната стъпка позволява да настроите мулти-главен клъстер в EMR.

EMR позволява два типа възли, Core и Task. Основният възел се използва както за обработка, така и за съхраняване на данните, възелът на задачата се използва само за обработка на данните. За този урок можем да изберем само едно ядро ​​и без възли на Task, тъй като това включва по-малко разходи за нас. Също така изберете Точкови екземпляри над При поискване тъй като инстанциите Spot са по-евтини. Уловът на инстанциите Spot е, че те могат да бъдат прекратени от AWS автоматично с a две минути предизвестие . Това е добре заради практиката и в някои реални сценарии също. Точковите екземпляри се прекратяват автоматично, тъй като имат нисък приоритет пред другите типове екземпляри. Щракнете върху „Напред“.

Стъпка 5: Посочете името на клъстера. и кликнете върху „Напред“. Забележете, че „Защита от прекратяване“ е включена по подразбиране, това гарантира, че EMR клъстерът не се изтрива случайно, като въведете няколко стъпки, докато прекратявате клъстера.

Стъпка 6: В раздела са посочени различните опции за защита за EMR клъстера. KeyPair трябва да бъде избран за влизане в екземпляра EC2. EMR автоматично ще създаде подходящите роли и групи за сигурност и ще ги прикачи към главния и работния EC2 възли. Кликнете върху „Създаване на клъстер“.

Създаването на клъстера отнема няколко минути, тъй като екземплярите на EC2 трябва да бъдат изкупени и различните софтуери за големи данни трябва да бъдат инсталирани и конфигурирани. Първоначално състоянието на клъстера ще бъде в състояние „Стартиране“ и преминаване в състояние „Изчакване“. В състояние „Изчакване“ клъстерът EMR просто чака да изпратим различни задачи за обработка на големи данни като MR, Spark, Hive и т.н.

Също така, забележете от конзолата за управление на EC2 и отбележете, че главният и работният екземпляри на EC2 трябва да са в работещо състояние. Това са екземплярите Spot, които са създадени като част от създаването на EMR клъстер. Същият EC2 може да се наблюдава и от раздела Хардуер в конзолата за управление на EMR. Имайте предвид, че в раздела Хардуер цената за екземплярите Spot EC2 е посочена като 0,032 $ / час. Цената на екземплярите Spot продължава да се променя с времето и е много по-ниска от цената на EC2 при поискване.

инсталиране на php на Windows 10

Стъпка 7: След като EMR клъстерът е добавен успешно, могат да се добавят стъпки или задачи за обработка на големи данни. Отидете в раздела Стъпки и щракнете върху „Добавяне на стъпка“ и изберете вида на Стъпка (MR, Hive, Spark и т.н.). Ще проучим същото в предстоящия урок. Засега кликнете върху Отказ.

Стъпка 8: След като видяхме как да стартираме EMR, нека видим как да спрем същото.

Стъпка 8.1: Кликнете върху Прекратяване.

Стъпка 8.2: Както бе споменато в предишните стъпки, „Защита на прекратяване“ е включена за EMR клъстера и бутонът Прекратяване е деактивиран. Щракнете върху Промяна.

какво е екземпляр в java

Стъпка 8.3: Изберете бутона за изключване „Off“ и щракнете върху отметката. Сега бутонът Прекратяване трябва да бъде активиран. Това е допълнителната стъпка, която EMR въведе, само за да сме сигурни, че няма да изтрием случайно EMR клъстера.

Забележете, че EMR клъстерът ще бъде в състояние на прекратяване и EC2 ще бъде прекратен. И накрая, EMR клъстерът ще бъде преместен в статус Прекратен, оттук нашето таксуване с AWS спира. Уверете се, че сте прекратили клъстера, за да не понесете допълнителни разходи за AWS.

Заключение

В този урок видяхме как да стартираме EMR клъстера в рамките на няколко минути от уеб конзолата (браузъра), същото може да се автоматизира с помощта на , AWS SDK или чрез използване AWS CloudFormation . Както беше забелязано, настройването на EMR клъстер може да бъде направено за броени минути и обработката на големи данни може да започне незабавно, след като обработката приключи, изходът може да се съхрани в S3 или DynamoDB и така изключването на клъстера, за да спре фактурирането. Поради този модел на ценообразуване и лекотата на използване, EMR е голям хит за тези, които извършват обработката на големите данни. Няма нужда да купувате сървър в огромен брой, да получавате лицензи за софтуера за големи данни и да ги поддържате. “

Така че това е момчета, това ни води до края на тази статия за Как да създадем клъстер Hadoop с Amazon EMR?В случай, че ако искате да придобиете опит в тази тема, Edureka е изготвил учебна програма, която покрива точно това, което ще ви трябва, за да пробиете Solution Architect Exam! Можете да разгледате подробностите за курса за обучение.

В случай на някакви запитвания, свързани с този блог, моля не се колебайте да зададете въпрос в раздела за коментари по-долу и ние бихме се радвали да ви отговорим най-рано.