Cloudera Hadoop: Първи стъпки с разпространението на CDH



Този блог на Edureka в урока на Cloudera Hadoop ще ви даде пълна представа за различни компоненти на Cloudera като Cloudera Manager, Parcels, Hue и т.н.

С нарастващото търсене на големи данни и Apache Hadoop евсърцето на революцията, тя промени начина, по който организираме и изчисляваме данните. Необходимостта организациите да приведат Hadoop в съответствие с техните бизнес нужди подхрани появата на търговските дистрибуции. Търговските дистрибуции на Hadoop обикновено са снабдени с функции, предназначени да рационализират внедряването на Hadoop. Cloudera Hadoop Distribution предоставя мащабируема, гъвкава, интегрирана платформа, която улеснява управлението на бързо увеличаващи се обеми и разновидности на данни във вашето предприятие.

В този блог за Cloudera Hadoop Distribution ще разглеждаме следните теми:





Cloudera Hadoop: Въведение в Hadoop

Hadoop е рамка на Apache с отворен код, която съхранява и обработва големи данни в разпределена средапрезклъстер, използвайки прости модели за програмиране. Hadoop осигурява паралелно изчисление върху разпределеното хранилище.За да научите повече за Hadoop подробно от можете да се позовете на това

След това кратко въведение в Hadoop, нека сега да обясня различните видове Hadoop Distribution.



Cloudera Hadoop: Разпределения на Hadoop

Тъй като Apache Hadoop е с отворен код, много компании са разработили дистрибуции, които надхвърлят оригиналния код с отворен код. Това е много подобно на дистрибуции на Linux като RedHat, Fedora и Ubuntu. Всяка от дистрибуциите на Linux поддържа свои собствени функционалности и функции като удобен за потребителя GUI в Ubuntu. По същия начин, червена шапка е популярен сред предприятията, защото предлага поддръжка и също така предоставя идеология за извършване на промени във всяка част от системата по желание. Red Hat ви освобождава от проблеми със софтуерната съвместимост. Това обикновено е голям проблем за потребителитекоито преминават от Windows.

По същия начин има 3 основни типа дистрибуции на Hadoop, които имат свой собствен набор от функционалности и функции и са изградени под базовия HDFS.

Cloudera срещу MapR срещу Hortonworks

Фиг: MapR срещу Hortonworks срещу Cloudera

Фиг: MapR срещу Hortonworks срещу Cloudera



Cloudera Hadoop Разпределение

Cloudera е пазарната тенденция в пространството на Hadoop и е първата, която пуска търговска дистрибуция на Hadoop. Той предлага консултантски услуги за преодоляване на пропастта между „какво предлага Apache Hadoop“ и „това, от което се нуждаят организациите“.

Cloudera Distribution е:

  • Бързо за бизнес : От аналитика до наука за данни и всичко между тях, Cloudera предоставя нужното представяне, за да отключите потенциала на неограничените данни.
  • Улеснява управлението на Hadoop : С Cloudera Manager автоматизираните помощници ви позволяват бързо да разгърнете вашия клъстер, независимо от мащаба или средата за внедряване.
  • Защитено без компромиси: Отговаря на строгите нужди за сигурност на данните и съответствие, без да се жертва гъвкавостта на бизнеса. Cloudera предоставя интегриран подход към сигурността и управлението на данните.

Хортън-Уъркс Разпределение

Платформата за данни на Horton-Works (HDP) е изцяло платформа с отворен код, предназначена за маневриране на данни от много източници и формати. Платформата включва различни инструменти на Hadoop като Hadoop Distributed File System (HDFS), MapReduce, Zookeeper, HBase, Pig, Hive и допълнителни компоненти.

Той също така поддържа функции като:

  • HDP прави Hive по-бързо чрез новия си проект на Stinger.
  • HDP избягва заключване на доставчик чрез обещание за раздвоена версия на Hadoop.
  • HDP е фокусиран върху подобряването на използваемост на платформата Hadoop.

Разпределение на MapR

MapR е фокусиран върху платформата доставчик на решения за Hadoop, точно като HortonWorks и Cloudera. MapR интегрира собствена система от бази данни, известна като MapR-DB, като същевременно предлага услуги за разпространение на Hadoop. Твърди се, че MapR-DB е четири до седем пъти по-бърз от основната база данни на Hadoop, т.е. HBase, която се изпълнява в други дистрибуции.

Той има своите интригуващи функции като:

  • Това е единствената дистрибуция на Hadoop, която включва Pig, Hive и Sqoop без никакви Java зависимости - тъй като разчита на MapR-файлова система.
  • MapR е най-готовата за производство дистрибуция на Hadoop с много подобрения, които я правят по-лесна за ползване, по-бърза и надеждна.

Сега нека обсъдим задълбочено разпространението на Cloudera Hadoop.

Абонирайте се за нашия канал в YouTube, за да получавате нови актуализации ...

Cloudera Hadoop: Разпространение на Cloudera

Cloudera е най-известният играч в пространството на Hadoop, който пуска първата комерсиална дистрибуция на Hadoop.

Фиг: Cloudera Hadoop Distribution

Cloudera Hadoop Distribution поддържа следния набор от функции:

  1. CDH на Cloudera включва всички компоненти с отворен код, насочен е към внедряване на корпоративен клас и е една от най-популярните търговски дистрибуции на Hadoop.
  2. Известен със своите иновации, Cloudera беше първият, който предложи SQL-за-Hadoop с неговите Импала двигател за заявки.
  3. Конзолата за управление - Cloudera Manager , е лесен за използване и внедряване с богатия потребителски интерфейс, показващ цялата информация за клъстера по организиран и изчистен начин.
  4. В CDH можете да добавяте услуги към работещия клъстер без прекъсване.
  5. Други допълнения на Cloudera включват сигурност, потребителски интерфейс и интерфейси за интеграция с приложения на трети страни.
  6. CDH осигурява Шаблони за възли т.е. позволява създаването на група възли в клъстер Hadoop с различна конфигурация. Той изкоренява използването на една и съща конфигурация в целия клъстер Hadoop.
  7. Той също така поддържа:
    • Надеждност
      Доставчиците на Hadoop незабавно действат в отговор, когато се открие грешка. С намерението да направят търговските решения по-стабилни, корекциите и корекциите се внедряват незабавно.
    • поддържа
      Доставчиците на Cloudera Hadoop предоставят технически насоки и помощ, които улесняват клиентите да приемат Hadoop за задачи на ниво предприятие и критични приложения.

    • Пълнота
      Доставчиците на Hadoop свързват своите дистрибуции с различни други допълнителни инструменти, които помагат на клиентите да персонализират приложението Hadoop, за да отговорят на техните специфични задачи.

Дистрибуциите на Cloudera предлагат 2 различни вида издания.

  1. Cloudera Express Edition
  2. Cloudera Enterprise Edition

Сега нека разгледаме разликите между тях.

Характеристика Cloudera-Express Cloudera-Enterprise
Управление на клъстери
1. Мулти-клъстерно управлениеДаДа
2. Управление на ресурситеДаДа
Разгръщане
1. Поддръжка за CDH 4 и 5ДаДа
2. Постоянно надграждане на CDHНеДа
Управление на услуги и конфигурация
1. Управлявайте услугите HDFS, MapReduce, YARN, Impala, HBase, Hive, Hue, Oozie, Zookeeper, Solr, Spark и AccumuloДаДа
2. Текущо рестартиране на услугиНеДа
Сигурност
1. LDAP удостоверяванеНеДа
2. Удостоверяване на SAMLНеДа
Мониторинг и диагностика
1. Здравна историяДаДа
Управление на предупрежденията
1. Сигнал по имейлДаДа
2. Сигнал чрез SNMPНеДа
Разширени функции за управление
1. Автоматизирано архивиране и възстановяванеНеДа
2. Разглеждане и търсене на файловеНеДа
3. MapReduce, Impala, HBase, отчети за използване на преждаНеДа

Cloudera Hadoop: мениджър на Cloudera

Според Cloudera, Cloudera Manager е най-добрият начин да се Инсталирай , конфигуриране , управлявам , и монитор стека на Hadoop.

Осигурява:

  1. Автоматично внедряване и конфигуриране
  2. Персонализирано наблюдение и докладване
  3. Лесно и стабилно отстраняване на неизправности
  4. Нула - поддръжка на престой

Получете задълбочени познания за Cloudera Hadoop и различните му инструменти

Демонстрация на Cloudera Manager

Нека да изследваме Cloudera Manager.

1. По-долу фигурата показва броя на услугите, които в момента се изпълняват в Cloudera Manager. Можете също да видите графиките за използването на процесора на клъстера, използването на дисковия IO и др.

Фиг: Начална страница на Cloudera Manager

2. Под изображението се вижда клъстерът HBase. Той ви дава диаграми и графики за здравословното състояние на работещия в момента HBase REST сървър.

Фигура: Здравни условия на HBase сървъра

3. Сега, нека да разгледаме раздела „Екземпляри“ на клъстера HBase, където можете да проверите състоянието и IP конфигурацията.

Фигура: Състояние и IP адрес на сървъра хост на клъстера HBase

4. След това имате раздел Конфигурация. Тук можете да видите всички конфигурационни параметри и да промените техните стойности.

Фигура: Конфигурация на HBase клъстера

алгоритъм за сортиране на сливане c ++

Сега нека разберем какво представляват парцелите в Cloudera.

Cloudera Hadoop: Пакети

Колетата е двоичен формат за разпространение, съдържащ програмните файлове, заедно с допълнителни метаданни, използвани от Cloudera Manager.

Пакетите са самостоятелни и се инсталират във версионна директория, което означава, че множество версии на дадена услуга могат да бъдат инсталирани една до друга.

По-долу са предимствата от използването на Parcel:

  • Той осигурява разпространение на CDH като единичен обект, т.е. вместо да имат отделен пакет за всяка част от CDH, колетите просто имат един обект за инсталиране.

  • Той предлага вътрешна последователност (тъй като пълният CDH се разпространява като един пакет, всички компоненти на CDH са съпоставени и няма да има риск различни части да идват от различни версии на CDH).

  • Можете да инсталирате, надграждате, понижавате, разпространявате и активирате колетите в CDH с няколко кликвания.

Сега да видим как да инсталираме и активираме услугата Kafka в CDH с помощта на парцели.

  1. Отидете на началната страница на мениджъра на Cloudera >> Хостове >> Пакети, както е показано по-долу

    Фиг: Избор на колети от домакините

2. Ако не виждате Kafka в списъка с колети, можете да добавите колета към списъка.

  1. Намерете пратката с версията на Kafka, която искате да използвате. Ако не го виждате, можете да добавите хранилището на колети към списъка.
  2. Намерете пратката за версията на Kafka, която искате да инсталирате - Cloudera Разпространение на версиите на Apache Kafka .
    По-долу фигурата показва същото.

Фиг: Път на хранилището за колета.

3. Копирайте връзката, както е показано на фигурата по-горе, и я добавете към хранилището за отдалечени парцели, както е показано по-долу.

Фиг .: Добавяне на пътя на Kafka от хранилището

Четири.След добавяне на пътя, Kafka ще бъде готов за изтегляне. Можете просто да кликнете върху бутона за изтегляне и да изтеглите Kafka.

Фиг: Изтегляне на Kafka

5. След като Kafka бъде изтеглен, всичко, което трябва да направите, е да го разпространите и активирате.

Фиг: Активиране на Kafka

След като бъде активиран, можете да продължите и да видите Kafka в раздела за услуги в мениджъра на Cloudera.

Фиг: Услуга Kafka

Cloudera Hadoop: Създаване на работен процес на Oozie

Създаването на работен поток чрез ръчно писане на XML код и след това неговото изпълнение е сложно. Можете да се обърнете към това Планиране на заданието за Oozie блог, за да знаете за традиционния подход.

Можете да видите изображението по-долу, където сме написали XML файл, за да създадем прост работен процес на Oozie. Фиг.: Създаване на работен процес на Oozie с помощта на традиционен подход

Както можете да видите дори за да създадем прост планировчик на Oozie, трябваше да напишем огромен XML код, който отнема много време и отстраняването на грешки във всеки ред става тромаво. За да преодолее това, Cloudera Manager представи нова функция, наречена Hue който предоставя GUI и лесни функции за плъзгане и пускане за създаване и изпълнение на работни потоци на Oozie.

Сега нека видим как Hue изпълнява същата задача по опростен начин.

Преди да създадем работен поток, нека първо създадем входни файлове, т.е. clickstream.txt и user.txt.
Във файла user.txt имаме потребителски идентификатор, име, възраст, държава, пол, както е показано по-долу. Нуждаем се от този потребителски файл, за да знаем, че потребителят брои и кликва върху URL адреса (споменат във файла на потока кликвания) въз основа на потребителския идентификатор.

Фиг: Създаване на текстов файл

За да знаем броя кликвания от потребителя на всеки URL, имаме клик поток, съдържащ потребителския идентификатор и URL адреса.

Фиг.: Файл на клик

Нека напишем заявките във файла на скрипта.

Фиг: Скриптов файл

След създаването на потребителския файл, файла с клик поток и файла на скрипта, можем да продължим и да създадем работния процес на Oozie.

1. Можете просто да плъзнете и пуснете работния процес на Oozie, както е показано на изображението.

Фиг: Характеристика на плъзгане и пускане при създаване на работния процес на Oozie

2. Скоро след отпадане на вашето действие трябва да посочите пътищата към файла на скрипта и да добавите параметрите, споменати във файла на скрипта. Тук трябва да добавите параметри OUTPUT, CLICKSTREAM и USER и да посочите пътя към всеки от параметрите.

Фиг.: Добавяне на скриптов файл и необходимите параметри за изпълнение на действието

3. След като сте посочили пътищата и сте добавили параметрите, сега просто запазете и изпратете работния поток, както е показано на изображението по-долу.

Фиг: Запазване и изпращане на действието Oozie

4. След като изпратите задачата, вашата работа е завършена. Изпълнението и останалите стъпки се полагат от Hue.

Фиг: Състояние на изпълнение на заданието Oozie

5.След като изпълнихме заданието Oozie, нека да разгледаме раздела за действие. Той съдържа потребителския идентификатор и състоянието на работния процес. Той също така показва кодове за грешки, ако има такива, времето за начало и край на елемента за действие.

Фигура: Елементи, присъстващи в раздела за действие на работния процес на Oozie

6. До раздела за действие се намира раздела с подробности. В това можем да видим началния час и последния променен час на заданието.

Фигура: Подробности за работния процес на Oozie.

7. До раздела Детайли имаме раздела Конфигурация на работния процес.

Фиг.: Конфигурационни настройки на работния процес на Oozie

7. Докато изпълнявате елемента за действие, ако има някакви грешки, той ще бъде изброен в раздела Log. Можете да се обърнете към изявленията за грешки и да ги отстраните съответно.

Фиг: Регистрационен файл, който съдържа кодове за грешки и изявления за грешки

8. Ето XML кода на работния процес, който се генерира автоматично от Hue.

Фигура: XML код на работния процес на Oozie

9.1. Тъй като вече сте посочили пътя за изходната директория в стъпка 2, тук имате изходната директория в браузъра HDFS, както е показано по-долу.

какво е формат в python

Фиг .: Изходна директория на браузъра HDFS

9.2 След като щракнете върху изходната директория, ще намерите текстов файл, наречен output.txt и този текстов файл съдържа действителния изход, както е показано на фигурата по-долу.

Фигура: Окончателен изходен текст

Ето как Hue улеснява работата ни, като предоставя опции за плъзгане и пускане, за да създаде работен поток на Oozie.

Надявам се този блог да е бил полезен за разбирането на разпространението на Cloudera и различните компоненти на Cloudera.

Искате ли да участвате в революцията на големите данни?

След като разбрахте Cloudera Hadoop Distribution, разгледайте от Edureka, доверена компания за онлайн обучение с мрежа от над 250 000 доволни учащи, разпространени по целия свят. Курсът за обучение по сертифициране на големи данни Hadoop на Edureka помага на обучаващите се да станат експерти в HDFS, прежди, MapReduce, Pig, Hive, HBase, Oozie, Flume и Sqoop, като използват случаи в реално време за търговия на дребно, социални медии, авиация, туризъм, финанси.

Имате въпрос към нас? Моля, споменете го в раздела за коментари и ние ще се свържем с вас.