Урок за Hadoop YARN - Научете основите на архитектурата на YARN



Този блог се фокусира върху преждата Apache Hadoop, която е въведена във версия Hadoop 2.0 за управление на ресурси и планиране на задания. Той обяснява архитектурата YARN с нейните компоненти и задълженията, изпълнявани от всеки от тях. Той описва подаването на заявления и работния процес в преждата на Apache Hadoop.

Hadoop YARN плете модула за съхранение на Hadoop, т.е. HDFS (Hadoop Distributed File System) с различните инструменти за обработка. За тези от вас, които са напълно нови в тази тема, YARN означава „ Y. и ДА СЕ Nother R източник н егозатор ”. Също така бих ви предложил да преминете през нашия и преди да продължите с изучаването на Apache Hadoop YARN. Тук ще обясня следните теми, за да се уверя, че в края на този блог разбирането ви за Hadoop YARN е ясно.

Защо ПРЕЖДА?

В Hadoop версия 1.0, която също се нарича MRV1 (MapReduce версия 1), MapReduce изпълнява функции за обработка и управление на ресурси. Той се състоеше от Job Tracker, който беше единственият капитан. Job Tracker разпредели ресурсите, извърши планиране и наблюдава обработките. Той присвоява карта и намалява задачи в редица подчинени процеси, наречени Task Trackers. Проследяващите задачи периодично отчитат своя напредък пред Job Tracker.





MapReduce Версия 1.0 - Hadoop ПРЕЖДА - Edureka

Този дизайн доведе до ограничаване на мащабируемостта поради един-единствен Job Tracker.IBM споменава в статията си, че според Yahoo !, практическите граници на такъв дизайн са достигнати с клъстер от 5000 възли и 40 000 задачи, изпълнявани едновременно.Освен това ограничение, използването на изчислителни ресурси е неефективно в MRV1. Също така рамката на Hadoop се ограничи само до парадигмата за обработка на MapReduce.



какво означава преходно в java

За да се преодолеят всички тези проблеми, YARN е въведена в Hadoop версия 2.0 през 2012 г. от Yahoo и Hortonworks. Основната идея на YARN е да облекчи MapReduce, като поеме отговорността за управление на ресурсите и планиране на работата. YARN започна да дава на Hadoop възможността да изпълнява задачи, които не са MapReduce в рамките на Hadoop.

Можете също да гледате видеото по-долу, където нашите експерт обсъжда YARN концепции и това е архитектура в детайли.

Урок за прежда Hadoop | Архитектура на прежди Hadoop | Едурека

С въвеждането на ПРЕЖДА, беше напълно революционизиран. Стана много по-гъвкав, ефективен и мащабируем. Когато Yahoo започна да работи с YARN през първото тримесечие на 2013 г., това помогна на компанията да намали размера на своя клъстер Hadoop от 40 000 на 32 000 възла. Но броят на работните места се удвои до 26 милиона на месец.



Въведение в Hadoop ПРЕЖДА

След като ви осветих с необходимостта от прежда, позволете ми да ви запозная с основния компонент на Hadoop v2.0, ПРЕЖДА . YARN позволява различни методи за обработка на данни като обработка на графики, интерактивна обработка, обработка на потоци, както и групова обработка, за да се изпълняват и обработват данни, съхранявани в HDFS. Следователно YARN отваря Hadoop за други видове разпределени приложения извън MapReduce.

YARN даде възможност на потребителите да извършват операции според изискванията, като използват различни инструменти като за обработка в реално време, Кошера за SQL, HBase за NoSQL и други.

Освен Управление на ресурси, YARN извършва и Планиране на задания. YARN изпълнява всички ваши дейности по обработка, като разпределя ресурси и задава графици. Архитектурата на Apache Hadoop YARN се състои от следните основни компоненти:

  1. Мениджър на ресурси : Работи върху главен демон и управлява разпределението на ресурсите в клъстера.
  2. Node Manager: Те работят на подчинените демони и са отговорни за изпълнението на задача на всеки отделен възел за данни.
  3. Капитан на приложението: Управлява жизнения цикъл на заданието на потребителя и нуждите от ресурси на отделни приложения. Той работи заедно с Node Manager и наблюдава изпълнението на задачите.
  4. Контейнер: Пакет от ресурси, включително RAM, CPU, мрежа, HDD и т.н. на един възел.

Компоненти на ПРЕЖДА

Можете да разгледате ПРЕЖДАТА като мозък на вашата екосистема Hadoop. Изображението по-долу представлява архитектурата на преждата.

The първи компонент на YARN Architecture е,

Мениджър на ресурси

  • Това е върховният орган при разпределението на ресурсите .
  • При получаване на заявките за обработка, той съответно предава части от заявки на съответните мениджъри на възли, където се извършва действителната обработка.
  • Той е арбитър на клъстерните ресурси и решава разпределението на наличните ресурси за конкуриращи се приложения.
  • Оптимизира използването на клъстера, като поддържа постоянно използване на всички ресурси срещу различни ограничения като гаранции за капацитет, справедливост и SLA.
  • Той има два основни компонента:а) Планировчикб)Мениджър на приложения

а) Планировчик

  • Планировщикът е отговорен за разпределението на ресурси за различните работещи приложения, при условие че са ограничени капацитети, опашки и т.н.
  • Той се нарича чист планировчик в ResourceManager, което означава, че не извършва никакво наблюдение или проследяване на състоянието на приложенията.
  • Ако има отказ на приложение или хардуерен отказ, Планировщикът не гарантира, че ще рестартира неуспешните задачи.
  • Извършва планиране въз основа на изискванията за ресурси на приложенията.
  • Той има плъгин приставка за политика, която отговаря за разделянето на ресурсите на клъстера между различните приложения. Има два такива приставки: Планировчик на капацитет и Честен планировчик , които в момента се използват като планиращи в ResourceManager.

б) Мениджър на приложения

  • Той отговаря за приемането на заявки за работа.
  • Договаря първия контейнер от Resource Manager за изпълнение на специфичния за приложението Master Master.
  • Управлява стартирането на Application Masters в клъстер и предоставя услуга за рестартиране на контейнера Application Master при отказ.

Очаквайте в втори компонент кое е:

Node Manager

  • Той се грижи за отделни възли в клъстер Hadoop иуправлява потребителски задачи и работен поток на дадения възел.
  • Той се регистрира в Resource Manager и изпраща сърдечни удари със здравословното състояние на възела.
  • Основната му цел е да управлява контейнери за приложения, присвоени му от мениджъра на ресурси.
  • Той поддържа актуалност с Resource Manager.
  • Application Master изисква назначения контейнер от Node Manager, като му изпраща контекст за стартиране на контейнери (CLC), който включва всичко, от което приложението се нуждае, за да стартира. Node Manager създава заявения процес на контейнер и го стартира.
  • Наблюдава използването на ресурси (памет, процесор) на отделни контейнери.
  • Извършва управление на журнали.
  • Той също така убива контейнера, както е указано от Resource Manager.

The трети компонент на Apache Hadoop YARN е,

Капитан на приложението
  • Заявлението е единична работа, подадена в рамката. Всяко такова приложение има уникален магистър на приложения, свързан с него, който е специфична структура.
  • Това е процесът, който координира изпълнението на приложението в клъстера и също така управлява грешки.
  • Неговата задача е да договаря ресурси от Resource Manager и да работи с Node Manager за изпълнение и наблюдение на компонентни задачи.
  • Той е отговорен за договарянето на подходящи контейнери за ресурси от ResourceManager, проследяване на тяхното състояние и наблюдение на напредъка.
  • Веднъж стартиран, той периодично изпраща сърдечни удари на Resource Manager, за да потвърди здравето си и да актуализира записа на своите нужди от ресурси.

The четвърти компонент е:

Контейнер
  • Това е колекция от физически ресурси като RAM, CPU ядра и дискове на един възел.
  • YARN контейнерите се управляват от контекст за стартиране на контейнер, който е жизнения цикъл на контейнера (CLC). Този запис съдържа карта на променливи на околната среда, зависимости, съхранявани в отдалечено достъпно хранилище, маркери за сигурност, полезен товар за услугите на Node Manager и командата, необходима за създаване на процеса.
  • Той дава права на приложението да използва определено количество ресурси (памет, процесор и т.н.) на конкретен хост.

Подаване на заявление в ПРЕЖДА

Обърнете се към изображението и разгледайте стъпките, свързани с подаването на заявления за Hadoop YARN:

1) Изпратете заданието

2)Вземете ИД на приложение

3) Контекст за подаване на заявления

4 а) Стартирайте контейнераСтартиране

б) Стартирайте Master Master

5) Разпределете ресурси

6 а) Контейнер

хвърли двойно към int java

б) Стартиране

7) Изпълнете

Работен поток на приложенията в Hadoop YARN

Обърнете се към даденото изображение и вижте следните стъпки, свързани с работния процес на приложението на Apache Hadoop YARN:

  1. Клиентът подава заявление
  2. Resource Manager разпределя контейнер за стартиране на Application Manager
  3. Application Manager се регистрира в Resource Manager
  4. Application Manager иска контейнери от Resource Manager
  5. Application Manager уведомява Node Manager за стартиране на контейнери
  6. Кодът на приложението се изпълнява в контейнера
  7. Клиентът се свързва с Resource Manager / Application Manager, за да следи състоянието на приложението
  8. Application Manager се отписва с Resource Manager

Сега, след като познавате преждата на Apache Hadoop, разгледайте от Edureka, доверена компания за онлайн обучение с мрежа от над 250 000 доволни учащи, разпространени по целия свят. Курсът за обучение по сертифициране на големи данни Hadoop на Edureka помага на обучаващите се да станат експерти в HDFS, прежди, MapReduce, Pig, Hive, HBase, Oozie, Flume и Sqoop, като използват случаи в реално време за търговия на дребно, социални медии, авиация, туризъм, финанси.

Имате въпрос към нас? Моля, споменете го в раздела за коментари и ние ще се свържем с вас.