Инсталиране на Hadoop: Настройване на единичен възел Hadoop клъстер



Този урок е ръководство стъпка по стъпка за инсталиране на клъстер Hadoop и конфигуриране на един възел. Всички стъпки за инсталиране на Hadoop са за машина CentOS.

Инсталиране на Hadoop: Настройване на единичен възел Hadoop клъстер

От предишните ни блогове на , трябва да имате теоретична представа за Hadoop, HDFS и неговата архитектура.Но да се получи имате нужда от добри практически знания.Надявам се да сте харесали нашия предишен блог на , сега ще ви преведа през практическите знания за Hadoop и HDFS. Първата стъпка напред е да инсталирате Hadoop.

Има два начина за инсталиране на Hadoop, т.е. Единичен възел и Мулти възел .





Клъстер с единичен възел означава само един DataNode, който работи и настройва всички NameNode, DataNode, ResourceManager и NodeManager на една машина. Това се използва за изучаване и тестване. Например, нека разгледаме примерен набор от данни в здравната индустрия. Така че, за да тестваме дали заданията на Oozie са насрочили всички процеси като събиране, агрегиране, съхраняване и обработка на данните в правилна последователност, ние използваме клъстер от един възел. Той може лесно и ефективно да тества последователния работен поток в по-малка среда в сравнение с голяма среда, която съдържа терабайта данни, разпределени в стотици машини.

Докато в a Клъстер с множество възли , работят повече от един DataNode и всеки DataNode работи на различни машини. Клъстерът с множество възли се използва практически в организации за анализ на големи данни. Имайки предвид горния пример, в реално време, когато се занимаваме с петабайтове данни, те трябва да бъдат разпределени между стотици машини, които да бъдат обработени. По този начин тук използваме клъстер с множество възли.



В този блог ще ви покажа как да инсталирате Hadoop на един клъстер на възел.

Предпоставки

  • ВИРТУАЛНА КУТИЯ : използва се за инсталиране на операционната система върху него.
  • ОПЕРАЦИОННА СИСТЕМА : Можете да инсталирате Hadoop на операционни системи, базирани на Linux. Ubuntu и CentOS са много често използвани. В този урок използваме CentOS.
  • ЯВА : Трябва да инсталирате пакета Java 8 на вашата система.
  • ХАДООП : Необходим ви е пакет Hadoop 2.7.3.

Инсталирайте Hadoop

Етап 1: Натисни тук за да изтеглите пакета Java 8. Запазете този файл в домашната си директория.

Стъпка 2: Извлечете Java Tar файла.

Команда : tar -xvf jdk-8u101-linux-i586.tar.gz

Смажете Java - Инсталирайте Hadoop - Edureka



Фиг: Инсталиране на Hadoop - Извличане на Java файлове

Стъпка 3: Изтеглете пакета Hadoop 2.7.3.

Команда : wget https://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/hadoop-2.7.3.tar.gz

Фиг: Инсталиране на Hadoop - Изтегляне на Hadoop

Стъпка 4: Извлечете файла Hadoop tar.

Команда : tar -xvf hadoop-2.7.3.tar.gz

Фиг: Инсталиране на Hadoop - Извличане на файлове Hadoop

Стъпка 5: Добавете пътеките Hadoop и Java във файла bash (.bashrc).

Отворете . bashrc файл. Сега добавете Hadoop и Java Path, както е показано по-долу.

Команда : vi .bashrc

Фиг: Инсталиране на Hadoop - Задаване на променлива среда

След това запазете bash файла и го затворете.

За да приложите всички тези промени към текущия терминал, изпълнете командата източник.

Команда : източник .bashrc

Фиг .: Инсталиране на Hadoop - Опресняване на променливите на средата

За да сте сигурни, че Java и Hadoop са правилно инсталирани във вашата система и могат да бъдат достъпни през терминала, execute командите за версия на java -version и hadoop.

Команда : java-версия

Фиг: Инсталиране на Hadoop - Проверка на версията на Java

Команда : хадоопверсия

Фиг .: Инсталиране на Hadoop - Проверка на версията на Hadoop

Стъпка 6 : Редактирайте .

Команда: cd hadoop-2.7.3 / etc / hadoop /

java преобразуване двойно в int

Команда: ls

Всички конфигурационни файлове на Hadoop се намират в hadoop-2.7.3 / etc / hadoop директория, както можете да видите на снимката по-долу:

Фиг .: Инсталиране на Hadoop - Файлове за конфигуриране на Hadoop

Стъпка 7 : Отворете core-site.xml и редактирайте посоченото по-долу свойство в конфигурационния маркер:

core-site.xml информира демона Hadoop, когато NameNode работи в клъстера. Той съдържа конфигурационни настройки на ядрото на Hadoop, като например настройки за I / O, които са общи за HDFS и MapReduce.

Команда : vi core-site.xml

Фигура: Инсталиране на Hadoop - Конфигуриране на core-site.xml

fs.default.name hdfs: // localhost: 9000

Стъпка 8: редактиране hdfs-site.xml и редактирайте посоченото по-долу свойство в конфигурационния маркер:

hdfs-site.xml съдържа конфигурационни настройки на HDFS демони (т.е. NameNode, DataNode, Secondary NameNode). Той също така включва фактор на репликация и размер на блока на HDFS.

Команда : vi hdfs-site.xml

Фиг .: Инсталиране на Hadoop - Конфигуриране на hdfs-site.xml

dfs.replication 1 dfs.permission false

Стъпка 9 : Редактирайте mapred-site.xml файл и редактирайте посоченото по-долу свойство в конфигурационния маркер:

mapred-site.xml съдържа конфигурационни настройки на приложението MapReduce като брой JVM, които могат да работят паралелно, размера на картографиращия и редукторния процес, CPU ядра, налични за процес и т.н.

В някои случаи файлът mapred-site.xml не е наличен. И така, трябва да създадем файла mapred-site.xmlс помощта на шаблон mapred-site.xml.

Команда : cp mapred-site.xml.template mapred-site.xml

Команда : ние картографиран-сайт.xml.

Фиг: Инсталиране на Hadoop - Конфигуриране на mapred-site.xml

mapreduce.framework.name прежда

Стъпка 10: редактиране yarn-site.xml и редактирайте посоченото по-долу свойство в конфигурационния маркер:

yarn-site.xml съдържа конфигурационни настройки на ResourceManager и NodeManager като размер на управление на паметта на приложението, операцията, необходима за програма и алгоритъм и др.

Команда : vi yarn-site.xml

Фиг: Инсталиране на Hadoop - Конфигуриране на yarn-site.xml

yarn.nodemanager.aux-услуги mapreduce_shuffle yarn.nodemanager.auxservices.mapreduce.shuffle.class org.apache.hadoop.mapred.ShuffleHandler

Стъпка 11: редактиране hadoop-env.sh и добавете Java Path, както е споменато по-долу:

hadoop-env.sh съдържа променливи на средата, които се използват в скрипта за стартиране на Hadoop като домашен път на Java и т.н.

Команда : ние хадооп-env.ш

Фиг: Инсталиране на Hadoop - Конфигуриране на hadoop-env.sh

Стъпка 12: Отидете в началната директория на Hadoop и форматирайте NameNode.

Команда : CD

Команда : cd хадооп-2.7.3

Команда : bin / hadoop цел -формат

какво е сериализиране в java

Фиг .: Инсталиране на Hadoop - Форматиране на NameNode

Това форматира HDFS чрез NameNode. Тази команда се изпълнява само за първи път. Форматирането на файловата система означава инициализиране на директорията, посочена от променливата dfs.name.dir.

Никога не форматирайте, пускайте и изпълнявайте файловата система Hadoop. Ще загубите всичките си данни, съхранявани в HDFS.

Стъпка 13: След като NameNode е форматиран, отидете в директорията hadoop-2.7.3 / sbin и стартирайте всички демони.

Команда: cd хадооп-2.7.3 / sbin

Или можете да стартирате всички демони с една команда или да го направите поотделно.

Команда: ./ start-all.sh

Горната команда е комбинация от start-dfs.sh, start-yarn.sh & mr-jobhistory-daemon.sh

Или можете да стартирате всички услуги поотделно, както е показано по-долу:

Start NameNode:

NameNode е в центъра на файловата система HDFS. Той поддържа дървото на директориите на всички файлове, съхранени в HDFS, и проследява целия файл, съхранен в целия клъстер.

Команда: ./hadoop-daemon.sh начална цел

Фиг .: Инсталиране на Hadoop - Стартиране на NameNode

Стартирайте DataNode:

При стартиране DataNode се свързва с Namenode и той отговаря на заявките от Namenode за различни операции.

Команда: ./hadoop-daemon.sh стартира възел с данни

Фиг .: Инсталиране на Hadoop - Стартиране на DataNode

Стартирайте ResourceManager:

ResourceManager е капитанът, който арбитрира всички налични клъстерни ресурси и по този начин помага при управлението на разпределените приложения, работещи в системата YARN. Работата му е да управлява всеки NodeManagers и ApplicationMaster на всяко приложение.

Команда: ./прежда-daemon.sh стартиране на ресурс мениджър

Фиг: Инсталиране на Hadoop - Стартиране на ResourceManager

Стартирайте NodeManager:

NodeManager във всяка машинна рамка е агентът, който е отговорен за управлението на контейнери, наблюдението на тяхното използване на ресурси и докладването на същото на ResourceManager.

Команда: ./прежда-daemon.sh стартиране на nodemanager

Фиг .: Инсталиране на Hadoop - Стартиране на NodeManager

Стартирайте JobHistoryServer:

JobHistoryServer е отговорен за обслужването на всички заявки, свързани с хронологията на работата от клиента.

Команда : ./mr-jobhistory-daemon.sh стартиране на сървър за история

Стъпка 14: За да проверите дали всички услуги на Hadoop работят и работят, изпълнете командата по-долу.

Команда: jps

Фиг: Инсталиране на Hadoop - Проверка на демони

Стъпка 15: Сега отворете браузъра Mozilla и отидете на localhost : 50070 / dfshealth.html за да проверите интерфейса NameNode.

Фиг: Инсталиране на Hadoop - Стартиране на WebUI

Поздравления, успешно инсталирахте един възел Hadoop клъстер с едно движение.В следващия ни блог на , ние ще разгледаме как да инсталираме Hadoop и на клъстер с множество възли.

След като разбрахте как да инсталирате Hadoop, разгледайте от Edureka, доверена компания за онлайн обучение с мрежа от над 250 000 доволни учащи, разпространени по целия свят. Курсът за обучение по сертифициране на големи данни Hadoop на Edureka помага на обучаемите да станат експерти в HDFS, прежди, MapReduce, Pig, Hive, HBase, Oozie, Flume и Sqoop, като използват случаи в реално време за търговия на дребно, социални медии, авиация, туризъм, финанси.

Имате въпрос към нас? Моля, споменете го в раздела за коментари и ние ще се свържем с вас.