Инсталиране на Hadoop: Настройване на единичен възел Hadoop клъстер
От предишните ни блогове на , трябва да имате теоретична представа за Hadoop, HDFS и неговата архитектура.Но да се получи имате нужда от добри практически знания.Надявам се да сте харесали нашия предишен блог на , сега ще ви преведа през практическите знания за Hadoop и HDFS. Първата стъпка напред е да инсталирате Hadoop.
Има два начина за инсталиране на Hadoop, т.е. Единичен възел и Мулти възел .
Клъстер с единичен възел означава само един DataNode, който работи и настройва всички NameNode, DataNode, ResourceManager и NodeManager на една машина. Това се използва за изучаване и тестване. Например, нека разгледаме примерен набор от данни в здравната индустрия. Така че, за да тестваме дали заданията на Oozie са насрочили всички процеси като събиране, агрегиране, съхраняване и обработка на данните в правилна последователност, ние използваме клъстер от един възел. Той може лесно и ефективно да тества последователния работен поток в по-малка среда в сравнение с голяма среда, която съдържа терабайта данни, разпределени в стотици машини.
Докато в a Клъстер с множество възли , работят повече от един DataNode и всеки DataNode работи на различни машини. Клъстерът с множество възли се използва практически в организации за анализ на големи данни. Имайки предвид горния пример, в реално време, когато се занимаваме с петабайтове данни, те трябва да бъдат разпределени между стотици машини, които да бъдат обработени. По този начин тук използваме клъстер с множество възли.
В този блог ще ви покажа как да инсталирате Hadoop на един клъстер на възел.
Предпоставки
- ВИРТУАЛНА КУТИЯ : използва се за инсталиране на операционната система върху него.
- ОПЕРАЦИОННА СИСТЕМА : Можете да инсталирате Hadoop на операционни системи, базирани на Linux. Ubuntu и CentOS са много често използвани. В този урок използваме CentOS.
- ЯВА : Трябва да инсталирате пакета Java 8 на вашата система.
- ХАДООП : Необходим ви е пакет Hadoop 2.7.3.
Инсталирайте Hadoop
Етап 1: Натисни тук за да изтеглите пакета Java 8. Запазете този файл в домашната си директория.
Стъпка 2: Извлечете Java Tar файла.
Команда : tar -xvf jdk-8u101-linux-i586.tar.gz
Фиг: Инсталиране на Hadoop - Извличане на Java файлове
Стъпка 3: Изтеглете пакета Hadoop 2.7.3.
Команда : wget https://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/hadoop-2.7.3.tar.gz
Фиг: Инсталиране на Hadoop - Изтегляне на Hadoop
Стъпка 4: Извлечете файла Hadoop tar.
Команда : tar -xvf hadoop-2.7.3.tar.gz
Фиг: Инсталиране на Hadoop - Извличане на файлове Hadoop
Стъпка 5: Добавете пътеките Hadoop и Java във файла bash (.bashrc).
Отворете . bashrc файл. Сега добавете Hadoop и Java Path, както е показано по-долу.
Команда : vi .bashrc
Фиг: Инсталиране на Hadoop - Задаване на променлива среда
След това запазете bash файла и го затворете.
За да приложите всички тези промени към текущия терминал, изпълнете командата източник.
Команда : източник .bashrc
Фиг .: Инсталиране на Hadoop - Опресняване на променливите на средата
За да сте сигурни, че Java и Hadoop са правилно инсталирани във вашата система и могат да бъдат достъпни през терминала, execute командите за версия на java -version и hadoop.
Команда : java-версия
Фиг: Инсталиране на Hadoop - Проверка на версията на Java
Команда : хадоопверсия
Фиг .: Инсталиране на Hadoop - Проверка на версията на Hadoop
Стъпка 6 : Редактирайте .
Команда: cd hadoop-2.7.3 / etc / hadoop /
java преобразуване двойно в int
Команда: ls
Всички конфигурационни файлове на Hadoop се намират в hadoop-2.7.3 / etc / hadoop директория, както можете да видите на снимката по-долу:
Фиг .: Инсталиране на Hadoop - Файлове за конфигуриране на Hadoop
Стъпка 7 : Отворете core-site.xml и редактирайте посоченото по-долу свойство в конфигурационния маркер:
core-site.xml информира демона Hadoop, когато NameNode работи в клъстера. Той съдържа конфигурационни настройки на ядрото на Hadoop, като например настройки за I / O, които са общи за HDFS и MapReduce.
Команда : vi core-site.xml
Фигура: Инсталиране на Hadoop - Конфигуриране на core-site.xml
fs.default.name hdfs: // localhost: 9000
Стъпка 8: редактиране hdfs-site.xml и редактирайте посоченото по-долу свойство в конфигурационния маркер:
hdfs-site.xml съдържа конфигурационни настройки на HDFS демони (т.е. NameNode, DataNode, Secondary NameNode). Той също така включва фактор на репликация и размер на блока на HDFS.
Команда : vi hdfs-site.xml
Фиг .: Инсталиране на Hadoop - Конфигуриране на hdfs-site.xml
dfs.replication 1 dfs.permission false
Стъпка 9 : Редактирайте mapred-site.xml файл и редактирайте посоченото по-долу свойство в конфигурационния маркер:
mapred-site.xml съдържа конфигурационни настройки на приложението MapReduce като брой JVM, които могат да работят паралелно, размера на картографиращия и редукторния процес, CPU ядра, налични за процес и т.н.
В някои случаи файлът mapred-site.xml не е наличен. И така, трябва да създадем файла mapred-site.xmlс помощта на шаблон mapred-site.xml.
Команда : cp mapred-site.xml.template mapred-site.xml
Команда : ние картографиран-сайт.xml.
Фиг: Инсталиране на Hadoop - Конфигуриране на mapred-site.xml
mapreduce.framework.name прежда
Стъпка 10: редактиране yarn-site.xml и редактирайте посоченото по-долу свойство в конфигурационния маркер:
yarn-site.xml съдържа конфигурационни настройки на ResourceManager и NodeManager като размер на управление на паметта на приложението, операцията, необходима за програма и алгоритъм и др.
Команда : vi yarn-site.xml
Фиг: Инсталиране на Hadoop - Конфигуриране на yarn-site.xml
yarn.nodemanager.aux-услуги mapreduce_shuffle yarn.nodemanager.auxservices.mapreduce.shuffle.class org.apache.hadoop.mapred.ShuffleHandler
Стъпка 11: редактиране hadoop-env.sh и добавете Java Path, както е споменато по-долу:
hadoop-env.sh съдържа променливи на средата, които се използват в скрипта за стартиране на Hadoop като домашен път на Java и т.н.
Команда : ние хадооп-env.ш
Фиг: Инсталиране на Hadoop - Конфигуриране на hadoop-env.sh
Стъпка 12: Отидете в началната директория на Hadoop и форматирайте NameNode.
Команда : CD
Команда : cd хадооп-2.7.3
Команда : bin / hadoop цел -формат
какво е сериализиране в java
Фиг .: Инсталиране на Hadoop - Форматиране на NameNode
Това форматира HDFS чрез NameNode. Тази команда се изпълнява само за първи път. Форматирането на файловата система означава инициализиране на директорията, посочена от променливата dfs.name.dir.
Никога не форматирайте, пускайте и изпълнявайте файловата система Hadoop. Ще загубите всичките си данни, съхранявани в HDFS.
Стъпка 13: След като NameNode е форматиран, отидете в директорията hadoop-2.7.3 / sbin и стартирайте всички демони.
Команда: cd хадооп-2.7.3 / sbin
Или можете да стартирате всички демони с една команда или да го направите поотделно.
Команда: ./ start-all.sh
Горната команда е комбинация от start-dfs.sh, start-yarn.sh & mr-jobhistory-daemon.sh
Или можете да стартирате всички услуги поотделно, както е показано по-долу:
Start NameNode:
NameNode е в центъра на файловата система HDFS. Той поддържа дървото на директориите на всички файлове, съхранени в HDFS, и проследява целия файл, съхранен в целия клъстер.
Команда: ./hadoop-daemon.sh начална цел
Фиг .: Инсталиране на Hadoop - Стартиране на NameNode
Стартирайте DataNode:
При стартиране DataNode се свързва с Namenode и той отговаря на заявките от Namenode за различни операции.
Команда: ./hadoop-daemon.sh стартира възел с данни
Фиг .: Инсталиране на Hadoop - Стартиране на DataNode
Стартирайте ResourceManager:
ResourceManager е капитанът, който арбитрира всички налични клъстерни ресурси и по този начин помага при управлението на разпределените приложения, работещи в системата YARN. Работата му е да управлява всеки NodeManagers и ApplicationMaster на всяко приложение.
Команда: ./прежда-daemon.sh стартиране на ресурс мениджър
Фиг: Инсталиране на Hadoop - Стартиране на ResourceManager
Стартирайте NodeManager:
NodeManager във всяка машинна рамка е агентът, който е отговорен за управлението на контейнери, наблюдението на тяхното използване на ресурси и докладването на същото на ResourceManager.
Команда: ./прежда-daemon.sh стартиране на nodemanager
Фиг .: Инсталиране на Hadoop - Стартиране на NodeManager
Стартирайте JobHistoryServer:
JobHistoryServer е отговорен за обслужването на всички заявки, свързани с хронологията на работата от клиента.
Команда : ./mr-jobhistory-daemon.sh стартиране на сървър за история
Стъпка 14: За да проверите дали всички услуги на Hadoop работят и работят, изпълнете командата по-долу.
Команда: jps
Фиг: Инсталиране на Hadoop - Проверка на демони
Стъпка 15: Сега отворете браузъра Mozilla и отидете на localhost : 50070 / dfshealth.html за да проверите интерфейса NameNode.
Фиг: Инсталиране на Hadoop - Стартиране на WebUI
Поздравления, успешно инсталирахте един възел Hadoop клъстер с едно движение.В следващия ни блог на , ние ще разгледаме как да инсталираме Hadoop и на клъстер с множество възли.
След като разбрахте как да инсталирате Hadoop, разгледайте от Edureka, доверена компания за онлайн обучение с мрежа от над 250 000 доволни учащи, разпространени по целия свят. Курсът за обучение по сертифициране на големи данни Hadoop на Edureka помага на обучаемите да станат експерти в HDFS, прежди, MapReduce, Pig, Hive, HBase, Oozie, Flume и Sqoop, като използват случаи в реално време за търговия на дребно, социални медии, авиация, туризъм, финанси.
Имате въпрос към нас? Моля, споменете го в раздела за коментари и ние ще се свържем с вас.