Урок за HDFS: Въведение в HDFS и неговите характеристики



Този блог с уроци за HDFS ще ви помогне да разберете HDFS или Hadoop разпределена файлова система и нейните функции. Също така ще разгледате накратко основните му компоненти.

Урок за HDFS

Преди да продължите напред в този урок на HDFS, позволете ми да ви преведа някои от безумните статистически данни, свързани с HDFS:

  • В 2010, Facebook твърди, че има един от най-големите HDFS клъстери за съхранение 21 петабайта на данните.
  • През 2012 г, Facebook декларираха, че имат най-големия единичен HDFS клъстер с повече от 100 PB на данните .
  • И Yahoo ! има повече от 100 000 процесора в над 40 000 сървъра работещ Hadoop, с най-големия си клъстер Hadoop 4500 възли . Всичко казано, Yahoo! магазини 455 петабайта на данни в HDFS.
  • Всъщност до 2013 г. повечето от големите имена във Fortune 50 започнаха да използват Hadoop.

Твърде трудно за смилане? Нали. Както беше обсъдено в , Hadoop има две основни единици - С тораж и Обработка . Когато казвам част за съхранение на Hadoop, имам предвид HDFS което означава Разпределена файлова система Hadoop . И така, в този блог ще ви представя HDFS .





Тук ще говоря за:

  • Какво е HDFS?
  • Предимства на HDFS
  • Характеристики на HDFS

Преди да говорим за HDFS, нека ви кажа, какво е разпределена файлова система?



DFS или разпределена файлова система:

Разпределената файлова система говори за управление данни , i.e. файлове или папки на множество компютри или сървъри. С други думи, DFS е файлова система, която ни позволява да съхраняваме данни върху множество възли или машини в клъстер и позволява на множество потребители да имат достъп до данни. Така че по същество той служи на същата цел като файловата система, която е налична във вашата машина, като за Windows имате NTFS (Нова технологична файлова система) или за Mac имате HFS (Йерархична файлова система). Единствената разлика е, че в случай на разпределена файлова система съхранявате данни в множество машини, а не в една машина. Въпреки че файловете се съхраняват в мрежата, DFS организира и показва данни по такъв начин, че потребителят, който седи на машина, ще почувства, че всички данни се съхраняват в тази машина.

Какво е HDFS?

Разпределената файлова система Hadoop или HDFS е разпределена файлова система, базирана на Java, която ви позволява да съхранявате големи данни в множество възли в клъстер Hadoop. Така че, ако инсталирате Hadoop, получавате HDFS като основна система за съхранение за съхранение на данните в разпределената среда.

Нека вземем пример, за да го разберем. Представете си, че имате десет машини или десет компютъра с твърд диск от 1 TB на всяка машина. Сега HDFS казва, че ако инсталирате Hadoop като платформа върху тези десет машини, ще получите HDFS като услуга за съхранение. Разпределената файлова система Hadoop се разпространява по такъв начин, че всяка машина допринася с индивидуалното си хранилище за съхранение на всякакъв вид данни.



Урок за HDFS: Предимства на HDFS

1. Разпределено съхранение:

Разпределено съхранение - Урок за HDFS - Edureka

Когато осъществите достъп до файловата система Hadoop Distributed от която и да е от десетте машини в клъстера Hadoop, ще се почувствате така, сякаш сте влезли в една голяма машина, която има капацитет за съхранение 10 TB (общо съхранение над десет машини). Какво означава? Това означава, че можете да съхранявате един голям файл от 10 TB, който ще бъде разпределен между десетте машини (по 1 TB всяка).Така е не се ограничава до физическите граници на всяка отделна машина.

2. Разпределено и паралелно изчисление:

Тъй като данните са разделени между машините, това ни позволява да се възползваме Разпределено и паралелно изчисление . Нека разберем тази концепция от горния пример. Да предположим, че обработката на 1 TB файл на една машина отнема 43 минути. И така, сега ми кажете, колко време ще отнеме за обработка на един и същ файл от 1 TB, когато имате 10 машини в клъстер Hadoop с подобна конфигурация - 43 минути или 4,3 минути? 4.3 минути, нали! Какво се е случило тук? Всеки от възлите работи паралелно с част от файла от 1 TB. Следователно работата, която отнемаше 43 минути преди, приключва само за 4,3 минути, тъй като работата беше разделена на десет машини.

3. Хоризонтална мащабируемост:

Не на последно място, нека поговорим за хоризонтално мащабиране или мащабиране в Hadoop. Има два вида мащабиране: вертикален и хоризонтална . При вертикално мащабиране (увеличаване на мащаба) увеличавате хардуерния капацитет на вашата система. С други думи, набавяте повече RAM или CPU и ги добавяте към съществуващата си система, за да я направите по-здрава и мощна. Но има предизвикателства, свързани с вертикалното мащабиране или увеличаване:

  • Винаги има ограничение, до което можете да увеличите своя хардуерен капацитет. Така че, не можете да продължите да увеличавате RAM или CPU на машината.
  • При вертикално мащабиране първо спирате машината си. След това увеличавате RAM или CPU, за да го направите по-стабилен хардуерен стек. След като сте увеличили хардуерния си капацитет, рестартирате машината. Това време за спиране, когато спирате системата си, се превръща в предизвикателство.

В случай на хоризонтално мащабиране (мащабиране) , добавяте повече възли към съществуващ клъстер, вместо да увеличавате хардуерния капацитет на отделни машини. И най-важното е, че можете добавете още машини в движение т.е.без спиране на системата . Следователно, докато мащабираме, нямаме време за престой или зелена зона, нищо подобно. В края на деня ще имате повече машини, които работят паралелно, за да отговорят на вашите изисквания.

претоварване на функцията в c ++

HDFS урок видео:

Можете да разгледате видеото, дадено по-долу, където всички концепции, свързани с HDFS, са били подробно обсъдени:

Урок за HDFS: Характеристики на HDFS

Ще разберем тези функции в детайли, когато ще разгледаме HDFS архитектурата в следващия ни урок за HDFS. Но засега нека имаме преглед на характеристиките на HDFS:

  • Цена: Като цяло HDFS е разположен на стоков хардуер като вашия настолен компютър / лаптоп, който използвате всеки ден. Така че, това е много икономично по отношение на разходите за собственост върху проекта. Тъй като използваме стоков хардуер с ниска цена, не е нужно да харчите огромно количество пари за мащабиране на вашия клъстер Hadoop. С други думи, добавянето на повече възли към вашия HDFS е рентабилно.
  • Разнообразие и обем на данни: Когато говорим за HDFS, тогава говорим за съхраняване на огромни данни, т.е. терабайти и петабайти данни и различни видове данни. Така че, можете да съхранявате всякакъв вид данни в HDFS, били те структурирани, неструктурирани или полуструктурирани.
  • Надеждност и толерантност към повреди: Когато съхранявате данни на HDFS, той вътрешно разделя дадените данни на блокове с данни и ги съхранява по разпределен начин във вашия клъстер Hadoop. Информацията относно това кой блок данни се намира на кой от възлите за данни се записва в метаданните. NameNode управлява мета данните и DataNodes са отговорни за съхраняването на данните.
    Името възел също репликира данните, т.е. поддържа множество копия на данните. Тази репликация на данните прави HDFS много надежден и устойчив на грешки. Така че, дори ако някой от възлите се провали, можем да извлечем данните от репликите, намиращи се на други възли на данни. По подразбиране коефициентът на репликация е 3. Следователно, ако съхранявате 1 GB файл в HDFS, той най-накрая ще заеме 3 GB пространство. Името възел периодично актуализира метаданните и поддържа фактора на репликация в съответствие.
  • Целостта на данните: Data Integrity говори за това дали данните, съхранявани в моя HDFS, са верни или не. HDFS непрекъснато проверява целостта на съхраняваните данни спрямо контролната си сума. Ако открие някаква грешка, той докладва на възела на името за това. След това възелът с име създава допълнителни нови реплики и следователно изтрива повредените копия.
  • Висока производителност: Производителността е количеството работа, извършена за единица време. Той говори за това колко бързо можете да получите достъп до данните от файловата система. По принцип това ви дава представа за производителността на системата. Както видяхте в горния пример, когато заедно използвахме десет машини за подобряване на изчисленията. Там успяхме да намалим времето за обработка от 43 минути до просто 4,3 минути тъй като всички машини работеха паралелно. Следователно, чрез паралелна обработка на данните, ние значително намалихме времето за обработка и по този начин постигнахме висока производителност.
  • Местоположение на данните: Местоположението на данните говори за преместване на обработващия блок към данни, а не към данните към обработващия блок. В нашата традиционна система използвахме, за да пренасяме данните в слоя на приложението и след това да ги обработваме. Но сега, поради архитектурата и огромния обем на данните, довеждането на данните до слоя на приложението щенамалете производителността на мрежата до забележима степен.И така, в HDFS пренасяме изчислителната част към възлите за данни, където данните се намират. Следователно не премествате данните, а носите програмата или процесачаст от данните.

Така че сега имате кратка представа за HDFS и неговите функции. Но повярвайте ми, момчета, това е само върхът на айсберга. В следващия ми , Ще се потопя дълбоко в HDFS архитектура и ще разкрия тайните зад успеха на HDFS. Заедно ще отговорим на всички въпроси, които се замислят в главата ви, като:

  • Какво се случва зад кулисите, когато четете или пишете данни в разпределената файлова система Hadoop?
  • Какви са алгоритмите като осведоменост в багажника, което прави HDFS толкова устойчив на грешки?
  • Как Hadoop Distributed File System управлява и създава реплика?
  • Какво представляват блоковите операции?

След като разбрахте HDFS и неговите функции, разгледайте от Edureka, доверена компания за онлайн обучение с мрежа от над 250 000 доволни учащи, разпространени по целия свят. Курсът за обучение по сертифициране на големи данни Hadoop на Edureka помага на обучаемите да станат експерти в HDFS, прежди, MapReduce, Pig, Hive, HBase, Oozie, Flume и Sqoop, като използват случаи в реално време за търговия на дребно, социални медии, авиация, туризъм, финанси.

Имате въпрос към нас? Моля, споменете го в раздела за коментари и ние ще се свържем с вас.