Hadoop 2.0 - Често задавани въпроси



Интересът към Hadoop се увеличи многократно през последните няколко години. Тази публикация отговаря на вашите запитвания и изчиства много съмнения относно Hadoop 2.0 и неговото използване.

Това е последваща публикация с отговор на често задаван въпрос по време на публичния уеб семинар от edureka! На .

разлика между изменяеми и неизменни

Често задавани въпроси за Hadoop

Дийпак:





Какво е Hadoop?
Apache Hadoop е софтуерна рамка с отворен код за съхранение и мащабна обработка на набори от данни на клъстери на стоков хардуер. Това е софтуерна рамка за управление на данни с отворен код с мащабно съхранение и разпределена обработка. Той се изгражда и използва от глобална общност на сътрудници и потребители.

Прочетете повече в нашата публикация в блога на Hadoop и .



Sucheta:

Какви са случаите на използване на големи данни в туристическата, транспортната и авиокомпаниите?

Слънчево:



Можете ли да ни насочите към реална извадка от внедряването на Hadoop, която можем да изучим?
Ние сме ливинав ера на нарастваща задръствания в пиковите часове. Транспортните оператори постоянно се стремят да намерят рентабилни начини за предоставяне на услугите си, като същевременно поддържат транспортния си флот в добри условия. Използването на Big Data Analytics в този домейн може да помогне на организацията при:

  • Оптимизиране на маршрута
  • Геопространствена аналитика
  • Модели на трафика и задръствания
  • Поддръжка на активи
  • Управление на приходите (т.е. авиокомпания)
  • Управление на инвентара
  • Консервация на гориво
  • Целеви маркетинг
  • Клиентска лоялност
  • Прогнозиране на капацитета
  • Мрежова производителност и оптимизация

Малко случаи от реалния свят са:
да се) Определяне на полетните разходи
б) Моделиране на прогнози за логистика на запасите
° С) Orbitz Worldwide - Модели за закупуване от клиенти
д) Шест супермащабни внедрения на Hadoop
е) Hadoop - повече от добавя
е) Hadoop в Enterprise

Можете да научите повече за внедряванията в реалния свят на Hadoop на адрес:

Хърдеш:

Дали Hadoop е всичко за обработката и обработката на данни? Как да отидем за отчитане и визуална аналитика. Може ли Qlikview, Tableau да се използва върху Hadoop?
Основните компоненти на Hadoop HDFS и MapReduce са свързани със съхранението и обработката на данни. HDFS за съхранение и MapReduce за обработка. Но основните компоненти на Hadoop като Pig и Hive се използват за анализ. За таблицата с визуални отчети QlikView може да бъде свързан с Hadoop за визуално отчитане.

Амит:

Hadoop Vs. mongoDB
MongoDB се използва като „Оперативно“ хранилище на данни в реално време, докато Hadoop се използва за офлайн пакетна обработка и анализ на данни.
mongoDB е ориентирано към документи, без схеми съхранение на данни, което можете да използвате в уеб приложение като бекенд вместо RDBMS като MySQL, докато Hadoop се използва главно като мащабно съхранение и разпределена обработка за голямо количество данни.

Прочетете повече на нашия публикация в блога на mongoDB и Hadoop .

Тук:

Дали Apache Spark е част от Hadoop ?
Apache Spark е бърз и общ двигател за мащабна обработка на данни. Spark е по-бърз и поддържа обработка в паметта. Механизмът за изпълнение на искри разширява вида на изчислителните работни натоварвания, които Hadoop може да обработва и може да работи на клъстер Hadoop 2.0 YARN. Това е рамкова система за обработка, която позволява съхраняване на обекти в паметта (RDD) заедно с възможност за обработка на тези обекти чрез затваряне на Scala. Той поддържа Graph, Data Warehouse, Machine Learning и Stream обработка.

Ако имате клъстер Hadoop 2, можете да стартирате Spark, без да е необходима инсталация. В противен случай Spark е лесен за работа самостоятелно или на EC2 или Mesos. Той може да чете от HDFS, HBase, Cassandra и всеки източник на данни на Hadoop.

Прочетете повече за Spark тук .

Прасад:

Какво представлява Apache Flume?
Apache Flume е разпределена, надеждна и достъпна система за ефективно събиране, агрегиране и преместване на големи количества регистрационни данни от много различни източници към централизиран източник на данни.

Amit:

SQL срещу NO-SQL бази данни
Базите данни NoSQL са бази от следващо поколение и адресират предимно някои от точките

  • нерелационни
  • разпределени
  • отворен код
  • хоризонтално мащабируема

Често се прилагат повече характеристики като без схема, лесна поддръжка на репликация, прост API, в крайна сметка последователен / BASE (не ACID), огромен обем данни и др. Например, малко от диференциатора са:

  • Базите данни NoSQL се увеличават хоризонтално, добавяйки повече сървъри за справяне с по-големи товари. SQL базите данни, от друга страна, обикновено се увеличават вертикално, добавяйки все повече ресурси към един сървър с увеличаване на трафика.
  • Базите данни на SQL изискват да дефинирате вашите схеми, преди да добавите каквато и да е информация и данни, но базите данни NoSQL са без схеми, не изискват предварително дефиниране на схемата.
  • SQL базите данни са базирани на таблици с редове и колони, следващи принципите на RDBMS, докато NoSQL базите данни са документи, двойки ключ-стойност, хранилища на графики или широки колони.
  • Базите данни на SQL използват SQL (език за структурирани заявки) за дефиниране и манипулиране на данните. В базата данни NoSQL заявките варират в различните бази данни.

Популярни бази данни на SQL: MySQL, Oracle, Postgres и MS-SQL
Популярен Бази данни NoSQL: MongoDB, BigTable, Redis, RavenDb, Cassandra, HBase, Neo4j и CouchDB

Прегледайте нашите блогове на Hadoop и NoSQL бази данни и предимства на една такава база данни:

Котесварао:

Има ли Hadoop вградена клъстерна технология?
Клъстерът Hadoop използва архитектура Master-Slave. Състои се от един главен (NameNode) и клъстер от подчинени (DataNodes) за съхранение и обработка на данни. Hadoop е проектиран да работи на голям брой машини, които не споделят никаква памет или дискове. Тези DataNodes са конфигурирани като използване на клъстер . Hadoop използва концепция за репликация, за да гарантира, че поне едно копие от данни е достъпно през цялото време в клъстера. Тъй като има множество копия на данни, данните, съхранявани на сървър, който излиза офлайн или умира, могат автоматично да се репликират от известно добро копие.

Динеш:

Какво е работа в Hadoop? Какво всичко може да се постигне чрез работа?
В Hadoop, Job е програма MapReduce за обработка / анализ на данните. Терминът MapReduce всъщност се отнася до две отделни и различни задачи, които изпълняват програмите на Hadoop. Първата е задачата Map, която взема набор от данни и ги преобразува в друг набор от междинни данни, където отделни елементи се разбиват на двойки ключ-стойност. Втората част на задача MapReduce, задачата „Намаляване“, приема изхода от карта като вход и комбинира двойките ключ-стойност в по-малък набор от агрегирана двойка ключ-стойност. Както подсказва последователността на името MapReduce, задачата за намаляване винаги се изпълнява след завършване на задачите на Map. Прочетете повече на MapReduce Job .

Сукрут:

Какво е особено за NameNode ?
NameNode е сърцето на файлова система HDFS. Той съхранява метаданните като дърво на директориите на всички файлове във файловата система и проследява къде в клъстера се съхраняват данните за файловете. Действителните данни се съхраняват в DataNodes като HDFS блокове.
Клиентските приложения говорят с NameNode винаги, когато искат да намерят файл или когато искат да добавят / копират / преместват / изтриват файл. NameNode отговаря на успешните заявки, като връща списък на съответните сървъри на DataNodes, където данните живеят. Прочетете повече за HDFS Architecture .

Динеш:

Кога Hadoop 2.0 беше представен на пазара?
Фондация Apache Software (ASF), групата с отворен код, която управлява разработката на Hadoop, обяви в своя блог на 15 октомври 2013 г., че Hadoop 2.0 вече е общодостъпен (GA). Това съобщение означава, че след дълго чакане Apache Hadoop 2.0 и YARN вече са готови за внедряване в производство. Повече за Блог.

Динеш:

Кои са малкото примери за приложението Big Data, което не е MapReduce?
MapReduce е чудесен за много приложения за решаване на проблеми с големи данни, но не и за всичко, което другите модели на програмиране обслужват по-добре изисквания като обработка на графики (например Google Pregel / Apache Giraph) и итеративно моделиране с интерфейс за предаване на съобщения (MPI).

Мериш:

Как се подреждат и индексират данните в HDFS?
Данните се разбиват на блокове от 64 MB (конфигурируеми от параметър) и се съхраняват в HDFS. NameNode съхранява информацията за съхранение на тези блокове като идентификатор на блок в своята RAM (метаданни NameNode). Задачите на MapReduce имат достъп до тези блокове, като използват метаданните, съхранявани в RAM на NameNode.

Шашват:

Можем ли да използваме MapReduce (MRv1) и MRv2 (с YARN) на един и същ клъстер?
Hadoop 2.0 представи нова рамка YARN за писане и изпълнение на различни приложения на Hadoop. И така, YARN и MapReduce са две различни концепции в Hadoop 2.0 и не трябва да се смесват и използват взаимозаменяемо. Правилният въпрос е „Възможно ли е да стартирате както MRv1, така и MRv2 на YARN активиран Hadoop 2.0 клъстер?“ Отговорът на този въпрос е a 'Не' сякаш Hadoop Cluster може да бъде конфигуриран да изпълнява MRv1 и MRv2, но може да изпълнява само един набор от демони във всеки момент от времето. И двете рамки в крайна сметка използват едни и същи конфигурационни файлове ( yarn-site.xml и mapred-site.xml ), за да стартирате демоните, следователно само една от двете конфигурации може да бъде активирана в клъстер Hadoop.

Кукла:

Каква е разликата между MapReduce от следващо поколение (MRv2) и прежда?
YARN и MapReduce от следващо поколение (MRv2) са две различни концепции и технологии в Hadoop 2.0. YARN е софтуерна рамка, която може да се използва за стартиране не само на MRv2, но и на други приложения. MRv2 е рамка за приложения, написана с помощта на YARN API и работи в YARN.

Бхарат:

Осигурява ли Hadoop 2.0 обратна съвместимост за приложенията на Hadoop 1.x?
Неха:

Миграцията на Hadoop 1.0 до 2.0 изисква ли тежък код на приложението миграция?
Не, по-голямата част от приложението, разработено с помощта на API „org.apache.hadoop.mapred“, може да работи на YARN без никаква рекомпилация. YARN е двоично съвместим с MRv1 приложения и „bin / hadoop“ може да се използва за подаване на тези приложения в YARN. Прочетете повече за това тук .

Шерин:

претоварване и заместване в java

Какво се случва, ако възелът на Resource Manager се провали в Hadoop 2.0?
Започвайки от изданието 2.4.0 на Hadoop, се предлага и поддръжка с висока наличност за Resource Manager. ResourceManager използва Apache ZooKeeper за отказ. Когато възелът на Resource Manager се провали, вторичен възел може бързо да се възстанови чрез състояние на клъстера, запазено в ZooKeeper. ResourceManager, при отказ, рестартира всички опашки и работещи приложения.

Sabbirali:

Работи ли рамката на Apache’s Hadoop върху Cloudera Hadoop?
Apache Hadoop е представен през 2005 г. с основния механизъм за обработка на MapReduce в подкрепа на разпределената обработка на мащабни натоварвания от данни, съхранявани в HDFS. Това е проект с отворен код и има множество дистрибуции (подобно на Linux). Cloudera Hadoop (CDH) е едно такова разпространение от Cloudera. Други подобни дистрибуции са HortonWorks, MapR, Microsoft HDInsight, IBM InfoSphere BigInsights и др.

Арулвадивел:

Някакъв лесен начин да инсталирате Hadoop на моя лаптоп и да опитате миграция на базата данни на Oracle към Hadoop?
Можеш старт с HortonWorks Sandbox или Cloudera Quick VM на вашия лаптоп (с най-малко 4 GB RAM и i3 или по-нов процесор). Използвайте SQOOP за преместване на данни от Oracle в Hadoop, както е обяснено тук .

Бабани:

Кои са най-добрите книги, с които можете да научите Hadoop?
Започни с Hadoop: Окончателното ръководство от Том Уайт и Hadoop операции от Ерик Самер.

Махендра:

Налице ли е някакво четиво за Hadoop 2.0 точно като Hadoop окончателното ръководство?
Прегледайте последно пристигане на рафтове за книги, написани от малко от създателите на Hadoop 2.0.

Следете за още въпроси в тази поредица.