Това е последваща публикация с отговор на често задаван въпрос по време на публичния уеб семинар от edureka! На .
разлика между изменяеми и неизменни
Често задавани въпроси за Hadoop
Дийпак:
Какво е Hadoop?
Apache Hadoop е софтуерна рамка с отворен код за съхранение и мащабна обработка на набори от данни на клъстери на стоков хардуер. Това е софтуерна рамка за управление на данни с отворен код с мащабно съхранение и разпределена обработка. Той се изгражда и използва от глобална общност на сътрудници и потребители.
Прочетете повече в нашата публикация в блога на Hadoop и .
Sucheta:
Какви са случаите на използване на големи данни в туристическата, транспортната и авиокомпаниите?
Слънчево:
Можете ли да ни насочите към реална извадка от внедряването на Hadoop, която можем да изучим?
Ние сме ливинав ера на нарастваща задръствания в пиковите часове. Транспортните оператори постоянно се стремят да намерят рентабилни начини за предоставяне на услугите си, като същевременно поддържат транспортния си флот в добри условия. Използването на Big Data Analytics в този домейн може да помогне на организацията при:
- Оптимизиране на маршрута
- Геопространствена аналитика
- Модели на трафика и задръствания
- Поддръжка на активи
- Управление на приходите (т.е. авиокомпания)
- Управление на инвентара
- Консервация на гориво
- Целеви маркетинг
- Клиентска лоялност
- Прогнозиране на капацитета
- Мрежова производителност и оптимизация
Малко случаи от реалния свят са:
да се) Определяне на полетните разходи
б) Моделиране на прогнози за логистика на запасите
° С) Orbitz Worldwide - Модели за закупуване от клиенти
д) Шест супермащабни внедрения на Hadoop
е) Hadoop - повече от добавя
е) Hadoop в Enterprise
Можете да научите повече за внедряванията в реалния свят на Hadoop на адрес:
Хърдеш:
Дали Hadoop е всичко за обработката и обработката на данни? Как да отидем за отчитане и визуална аналитика. Може ли Qlikview, Tableau да се използва върху Hadoop?
Основните компоненти на Hadoop HDFS и MapReduce са свързани със съхранението и обработката на данни. HDFS за съхранение и MapReduce за обработка. Но основните компоненти на Hadoop като Pig и Hive се използват за анализ. За таблицата с визуални отчети QlikView може да бъде свързан с Hadoop за визуално отчитане.
Амит:
Hadoop Vs. mongoDB
MongoDB се използва като „Оперативно“ хранилище на данни в реално време, докато Hadoop се използва за офлайн пакетна обработка и анализ на данни.
mongoDB е ориентирано към документи, без схеми съхранение на данни, което можете да използвате в уеб приложение като бекенд вместо RDBMS като MySQL, докато Hadoop се използва главно като мащабно съхранение и разпределена обработка за голямо количество данни.
Прочетете повече на нашия публикация в блога на mongoDB и Hadoop .
Тук:
Дали Apache Spark е част от Hadoop ?
Apache Spark е бърз и общ двигател за мащабна обработка на данни. Spark е по-бърз и поддържа обработка в паметта. Механизмът за изпълнение на искри разширява вида на изчислителните работни натоварвания, които Hadoop може да обработва и може да работи на клъстер Hadoop 2.0 YARN. Това е рамкова система за обработка, която позволява съхраняване на обекти в паметта (RDD) заедно с възможност за обработка на тези обекти чрез затваряне на Scala. Той поддържа Graph, Data Warehouse, Machine Learning и Stream обработка.
Ако имате клъстер Hadoop 2, можете да стартирате Spark, без да е необходима инсталация. В противен случай Spark е лесен за работа самостоятелно или на EC2 или Mesos. Той може да чете от HDFS, HBase, Cassandra и всеки източник на данни на Hadoop.
Прочетете повече за Spark тук .
Прасад:
Какво представлява Apache Flume?
Apache Flume е разпределена, надеждна и достъпна система за ефективно събиране, агрегиране и преместване на големи количества регистрационни данни от много различни източници към централизиран източник на данни.
Amit:
SQL срещу NO-SQL бази данни
Базите данни NoSQL са бази от следващо поколение и адресират предимно някои от точките
- нерелационни
- разпределени
- отворен код
- хоризонтално мащабируема
Често се прилагат повече характеристики като без схема, лесна поддръжка на репликация, прост API, в крайна сметка последователен / BASE (не ACID), огромен обем данни и др. Например, малко от диференциатора са:
- Базите данни NoSQL се увеличават хоризонтално, добавяйки повече сървъри за справяне с по-големи товари. SQL базите данни, от друга страна, обикновено се увеличават вертикално, добавяйки все повече ресурси към един сървър с увеличаване на трафика.
- Базите данни на SQL изискват да дефинирате вашите схеми, преди да добавите каквато и да е информация и данни, но базите данни NoSQL са без схеми, не изискват предварително дефиниране на схемата.
- SQL базите данни са базирани на таблици с редове и колони, следващи принципите на RDBMS, докато NoSQL базите данни са документи, двойки ключ-стойност, хранилища на графики или широки колони.
- Базите данни на SQL използват SQL (език за структурирани заявки) за дефиниране и манипулиране на данните. В базата данни NoSQL заявките варират в различните бази данни.
Популярни бази данни на SQL: MySQL, Oracle, Postgres и MS-SQL
Популярен Бази данни NoSQL: MongoDB, BigTable, Redis, RavenDb, Cassandra, HBase, Neo4j и CouchDB
Прегледайте нашите блогове на Hadoop и NoSQL бази данни и предимства на една такава база данни:
Котесварао:
Има ли Hadoop вградена клъстерна технология?
Клъстерът Hadoop използва архитектура Master-Slave. Състои се от един главен (NameNode) и клъстер от подчинени (DataNodes) за съхранение и обработка на данни. Hadoop е проектиран да работи на голям брой машини, които не споделят никаква памет или дискове. Тези DataNodes са конфигурирани като използване на клъстер . Hadoop използва концепция за репликация, за да гарантира, че поне едно копие от данни е достъпно през цялото време в клъстера. Тъй като има множество копия на данни, данните, съхранявани на сървър, който излиза офлайн или умира, могат автоматично да се репликират от известно добро копие.
Динеш:
Какво е работа в Hadoop? Какво всичко може да се постигне чрез работа?
В Hadoop, Job е програма MapReduce за обработка / анализ на данните. Терминът MapReduce всъщност се отнася до две отделни и различни задачи, които изпълняват програмите на Hadoop. Първата е задачата Map, която взема набор от данни и ги преобразува в друг набор от междинни данни, където отделни елементи се разбиват на двойки ключ-стойност. Втората част на задача MapReduce, задачата „Намаляване“, приема изхода от карта като вход и комбинира двойките ключ-стойност в по-малък набор от агрегирана двойка ключ-стойност. Както подсказва последователността на името MapReduce, задачата за намаляване винаги се изпълнява след завършване на задачите на Map. Прочетете повече на MapReduce Job .
Сукрут:
Какво е особено за NameNode ?
NameNode е сърцето на файлова система HDFS. Той съхранява метаданните като дърво на директориите на всички файлове във файловата система и проследява къде в клъстера се съхраняват данните за файловете. Действителните данни се съхраняват в DataNodes като HDFS блокове.
Клиентските приложения говорят с NameNode винаги, когато искат да намерят файл или когато искат да добавят / копират / преместват / изтриват файл. NameNode отговаря на успешните заявки, като връща списък на съответните сървъри на DataNodes, където данните живеят. Прочетете повече за HDFS Architecture .
Динеш:
Кога Hadoop 2.0 беше представен на пазара?
Фондация Apache Software (ASF), групата с отворен код, която управлява разработката на Hadoop, обяви в своя блог на 15 октомври 2013 г., че Hadoop 2.0 вече е общодостъпен (GA). Това съобщение означава, че след дълго чакане Apache Hadoop 2.0 и YARN вече са готови за внедряване в производство. Повече за Блог.
Динеш:
Кои са малкото примери за приложението Big Data, което не е MapReduce?
MapReduce е чудесен за много приложения за решаване на проблеми с големи данни, но не и за всичко, което другите модели на програмиране обслужват по-добре изисквания като обработка на графики (например Google Pregel / Apache Giraph) и итеративно моделиране с интерфейс за предаване на съобщения (MPI).
Мериш:
Как се подреждат и индексират данните в HDFS?
Данните се разбиват на блокове от 64 MB (конфигурируеми от параметър) и се съхраняват в HDFS. NameNode съхранява информацията за съхранение на тези блокове като идентификатор на блок в своята RAM (метаданни NameNode). Задачите на MapReduce имат достъп до тези блокове, като използват метаданните, съхранявани в RAM на NameNode.
Шашват:
Можем ли да използваме MapReduce (MRv1) и MRv2 (с YARN) на един и същ клъстер?
Hadoop 2.0 представи нова рамка YARN за писане и изпълнение на различни приложения на Hadoop. И така, YARN и MapReduce са две различни концепции в Hadoop 2.0 и не трябва да се смесват и използват взаимозаменяемо. Правилният въпрос е „Възможно ли е да стартирате както MRv1, така и MRv2 на YARN активиран Hadoop 2.0 клъстер?“ Отговорът на този въпрос е a 'Не' сякаш Hadoop Cluster може да бъде конфигуриран да изпълнява MRv1 и MRv2, но може да изпълнява само един набор от демони във всеки момент от времето. И двете рамки в крайна сметка използват едни и същи конфигурационни файлове ( yarn-site.xml и mapred-site.xml ), за да стартирате демоните, следователно само една от двете конфигурации може да бъде активирана в клъстер Hadoop.
Кукла:
Каква е разликата между MapReduce от следващо поколение (MRv2) и прежда?
YARN и MapReduce от следващо поколение (MRv2) са две различни концепции и технологии в Hadoop 2.0. YARN е софтуерна рамка, която може да се използва за стартиране не само на MRv2, но и на други приложения. MRv2 е рамка за приложения, написана с помощта на YARN API и работи в YARN.
Бхарат:
Осигурява ли Hadoop 2.0 обратна съвместимост за приложенията на Hadoop 1.x?
Неха:
Миграцията на Hadoop 1.0 до 2.0 изисква ли тежък код на приложението миграция?
Не, по-голямата част от приложението, разработено с помощта на API „org.apache.hadoop.mapred“, може да работи на YARN без никаква рекомпилация. YARN е двоично съвместим с MRv1 приложения и „bin / hadoop“ може да се използва за подаване на тези приложения в YARN. Прочетете повече за това тук .
Шерин:
претоварване и заместване в java
Какво се случва, ако възелът на Resource Manager се провали в Hadoop 2.0?
Започвайки от изданието 2.4.0 на Hadoop, се предлага и поддръжка с висока наличност за Resource Manager. ResourceManager използва Apache ZooKeeper за отказ. Когато възелът на Resource Manager се провали, вторичен възел може бързо да се възстанови чрез състояние на клъстера, запазено в ZooKeeper. ResourceManager, при отказ, рестартира всички опашки и работещи приложения.
Sabbirali:
Работи ли рамката на Apache’s Hadoop върху Cloudera Hadoop?
Apache Hadoop е представен през 2005 г. с основния механизъм за обработка на MapReduce в подкрепа на разпределената обработка на мащабни натоварвания от данни, съхранявани в HDFS. Това е проект с отворен код и има множество дистрибуции (подобно на Linux). Cloudera Hadoop (CDH) е едно такова разпространение от Cloudera. Други подобни дистрибуции са HortonWorks, MapR, Microsoft HDInsight, IBM InfoSphere BigInsights и др.
Арулвадивел:
Някакъв лесен начин да инсталирате Hadoop на моя лаптоп и да опитате миграция на базата данни на Oracle към Hadoop?
Можеш старт с HortonWorks Sandbox или Cloudera Quick VM на вашия лаптоп (с най-малко 4 GB RAM и i3 или по-нов процесор). Използвайте SQOOP за преместване на данни от Oracle в Hadoop, както е обяснено тук .
Бабани:
Кои са най-добрите книги, с които можете да научите Hadoop?
Започни с Hadoop: Окончателното ръководство от Том Уайт и Hadoop операции от Ерик Самер.
Махендра:
Налице ли е някакво четиво за Hadoop 2.0 точно като Hadoop окончателното ръководство?
Прегледайте последно пристигане на рафтове за книги, написани от малко от създателите на Hadoop 2.0.
Следете за още въпроси в тази поредица.