Hadoop, както всички знаем, е момчето с големи данни. Като софтуерна рамка, способна да обработва слонови пропорции от данни, Hadoop стигна до върха на списъка с ключови думи на CIO.
Безпрецедентното нарастване на стека в паметта обаче въведе екосистемата за големи данни към нова алтернатива за анализ. Начинът на анализ на MapReduce се заменя с нов подход, който позволява анализи както в рамките на Hadoop, така и извън него. Apache Spark е новото ново лице на анализа на големи данни.
как да науча визуално студио
Любителите на големи данни са сертифицирали Apache Spark като най-горещия двигател за изчисляване на данни за големи данни в света. Бързо изважда MapReduce и Java от техните позиции и тенденциите в работата отразяват тази промяна. Според проучване на TypeSafe, 71% от глобалните разработчици на Java в момента оценяват или изследват около Spark и 35% от тях вече са започнали да го използват. В момента се търсят експерти на Spark, а през следващите седмици броят на възможностите за работа, свързани със Spark, се очаква да премине само през покрива.
И така, какво е това за Apache Spark, което го кара да се показва на върха на всеки списък със задачи на ИТ директорите?
Ето някои от интересните характеристики на Apache Spark:
- Интеграция на Hadoop - Spark може да работи с файлове, съхранявани в HDFS.
- Spark’s Interactive Shell - Spark е написан на Scala и има своя собствена версия на интерпретатора Scala.
- Spark’s Analytic Suite - Spark се предлага с инструменти за интерактивен анализ на заявки, мащабна обработка и анализ на графики и анализ в реално време.
- Устойчиви разпределени набори от данни (RDD) - RDD са разпределени обекти, които могат да бъдат кеширани в паметта, в клъстер от изчислителни възли. Те са основните обекти с данни, използвани в Spark.
- Разпределени оператори - Освен MapReduce, има много други оператори, които можете да използвате на RDD.
Организации като НАСА, Yahoo и Adobe се ангажираха с Spark. Това казва Джон Трипиер, Алианси и екосистемни лидери в Databricks: „Приемането на Apache Spark от големи и малки предприятия нараства с невероятни темпове в широк спектър от индустрии и търсенето на разработчици със сертифициран опит е бързо последващ костюм ”. Никога не е имало по-подходящо време да научите Spark, ако имате опит в Hadoop.
сортиране на масив в програма c ++
Edureka е специално подготвил курс за Apache Spark & Scala, създаден съвместно от практици в реалния живот. За диференцирано преживяване на електронно обучение на живо заедно с проекти, свързани с индустрията, разгледайте нашия курс. Новите партиди започват скоро, така че проверете курса тук: .
Имате въпрос към нас? Моля, споменете го в раздела за коментари и ние ще се свържем с вас.
Подобни публикации:
Apache Spark срещу Hadoop MapReduce
какво е big data и hadoop