Овладяхте Hadoop? Време е да започнете с Apache Spark



Тази публикация в блога обяснява защо трябва да започнете с Apache Spark след Hadoop и защо изучаването на Spark след овладяване на hadoop може да направи чудеса за вашата кариера!

Hadoop, както всички знаем, е момчето с големи данни. Като софтуерна рамка, способна да обработва слонови пропорции от данни, Hadoop стигна до върха на списъка с ключови думи на CIO.





Безпрецедентното нарастване на стека в паметта обаче въведе екосистемата за големи данни към нова алтернатива за анализ. Начинът на анализ на MapReduce се заменя с нов подход, който позволява анализи както в рамките на Hadoop, така и извън него. Apache Spark е новото ново лице на анализа на големи данни.

как да науча визуално студио

Любителите на големи данни са сертифицирали Apache Spark като най-горещия двигател за изчисляване на данни за големи данни в света. Бързо изважда MapReduce и Java от техните позиции и тенденциите в работата отразяват тази промяна. Според проучване на TypeSafe, 71% от глобалните разработчици на Java в момента оценяват или изследват около Spark и 35% от тях вече са започнали да го използват. В момента се търсят експерти на Spark, а през следващите седмици броят на възможностите за работа, свързани със Spark, се очаква да премине само през покрива.



И така, какво е това за Apache Spark, което го кара да се показва на върха на всеки списък със задачи на ИТ директорите?

Ето някои от интересните характеристики на Apache Spark:

  • Интеграция на Hadoop - Spark може да работи с файлове, съхранявани в HDFS.
  • Spark’s Interactive Shell - Spark е написан на Scala и има своя собствена версия на интерпретатора Scala.
  • Spark’s Analytic Suite - Spark се предлага с инструменти за интерактивен анализ на заявки, мащабна обработка и анализ на графики и анализ в реално време.
  • Устойчиви разпределени набори от данни (RDD) - RDD са разпределени обекти, които могат да бъдат кеширани в паметта, в клъстер от изчислителни възли. Те са основните обекти с данни, използвани в Spark.
  • Разпределени оператори - Освен MapReduce, има много други оператори, които можете да използвате на RDD.

Организации като НАСА, Yahoo и Adobe се ангажираха с Spark. Това казва Джон Трипиер, Алианси и екосистемни лидери в Databricks: „Приемането на Apache Spark от големи и малки предприятия нараства с невероятни темпове в широк спектър от индустрии и търсенето на разработчици със сертифициран опит е бързо последващ костюм ”. Никога не е имало по-подходящо време да научите Spark, ако имате опит в Hadoop.



сортиране на масив в програма c ++

Edureka е специално подготвил курс за Apache Spark & ​​Scala, създаден съвместно от практици в реалния живот. За диференцирано преживяване на електронно обучение на живо заедно с проекти, свързани с индустрията, разгледайте нашия курс. Новите партиди започват скоро, така че проверете курса тук: .

Имате въпрос към нас? Моля, споменете го в раздела за коментари и ние ще се свържем с вас.

Подобни публикации:

Apache Spark срещу Hadoop MapReduce

какво е big data и hadoop