Основни инструменти на Hadoop за смачкване на големи данни



Hadoop е популярната дума в ИТ света днес и тази публикация описва основните инструменти на Hadoop, които разбиват големите данни.

Днес най-популярният термин в ИТ света е „Hadoop“. В рамките на кратък период от време, Hadoop нарасна масово и се оказа полезен за голяма колекция от разнообразни проекти. Общността на Hadoop се развива бързо и има видна роля в своята екосистема.





Ето поглед към основните инструменти на Hadoop, които се използват за обработка на големи данни.

if израз в sql заявка

ambari



Ambari е проект на Apache, поддържан от Hortonworks. Той предлага уеб-базиран GUI (графичен потребителски интерфейс) със скриптове на съветника за настройка на клъстери с повечето от стандартните компоненти. Ambari осигурява, управлява и наблюдава всички клъстери от работни места в Hadoop.

hdfs-logo

The HDFS , разпространявано под лиценз Apache, предлага основна рамка за разделяне на колекциите от данни между множество възли. В HDFS големите файлове се разбиват на блокове, където няколко възела държат всички блокове от файл. Файловата система е проектирана по начин, който да съчетава толерантност към грешки и висока производителност. Блоковете HDFS се зареждат, за да поддържат стабилно поточно предаване. Те обикновено не се кешират, за да се сведе до минимум латентността.



hbaselogo

HBase е ориентирана към колони система за управление на база данни, която работи върху HDFS. Приложенията на HBase са написани на Java, подобно на приложението MapReduce. Състои се от набор от таблици, където всяка таблица съдържа редове и колони като традиционна база данни. Когато данните попаднат в голямата таблица, HBase ще съхранява данните, ще ги търси и автоматично ще споделя таблицата в множество възли, така че задачите на MapReduce да могат да я стартират локално. HBase предлага ограничена гаранция за някои местни промени. Промените, които се случват в един ред, могат да бъдат успешни или неуспешни едновременно.

hive

Ако вече говорите свободно SQL, можете да използвате Hadoop, като използвате Кошера . Hive е разработен от някои хора във Facebook. Apache Hive регулира процеса на извличане на битове от всички файлове в HBase. Той поддържа анализ на големи масиви от данни, съхранявани в HDFS на Hadoop и съвместими файлови системи. Той също така предоставя SQL подобен език, наречен HSQL (HiveSQL), който влиза във файловете и извлича необходимите фрагменти за кода.

sqoop

Apache Sqoop е специално проектиран за ефективно прехвърляне на групови данни от традиционните бази данни в Hive или HBase. Той може да се използва и за извличане на данни от Hadoop и експортиране към външни структурирани хранилища за данни като релационни бази данни и корпоративни хранилища за данни. Sqoop е инструмент за команден ред, съпоставящ между таблиците и слоя за съхранение на данни, превръщащ таблиците в конфигурируема комбинация от HDFS, HBase или Hive.

Pig1

Когато съхранените данни са видими за Hadoop, Apache Pig потапя се в данните и пуска кода, който е написан на собствения му език, наречен Pig Latin. Pig Latin е изпълнен с абстракции за обработка на данните. Pig се предлага със стандартни функции за често срещани задачи като усредняване на данни, работа с дати или за намиране на разлики между низовете. Pig също така позволява на потребителя да пише езици самостоятелно, наречен UDF (User Defined Function), когато стандартните функции са недостатъчни.

zookeper

Зоопарк е централизирана услуга, която поддържа, конфигурира информация, дава име и осигурява разпределена синхронизация в клъстер. Той налага на клъстера йерархия, подобна на файлова система, и съхранява всички метаданни за машините, така че можем да синхронизираме работата на различните машини.

NoSQL

Някои клъстери на Hadoop се интегрират с NoSQL хранилища за данни, които идват със собствени механизми за съхраняване на данни в клъстер от възли. Това им позволява да съхраняват и извличат данни с всички функции на базата данни NoSQL, след което Hadoop може да се използва за планиране на задания за анализ на данни в същия клъстер.

mahoutlogo

Mahout е проектиран да внедри голям брой алгоритми, класификации и филтриране на анализ на данни в клъстер Hadoop. Много от стандартните алгоритми като K-средства, Dirichelet, паралелен модел и байесовски класификации са готови да работят върху данните с карта на Hadoop стил и да намалят.

Луцен, написана на Java и лесно интегрирана с Hadoop, е естествен спътник на Hadoop. Това е инструмент, предназначен за индексиране на големи блокове неструктуриран текст. Lucene обработва индексирането, докато Hadoop обработва разпределените заявки в клъстера. Функциите на Lucene-Hadoop се развиват бързо, тъй като се разработват нови проекти.

Avro

Евро е система за сериализация, която обединява данните заедно със схема за разбирането им. Всеки пакет се предлага с JSON структура от данни. JSON обяснява как данните могат да бъдат анализирани. Заглавката на JSON указва структурата на данните, където може да се избегне необходимостта от записване на допълнителни тагове в данните за маркиране на полетата. Резултатът е значително по-компактен от традиционните формати като XML.

Работата може да бъде опростена, като се разбие на стъпки. При разбиването на проекта на множество работни места в Hadoop, Уози започва да ги обработва в правилната последователност. Той управлява работния поток, както е посочено от DAG (Directed Acyclic Graph) и няма нужда от своевременно наблюдение.

ГИС инструменти

Работата с географски карти е голяма работа за клъстери, работещи с Hadoop. ГИС ( Географска информационна система ) инструментите за проектите на Hadoop са адаптирали най-добрите базирани на Java инструменти за разбиране на географската информация, които да работят с Hadoop. Базите данни вече могат да обработват географски запитвания, като използват координати, а кодовете могат да разгръщат ГИС инструментите.

Събирането на всички данни е равносилно на тяхното съхраняване и анализ. Apache Flume изпраща „специални агенти“ за събиране на информация, която ще се съхранява в HDFS. Събраната информация може да бъде регистрационни файлове, Twitter API или изрезки от уебсайтове. Тези данни могат да бъдат верижни и подложени на анализи.

Spark

Искра е следващото поколение, което почти работи като Hadoop, което обработва кеширани в паметта данни. Целта му е да направи анализа на данните бърз за изпълнение и запис с общ модел на изпълнение. Това може да оптимизира произволни графики на оператора и да поддържа изчисляване в паметта, което му позволява да търси данни по-бързо от дискови базирани двигатели като Hadoop.

SQL на Hadoop

Когато е необходимо да се изпълни бърза ad-hoc заявка за всички данни в клъстера, може да се напише нова задача на Hadoop, но това отнема известно време. Когато програмистите започнаха да правят това по-често, те излязоха с инструменти, написани на простия език на SQL. Тези инструменти предлагат бърз достъп до резултатите.

Apache тренировка

Apache Drill предоставя ниски латентност ad-hoc заявки към многобройни и разнообразни източници на данни, включително вложени данни. Drill, вдъхновен от Dremel на Google, е проектиран да мащабира до 10 000 сървъра и да заявява петабайта данни за секунди.

Това са основните инструменти на Hadoop за смачкване на големи данни!

Имате въпрос към нас? Моля, споменете ги в раздела за коментари и ние ще се свържем с вас.

Подобни публикации:

Практически причини да научите Hadoop 2.0