Големи данни в AWS - интелигентно решение за големи данни



Тази статия ви помага да разберете как AWS се справя умно с големите данни. Той също така показва как AWS може лесно да решава предизвикателствата за големи данни.

Идеята на Big Data просто не е нова, тя е навсякъде. Ефектът от големите данни е навсякъде, от бизнеса до науката, от правителството до изкуствата и т.н. Няма по-добър спътник от за обработка и анализ на големи данни. В тази статия ще покажа как AWS се справя с предизвикателствата на големите данни и указателите, които ще разгледам, са както следва:

Какво представляват големите данни?

характеристики на големи данни





Можете да разглеждате големите данни като информационни активи с голям обем, висока скорост и / или голямо разнообразие, които изискват икономически ефективни, иновативни форми на обработка на информация, които дават възможност за по-добра информация, вземане на решения и автоматизация на процесите.

Големите данни се състоят от 5 важни V, които определят характеристиките на големите данни. Нека обсъдим тези, преди да преминем към AWS.



Какво е AWS?

се състои от много различни продукти и услуги за изчислителни облаци. Високорентабилното подразделение на Amazon осигурява сървъри, съхранение, работа в мрежа, отдалечени компютри, електронна поща, мобилно развитие, заедно със сигурността. Освен това. AWS се състои от два основни продукта: EC2, услугата за виртуални машини на Amazon и S3, система за съхранение от Amazon. Той е толкова голям и присъства в компютърния свят, че сега е поне 10 пъти по-голям от най-близкия си конкурент и е домакин на популярни уебсайтове като Netflix и Instagram.

.

AWS е разделена на 12 глобални региона по целия свят, всеки от които има множество зони за достъпност, в които се намират сървърите му.Тези обслужвани региони са разделени, за да позволят на потребителите да определят географски ограничения на своите услуги, но и да осигурят сигурност чрез разнообразяване на физическите местоположения, в които се съхраняват данни.



Защо големи данни в AWS?

Учени, разработчици и други технологични ентусиасти от много различни области се възползват от AWS за извършване на анализ на големи данни и за посрещане на критичните предизвикателства на нарастващите Vs на цифровата информация. AWS ви предлага портфолио от услуги за изчислителни облаци, за да ви помогне да управлявате големи данни чрез значително намаляване на разходите, мащабиране за задоволяване на търсенето и увеличаване на скоростта на иновациите.

Amazon Web Services предоставя a напълно интегрирано портфолио на услугите за изчислителни облаци. Освен това ви помага да изграждате, обезопасявате и разгръщате приложенията си за големи данни. Освен това с AWS не ви е необходим хардуер за набавяне и инфраструктура за поддръжка и мащабиране. Поради това можете да насочите ресурсите си към разкриване на нови прозрения.Тъй като новите функции се добавят постоянно, винаги ще можете да използвате най-новите технологии, без да се налага да поемате дългосрочни инвестиционни ангажименти.

Как AWS може да реши предизвикателствата за големи данни?

AWS решения за големи данни

AWS има многобройни решения за всички цели за разработка и внедряване. Също така, в областта на науката за данни и големите данни, AWS излезе със скорошни разработки в различни аспекти на обработката на големи данни. Преди да преминем към инструментите, нека разберем различни аспекти на големите данни, за които AWS може да предложи решения.

как да обърна низ в python
  1. Поглъщане на данни
    Събирането на сурови данни - транзакции, регистрационни файлове, мобилни устройства и други - е първото предизвикателство, пред което са изправени много организации, когато се занимават с големи данни. Добрата платформа за големи данни улеснява тази стъпка, позволявайки на разработчиците да поемат голямо разнообразие от данни - от структурирани до неструктурирани - на всякаква скорост - от реално време до партида.

  2. Съхранение на данни
    Всяка платформа за големи данни се нуждае от сигурно, мащабируемо и трайно хранилище за съхраняване на данни преди или дори след обработка на задачи. В зависимост от вашите специфични изисквания, може да се нуждаете и от временни хранилища за данни при пренос.

  3. Обработка на данни
    Това е стъпката, при която преобразуването на данни става от необработено състояние в консумативен формат - обикновено чрез сортиране, агрегиране, присъединяване и дори изпълнение на по-усъвършенствани функции и алгоритми. Получените набори от данни се подлагат на съхранение за по-нататъшна обработка или се предоставят за консумация чрез инструменти за бизнес разузнаване и визуализация на данни.

  4. Визуализация

    Големите данни се състоят в получаването на висока стойност, полезна информация от вашите активи за данни. В идеалния случай данните са достъпни за заинтересованите страни чрез самообслужване на бизнес разузнаване и гъвкави инструменти за визуализация на данни, които позволяват бързо и лесно проучване на набори от данни.

AWS Инструменти за големи данни

В предишните раздели разгледахме полетата в Big Data, където AWS може да предостави решения. Освен това AWS разполага с множество инструменти и услуги в своя арсенал, за да даде възможност на клиентите с възможностите на Big Data.

Нека разгледаме различните решения, предоставени от AWS за обработка на различни етапи, свързани с обработката на големи данни

Поглъщане

  1. Кинеза

    Amazon Kinesis Firehose е напълно управлявана услуга за предоставяне на поточни данни в реално време директно на Amazon S3. Kinesis Firehose автоматично се мащабира, за да съответства на обема и пропускателната способност на поточните данни и не изисква текущо администриране. Можете да конфигурирате Kinesis Firehose да трансформира поточни данни, преди да ги съхраните в Amazon S3.

  2. Снежна топка
    Можеш да използваш AWS Снежна топка за сигурно и ефективно мигриране на групови данни от локални платформи за съхранение и клъстери Hadoop към сегменти S3. След като създадете работа в AWS Management Console, автоматично получавате уред Snowball. След като пристигне Снежна топка, свържете я към вашата локална мрежа, инсталирайте клиента на Снежна топка на вашия локален източник на данни и след това използвайте клиента на Снежна топка, за да изберете и прехвърлите файловите директории към устройството Снежна топка.

Съхранение

  1. Amazon S3

Amazon S3 е сигурно, мащабируемо, трайно съхранение на обект с милисекундна латентност за достъп до данни. S3 може да съхранява всякакъв вид данни отвсякъде - уебсайтове и мобилни приложения, корпоративни приложения и данни от IoT сензори или устройства. Той също така може да съхранява и извлича всяко количество данни, с несравнима наличност и изграден от нулата, за да осигури 99,999999999% (11 деветки) трайност.

2. Лепило AWS

Glue е напълно управлявана услуга, която предоставя каталог с данни, за да направи данните в езерото с данни откриваеми. Освен това той има способността да прави извличане, преобразуване и зареждане (ETL), за да подготви данни за анализ. Също така, вграденият каталог с данни е като постоянно съхранение на метаданни за всички активи на данни, което прави всички данни за търсене и за търсене в един изглед.

Обработка

  1. EMR
    За обработка на големи данни с помощта на Spark и Hadoop, Amazon EMR предоставя управлявана услуга, която улеснява, бърза и рентабилна обработка на огромни количества данни. Освен това EMR поддържа 19 различни проекта с отворен код, включително Hadoop , Искра , и Освен това се предлага с управлявани EMR преносими компютри за инженеринг на данни, развитие на науката за данни и сътрудничество.

  2. Redshift
    За съхранение на данни, Amazon Redshift предоставя възможност за изпълнение на сложни, аналитични заявки срещу петабайтове на структурирани данни. Също така включва Redshift Spectrum който изпълнява SQL заявки директно срещу Exabytes на структурирани или неструктурирани данни в S3, без да е необходимо ненужно движение на данни.

Визуализации

  1. Amazon QuickSight

    За табла за управление и визуализации, Amazon Quicksight ви предоставя бърза услуга за бизнес аналитика с облак. Улеснява изграждането на зашеметяващи визуализации и богати табла за управление. Освен това можете да получите достъп до тях от всеки браузър или мобилно устройство.

Демо - Анализиране на данни за застрашени видове растения и животни в Австралия.

В тази демонстрация ще използваме примерни данни за застрашени растителни и животински видове от щатите и териториите на Австралия. Тук ще създадем EMR клъстер и ще го конфигурираме да изпълнява многоетапни задания за Apache Hive. Клъстерът EMR ще има инсталиран Apache Hive в него. Този клъстер ще използва EMRFS като файлова система, така че неговите места за въвеждане и извеждане на данни се преобразуват в сегмент S3. Клъстерът също ще използва същата кофа S3 за съхраняване на регистрационни файлове.

Сега ще създадем няколко EMR стъпки в клъстера, за да обработим примерен набор от данни. Тук всяка от тези стъпки ще изпълнява скрипт Hive и крайният изход ще бъде запазен в сегмента S3. Тези стъпки ще генерират регистрационни файлове на MapReduce и това е така, защото командите на Hive се превеждат в задания на MapReduce по време на изпълнение. Регистрационните файлове за всяка стъпка се агрегират от контейнерите, които тя поражда.

Примерни данни

Примерният набор от данни за този случай е публично достъпен от Уебсайт на австралийското правителство с отворени данни . Този набор от данни е за застрашени животински и растителни видове от различни щати и територии в Австралия. Може да се види и изтегли описание на полетата от този набор от данни и CSV файла тук .

Стъпки за обработка

Първата стъпка на EMR заданието тук включва създаване на таблица Hive като схема за основния изходен файл в S3. Във втората стъпка на заданието сега ще изпълним успешна заявка срещу данните. По същия начин ще изпълним трета и четвърта заявка.

Ще повторим тези четири стъпки няколко пъти в рамките на един час, симулирайки последователни изпълнения на многоетапна партидна работа. Въпреки това, в реалния сценарий, разликата във времето между всяка партида обикновено може да бъде много по-голяма. Малката времева разлика между последователни пробези има за цел да ускори нашето тестване.

S3 Кофа и папки

Преди да създадем нашия EMR клъстер, тук трябваше да създадем кофа S3, за да хостваме неговите файлове. В нашия пример ние наричаме тази група „arvind1-bucket“. Папките под тази група са показани по-долу в AWS Console за S3:

как да създам jframe

  • Входната папка съдържа примерните данни

  • Папката скриптове съдържа файловете на скрипт Hive за стъпки на работа за EMR

  • Изходната папка очевидно ще съдържа изхода на програмата Hive

  • Клъстерът EMR използва папката дневници, за да запази своите регистрационни файлове.

Hive скриптове за EMR стъпки за работа

1. Тази стъпка на работа изпълнява скрипт Hiveза създаване на външна таблица на кошер. Тази таблица описва табличната схема на съответния CSV файл с данни. Скриптът за това е както следва:

СЪЗДАВАНЕ НА ВЪНШНА ТАБЛИЦА 'заплашен_вид' (низ 'научно име', низ 'общо име', низ 'текущо научно име', низ 'заплашен статус', низ 'акт', низ 'nsw', низ 'nt', `qld` низ, `sa` низ,` tas` низ, `vic` низ,` wa` низ, `aci` низ,` cki` низ, `ci` низ,` csi` низ, `jbt` низ,` nfi` низ, `hmi` низ,` aat` низ, `cma` низ,` изброени цаца таксонид` bigint, `текущ цаца таксонид` bigint,` царство` низ, `клас` низ,` профил` низ, `дата извлечена` низ, `nsl име`, низ,' семейство 'низ,' род 'низ,' вид 'низ,' инфраспецифичен ранг 'низ,' инфравиден 'низ,' вид автор 'низ,' инфравиден автор 'низ) РЕД ФОРМАТ РАЗРЕШЕНИ ПОЛЯ ПРЕКРАТЯВА С ',' СЪХРАНЕНО КАТО ИНФОРМАТ 'org.apache.hadoop.mapred.TextInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' LOCATION 's3: // arvind1-bucket

2. Тази стъпка на работа изпълнява заявка за изчисляване на петте най-застрашени вида в щата Нов Южен Уелс (NSW). Името на файла за заявка Hive е застрашен Видове NSW.q и е показано по-долу:

ИЗБЕРЕТЕ видове, БРОЙ (nsw) КАТО number_of_endangered_species ОТ заплашени_видове WHERE (nsw = 'Да' ИЛИ ​​nsw = 'Застрашен') И 'заплашен статус' = 'Застрашен' ГРУПА ПО ВИДОВЕ БРОЙ (nsw)> 1 ПОРЪЧКА ПО number_of_endangered_species DESC LIMIT 5

3.Тази стъпка на работа изпълнява заявка за изчисляване на общия брой застрашени растителни видове за всяко семейство растения в Австралия. Името на файла за заявка Hive езастрашенPlantSpecies.qи е показано по-долу

ИЗБЕРЕТЕ семейство, БРОЙ (видове) КАТО number_of_endangered_species FROM заплашени_видове2 WHERE kingdom = 'Plantae' И 'заплашен статус' = 'Застрашен' GROUP BY family

4. Тази стъпка изброява научните наименования на изчезнали животински видове в австралийския щат Куинсланд. Файлът на скрипта се извиква extinctAnimalsQLD.q и е показано по-долу:

ИЗБЕРЕТЕ 'общо име', 'научно име' ОТ заплашен_вид WHERE царство = 'Animalia' И (qld = 'Да' ИЛИ ​​qld = 'Изчезнал') И 'заплашен статус' = 'Изчезнал'

Агрегиране на дневници

Тук също качихме JSON файл, наречен logAggregation.json в папката скриптове на сегмента S3. Използваме този файл за обобщаване на регистрационните файлове на YARN. Агрегирането на регистрационни файлове се конфигурира в конфигурационния файл yarn-site.xml, когато клъстерът се стартира. Съдържанието на файла logAggregation.json е както следва:

[{„Класификация“: „прежда-сайт“, „Свойства“: {„yarn.log-aggregation-enable“: „true“, „yarn.log-aggregation.retain-seconds“: „-1“, „прежда .nodemanager.remote-app-log-dir ”:“ s3: // arvind1-bucket / logs ”}}]

След като създадете сегмента S3 и копирате файловете с данни и скриптове в съответните им папки, сега е време да настроите EMR клъстер. Следващите моментни снимки описват процеса, докато създаваме клъстера с предимно настройки по подразбиране.

Настройка на EMR клъстер

В първото изображение, за да конфигурираме клъстера в конзолата AWS, ние запазихме всички приложения, препоръчани от EMR, включително Hive. Не е необходимо да използваме лепило AWS за съхраняване на метаданни на Hive, нито в момента добавяме стъпка на работа. Трябва обаче да добавим софтуерна настройка за Hive. Тук трябва внимателно да наблюдавате как ние посочваме пътя към JSON файла за агрегиране на журнали в това поле.

В следващата стъпка запазихме всички настройки по подразбиране. За целите на нашия тест клъстерът ще има един главен възел и два основни възела. Всеки възел тук е екземпляр m3.xlarge и има 10 GB корен обем. Ние именуваме клъстера arvind1-клъстер в следващата стъпка и посочваме потребителското местоположение s3 за неговите регистрационни файлове.

И накрая, посочихме двойка ключове EC2 с цел достъп до главния възел на клъстера. Няма промяна в ролите по подразбиране на IAM за EMR, EC2 профил на екземпляр и опции за автоматично мащабиране. Също така главният и основният възел използват по подразбиране наличните групи за сигурност. Обикновено това е настройка по подразбиране за EMR клъстер. След като всичко е готово, клъстерът е в състояние на „изчакване“, както е показано по-долу:

Изпратете стъпки за работа в кошера

След това трябва да разрешим SSH достъп.

  1. Отворете конзолата на Amazon EMR на https://console.aws.amazon.com/elasticmapreduce/ .
  2. Избирам Клъстери .
  3. Избери Име на клъстера.
  4. Под Сигурност и достъп Избери Групи за сигурност за Учителя връзка.
  5. Избирам ElasticMapReduce-master от списъка.
  6. Избирам Входящи , редактиране .
  7. Намерете правилото със следните настройки и изберете х икона, за да го изтриете:
    • Тип SSH
    • Порт 22.
    • Източник Потребителски 0.0.0.0/0
  8. Превъртете до края на списъка с правила и изберете Добавете правило .
  9. За Тип , изберете SSH Това автоматично влиза TCP за Протокол и 22. за Порт диапазон .
  10. За източник изберете Моят IP Това автоматично добавя IP адреса на вашия клиентски компютър като адрес на източника. Като алтернатива можете да добавите диапазон от Персонализиран доверени клиентски IP адреси и изберете да добавете правилото за създаване на допълнителни правила за други клиенти. В много мрежови среди разпределяте IP адресите динамично, така че може да се наложи периодично да редактирате правилата на групата за сигурност, за да актуализирате IP адреса на доверени клиенти.
  11. Избирам Запазете .
  12. По избор изберете ElasticMapReduce-slave от списъка и повторете стъпките по-горе, за да разрешите на SSH клиента достъп до ядра и възли на задачи от доверени клиенти.

Тъй като EMR клъстерът работи и работи, ние добавихме четири стъпки за работа. Това са стъпките, които EMR ще изпълнява една след друга. Следващото изображение показва стъпките от AWS EMR конзолата:

След като добавим четирите стъпки, можем да проверим състоянието на тези стъпки като завършени. Дори ако има някакъв проблем с изпълнението на тези стъпки, тогава в такива случаи той може да бъде решен с помощта на регистрационните файлове на тези стъпки.

използвайте python във визуално студио

Така че това е от моя страна в тази статия за Големи данни в AWS. Надявам се, че сте разбрали всичко, което обясних тук.

Ако откриете, че тези Големи данни в AWS са подходящи, можете да разгледате курса на Edureka на живо и ръководен от инструктори , създаден съвместно от специалисти в бранша.

Имате въпрос към нас? Моля, споменете го в раздела за коментари на това Как да разположим уеб приложението на Java в AWS и ние ще се свържем с вас.