Урок за големи данни: Всичко, което трябва да знаете за големите данни!



Този блог в Big Data Tutorial ви дава пълен преглед на Big Data, неговите характеристики, приложения, както и предизвикателствата с Big Data.

Урок за големи данни

Big Data, не сте ли чували този термин преди? Сигурен съм, че сте. През последните 4 до 5 години всички говорят за големите данни. Но знаете ли наистина какво точно представляват тези Големи данни, как оказва влияние върху живота ни и защо организациите търсят професионалисти с ? В този урок за големи данни ще ви дам пълна представа за големите данни.

По-долу са темите, които ще разгледам в този урок за големи данни:





  • История на големите данни
  • Фактори за управление на големи данни
  • Какво представляват големите данни?
  • Характеристики на големи данни
  • Видове големи данни
  • Примери за големи данни
  • Приложения на големи данни
  • Предизвикателства с големи данни

Урок за големи данни - Edureka

Позволете ми да започна този урок за големи данни с кратка история.



История на големите данни

В древни времена хората са пътували от едно село до друго село с каруца с кон, но с течение на времето селата се превръщат в градове и хората се разпространяват. Увеличава се и разстоянието за пътуване от единия до другия град. Така че стана проблем да пътувате между градовете, заедно с багажа. Изведнъж, един умен човек предложи, трябва да се грижим и да храним кон повече, за да разрешим този проблем. Когато гледам това решение, не е толкова лошо, но мислите ли, че кон може да стане слон? Не мисля така. Друг умен човек каза, че вместо 1 кон да тегли количката, нека имаме 4 коня, които да теглят същата количка. Какво мислите за това решение? Мисля, че е фантастично решение. Сега хората могат да пътуват на големи разстояния за по-малко време и дори да носят повече багаж.

каква е разликата между git и github

Същата концепция се отнася и за големите данни. Големите данни казват, че до днес бяхме добре да съхраняваме данните в нашите сървъри, защото обемът на данните беше доста ограничен и времето за обработка на тези данни също беше добре. Но сега в настоящия технологичен свят данните нарастват твърде бързо и хората разчитат на данните много пъти. Също така скоростта, с която данните нарастват, става невъзможно да се съхраняват данните в който и да е сървър.

Чрез този блог в Big Data Tutorial, нека изследваме източниците на Big Data, които традиционните системи не успяват да съхраняват и обработват.



Фактори за управление на големи данни

Количеството данни на планетата Земя нараства експоненциално по много причини. Различни източници и ежедневните ни дейности генерират много данни. С изобретяването на мрежата целият свят се е свързал онлайн, всяко нещо, което правим, оставя цифрова следа. С включването на интелигентните обекти в интернет скоростта на нарастване на данните се увеличи бързо. Основните източници на големи данни са сайтове за социални медии, сензорни мрежи, цифрови изображения / видеоклипове, мобилни телефони, записи за транзакции на покупки, уеб дневници, медицински записи, архиви, военно наблюдение, електронна търговия, сложни научни изследвания и т.н. Цялата тази информация се равнява на около няколко байта данни от Quintillion. До 2020 г. обемът на данните ще бъде около 40 зетабайта, което се равнява на добавяне на всяко отделно зърно пясък на планетата, умножено по седемдесет и пет.

Какво представляват големите данни?

Големите данни е термин, използван за събиране на масиви от данни, които са големи и сложни, което е трудно да се съхранява и обработва с помощта на налични инструменти за управление на база данни или традиционни приложения за обработка на данни. Предизвикателството включва улавяне, куриране, съхранение, търсене, споделяне, прехвърляне, анализ и визуализация на тези данни.

Характеристики на големи данни

Петте характеристики, които определят големите данни, са: Обем, Скорост, Разнообразие, Достоверност и Стойност.

  1. СИЛА НА ЗВУКА

    Обемът се отнася до „количеството данни“, което нараства с всеки ден с много бързи темпове. Размерът на данните, генерирани от хора, машини и техните взаимодействия в самите социални медии, е огромен. Изследователите прогнозират, че до 2020 г. ще бъдат генерирани 40 зетабайта (40 000 екзабайта), което е увеличение от 300 пъти спрямо 2005 г.

  2. СКОРОСТ

    Скоростта се определя като скоростта, с която различните източници генерират данните всеки ден. Този поток от данни е масивен и непрекъснат. Към момента има 1.03 милиарда активни ежедневни потребители (Facebook DAU) на мобилни устройства, което представлява увеличение от 22% спрямо предходната година. Това показва колко бързо нараства броят на потребителите в социалните медии и колко бързо се генерират данните ежедневно. Ако успеете да се справите със скоростта, ще можете да генерирате прозрения и да вземате решения въз основа на данни в реално време.

  3. СОРТЕ

    Тъй като има много източници, които допринасят за големите данни, видът данни, които генерират, е различен. Тя може да бъде структурирана, полуструктурирана или неструктурирана. Следователно има множество данни, които се генерират всеки ден. По-рано използвахме данните от Excel и бази данни, сега данните идват под формата на изображения, аудио, видео, сензорни данни и т.н., както е показано на изображението по-долу. Следователно това разнообразие от неструктурирани данни създава проблеми при събирането, съхранението, добива и анализа на данните.

  4. ВЕРИВНОСТ

    Достоверността се отнася до данните със съмнение или несигурност на наличните данни поради несъответствие и непълнота на данните. На изображението по-долу можете да видите, че в таблицата липсват малко стойности. Също така е трудно да се приемат няколко стойности, например - 15000 минимална стойност на 3-ти ред, не е възможно. Тази непоследователност и непълнота е достоверност.
    Наличните данни понякога могат да станат объркани и може би трудни за доверие. С много форми на големи данни качеството и точността са трудни за контролиране, като публикациите в Twitter с хаштагове, съкращения, грешки в печата и разговорна реч. Обемът често е причината за липсата на качество и точност в данните.

    • Поради несигурността на данните 1 на 3 бизнес лидери не вярват на информацията, която използват за вземане на решения.
    • В проучване беше установено, че 27% от анкетираните не са сигурни колко голяма част от данните им са неточни.
    • Лошото качество на данните струва на американската икономика около 3,1 трилиона долара годишно.
  5. СТОЙНОСТ

    След обсъждане на обем, скорост, разнообразие и достоверност, има още едно V, което трябва да се вземе предвид при разглеждане на големи данни, т.е. стойност. Всичко е добре и добре да имате достъп до голямотоданниноосвен ако не можем да го превърнем в стойност, е безполезно. Като го превръщам в стойност, имам предвид, добавя ли той към предимствата на организациите, които анализират големи данни? Организацията работи ли по големи данни, постигайки висока възвръщаемост на инвестициите (възвръщаемост на инвестициите)? Освен ако не добави към печалбите им, като работи върху големите данни, това е безполезно.

Прегледайте нашето видео за големи данни по-долу, за да научите повече за големите данни:

Урок за големи данни за начинаещи | Какво представляват големите данни | Едурека

Както беше обсъдено в Variety, има различни видове данни, които се генерират всеки ден. И така, нека сега разберем видовете данни:

Видове големи данни

Големите данни могат да бъдат от три вида:

  • Структуриран
  • Полуструктуриран
  • Неструктуриран

  1. Структуриран

    Данните, които могат да се съхраняват и обработват във фиксиран формат, се наричат ​​структурирани данни. Данните, съхранявани в релационна система за управление на база данни (RDBMS), са един пример за „структурирани“ данни. Лесно е да се обработват структурирани данни, тъй като има фиксирана схема. Структурираният език за заявки (SQL) често се използва за управление на такъв вид данни.

  2. Полуструктуриран

    Полуструктурираните данни са вид данни, които нямат формална структура на модел на данни, т.е. дефиниция на таблица в релационна СУБД, но въпреки това има някои организационни свойства като маркери и други маркери за отделяне на семантични елементи, което улеснява да анализира. XML файловете или JSON документите са примери за полуструктурирани данни.

  3. Неструктуриран

    Данните, които имат неизвестна форма и не могат да се съхраняват в RDBMS и не могат да бъдат анализирани, освен ако не се трансформират в структуриран формат, се наричат ​​неструктурирани данни. Текстовите файлове и мултимедийното съдържание като изображения, аудио, видео са пример за неструктурирани данни. Неструктурираните данни растат по-бързо от други, експертите казват, че 80 процента от данните в дадена организация са неструктурирани.

Досега току-що разгледах въвеждането на Големите данни. Освен това, този урок за големи данни говори за примери, приложения и предизвикателства в Big Data.

Примери за големи данни

Ежедневно качваме милиони байтове данни. 90% от световните данни са създадени през последните две години.

  • Walmart се справя с повече от 1 милион клиентски транзакции на всеки час.
  • Facebook съхранява, осъществява достъп и анализи 30+ петабайта на генерирани от потребителя данни.
  • 230+ милиона от туитове се създават всеки ден.
  • Повече от 5 милиарда хората се обаждат, изпращат съобщения, чуруликат и сърфират по мобилни телефони по целия свят.
  • Потребителите на YouTube качват 48 часа на ново видео всяка минута от деня.
  • Amazon дръжки 15 милиона клиент клик потока потребителски данни на ден, за да препоръча продукти.
  • 294 милиарда имейлите се изпращат всеки ден. Услугите анализират тези данни, за да намерят спама.
  • Съвременните автомобили имат близо до 100 сензора който следи нивото на горивото, налягането в гумите и т.н., всяко превозно средство генерира много данни от сензора.

Приложения на големи данни

Не можем да говорим за данни, без да говорим за хората, хората, които се възползват от приложенията за големи данни. Почти всички индустрии в днешно време използват приложенията за големи данни по един или друг начин.

  • По-интелигентно здравеопазване : Използвайки петабайтите от данните на пациента, организацията може да извлече значима информация и след това да изгради приложения, които могат да предвидят предварително влошеното състояние на пациента.
  • Телеком : Телеком секторите събират информация, анализират я и предоставят решения на различни проблеми. Използвайки приложенията за големи данни, телекомуникационните компании са успели значително да намалят загубата на пакети данни, която се случва, когато мрежите са претоварени и по този начин осигуряват безпроблемна връзка на своите клиенти.
  • На дребно : Търговията на дребно има едни от най-тесните маржове и е един от най-големите бенефициенти на големи данни. Красотата на използването на големи данни в търговията на дребно е да се разбере поведението на потребителите. Препоръчващият механизъм на Amazon предоставя предложения въз основа на историята на сърфиране на потребителя.
  • Контрол на трафика : Натовареността на трафика е основно предизвикателство за много градове в световен мащаб. Ефективното използване на данни и сензори ще бъде от ключово значение за по-доброто управление на трафика, тъй като градовете стават все по-гъсто населени.
  • производство : Анализът на големи данни в производствената индустрия може да намали дефектите на компонентите, да подобри качеството на продукта, да увеличи ефективността и да спести време и пари.
  • Качество на търсене : Всеки път, когато извличаме информация от google, генерираме едновременно данни за нея. Google съхранява тези данни и ги използва, за да подобри качеството си на търсене.

Някой с право каза: „Не всичко в градината е розово!“ . Досега в този урок за големи данни току-що ви показах розовата картина на големите данни. Но ако беше толкова лесно да се използват големи данни, не смятате ли, че всички организации биха инвестирали в тях? Позволете ми да ви кажа предварително, това не е така. Има няколко предизвикателства, които се появяват, когато работите с големи данни.

След като вече сте запознати с големите данни и различните му функции, следващият раздел на този блог в Урок за големи данни ще хвърли малко светлина върху някои от основните предизвикателства, пред които са изправени големите данни.

Предизвикателства с големи данни

Позволете ми да ви кажа няколко предизвикателства, които идват заедно с големите данни:

  1. Качество на данните - Проблемът тук е 4-тетиV т.е. верност. Данните тук са много разхвърляни, непоследователни и непълни. Мръсните данни струват на компаниите 600 милиарда долара всяка година в САЩ.
  1. Откритие - Намирането на прозрения за големите данни е като намирането на игла в купа сено. Анализирането на петабайтове данни с помощта на изключително мощни алгоритми за намиране на модели и прозрения е много трудно.
  1. Съхранение - Колкото повече данни има една организация, толкова по-сложни могат да станат проблемите при управлението ѝ. Въпросът, който възниква тук, е „Къде да го съхранявам?“. Нуждаем се от система за съхранение, която лесно може да се увеличи или намали при поискване.
  1. Анализ - В случая с големи данни, през повечето време не сме наясно с вида данни, с които работим, така че анализът на тези данни е още по-труден.
  1. Сигурност - Тъй като данните са огромни по размер, поддържането им в безопасност е друго предизвикателство. Включва удостоверяване на потребителя, ограничаване на достъпа въз основа на потребител, запис на истории за достъп до данни, правилно използване на криптиране на данни и т.н.
  1. Липса на талант - Има много проекти за големи данни в големи организации, но сложният екип от разработчици, изследователи на данни и анализатори, които също имат достатъчно количество знания за домейн, все още е предизвикателство.

Hadoop за спасяване

Имаме спасител за справяне с предизвикателствата на големите данни - неговите Hadoop . Hadoop е програма за програмиране, базирана на Java, с отворен код, която поддържа съхранението и обработката на изключително големи масиви от данни в разпределена изчислителна среда. Той е част от проекта Apache, спонсориран от Apache Software Foundation.

Java се променя двойно на int

Hadoop със своята разпределена обработка обработва големи обеми от структурирани и неструктурирани данни по-ефективно от традиционното хранилище за корпоративни данни. Hadoop дава възможност за стартиране на приложения в системи с хиляди стокови хардуерни възли и за обработка на хиляди терабайта данни. Организациите приемат Hadoop, защото той е софтуер с отворен код и може да работи със стоков хардуер (вашия персонален компютър).Първоначалните икономии на разходи са драматични, тъй като стоковият хардуер е много евтин. Тъй като организационните данни се увеличават, трябва да добавяте повече и повече стоков хардуер в движение, за да ги съхранявате и следователно, Hadoop се оказва икономичен.Освен това Hadoop има стабилна общност на Apache зад себе си, която продължава да допринася за напредъка му.

Както обещах по-рано, чрез този блог в Урок за големи данни ви дадох максимална информация в Big Data. Това е краят на урока за големи данни. Следващата стъпка напред е да опознаете и научите Hadoop. Ние имаме поредица от уроци по Hadoop блогове, които ще дадат подробно познания за цялостната екосистема на Hadoop.

Всичко най-добро, Честит хадопинг!

След като разбрахте какво е Big Data, разгледайте от Edureka, доверена компания за онлайн обучение с мрежа от над 250 000 доволни учащи, разпространени по целия свят. Курсът за обучение по сертифициране на големи данни Hadoop на Edureka помага на обучаващите се да станат експерти в HDFS, прежди, MapReduce, Pig, Hive, HBase, Oozie, Flume и Sqoop, като използват случаи в реално време за търговия на дребно, социални медии, авиация, туризъм, финанси.

Имате въпрос към нас? Моля, споменете го в раздела за коментари и ние ще се свържем с вас.

Подобни публикации: