С навлизането на света в ерата на големите данни необходимостта от тяхното съхранение също нараства. Това беше основното предизвикателство и загриженост за корпоративните индустрии до 2010 г. Основният фокус беше върху изграждането на рамка и решения за съхранение на данни. Сега, когато Hadoop и други рамки успешно решиха проблема със съхранението, фокусът се измести към обработката на тези данни. Data Science е тайният сос тук. Всички идеи, които виждате в холивудските научно-фантастични филми, всъщност могат да се превърнат в реалност от Data Science. Data Science е бъдещето на изкуствения интелект. Ето защо е много важно да разберете какво е Data Science и как може да добави стойност към вашия бизнес.
Edureka 2019 Tech Ръководство за кариера излезе! Най-горещите работни роли, прецизни учебни пътеки, перспективи за индустрията и други в ръководството. Изтегли сега.В този блог ще разглеждам следните теми.
- Какво е Data Science?
- Защо Data Science?
- Кой е Data Scientist?
- По какво се различава от Business Intelligence (BI) и Data Science?
- Жизненият цикъл на Data Science с помощта на случай на употреба
До края на този блог ще можете да разберете какво представлява Data Science и каква е ролята му за извличане на значими прозрения от сложните и големи набори от данни навсякъде около нас.За да получите задълбочени познания по Data Science, можете да се запишете на живо от Edureka с денонощна поддръжка и доживотен достъп.
Какво е Data Science?
Data Science е комбинация от различни инструменти, алгоритми и принципи на машинното обучение с цел откриване на скрити модели от суровите данни. Но как това се различава от това, което статистиците правят от години?
Отговорът се крие в разликата между обяснението и прогнозирането.
Както можете да видите от горното изображение, анализатор на данниобикновено обяснява какво се случва чрез обработка на историята на данните. От друга страна, Data Scientist не само прави изследователския анализ, за да открие прозрения от него, но също така използва различни усъвършенствани алгоритми за машинно обучение, за да идентифицира появата на определено събитие в бъдеще. Учен по данни ще разгледа данните от много ъгли, понякога ъгли, неизвестни по-рано.
разлика между готвач и кукла
Така че Data Science се използва предимно за вземане на решения и прогнози, като се използват прогнозни причинно-следствени анализи, предписателни анализи (предсказуеми плюс научни решения) и машинно обучение.
- Предсказуем причинно-следствен анализ - Ако искате модел, който може да предсказва възможностите на конкретно събитие в бъдеще, трябва да приложите прогнозен причинно-следствен анализ. Да речем, ако предоставяте пари на кредит, тогава вероятността клиентите да извършват бъдещи плащания на кредит навреме е въпрос, който ви притеснява. Тук можете да изградите модел, който може да извършва прогнозен анализ на историята на плащанията на клиента, за да се предскаже дали бъдещите плащания ще бъдат навреме или не.
- Анализ на предписанията: Ако искате модел, който има интелигентността да взема свои собствени решения и способността да го модифицира с динамични параметри, със сигурност се нуждаете от предписан анализ за него. Това относително ново поле е свързано с предоставяне на съвети. С други думи, той не само предсказва, но и предлага набор от предписани действия и свързани резултати.
Най-добрият пример за това е самоуправляващата се кола на Google, която също бях обсъждал по-рано. Данните, събрани от превозни средства, могат да се използват за обучение на самоуправляващи се автомобили. Можете да стартирате алгоритми върху тези данни, за да внесете интелигентност в тях. Това ще позволи на колата ви да взема решения като кога да завие, по кой път да поеме,кога да се забави или ускори.
- Машинно обучение за изготвяне на прогнози - Ако имате данни за транзакции на финансова компания и трябва да изградите модел за определяне на бъдещата тенденция, тогава алгоритмите за машинно обучение са най-добрият залог. Това попада под парадигмата на контролираното обучение. Нарича се контролиран, защото вече разполагате с данните, въз основа на които можете да обучавате вашите машини. Например, модел за откриване на измами може да бъде обучен, използвайки исторически запис на измамни покупки.
- Машинно обучение за откриване на шаблони - Ако нямате параметрите, въз основа на които можете да правите прогнози, тогава трябва да откриете скритите модели в набора от данни, за да можете да правите значими прогнози. Това не е нищо друго, освен модела без надзор, тъй като нямате предварително дефинирани етикети за групиране. Най-често използваният алгоритъм, използван за откриване на шаблони, е клъстерирането.
Да предположим, че работите в телефонна компания и трябва да създадете мрежа, като поставите кули в даден регион. След това можете да използвате техниката на клъстериране, за да намерите онези места на кулите, които ще гарантират, че всички потребители получават оптимална сила на сигнала.
Нека да видим как се различава делът на гореописаните подходи за Анализ на данни, както и Data Science. Както можете да видите на изображението по-долу, Анализ на даннивключва до известна степен описателен анализ и прогнозиране. От друга страна, Data Science се занимава повече с предсказуема причинно-следствена аналитика и машинно обучение.
Сега, след като знаете какво точно е Data Science, нека сега разберем причината, поради която е била необходима на първо място.
Защо Data Science?
- Традиционно данните, които имахме, бяха предимно структурирани и с малък размер, които могат да бъдат анализирани с помощта на прости BI инструменти.За разлика от данните втрадиционни системи, която беше предимно структурирана, днес по-голямата част от данните са неструктурирани или полуструктурирани. Нека да разгледаме тенденциите в данните в изображението, дадено по-долу, което показва, че до 2020 г. повече от 80% от данните ще бъдат неструктурирани.
Тези данни се генерират от различни източници като финансови журнали, текстови файлове, мултимедийни формуляри, сензори и инструменти. Простите BI инструменти не са в състояние да обработват този огромен обем и разнообразие от данни. Ето защо се нуждаем от по-сложни и усъвършенствани аналитични инструменти и алгоритми за обработка, анализ и извличане на значими прозрения от тях.
Това не е единствената причина Data Science да стане толкова популярна. Нека да се задълбочим и да видим как се използва науката за данни в различни домейни.
- Какво ще кажете, ако можете да разберете точните изисквания на вашите клиенти от съществуващите данни като миналата история на сърфиране на клиента, история на покупките, възраст и доходи. Без съмнение сте имали всички тези данни и по-рано, но сега с огромното количество и разнообразие от данни можете да обучавате модели по-ефективно и да препоръчвате продукта на клиентите си с по-голяма точност. Не би ли било невероятно, тъй като ще донесе повече бизнес на вашата организация?
- Нека вземем различен сценарий, за да разберем ролята на Data Science в вземане на решение.Какво ще кажете, ако колата ви е имала интелигентността да ви откара до дома? Самоуправляващите се автомобили събират данни на живо от сензори, включително радари, камери и лазери, за да създадат карта на заобикалящата го среда. Въз основа на тези данни той взема решения като кога да ускори, кога да ускори, кога да изпревари, къде да вземе завой - използвайки усъвършенствани алгоритми за машинно обучение.
- Нека да видим как Data Science може да се използва в прогностичния анализ. Да вземем за пример прогнозата за времето. Данните от кораби, самолети, радари, спътници могат да бъдат събрани и анализирани за изграждане на модели. Тези модели не само ще прогнозират времето, но и ще помогнат при прогнозирането на появата на природни бедствия. Това ще ви помогне да вземете предварително подходящи мерки и да спасите много ценни животи.
Нека да разгледаме инфографиката по-долу, за да видим всички домейни, в които Data Science създава впечатление.
Кой е Data Scientist?
Има няколко дефиниции за Data Scientist. С прости думи, Data Scientist е този, който практикува изкуството на Data Science.Терминът „Data Scientist” е билизмислен, след като е взел предвид факта, че Data Scientist черпи много информация от научните области и приложения, независимо дали става въпрос за статистика или математика.
Какво прави Data Scientist?
Учените за данни са тези, които разбиват сложни проблеми с данните със силния си опит в определени научни дисциплини. Те работят с няколко елемента, свързани с математиката, статистиката, компютърните науки и т.н. (въпреки че може да не са експерти във всички тези области).Те използват много най-новите технологии за намиране на решения и достигане до заключения, които са от решаващо значение за растежа и развитието на организацията. Учените за данни представят данните в много по-полезна форма в сравнение с необработените данни, които са им на разположение от структурирани, както и от неструктурирани форми.
За да научите повече за Data Scientist, можете да се обърнете към тази статия на
Продължавайки напред, нека сега обсъдим BI. Сигурен съм, че и вие сте чували за Business Intelligence (BI). Често Data Science се бърка с BI. Ще заявя няколко кратки и ясниконтрасти между двете, което ще ви помогне да получите по-добро разбиране. Нека погледнем.
Business Intelligence (BI) срещу Data Science
- Business Intelligence (BI) основно анализира предишните данни, за да намери обратна връзка и прозрение, за да опише бизнес тенденциите. Тук BI ви позволява да вземате данни от външни и вътрешни източници, да ги подготвяте, да изпълнявате заявки върху тях и да създавате табла за управление, за да отговаряте на въпроси катотримесечен анализ на приходитеили бизнес проблеми. BI може да оцени въздействието на определени събития в близко бъдеще.
- Data Science е по-перспективен подход, изследователски начин с фокус върху анализ на минали или настоящи данни и прогнозиране на бъдещите резултати с цел вземане на информирани решения. Той отговаря на отворените въпроси относно „какво“ и „как“ се случват събитията.
Нека да разгледаме някои контрастни характеристики.
Характеристика | Бизнес разузнаване (BI) | Наука за данните |
Източници на данни | Структуриран (Обикновено SQL, често Хранилище на данни) | Както структурирани, така и неструктурирани (дневници, данни в облак, SQL, NoSQL, текст) |
Приближаване | Статистика и визуализация | Статистика, машинно обучение, анализ на графики, невролингвистично програмиране (НЛП) |
Фокус | Минало и настояще | Настояще и бъдеще |
Инструменти | Пентахо, Microsoft BI,QlikView, R | RapidMiner, BigML, Weka, R |
Всичко беше свързано с това, което е Data Science, сега нека разберем жизнения цикъл на Data Science.
Често срещана грешка в проектите за Data Science е бързането към събиране и анализ на данни, без да се разбират изискванията или дори да се формулира правилно бизнес проблемът. Ето защо е много важно за вас да следвате всички фази през целия жизнен цикъл на Data Science, за да осигурите безпроблемното функциониране на проекта.
Жизнен цикъл на науката за данни
Ето кратък преглед на основните фази на жизнения цикъл на науката за данни:
Фаза 1 - Откриване: Преди да започнете проекта, е важно да разберете различните спецификации, изисквания, приоритети и необходимия бюджет. Трябва да притежавате способността да задавате правилните въпроси.Тук вие преценявате дали разполагате с необходимите ресурси по отношение на хората, технологията, времето и данните в подкрепа на проекта.В тази фаза вие също трябва да формулирате бизнес проблема и да формулирате първоначални хипотези (IH) за тестване.
Фаза 2 - Подготовка на данните: На тази фаза ви е необходим аналитичен пясъчник, в който можете да извършвате анализи за цялото времетраене на проекта. Трябва да проучите, предварително обработите и обработите данните преди моделирането. Освен това ще извършите ETLT (извличане, преобразуване, зареждане и преобразуване), за да получите данни в пясъчника. Нека да разгледаме потока от статистически анализ по-долу.
Можете да използвате R за почистване на данни, трансформация и визуализация. Това ще ви помогне да забележите отклоненията и да установите връзка между променливите.След като изчистите и подготвите данните, е време да извършите проучванеаналитикавърху него. Нека да видим как можете да постигнете това.
Фаза 3 - Планиране на модел: Тук ще определите методите и техниките за изчертаване на връзките между променливите.Тези взаимоотношения ще зададат основата за алгоритмите, които ще внедрите в следващата фаза.Ще приложите Аналитичен анализ на данни (EDA), използвайки различни статистически формули и инструменти за визуализация.
Нека да разгледаме различни инструменти за планиране на модели.
- R има пълен набор от възможности за моделиране и осигурява добра среда за изграждане на интерпретативни модели.
- Услуги за анализ на SQL може да извършва анализ в базата данни, използвайки общи функции за извличане на данни и основни модели за прогнозиране.
- SAS / ДОСТЪП може да се използва за достъп до данни от Hadoop и се използва за създаване на повторяеми и повторно използвани моделни диаграми на потока.
Въпреки че на пазара присъстват много инструменти, но R е най-често използваният инструмент.
След като сте разбрали същността на вашите данни и сте решили алгоритмите да бъдат използвани. На следващия етап ще го направитеПриложиалгоритъма и изграждане на модел.
Фаза 4 - Изграждане на модел: На тази фаза ще разработите набори от данни с цел обучение и тестване. Тук уТрябва да помислите дали вашите съществуващи инструменти ще бъдат достатъчни за стартиране на моделите или ще се нуждаят от по-стабилна среда (като бърза и паралелна обработка). Ще анализирате различни техники на обучение като класификация, асоцииране и групиране, за да изградите модела.
Можете да постигнете изграждане на модел чрез следните инструменти.
Фаза 5 - Експлоатация: На тази фаза вие предоставяте окончателни доклади, брифинги, код и технически документи.Освен това, понякога пилотен проект се изпълнява и в производствена среда в реално време. Това ще ви даде ясна представа за производителността и други свързани ограничения в малък мащаб преди пълното внедряване.
Фаза 6 - Съобщаване на резултати: Сега е важно да прецените дали сте успели да постигнете целта си, която сте планирали през първата фаза. И така, в последната фаза вие идентифицирате всички ключови констатации, комуникирате със заинтересованите страни и определяте дали резултатитена проекта са успех или неуспех въз основа на критериите, разработени във Фаза 1.
Сега ще взема казус, за да ви обясня различните фази, описани по-горе.
Казус: Превенция на диабета
Ами ако можем да предскажем появата на диабет и да предприемем подходящи мерки предварително, за да го предотвратим?
В този случай ще предскажем появата на диабет, като използваме целия жизнен цикъл, който обсъдихме по-рано. Нека да преминем през различните стъпки.
Етап 1:
- Първо,ние ще събираме данните въз основа на медицинската историяна пациента, както е обсъдено във Фаза 1. Можете да се обърнете към примерните данни по-долу.
- Както можете да видите, имаме различните атрибути, както е споменато по-долу.
Атрибути:
- npreg - Брой пъти бременност
- глюкоза - плазмена концентрация на глюкоза
- bp - Кръвно налягане
- кожа - Дебелина на кожата на трицепса
- bmi - Индекс на телесна маса
- ped - функция на родословието на диабета
- възраст - Възраст
- доход - доход
Стъпка 2:
- Сега, след като разполагаме с данните, трябва да ги почистим и подготвим за анализ на данните.
- Тези данни имат много несъответствия като липсващи стойности, празни колони, резки стойности и неправилен формат на данните, които трябва да бъдат почистени.
- Тук сме организирали данните в една таблица под различни атрибути - правейки я да изглежда по-структурирана.
- Нека да разгледаме примерните данни по-долу.
Тези данни имат много несъответствия.
- В колоната npreg , „One“ е написано надуми,като има предвид, че трябва да е в числова форма като 1.
- В колона bp една от стойностите е 6600, което е невъзможно (поне за хората) тъй като bp не може да достигне до такава огромна стойност.
- Както можете да видите Доход колоната е празна и също няма смисъл да се предсказва диабет. Следователно е излишно да го имате тук и трябва да бъде премахнат от таблицата.
- Така че, ние ще почистим и обработим предварително тези данни, като премахнем отклоненията, попълним нулевите стойности и нормализираме типа данни. Ако си спомняте, това е втората ни фаза, която е предварителна обработка на данни.
- Накрая получаваме чистите данни, както е показано по-долу, които могат да се използват за анализ.
Стъпка 3:
Сега нека направим анализ, както беше обсъдено по-рано във Фаза 3.
- Първо ще заредим данните в аналитичния пясъчник и ще приложим различни статистически функции върху него. Например, R има функции като описва което ни дава броя на липсващите стойности и уникални стойности. Можем да използваме и обобщаващата функция, която ще ни даде статистическа информация като средни, медиана, диапазон, минимални и максимални стойности.
- След това използваме техники за визуализация като хистограми, линейни графики, графики на полета, за да получим честна представа за разпределението на данните.
Стъпка 4:
Сега, въз основа на прозрения, получени от предишната стъпка, най-подходящото за този вид проблем е дървото на решенията. Да видим как?
- Тъй като вече имаме основните атрибути за анализ като npreg, bmi и т.н., така че ще използвамеконтролирана техника на обучение за изграждане намодел тук.
- Освен това, ние специално използвахме дървото за решения, тъй като то взема под внимание всички атрибути едновременно, като тези, които имат aлинейна връзка, както и тези, които имат нелинейна връзка. В нашия случай имаме линейна връзка между npreg и възраст, като има предвид, че нелинейната връзка между npreg и пед .
- Моделите на дърветата за решения също са много здрави, тъй като можем да използваме различната комбинация от атрибути, за да направим различни дървета и след това накрая да приложим този с максимална ефективност.
Нека да разгледаме нашето дърво за решения.
Тук най-важният параметър е нивото на глюкозата, така че това е нашият основен възел. Сега текущият възел и неговата стойност определят следващия важен параметър, който трябва да се вземе. Продължава, докато не получим резултата от поз или нег . Поз означава, че тенденцията за диабет е положителна, а отрицанието означава, че тенденцията за диабет е отрицателна.
Ако искате да научите повече за изпълнението на дървото за решения, направете справка в този блог
Стъпка 5:
На тази фаза ще стартираме малък пилотен проект, за да проверим дали нашите резултати са подходящи. Също така ще търсим ограничения за производителността, ако има такива. Ако резултатите не са точни, тогава трябва да препланираме и възстановим модела.
Стъпка 6:
След като изпълним проекта успешно, ще споделим резултата за пълно разгръщане.
Да си учен по данни е по-лесно да се каже, отколкото да се направи. Така че, нека да видим какво ви е необходимо, за да бъдете изследовател на данни.Ученият по данни изисква основно уменияот три основни области, както е показано по-долу.
Както можете да видите на горното изображение, трябва да придобиете различни твърди умения и меки умения. Трябва да си добър в статистика и математика да анализира и визуализира данни. Излишно да се каже, Машинно обучение формира сърцето на Data Science и изисква от вас да сте добри в това. Освен това трябва да имате солидно разбиране за домейн работите, за да разберете ясно бизнес проблемите. Вашата задача не свършва дотук. Трябва да можете да прилагате различни алгоритми, които изискват добро кодиране умения. И накрая, след като сте взели определени ключови решения, за вас е важно да ги предоставите на заинтересованите страни. Толкова добър комуникация определено ще добави точки за брауни към вашите умения.
Призовавам ви да видите този видео урок за Data Science, който обяснява какво е Data Science и всичко, което обсъдихме в блога. Продължете, насладете се на видеото и ми кажете какво мислите.
Какво е наука за данните? Курс по наука за данни - Урок за наука за данни за начинаещи | Едурека
Това видео на курса за наука за данни на Edureka ще ви преведе през необходимостта от наука за данните, какво е наука за данни, случаи на използване на наука за данни за бизнес, BI срещу наука за данни, инструменти за анализ на данни, жизнен цикъл на науката за данни, заедно с демо
В крайна сметка няма да е погрешно да се каже, че бъдещето принадлежи на Data Scientist. Прогнозира се, че до края на 2018 г. ще има нужда от около един милион учени по данни. Все повече данни ще предоставят възможности за водене на ключови бизнес решения. Скоро ще промени начина, по който гледаме на света, затрупан с данни около нас. Следователно, Data Scientist трябва да бъде висококвалифициран и мотивиран да решава най-сложните проблеми.
Надявам се, че ви е харесало да четете моя блог и сте разбрали какво е Data Science.Вижте нашите тук това идва с инструкторско обучение на живо и опит в реалния живот на проекти.