Урок за наука за данни - Научете науката за данни от нулата!



Този урок за Data Science е идеален за тези, които търсят преминаване към домейн Data Science. Той включва всички основни елементи на Data Science с кариера.

Искате ли да започнете кариерата си като Data Scientist, но не знаете откъде да започнете? Вие сте на точното място! Хей, момчета, добре дошли в този страхотен блог с урок за наука за данни, той ще ви даде старт в света на науката за данни. За да получите задълбочени познания по Data Science, можете да се запишете на живо от Edureka с денонощна поддръжка и доживотен достъп. Нека да разгледаме какво ще научим днес:

    1. Защо Data Science?
    2. Какво е Data Science?
    3. Кой е Data Scientist?
    4. Тенденции в работата
    5. Как да решим проблем в Data Science?
    6. Компоненти на науката за данни
    7. Роли на длъжността на учен по данни





Защо Data Science?

Казано е, че Data Scientist е „най-сексапилната работа на 21-ви век“. Защо? Защото през последните няколко години компаниите съхраняват своите данни. И това, което се прави от всяка компания, изведнъж доведе до експлозия на данни. Данните се превърнаха в най-разпространеното нещо днес.

Но какво ще направите с тези данни? Нека разберем това, като използваме пример:



Да речем, имате компания, която произвежда мобилни телефони. Пуснахте първия си продукт и той се превърна в огромен хит. Всяка технология има живот, нали? И така, сега е време да измислим нещо ново. Но не знаете какво трябва да бъде нововъведено, за да отговорите на очакванията на потребителите, които с нетърпение очакват следващата ви версия?

Някой във вашата компания излиза с идея да използва генерираната от потребителя обратна връзка и да избере неща, които според нас потребителите очакват в следващото издание.

Идва в науката за данни, вие прилагате различни техники за извличане на данни като анализ на настроенията и т.н. и получавате желаните резултати.



Не само това, можете да вземете по-добри решения, можете да намалите производствените си разходи, като излезете с ефективни начини и да дадете на клиентите си това, което всъщност искат!

С това има безброй предимства, до които може да доведе Data Science и следователно стана абсолютно необходимо вашата компания да има екип за Data Science.Изисквания като тези доведоха до „Наука за данните“ като тема днес и следователно ние пишем този блог в Урок за наука за данни за вас. :)

Урок за науката за данните: Какво е наука за данните?

Терминът Data Science се появи наскоро с развитието на математическата статистика и анализа на данните. Пътуването беше невероятно, постигнахме толкова много днес в областта на науката за данни.

През следващите няколко години ще можем да предскажем бъдещето, както твърдят изследователи от MIT. Те вече са достигнали крайъгълен камък в предсказването на бъдещето със своите страхотни изследвания. Сега те могат да предскажат какво ще се случи в следващата сцена на филм, с тяхната машина! Как Е, може да ви е малко сложно да разберете отсега, но не се притеснявайте до края на този блог, ще имате отговор и на това.

Връщайки се назад, говорихме за науката за данни, тя е известна още като наука, управлявана от данни, която използва научни методи, процеси и системи за извличане на знания или прозрения от данни в различни форми, т.е. структурирани или неструктурирани

Какви са тези методи и процеси, е това, което ще обсъдим в този урок за наука за данни днес.

Продължавайки напред, кой прави всичко това с мозъчна атака или кой практикува Data Science? A Data Scientist .

Кой е Data Scientist?

Както можете да видите на изображението, Data Scientist е капитанът на всички занаяти! Той трябва да владее математика, да действа в сферата на бизнеса и да притежава страхотни умения за компютърни науки. Уплашен? Не бъдете. Въпреки че трябва да сте добри във всички тези области, но дори и да не сте, не сте сами! Няма такова нещо като „пълен учен за данни“. Ако говорим за работа в корпоративна среда, работата се разпределя между екипи, където всеки екип има своя собствена експертиза. Работата е там, че трябва да сте владеещи поне едно от тези полета. Освен това, дори тези умения да са ви нови, охладете се! Може да отнеме време, но тези умения могат да се развият и повярвайте ми, струва си времето, което ще инвестирате. Защо? Е, нека да разгледаме тенденциите в работата.

какво е контекстният филтър в таблицата

Тенденции за работа на учен по данни

Е, графиката казва всичко, не само има много работни места за учен по данни, но и работните места са добре платени! И не, нашият блог няма да покрива цифрите за заплатите, отидете в Google!

Е, сега знаем, че изучаването на наука за данни всъщност има смисъл не само защото е много полезно, но и в близко бъдеще имате страхотна кариера в него.

Нека започнем нашето пътуване в изучаването на наука за данни сега и да започнем с,

Как да решим проблем в Data Science?

Така че сега, нека обсъдим как трябва да се подходи към даден проблем и да се реши с помощта на науката за данните. Проблемите в науката за данни се решават с помощта на алгоритми. Но най-голямото нещо, което трябва да се прецени, е кой алгоритъм да се използва и кога да се използва?

По принцип има 5 вида проблеми, с които можете да се сблъскате в науката за данни.

Нека разгледаме всеки един от тези въпроси и свързаните с тях алгоритми един по един:

Това A или B е?

С този въпрос ние се позоваваме на проблеми, които имат категоричен отговор, тъй като при проблеми, които имат фиксирано решение, отговорът може да бъде да или не, 1 или 0, заинтересовани, може би или не заинтересовани.

Например:

В. Какво ще пиете, чай или кафе?

Тук не можете да кажете, че искате кока-кола! Тъй като въпросът предлага само чай или кафе и следователно можете да отговорите на един от тях.

Когато имаме само два вида отговори, т.е. да или не, 1 или 0, това се нарича 2 - Класификация на класа. С повече от две опции се нарича Multi Class Classification.

В заключение, когато попаднете на въпроси, отговорът на които е категоричен, в Data Science ще решавате тези проблеми, използвайки алгоритми за класификация.

Следващият проблем в този урок за наука за данни, който може да срещнете, може би нещо подобно,

Странно ли е това?

Въпроси като тези се занимават с модели и могат да бъдат решени с помощта на алгоритми за откриване на аномалии.

Например:

Опитайте да свържете проблема „това странно ли е?“ към тази диаграма,

Какво е странно в горния модел? Червеният човек, нали?

Всеки път, когато има прекъсване на модела, алгоритъмът отбелязва това конкретно събитие, за да го прегледаме. Приложението на този алгоритъм в реалния свят е внедрено от компаниите с кредитни карти, при които всяка необичайна транзакция от потребител е маркирана за преглед. Следователно прилагане на сигурността и намаляване на човешкото усилие за наблюдение.

Нека да разгледаме следващия проблем в този урок за наука за данни, не се страхувайте, занимания с математика!

Колко или колко?

Онези от вас, които не обичат математиката, да се успокоят! Алгоритмите за регресия са тук!

Така че, винаги, когато има проблем, който може да поиска цифри или цифрови стойности, ние го решаваме, използвайки алгоритми за регресия.

Например:

Каква ще бъде температурата за утре?

Тъй като очакваме числова стойност в отговора на този проблем, ще го решим, използвайки алгоритми за регресия.

Придвижвайки се в този урок за наука за данни, нека обсъдим следващия алгоритъм,

Как е организирано това?

Кажете, че имате някои данни, сега нямате никаква идея как да разберете от тези данни. Оттук и въпросът, как е организирано това?

Е, можете да го разрешите с помощта на клъстериращи алгоритми. Как решават тези проблеми? Да видим:

Клъстериращите алгоритми групират данните по общи характеристики. Например в горната диаграма точките са организирани въз основа на цветовете. По същия начин, независимо дали става въпрос за данни, алгоритмите за клъстериране се опитват да схванат общото между тях и следователно да ги „групират“ заедно.

Следващият и последен вид проблем в този урок за наука за данни, който може да срещнете, е,

Какво да направя по-нататък?

Всеки път, когато срещнете проблем, при който компютърът ви трябва да вземе решение въз основа на обучението, което сте му дали, това включва алгоритми за подсилване.

Например:

Вашата система за контрол на температурата, когато трябва да реши дали да понижи температурата в помещението, или да я повиши.

Как работят тези алгоритми?

Тези алгоритми се основават на човешката психология. Харесва ни да бъдем оценени, нали? Компютрите прилагат тези алгоритми и очакват да бъдат оценени при обучение. Как Да видим.

обръщане на номер в java

Вместо да обучавате компютъра какво да прави, вие го оставяте да реши какво да прави и в края на това действие давате или положителна, или отрицателна обратна връзка. Следователно, вместо да дефинирате кое е правилно и кое не е във вашата система, вие оставяте вашата система да „решава“ какво да прави и накрая давате обратна връзка.

Това е точно като да тренирате кучето си. Не можете да контролирате какво прави вашето куче, нали? Но можете да му се скарате, когато сгреши. По същия начин, може би да го потупате по гърба, когато направи това, което се очаква.

Нека приложим това разбиране в горния пример, представете си, че тренирате системата за контрол на температурата, така че когато не. от хората в стаята се увеличават, системата трябва да предприеме действие. Или понижете температурата, или я увеличете. Тъй като нашата система не разбира нищо, тя взема случайно решение, да предположим, че повишава температурата. Следователно вие давате отрицателна обратна връзка. С това компютърът разбира, когато броят на хората се увеличава в стаята, никога не повишава температурата.

По същия начин за други действия, вие ще дадете обратна връзка.С всяка обратна връзка вашата система се учи и следователно става по-точна при следващото си решение, този тип обучение се нарича Укрепващо обучение.

Сега алгоритмите, които научихме по-горе в този урок за наука за данни, включват обща „учебна практика“. Ние караме машината да се учи, нали?

Какво е машинно обучение?

Това е вид изкуствен интелект, който прави компютрите способни да учат сами, т.е. без изрично програмиране. С машинно обучение машините могат да актуализират собствения си код, когато попаднат в нова ситуация.

В заключение в този урок за наука за данни, сега знаем, че науката за данни е подкрепена от машинното обучение и неговите алгоритми за анализ. Как правим анализа, къде го правим. Data Science освен това има някои компоненти, които ни помагат при решаването на всички тези въпроси.

Преди това позволете ми да отговоря как MIT може да предскаже бъдещето, защото мисля, че вие ​​бихте могли да го разкажете сега. И така, изследователите от Масачузетския технологичен институт обучиха своя модел с филми и компютрите научиха как хората реагират или как действат, преди да извършат действие.

Например, когато искате да се ръкувате с някого, изваждате ръката си от джоба си или може да се облегнете на човека. По принцип към всяко нещо, което правим, има „предварително действие“. Компютърът с помощта на филми беше обучен за тези „предварителни действия“. И наблюдавайки все повече и повече филми, техните компютри след това успяха да предскажат какво може да бъде следващото действие на героя.

Лесно, нали? Позволете ми да ви задам още един въпрос в този урок за наука за данни! Кой алгоритъм на машинното обучение трябва да са внедрили в това?

Компоненти на науката за данни

1. Набори от данни

Какво ще анализирате? Данни, нали? Имате нужда от много данни, които могат да бъдат анализирани, тези данни се подават към вашите алгоритми или аналитични инструменти. Получавате тези данни от различни изследвания, проведени в миналото.

2. R Studio

R е език за програмиране с отворен код и софтуерна среда за статистически изчисления и графики, която се поддържа от фондацията R. Езикът R се използва в IDE, наречен R Studio.

Защо се използва?

  • Програмиране и статистически език
    • Освен като статистически език, той може да се използва и език за програмиране за аналитични цели.
  • Анализ и визуализация на данни
    • Освен че е един от най-доминиращите инструменти за анализ, R е и един от най-популярните инструменти, използвани за визуализация на данни.
  • Лесно и лесно за научаване
    • R е прост и лесен за научаване, четене и писане

  • Безплатен и с отворен код
    • R е пример за FLOSS (безплатен / Libre и софтуер с отворен код), което означава, че човек може свободно да разпространява копия на този софтуер, да чете неговия изходен код, да го модифицира и т.н.

R Studio беше достатъчен за анализ, докато нашите набори от данни не станаха огромни, също неструктурирани едновременно. Този тип данни се наричаха големи данни.

3. Големи данни

Големите данни са терминът за колекция от масиви от данни, толкова големи и сложни, че става трудно да се обработват с помощта на ръчни инструменти за управление на база данни или традиционни приложения за обработка на данни.

Сега, за да укротим тези данни, трябваше да измислим инструмент, тъй като никой традиционен софтуер не можеше да се справи с този вид данни и следователно измислихме Hadoop.

4. Hadoop

Hadoop е рамка, която ни помага магазин и процес големи набори от данни паралелно и по начин на разпространение.

Нека се съсредоточим върху магазина и обработката на част от Hadoop.

Съхранявайте

Частта за съхранение в Hadoop се обработва от HDFS, т.е. Hadoop Distributed File System. Той осигурява висока наличност в разпределена екосистема. Начинът, по който функционира по този начин, той разбива входящата информация на парчета и ги разпределя на различни възли в клъстер, позволявайки разпределено съхранение.

Процес

MapReduce е сърцето на обработката на Hadoop. Алгоритмите правят две важни задачи, картографират и намаляват. Картографите разбиват задачата на по-малки задачи, които се обработват паралелно. След като всички картографи свършат своя дял от работата, те обобщават резултатите си и след това тези резултати се намаляват до по-проста стойност чрез процеса за намаляване. За да научите повече за Hadoop, можете да преминете през нашия .

Ако използваме Hadoop като наше хранилище в Data Science, става трудно да обработим входа с R Studio, поради неспособността му да се представя добре в разпределена среда, следователно имаме Spark R.

5. Spark R

Това е R пакет, който осигурява лек начин за използване на Apache Spark с R. Защо ще го използвате над традиционните R приложения? Тъй като осигурява реализация на разпределена рамка за данни, която поддържа операции като избор, филтриране, агрегиране и т.н., но на големи набори от данни.

Вземете си въздух сега! Приключихме с техническата част в този урок за наука за данни, нека я разгледаме от гледна точка на вашата работа сега. Мисля, че досега бихте потърсили заплатите за учен по данни, но все пак, нека обсъдим ролите за работа, които са достъпни за вас като учен по данни.

Роли на длъжността на учен по данни

Някои от известните длъжности на Data Scientist са:

  • Data Scientist
  • Инженер по данни
  • Архитект на данни
  • Администратор на данни
  • Анализатор на данни
  • Бизнес анализатор
  • Data / Analytics Manager
  • Мениджър бизнес интелигентност

Графиката на Payscale.com в този урок за наука за данни по-долу показва средната заплата на Data Scientist по умения в САЩ и Индия.

Времето е узряло за повишаване на уменията в Data Science и Big Data Analytics, за да се възползвате от възможностите за кариера на Data Science, които ви се случват. Това ни води до края на блога с уроци по Data Science. Надявам се, че този блог е информативен и има добавена стойност за вас. Сега е моментът да влезете в света на Data Science и да станете успешен Data Scientist.

Edureka има специално подготвен което ви помага да придобиете опит в алгоритмите за машинно обучение като K-Means Clustering, Tree Treasures, Random Forest, Naive Bayes. Ще научите понятията за статистика, времеви редове, извличане на текст и въведение в дълбокото обучение. Скоро започват нови партиди за този курс !!

Имате въпрос към нас в урок за наука за данни? Моля, споменете го в раздела за коментари и ние ще се свържем с вас.