Прилагане на Hadoop с Data Science



С Hadoop, който служи и като мащабируема платформа за данни, и като изчислителен двигател, науката за данните се появява отново като централна част от иновациите в предприятието. Сега Hadoop е благодат за учените по данни.

Apache Hadoop бързо се превръща в технология на избор за организации, инвестиращи в големи данни, захранвайки архитектурата им от следващо поколение данни. С Hadoop, който служи и като мащабируема платформа за данни, и като изчислителен двигател, науката за данните се появява отново като основен елемент на иновациите в предприятието, с приложени решения за данни като онлайн препоръки за продукти, автоматично откриване на измами и анализ на настроенията на клиентите.

В тази статия предлагаме преглед на науката за данните и как да се възползваме от Hadoop за мащабни проекти за наука за данни.





Как е полезен Hadoop за учените по данни?

Hadoop е благодат за учените по данни. Нека разгледаме как Hadoop помага за повишаване на производителността на Data Scientist. Hadoop има уникална възможност, при която всички данни могат да се съхраняват и извличат от едно място. По този начин може да се постигне следното:

  • Възможност за съхраняване на всички данни във формат RAW
  • Конвергенция на силозите за данни
  • Учените по данни ще открият новаторски приложения на комбинирани активи от данни.

Hadoop-with-ds11



Ключ към силата на Hadoop:

  • Намаляване на времето и разходите - Hadoop помага за драстично намаляване на времето и разходите за изграждане на мащабни продукти за данни.
  • Изчисляването е съвместно с Data - Системата за данни и изчисления е проектирана за съвместна работа.
  • Достъпни в мащаб - Може да използва „стокови“ хардуерни възли, самолечение е, отлично при групова обработка на големи масиви от данни.
  • Проектиран за едно писане и многократно четене - Няма случайни записи и еОптимизиран за минимално търсене на твърди дискове

Защо Hadoop с наука за данни?

Причина # 1: Разгледайте големи масиви от данни

Първата и основна причина да бъде човек може Разгледайте големи масиви от данни директно с Hadoop от интегриране на Hadoop в Поток за анализ на данни .

Това се постига чрез използване на прости статистически данни като:



  • Означава
  • Медиана
  • Квантил
  • Предварителна обработка: grep, regex

За постигане може да се използва и Ad-hoc вземане на проби / филтриране Случайно: със или без заместване, проба от уникален ключ и K-fold кръстосана проверка.

използвайки пространство от имена c ++

Причина # 2: Възможност за добив на големи масиви от данни

Ученето на алгоритми с големи набори от данни има свои собствени предизвикателства. Предизвикателствата са:

  • Данните няма да се поберат в паметта.
  • Ученето отнема много повече време.

Когато се използва Hadoop, човек може да изпълнява функции като разпределяне на данни между възли в клъстера Hadoop и прилагане на разпределен / паралелен алгоритъм. За препоръки може да се използва алгоритъм Алтернативен най-малък квадрат и за групиране на K-средства.

Причина # 3: Голяма подготовка на данни

как да генерирам произволен низ в java -

Всички знаем, че 80% от работата по науката за данни включва „Подготовка на данните“. Hadoop е идеален за партидна подготовка и почистване на големи масиви от данни.

Причина # 4: Ускоряване на иновациите, управлявани от данни:

Традиционните архитектури на данни имат бариери пред скоростта. RDBMS използва схема на Write и следователно промяната е скъпа. Също така е висока бариера за иновации, базирани на данни.

Hadoop използва „Схема за четене“ което означава по-бързо време за иновации и по този начин добавя a ниска бариера относно иновациите, управлявани от данни.

Следователно, за да обобщим четирите основни причини, поради които се нуждаем от Hadoop с Data Science, ще бъде:

  1. Мини големи масиви от данни
  2. Изследване на данни с пълни набори от данни
  3. Предварителна обработка в мащаб
  4. По-бързи цикли, управлявани от данни

Следователно виждаме, че организациите могат да използват Hadoop в своя полза за добив на данни и събиране на полезни резултати от тях.

Имате въпрос към нас ?? Моля, споменете ги в раздела за коментари и ние ще се свържем с вас.

Подобни публикации:

какво прави split в java

Значение на науката за данни с Касандра