Apache Hadoop бързо се превръща в технология на избор за организации, инвестиращи в големи данни, захранвайки архитектурата им от следващо поколение данни. С Hadoop, който служи и като мащабируема платформа за данни, и като изчислителен двигател, науката за данните се появява отново като основен елемент на иновациите в предприятието, с приложени решения за данни като онлайн препоръки за продукти, автоматично откриване на измами и анализ на настроенията на клиентите.
В тази статия предлагаме преглед на науката за данните и как да се възползваме от Hadoop за мащабни проекти за наука за данни.
Как е полезен Hadoop за учените по данни?
Hadoop е благодат за учените по данни. Нека разгледаме как Hadoop помага за повишаване на производителността на Data Scientist. Hadoop има уникална възможност, при която всички данни могат да се съхраняват и извличат от едно място. По този начин може да се постигне следното:
- Възможност за съхраняване на всички данни във формат RAW
- Конвергенция на силозите за данни
- Учените по данни ще открият новаторски приложения на комбинирани активи от данни.
Ключ към силата на Hadoop:
- Намаляване на времето и разходите - Hadoop помага за драстично намаляване на времето и разходите за изграждане на мащабни продукти за данни.
- Изчисляването е съвместно с Data - Системата за данни и изчисления е проектирана за съвместна работа.
- Достъпни в мащаб - Може да използва „стокови“ хардуерни възли, самолечение е, отлично при групова обработка на големи масиви от данни.
- Проектиран за едно писане и многократно четене - Няма случайни записи и еОптимизиран за минимално търсене на твърди дискове
Защо Hadoop с наука за данни?
Причина # 1: Разгледайте големи масиви от данни
Първата и основна причина да бъде човек може Разгледайте големи масиви от данни директно с Hadoop от интегриране на Hadoop в Поток за анализ на данни .
Това се постига чрез използване на прости статистически данни като:
- Означава
- Медиана
- Квантил
- Предварителна обработка: grep, regex
За постигане може да се използва и Ad-hoc вземане на проби / филтриране Случайно: със или без заместване, проба от уникален ключ и K-fold кръстосана проверка.
използвайки пространство от имена c ++
Причина # 2: Възможност за добив на големи масиви от данни
Ученето на алгоритми с големи набори от данни има свои собствени предизвикателства. Предизвикателствата са:
- Данните няма да се поберат в паметта.
- Ученето отнема много повече време.
Когато се използва Hadoop, човек може да изпълнява функции като разпределяне на данни между възли в клъстера Hadoop и прилагане на разпределен / паралелен алгоритъм. За препоръки може да се използва алгоритъм Алтернативен най-малък квадрат и за групиране на K-средства.
Причина # 3: Голяма подготовка на данни
как да генерирам произволен низ в java -
Всички знаем, че 80% от работата по науката за данни включва „Подготовка на данните“. Hadoop е идеален за партидна подготовка и почистване на големи масиви от данни.
Причина # 4: Ускоряване на иновациите, управлявани от данни:
Традиционните архитектури на данни имат бариери пред скоростта. RDBMS използва схема на Write и следователно промяната е скъпа. Също така е висока бариера за иновации, базирани на данни.
Hadoop използва „Схема за четене“ което означава по-бързо време за иновации и по този начин добавя a ниска бариера относно иновациите, управлявани от данни.
Следователно, за да обобщим четирите основни причини, поради които се нуждаем от Hadoop с Data Science, ще бъде:
- Мини големи масиви от данни
- Изследване на данни с пълни набори от данни
- Предварителна обработка в мащаб
- По-бързи цикли, управлявани от данни
Следователно виждаме, че организациите могат да използват Hadoop в своя полза за добив на данни и събиране на полезни резултати от тях.
Имате въпрос към нас ?? Моля, споменете ги в раздела за коментари и ние ще се свържем с вас.
Подобни публикации:
какво прави split в java