Hadoop е разрушителна базирана на Java програмна рамка, която поддържа обработката на големи масиви от данни в разпределена изчислителна среда, докато R е език за програмиране и софтуерна среда за статистически изчисления и графики. Езикът R се използва широко сред статистици и майнери на данни за разработване на статистически софтуер и извършване на анализ на данни. В областите на интерактивен анализ на данни, статистика с общо предназначение и прогнозно моделиране, R придоби огромна популярност поради възможностите си за класификация, групиране и класиране.
Hadoop и R се допълват доста добре по отношение на визуализация и анализ на големи данни.
подновяване на разработчика на java front end
Използване на R и Hadoop
Има четири различни начина за използване на Hadoop и R заедно:
1. RHadoop
RHadoop е колекция от три R пакета: rmr, rhdfs и rhbase. rmr пакетът осигурява функционалност Hadoop MapReduce в R, rhdfs осигурява управление на HDFS файлове в R, а rhbase осигурява управление на база данни HBase отвътре R. Всеки от тези първични пакети може да се използва за по-добър анализ и управление на данните на Hadoop.
2. ORCH
ORCH означава Oracle R Connector за Hadoop. Това е колекция от R пакети, които осигуряват съответните интерфейси за работа с Hive таблици, изчислителната инфраструктура на Apache Hadoop, локалната R среда и таблиците на базата данни на Oracle. Освен това ORCH предлага и предсказуеми аналитични техники, които могат да бъдат приложени към данни в HDFS файлове.
3. RIPE
RHIPE е R пакет, който предоставя API за използване на Hadoop. RHIPE означава R и Hadoop интегрирана среда за програмиране и по същество е RHadoop с различен API.
Четири. Hadoop стрийминг
Hadoop Streaming е помощна програма, която позволява на потребителите да създават и изпълняват задачи с всякакви изпълними файлове като mapper и / или редуктора. Използвайки стрийминг системата, човек може да разработи работещи задачи на Hadoop само с достатъчно познания за Java, за да напише два скрипта за черупки, които работят в тандем.
Комбинацията от R и Hadoop се очертава като задължителен инструментариум за хора, работещи със статистически данни и големи масиви от данни. Някои ентусиасти на Hadoop обаче издигнаха червено знаме, докато се занимаваха с изключително големи фрагменти от големи данни. Те твърдят, че предимството на R не е неговият синтаксис, а изчерпателната библиотека от примитиви за визуализация и статистика. Тези библиотеки по същество не се разпространяват, което прави извличането на данни трудоемко дело. Това е присъщ недостатък на R и ако решите да го пренебрегнете, R и Hadoop в тандем все още могат да направят чудеса.
Сега нека видим демонстрация:
урок за Microsoft SQL за начинаещи
какво е екземпляр в java
Имате въпрос към нас? Моля, споменете ги в раздела за коментари и ние ще се свържем с вас.
Подобни публикации: