Пробиване на тренировка Apache, New-Age Query Engine



Този урок за Apache Drill ви дава цялата информация, от която се нуждаете, за да започнете с машината за заявки на Apache Drill, използване с Hadoop, Big Data & Apache Spark.

Apache Drill е първият в индустрията SQL Engine без схеми. Drill не е първият двигател за заявки в света, но е първият, който постига финия баланс между гъвкавост и скорост. Drill е проектиран за мащабиране до няколко хиляди възли и запитване на петабайта данни с интерактивни скорости, които BI / Analytics средите изискват.





Той може да се интегрира с няколко източника на данни като Hive, HBase, MongoDB, файлова система, RDBMS. Също така, входни формати като Avro, CSV, TSV, PSV, Parquet, Hadoop Sequence файлове и много други могат да бъдат използвани в Drill с лекота.

Защо Apache тренировка?

Най-голямото предимство на Apache Drill е, че той може да открива схемата в движение, докато търсите каквито и да било данни. Освен това той може да работи с вашите BI инструменти като Tableau, Qlikview, MicroStrategy и др. За по-добър анализ.



Ето цитат от индустриален анализатор, който обобщава стойността на Apache Drill:

„Drill не е само SQL-on-Hadoop. Става въпрос за SQL-на-почти-каквото и да било, веднага и без формалност. '

- Андрю Бърст, Gigaom Research, януари 2015 г.



Drillbit е демонът на Apache Drill, който се изпълнява на всеки възел в клъстера. Той използва ZooKeeper за цялата комуникация в клъстера и членството в клъстера maintaisn. Той отговаря за приемането на заявки от клиента, обработката на заявките и връщането на резултатите на клиента. Дрилбитът, който получава заявката от клиента, се нарича „бригадир“. Той генерира план за изпълнение, фрагментите за изпълнение се изпращат към други тренировъчни битове, работещи в клъстера.

Drillbits-Apache-Drill

Още едно предимство е, че инсталирането и настройката на бормашината е доста проста. Нека научим как да инсталираме Apache Drill.

Първата стъпка е да изтеглите пакета тренировка.

как да инициализираме обект в python

Команда: wget https://archive.apache.org/dist/drill/drill-1.5.0/apache-drill-1.5.0.tar.gz

Команда: tar -xvf apache-drill-1.5.0.tar.gz

Команда: ls

След това задайте променливите на средата във .bashrc файл.

Команда: sudo gedit .bashrc

износ DRILL_HOME = / home / edureka / apache-drill-1.5.0

износ PATH = $ PATH: /home/edureka/apache-drill-1.5.0/bin

Тази команда ще актуализира промените:

Команда: източник .bashrc

Сега отидете на drill conf директория и редактирайте drill-override.conf файл с идентификатор на клъстер и zookeeper хост и порт, ние ще го стартираме на локален клъстер.

Команда: cd apache-drill-1.5.0

Команда: sudo gedit conf / drill-override.conf

По подразбиране DRILL_MAX_DIRECT_MEMORY ще бъде 8 GB в drill-env.sh и ние трябва да го съхраняваме според паметта, с която разполагаме.

Команда: sudo gedit conf / drill-env.sh

За да инсталирате тренировка само в един възел, можете да използвате вграден режим, където той ще работи локално. Той автоматично ще стартира услугата drillbit, когато изпълните тази команда.

Команда: ./bin/drill-embedded

Можете да изпълните проста заявка, за да проверите инсталацията.

Команда: изберете * от sys.options WHERE тип = „СИСТЕМА“ и име като „сигурност%“

За да проверим уеб конзолата на Apache Drill, трябва да отидем до localhost: 8047 в уеб браузъра.

Можете да стартирате заявката си и от раздела Заявка.

За да стартирате тренировка в разпределен режим, трябва да редактирате ID на клъстера и да добавите информация за ZooKeeper в drill-override.conf, както е показано по-долу.

След това трябва да стартираме услугата ZooKeeper на всеки възел. След това трябва да стартирате услугата drillbit на всеки възел с тази команда.

разлика между javascript и jquery

Команда: ./bin/drillbit.sh старт

Команда: jps

Сега използваме командата отдолу, за да стартираме тренировъчната обвивка.

Сега можем да изпълняваме нашите заявки за клъстера в разпределен режим.

Това е първата публикация в блог от поредица от блогове Apache Drill от две части. Вторият блог от поредицата идва скоро.

Имате въпрос към нас? Споменете ги в раздела за коментари и ние ще се свържем с вас.

Подобни публикации:

Пробиване на бормашина Apache, част 2

Apache Spark Vs Hadoop MapReduce