Apache Drill е първият в индустрията SQL Engine без схеми. Drill не е първият двигател за заявки в света, но е първият, който постига финия баланс между гъвкавост и скорост. Drill е проектиран за мащабиране до няколко хиляди възли и запитване на петабайта данни с интерактивни скорости, които BI / Analytics средите изискват.
Той може да се интегрира с няколко източника на данни като Hive, HBase, MongoDB, файлова система, RDBMS. Също така, входни формати като Avro, CSV, TSV, PSV, Parquet, Hadoop Sequence файлове и много други могат да бъдат използвани в Drill с лекота.
Защо Apache тренировка?
Най-голямото предимство на Apache Drill е, че той може да открива схемата в движение, докато търсите каквито и да било данни. Освен това той може да работи с вашите BI инструменти като Tableau, Qlikview, MicroStrategy и др. За по-добър анализ.
Ето цитат от индустриален анализатор, който обобщава стойността на Apache Drill:
„Drill не е само SQL-on-Hadoop. Става въпрос за SQL-на-почти-каквото и да било, веднага и без формалност. '
- Андрю Бърст, Gigaom Research, януари 2015 г.
Drillbit е демонът на Apache Drill, който се изпълнява на всеки възел в клъстера. Той използва ZooKeeper за цялата комуникация в клъстера и членството в клъстера maintaisn. Той отговаря за приемането на заявки от клиента, обработката на заявките и връщането на резултатите на клиента. Дрилбитът, който получава заявката от клиента, се нарича „бригадир“. Той генерира план за изпълнение, фрагментите за изпълнение се изпращат към други тренировъчни битове, работещи в клъстера.
Още едно предимство е, че инсталирането и настройката на бормашината е доста проста. Нека научим как да инсталираме Apache Drill.
Първата стъпка е да изтеглите пакета тренировка.
как да инициализираме обект в python
Команда: wget https://archive.apache.org/dist/drill/drill-1.5.0/apache-drill-1.5.0.tar.gz
Команда: tar -xvf apache-drill-1.5.0.tar.gz
Команда: ls
След това задайте променливите на средата във .bashrc файл.
Команда: sudo gedit .bashrc
износ DRILL_HOME = / home / edureka / apache-drill-1.5.0
износ PATH = $ PATH: /home/edureka/apache-drill-1.5.0/bin
Тази команда ще актуализира промените:
Команда: източник .bashrc
Сега отидете на drill conf директория и редактирайте drill-override.conf файл с идентификатор на клъстер и zookeeper хост и порт, ние ще го стартираме на локален клъстер.
Команда: cd apache-drill-1.5.0
Команда: sudo gedit conf / drill-override.conf
По подразбиране DRILL_MAX_DIRECT_MEMORY ще бъде 8 GB в drill-env.sh и ние трябва да го съхраняваме според паметта, с която разполагаме.
Команда: sudo gedit conf / drill-env.sh
За да инсталирате тренировка само в един възел, можете да използвате вграден режим, където той ще работи локално. Той автоматично ще стартира услугата drillbit, когато изпълните тази команда.
Команда: ./bin/drill-embedded
Можете да изпълните проста заявка, за да проверите инсталацията.
Команда: изберете * от sys.options WHERE тип = „СИСТЕМА“ и име като „сигурност%“
За да проверим уеб конзолата на Apache Drill, трябва да отидем до localhost: 8047 в уеб браузъра.
Можете да стартирате заявката си и от раздела Заявка.
За да стартирате тренировка в разпределен режим, трябва да редактирате ID на клъстера и да добавите информация за ZooKeeper в drill-override.conf, както е показано по-долу.
След това трябва да стартираме услугата ZooKeeper на всеки възел. След това трябва да стартирате услугата drillbit на всеки възел с тази команда.
разлика между javascript и jquery
Команда: ./bin/drillbit.sh старт
Команда: jps
Сега използваме командата отдолу, за да стартираме тренировъчната обвивка.
Сега можем да изпълняваме нашите заявки за клъстера в разпределен режим.
Това е първата публикация в блог от поредица от блогове Apache Drill от две части. Вторият блог от поредицата идва скоро.
Имате въпрос към нас? Споменете ги в раздела за коментари и ние ще се свържем с вас.
Подобни публикации: