Apache Flink: Следващото поколение рамка за анализ на големи данни за обработка на потоци и партиди данни



Научете всичко за Apache Flink и настройка на Flink клъстер в този блог. Flink поддържа обработка в реално време и периодично и е задължителна технология за големи данни за Big Data Analytics.

Apache Flink е платформа с отворен код за разпределен поток и обработка на пакетни данни. Може да работи на Windows, Mac OS и Linux OS. В тази публикация в блога нека обсъдим как да настроите локално клъстера на Flink. Той е подобен на Spark в много отношения - има API за обработка на графики и машинно обучение като Apache Spark - но Apache Flink и Apache Spark не са съвсем еднакви.





За да настроите клъстер Flink, трябва да имате инсталирана java 7.x или по-нова версия на вашата система. Тъй като имам инсталиран Hadoop-2.2.0 в моя край на CentOS (Linux), изтеглих пакета Flink, който е съвместим с Hadoop 2.x. Изпълнете командата по-долу, за да изтеглите пакета Flink.

Команда: wget http://archive.apache.org/dist/flink/flink-1.0.0/flink-1.0.0-bin-hadoop2-scala_2.10.tgz



Command-Apache-Flink

Разкопайте файла, за да получите директорията flink.

Команда: tar -xvf Downloads / flink-1.0.0-bin-hadoop2-scala_2.10.tgz



Команда: ls

Добавете променливи на средата на Flink във .bashrc файл.

Команда: sudo gedit .bashrc

Трябва да изпълните командата по-долу, така че промените във .bashrc файла да бъдат активирани

Команда: източник .bashrc

Сега отидете в директорията flink и стартирайте клъстера локално.

Команда: cd здрав-1.0.0

Команда: bin / start-local.sh

След като стартирате клъстера, ще можете да видите нов демон JobManager да работи.

Команда: jps

Отворете браузъра и отидете на http: // localhost: 8081, за да видите уеб потребителския интерфейс на Apache Flink.

Нека пуснем прост пример за преброяване на думи, използвайки Apache Flink.

Преди да стартирате примера, инсталирайте netcat на вашата система (sudo yum install nc).

Сега в нов терминал изпълнете командата по-долу.

Команда: nc -lk 9000

Изпълнете дадената по-долу команда в терминала flink. Тази команда изпълнява програма, която приема поточните данни като вход и извършва операция за преброяване на думи върху тези поточени данни.

Команда: bin / flink run examples / streaming / SocketTextStreamWordCount.jar –hostname localhost –port 9000

В уеб потребителския интерфейс ще можете да видите работа в работещо състояние.

разширява и прилага заедно в java

Изпълнете командата по-долу в нов терминал, това ще отпечата поточно и обработени данни.

Команда: tail -f log / flink - * - jobmanager - *. out

Сега отидете до терминала, където сте стартирали netcat и напишете нещо.

В момента, в който натиснете бутона за въвеждане на вашата ключова дума, след като сте въвели някои данни в терминала на netcat, върху тези данни ще се приложи операция за преброяване на думи и изходът ще бъде отпечатан тук (дневник на мениджъра на задачите на flink) в рамките на милисекунди!

В рамките на много много кратък период от време данните ще бъдат поточени, обработени и отпечатани.

Има още много какво да научите за Apache Flink. Ще засегнем други теми на Flink в нашия предстоящ блог.

Имате въпрос към нас? Споменете ги в раздела за коментари и ние ще се свържем с вас.

Подобни публикации:

Apache Falcon: Нова платформа за управление на данни за екосистемата Hadoop