Apache Flink е платформа с отворен код за разпределен поток и обработка на пакетни данни. Може да работи на Windows, Mac OS и Linux OS. В тази публикация в блога нека обсъдим как да настроите локално клъстера на Flink. Той е подобен на Spark в много отношения - има API за обработка на графики и машинно обучение като Apache Spark - но Apache Flink и Apache Spark не са съвсем еднакви.
За да настроите клъстер Flink, трябва да имате инсталирана java 7.x или по-нова версия на вашата система. Тъй като имам инсталиран Hadoop-2.2.0 в моя край на CentOS (Linux), изтеглих пакета Flink, който е съвместим с Hadoop 2.x. Изпълнете командата по-долу, за да изтеглите пакета Flink.
Команда: wget http://archive.apache.org/dist/flink/flink-1.0.0/flink-1.0.0-bin-hadoop2-scala_2.10.tgz
Разкопайте файла, за да получите директорията flink.
Команда: tar -xvf Downloads / flink-1.0.0-bin-hadoop2-scala_2.10.tgz
Команда: ls
Добавете променливи на средата на Flink във .bashrc файл.
Команда: sudo gedit .bashrc
Трябва да изпълните командата по-долу, така че промените във .bashrc файла да бъдат активирани
Команда: източник .bashrc
Сега отидете в директорията flink и стартирайте клъстера локално.
Команда: cd здрав-1.0.0
Команда: bin / start-local.sh
След като стартирате клъстера, ще можете да видите нов демон JobManager да работи.
Команда: jps
Отворете браузъра и отидете на http: // localhost: 8081, за да видите уеб потребителския интерфейс на Apache Flink.
Нека пуснем прост пример за преброяване на думи, използвайки Apache Flink.
Преди да стартирате примера, инсталирайте netcat на вашата система (sudo yum install nc).
Сега в нов терминал изпълнете командата по-долу.
Команда: nc -lk 9000
Изпълнете дадената по-долу команда в терминала flink. Тази команда изпълнява програма, която приема поточните данни като вход и извършва операция за преброяване на думи върху тези поточени данни.
Команда: bin / flink run examples / streaming / SocketTextStreamWordCount.jar –hostname localhost –port 9000
В уеб потребителския интерфейс ще можете да видите работа в работещо състояние.
разширява и прилага заедно в java
Изпълнете командата по-долу в нов терминал, това ще отпечата поточно и обработени данни.
Команда: tail -f log / flink - * - jobmanager - *. out
Сега отидете до терминала, където сте стартирали netcat и напишете нещо.
В момента, в който натиснете бутона за въвеждане на вашата ключова дума, след като сте въвели някои данни в терминала на netcat, върху тези данни ще се приложи операция за преброяване на думи и изходът ще бъде отпечатан тук (дневник на мениджъра на задачите на flink) в рамките на милисекунди!
В рамките на много много кратък период от време данните ще бъдат поточени, обработени и отпечатани.
Има още много какво да научите за Apache Flink. Ще засегнем други теми на Flink в нашия предстоящ блог.
Имате въпрос към нас? Споменете ги в раздела за коментари и ние ще се свържем с вас.
Подобни публикации:
Apache Falcon: Нова платформа за управление на данни за екосистемата Hadoop