Програмиране на прасета: Създайте своя първи Apache Pig скрипт
В нашата , сега ще научим как да създадем Apache Pig скрипт. Скриптовете Apache Pig се използват за колективно изпълнение на набор от команди Apache Pig. Това помага за намаляване на времето и усилията, вложени в писането и изпълнението на всяка команда ръчно, докато правите това в програмирането на Pig.Той също е неразделна част от .Този блог е ръководство стъпка по стъпка, което ще ви помогне да създадете първия си Apache Pig скрипт.
Режими за изпълнение на скрипт Apache Pig
Местен режим : В „локален режим“ можете да изпълните скрипта за свиване в локална файлова система. В този случай не е необходимо да съхранявате данните във файловата система Hadoop HDFS, а можете да работите с данните, съхранявани в самата локална файлова система.
Режим MapReduce : В режим „MapReduce“ данните трябва да се съхраняват във файлова система HDFS и можете да обработвате данните с помощта на свински скрипт.
Apache Pig Script в режим MapReduce
Да кажем, че нашата задача е да четем данни от файл с данни и да показваме необходимото съдържание на терминала като изход.
Файлът с примерни данни съдържа следните данни:
Запазете текстовия файл с името ‘information.txt’
Файлът с примерни данни съдържа пет колони Първо име , Фамилия , MobileNo , Град , и Професия разделени от ключ за раздела . Нашата задача е да прочетем съдържанието на този файл от HDFS и да покажем всички колони на тези записи.
scrum master роли и отговорности pdf
За да обработите тези данни с помощта на Pig, този файл трябва да присъства в Apache Hadoop HDFS.
Команда : hadoop fs –copyFromLocal /home/edureka/information.txt / edureka
Етап 1: Писане на Pig скрипт
Създайте и отворете Apache Pig скриптов файл в редактор (например gedit).
Команда : sudo gedit /home/edureka/output.pig
Тази команда ще създаде файл ‘output.pig’ вътре в домашната директория на потребителя на edureka.
Нека напишем няколко PIG команди във файл output.pig.
A = LOAD '/edureka/information.txt' с помощта на PigStorage ('') като (FName: chararray, LName: chararray, MobileNo: chararray, City: chararray, Професия: chararray) B = FOREACH A генерира FName, MobileNo, професия DUMP Б.
Запазете и затворете файла.
- Първата команда зарежда файла ‘information.txt’ в променлива A с индиректна схема (FName, LName, MobileNo, City, Profession).
- Втората команда зарежда необходимите данни от променлива A към променлива B.
- Третият ред показва съдържанието на променлива B на терминала / конзолата.
Стъпка 2: Изпълнете Apache Pig Script
c ++ програма за сортиране на масив във възходящ ред
За да изпълните скрипта за свине в режим HDFS, изпълнете следната команда:
Команда : pig /home/edureka/output.pig
След като изпълнението приключи, прегледайте резултата. Тези изображения по-долу показват резултатите и тяхната междинна карта и функции за намаляване.
Под изображението се вижда, че скриптът е изпълнен успешно.
По-долу изображението показва резултата от нашия скрипт.
Поздравления за изпълнението на първия ви скрипт Apache Pig успешно!
Сега знаете как да създадете и изпълните Apache Pig скрипт. Следователно, следващият ни блог в ще обхваща как създайте UDF (потребителски функции) в Apache Pig и го изпълнете в режим MapReduce / HDFS.
След като създадохте и изпълнихте Apache Pig Script, разгледайте от Edureka, доверена компания за онлайн обучение с мрежа от над 250 000 доволни учащи, разпространени по целия свят. Курсът за обучение по сертифициране на големи данни Hadoop на Edureka помага на обучаващите се да станат експерти в HDFS, прежди, MapReduce, Pig, Hive, HBase, Oozie, Flume и Sqoop, като използват случаи в реално време за търговия на дребно, социални медии, авиация, туризъм, финанси.
Имате въпрос към нас? Моля, споменете го в раздела за коментари и ние ще се свържем с вас.