Informatica ETL: Ръководство за начинаещи за разбиране на ETL с помощта на Informatica PowerCenter



Разбиране на концепциите на Informatica ETL и различните етапи от процеса на ETL и практикуване на случай на употреба, включващ база данни на служителите.

Целта на Informatica ETL е да предостави на потребителите не само процес на извличане на данни от изходните системи и въвеждането им в хранилището на данни, но и да предостави на потребителите обща платформа за интегриране на техните данни от различни платформи и приложения.Това доведе до увеличаване на търсенето на .Преди да говорим за Informatica ETL, нека първо разберем защо ни е необходим ETL.

Защо се нуждаем от ETL?

Всяка компаниятези дни трябва обработва големи масиви от различни източници. Тези данни трябва да бъдат обработени, за да дадат проницателна информация за вземане на бизнес решения. Но доста често такива данни имат следните предизвикателства:





  • Големите компании генерират много данни и такива огромни части от данни могат да бъдат във всякакъв формат. Те ще бъдат достъпни в множество бази данни и много неструктурирани файлове.
  • Тези данни трябва да бъдат съпоставени, комбинирани, сравнени и направени така, че да работят като цяло. Но различните бази данни не комуникират добре!
  • Много организации са внедрили интерфейси между тези бази данни, но те са изправени пред следните предизвикателства:
    • Всяка двойка бази данни изисква уникален интерфейс.
    • Ако промените една база данни, може да се наложи да се надстроят много интерфейси.

По-долу можете да видите различните бази данни на организация и техните взаимодействия:

Различен набор от данни на организация - Informatica - ETL - Edureka

Различни бази данни, използвани от различни отдели на организацията



Различни взаимодействия на базите данни в дадена организация

Както се вижда по-горе, една организация може да има различни бази данни в различните си отдели и взаимодействието между тях става трудно за изпълнение, тъй като за тях трябва да бъдат създадени различни интерфейси за взаимодействие. За да се преодолеят тези предизвикателства, най-доброто възможно решение е използването на концепциите на Интеграция на данни което ще позволи на данните от различни бази данни и формати да комуникират помежду си. Фигурата по-долу ни помага да разберем как инструментът за интеграция на данни се превръща в общ интерфейс за комуникация между различните бази данни.

Различни бази данни, свързани чрез интеграция на данни



Но има различни процеси на разположение за извършване на интеграция на данни. Сред тези процеси ETL е най-оптималният, ефективен и надежден процес. Чрез ETL потребителят може не само да въведе данните от различни източници, но може да извърши различните операции с данните, преди да ги съхрани в крайната цел.

Сред различните налични ETL инструменти, предлагани на пазара, Informatica PowerCenter е водещата платформа за интеграция на данни на пазара. След като е тествал близо 500 000 комбинации от платформи и приложения, Informatica PowerCenter inter работи с възможно най-широката гама от различни стандарти, системи и приложения. Нека сега разберем стъпките, включени в процеса на ETL на Informatica.

Информатика ETL | Архитектура на Урок за Informatica PowerCenter | Едурека

Този урок на Edureka Informatica ви помага да разберете подробно основите на ETL, като използвате Informatica Powercenter в детайли.

Стъпки в процеса на ETL на Informatica:

Преди да преминем към различните стъпки, свързани с ETL на Informatica, нека направим преглед на ETL. В ETL извличането е, когато данните се извличат от хомогенни или хетерогенни източници на данни, трансформация, при която данните се трансформират за съхранение в правилния формат или структура за целите на заявки и анализ и зареждане, където данните се зареждат в крайната база данни, оперативно съхранение на данни, март за данни или хранилище за данни. Изображението по-долу ще ви помогне да разберете как протича процесът ETL на Informatica.

Преглед на процеса на ETL

Както се вижда по-горе, Informatica PowerCenter може да зарежда данни от различни източници и да ги съхранява в един склад за данни. Сега нека разгледаме стъпките, включени в процеса на ETL на Informatica.

Има основно 4 стъпки в процеса на ETL на Informatica, нека сега ги разберем в дълбочина:

  1. Извличане или улавяне
  2. Скраб или почистване
  3. Трансформирайте
  4. Натоварване и индекс

1. Извличане или улавяне: Както се вижда на изображението по-долу, улавянето или извличането е първата стъпка от процеса на ETL на Informatica.Това е процесът на получаване на моментна снимка на избраната подгрупа от данни от източника, която трябва да бъде заредена в хранилището за данни. Снимката е статичен изглед на данните в базата данни само за четене. Процесът на извличане може да бъде два вида:

  • Пълен екстракт: Данните се извличат изцяло от системата източник и не е необходимо да се проследяват промените в източника на данни от последното успешно извличане.
  • Допълнителен екстракт: Това ще улови само промени, настъпили след последното пълно извличане.

Фаза 1: Извличане или улавяне

2. Скраб или почистване: Това е процесът на почистване на данните, идващи от източника, чрез използване на различни техники за разпознаване на модели и AI за надграждане на качеството на данните, пренасяни напред. Обикновено грешките като правописни грешки, грешни дати, неправилно използване на поле, несъответстващи адреси, липсващи данни, дублирани данни, несъответствия саподчертано и след това коригирано или премахнатов тази стъпка. Също така в тази стъпка се извършват операции като декодиране, преформатиране, щамповане на време, преобразуване, генериране на ключове, обединяване, откриване / регистриране на грешки, намиране на липсващи данни. Както се вижда на изображението по-долу, това е втората стъпка от ETL процеса на Informatica.

Фаза 2: Пречистване или почистване на данни

3. Трансформация: Както се вижда на изображението по-долу, това е третата и най-съществена стъпка от ETL процеса на Informatica. Трансформациите е операцията за преобразуване на данни от формата на системата източник в скелета на Data Warehouse. Трансформацията се използва основно за представяне на набор от правила, които определят потока от данни и как данните се зареждат в целите. За да научите повече за трансформацията, вижте Трансформации в Informatica Блог.

Фаза 3: Трансформация

4. Натоварване и индекс: Това е последната стъпка от процеса на Informatica ETL, както се вижда на изображението по-долу. На този етап ние поставяме трансформираните данни в склада и създаваме индекси за данните. Налични са два основни типа зареждане на данни въз основа на процеса на зареждане:

  • Пълен товар или насипно натоварване :Процесът на зареждане на данни, когато го правим за първи път. Заданието извлича целия обем данни от таблица източник и се зарежда в целевия склад за данни след прилагане на необходимите трансформации. Това ще бъде еднократна работа, след като само промените ще бъдат заснети като част от допълнителен извлечение.
  • Допълнително натоварване или Опресняване : Само модифицираните данни ще бъдат актуализирани в целта, последвано от пълно зареждане. Промените ще бъдат заснети чрез сравняване на създадена или модифицирана дата с последната дата на изпълнение на заданието.Само модифицираните данни се извличат от източника и ще бъдат актуализирани в целта, без да се засягат съществуващите данни.

Фаза 4: Натоварване и индекс

Ако сте разбрали процеса на ETL на Informatica, сега сме в по-добра позиция да разберем защо Informatica е най-доброто решение в такива случаи.

Характеристики на Informatica ETL:

За всички операции по интеграция на данни и ETL, Informatica ни предостави Informatica PowerCenter . Нека сега видим някои ключови характеристики на Informatica ETL:

  • Предоставя възможност за задаване на голям брой правила за трансформация с GUI.
  • Генерирайте програми за трансформиране на данни.
  • Обработвайте множество източници на данни.
  • Поддържа извличане, почистване, агрегиране, реорганизация, преобразуване и зареждане на данни.
  • Автоматично генерира програми за извличане на данни.
  • Високоскоростно зареждане на целеви хранилища за данни.

По-долу са дадени някои от типичните сценарии, в които се използва Informatica PowerCenter:

  1. Миграция на данни:

Фирма е закупила ново приложение за задължения по сметки за своя счетоводен отдел. PowerCenter може да премести съществуващите данни за акаунта в новото приложение. Фигурата по-долу ще ви помогне да разберете как можете да използвате Informatica PowerCenter за миграция на данни. Informatica PowerCenter може лесно да запази родословието на данните за данъчни, счетоводни и други законно определени цели по време на процеса на мигриране на данни.

Миграция на данни от по-старо приложение за счетоводство към ново приложение

  1. Интеграция на приложения:

Да кажем, че компания-А купува компания-Б. Така че, за да се постигнат предимствата на консолидацията, системата за фактуриране на Company-B трябва да бъде интегрирана в системата за фактуриране на Company-A, което може лесно да се направи с помощта на Informatica PowerCenter. Фигурата по-долу ще ви помогне да разберете как можете да използвате Informatica PowerCenter за интеграция на приложения между компаниите.

Интегриране на приложение между компании

  1. Съхранение на данни

Типичните действия, изисквани в хранилищата за данни, са:

  • Комбиниране на информация от много източници за анализ.
  • Преместване на данни от много бази данни в хранилището за данни.

Всички горепосочени типични случаи могат лесно да бъдат изпълнени с помощта на Informatica PowerCenter. По-долу можете да видите, че Informatica PowerCenter се използва за комбиниране на данните от различни видове бази данни като Oracle, SalesForce и др. И за пренасянето им в общ склад за данни, създаден от Informatica PowerCenter.

Данни От различни бази данни, интегрирани в общ склад за данни

  1. Middleware

Да приемем, че организация за търговия на дребно използва SAP R3 за своите приложения за търговия на дребно и SAP BW като свой склад за данни. Директната комуникация между тези две приложения не е възможна поради липсата на комуникационен интерфейс. Informatica PowerCenter обаче може да се използва като Middleware между тези две приложения. На изображението по-долу можете да видите архитектурата на това как се използва Informatica PowerCenter като междинен софтуер между SAP R / 3 и SAP BW. Приложенията от SAP R / 3 прехвърлят данните си в рамката ABAP, която след това ги прехвърля вSAP точка на продажба (POS) и SAPСметки за услуги (BOS). Informatica PowerCenter помага за прехвърлянето на данни от тези услуги към SAP Business Warehouse (BW).

Informatica PowerCenter като Middleware в архитектурата на SAP Retail

Въпреки че сте видели няколко ключови функции и типични сценарии на Informatica ETL, надявам се да разберете защо Informatica PowerCenter е най-добрият инструмент за ETL процес. Нека сега видим случай на използване на Informatica ETL.

Случай на употреба: Съединяване на две таблици за получаване на една подробна таблица

Да предположим, че искате да осигурите разумен транспорт на вашите служители, тъй като отделите се намират на различни места. За да направите това, първо трябва да знаете към кой отдел принадлежи всеки служител и местоположението на отдела. Детайлите на служителите обаче се съхраняват в различни таблици и трябва да присъедините данните за Отдела към съществуваща база данни с подробности за всички служители. За да направим това, първо ще заредим двете таблици в Informatica PowerCenter, ще извършим трансформация на изходния квалификатор върху данните и накрая ще заредим подробностите в целевата база данни.Нека започнем:

Етап 1 : Отворете PowerCenter Designer.

По-долу е началната страница на Informatica PowerCenter Designer.

Нека сега се свържем с хранилището. В случай, че не сте конфигурирали своите хранилища или сте изправени пред някакви проблеми, можете да проверите нашите Блог.

Стъпка 2: Щракнете с десния бутон върху вашето хранилище и изберете опция за свързване.

След като щракнете върху опцията за свързване, ще бъдете подканени да видите екрана по-долу, като поискате вашето потребителско име и парола за хранилището.

След като се свържете с хранилището си, трябва да отворите работната си папка, както е показано по-долу:

Ще бъдете подканени да попитате името на вашето картографиране. Посочете името на вашето картографиране и щракнете върху OK (аз го нарекох като m-СЛУЖИТЕЛ ).

Стъпка 3: Нека сега заредим таблиците от базата данни, започнете, като се свържете с базата данни. За да направите това, изберете раздела Източници и опцията Импортиране от база данни, както е показано по-долу:

След като щракнете върху Импортиране от база данни, ще бъдете подканени на екрана, както е показано по-долу, като задавате подробности за вашата база данни и нейното потребителско име и парола за връзка (използвам базата данни на Oracle и потребител на HR).

Кликнете върху Свързване, за да се свържете с вашата база данни.

Стъпка 4: Както искам да се присъединя към СЛУЖИТЕЛИ и ОТДЕЛ таблици, ще ги избера и щракна върху OK.
Източниците ще бъдат видими в работното пространство на дизайнера на картографиране, както се вижда по-долу.

Стъпка 5: По същия начин заредете целевата таблица в картографирането.

Стъпка 6: Сега нека свържем квалификатора Source и целевата таблица. Щракнете с десния бутон върху всяко празно място на работното пространство и изберете Автоматична връзка, както се вижда по-долу:

По-долу е картографирането, свързано от Autolink.

Стъпка 7: Тъй като трябва да свържем двете таблици с квалификатора на източника, изберете колоните на таблицата на отдела и го пуснете в квалификатора на източника, както е показано по-долу:

как да превърнете дубъл в int

Изпуснете стойностите на колоните в квалификатора на източника SQ_EMPLOYEES .

По-долу е актуализиран източник на квалификация.

Стъпка 8: Щракнете двукратно върху Source Qualifier, за да редактирате трансформацията.

Ще получите изскачащ прозорец за редактиране на трансформация, както се вижда по-долу. Щракнете върху раздела Свойства.

Стъпка 9: В раздела Свойства щракнете върху полето Стойност на реда за присъединяване UserDefined.

Ще получите следния SQL редактор:

Стъпка 10: Въведете EMPLOYEES.DEPARTMENT_ID = ОТДЕЛЕНИЕ.DEPARTMENT_ID като условие за присъединяване на двете таблици в SQL полето и щракнете върху OK.

Стъпка 11: Сега кликнете върху реда на SQL заявката, за да генерирате SQL за присъединяване, както е показано по-долу:

Ще получите следния SQL редактор, щракнете върху опцията Генериране на SQL.

Следният SQL ще бъде генериран за условието, което бяхме посочили в предишната стъпка. Щракнете върху OK.

Стъпка 12: Щракнете върху Приложи и OK.

По-долу е завършеното картографиране.

Завършихме проектирането на начина, по който данните трябва да се прехвърлят от източника към целта. Реалният трансфер на данни обаче все още предстои и за това трябва да използваме PowerCenter Workflow Design. Изпълнението на работния процес ще доведе до прехвърляне на данни от източника към целта. За да научите повече за работния процес, проверете нашия Урок за информатика: Работен поток Блог

Стъпка 13: Lи ние сега стартираме Workflow Manager, като щракнем върху иконата W, както се вижда по-долу:

По-долу е началната страница на дизайнера на работния процес.

Стъпка 14: Нека сега създадем нов работен поток за нашето картографиране. Кликнете върху раздела Работен поток и изберете Създаване на опция.

Ще получите изскачащия прозорец по-долу. Посочете името на вашия работен процес и кликнете върху OK.

Стъпка 15 : След като се създаде работен поток, получаваме иконата Старт в работното пространство на Workflow Manager.

Нека сега добавим нова сесия към работното пространство, както се вижда по-долу, като щракнете върху иконата на сесията и щракнете върху работното пространство:

Кликнете върху работното пространство, за да поставите иконата Session.

Стъпка 16: Докато добавяте сесията, трябва да изберете картографирането, което сте създали и запазили в горните стъпки. (Бях го запазил като m-EMPLOYEE).

По-долу е работното пространство след добавяне на иконата на сесията.

Стъпка 17 : След като създадохте нова сесия, трябва да я свържем със стартовата задача. Можем да го направим, като щракнем върху иконата на Link Task, както се вижда по-долу:

Щракнете първо върху иконата Старт и след това върху иконата Сесия, за да установите връзка.

По-долу е свързан работен поток.

Стъпка 18: След като завършихме дизайна, нека започнем работния процес. Кликнете върху раздела Workflow и изберете опция Start Workflow.

Мениджър на работния поток, стартиращ монитора на работния поток

Стъпка 19 : След като стартираме работния процес, Workflow Manager автоматично се стартираиви позволява да наблюдавате изпълнението на вашия работен процес. По-долу можете да видите Work Monitor Monitor показва състоянието на вашия работен поток.

Стъпка 20: За да проверите състоянието на работния поток, щракнете с десния бутон върху работния поток и изберете Get Run Properties, както е показано по-долу:

Изберете раздела Източник / Целева статистика.

По-долу можете да видите броя на редовете, които са били прехвърлени между източника и целта след трансформация.

Можете също да проверите резултата си, като проверите целевата си таблица, както е показано по-долу.

Надявам се, че този блог на Informatica ETL е бил полезен за изграждането на вашето разбиране върху концепциите на ETL с помощта на Informatica и е създал достатъчно интерес, за да научите повече за Informatica.

Ако сметнете този блог за полезен, можете да разгледате и нашата поредица от блогове за Informatica Tutorial , Урок за Informatica: Разбиране на Informatica ‘Inside Out’ и Informatica трансформации: Сърцето и душата на Informatica PowerCenter . В случай, че търсите подробности за сертифицирането на Informatica, можете да проверите нашия блог Сертифициране на Informatica: Всичко, което трябва да се знае .

Ако вече сте решили да започнете Informatica като кариера, бих ви препоръчал да разгледате нашата страница на курса. Обучението по сертифициране на Informatica в Edureka ще ви направи експерт по Informatica чрез ръководени от инструктори сесии и практически обучения, използващи случаи от реалния живот.