Какво представлява прекаленото оборудване в машинното обучение и как да се избегне това?



Тази статия обхваща свръхсглобяване в машинно обучение с примери и няколко техники за избягване, откриване на свръхсглобяване в модел на машинно обучение.

Изграждането на модел на машинно обучение не се отнася само до подаването на данните, има много недостатъци, които засягат точността на всеки модел. Преоборудване е един такъв недостатък в машинното обучение, който затруднява точността, както и работата на модела. В тази статия са разгледани следните теми:

Какво представлява прекаленото оборудване в машинното обучение?

Казва се, че статистическият модел е пренастроен, когато му подаваме много повече данни, отколкото е необходимо. За да го направите подходящ, представете си, че се опитвате да се впишете в големи дрехи.





Когато даден модел побира повече данни, отколкото всъщност се нуждае, той започва да улавя шумните данни и неточните стойности в данните. В резултат на това ефективността и точността на модела намаляват. Нека да разгледаме няколко примера за преоборудване, за да разберем как се случва всъщност.



Примери за преоборудване

Пример 1

Ако вземем пример за просто линейна регресия , обучението на данните е свързано с намирането на минималните разходи между най-подходящата линия и точките с данни. Той преминава през редица повторения, за да открие оптималното най-добро прилягане, като минимизира разходите. Това е мястото, където прекаленото оборудване влиза в картината.



Линията, видяна на изображението по-горе, може да даде много ефективен резултат за нова точка с данни. В случай на преоборудване, когато стартираме алгоритъма за обучение на набора от данни, ние позволяваме разходите да намаляват с всеки брой итерации.

Изпълнявам това твърде дълго ще означава намалени разходи, но също така ще побере шумните данни от набора от данни. Резултатът ще изглежда по подобие на графиката по-долу.

Това може да изглежда ефективно, но всъщност не е така. Основната цел на алгоритъм като линейна регресия е да се намери доминираща тенденция и да се напаснат съответно точките от данни. Но в този случай линията отговаря на всички точки от данни, което е без значение за ефективността на модела при прогнозиране на оптимални резултати за нови точки за въвеждане на данни.

Сега нека разгледаме по-описателен пример с помощта на изявление за проблем.

Пример 2

Декларация за проблема: Нека помислим, че искаме да прогнозираме дали футболист ще кацне слот във футболен клуб от първи ред въз основа на текущото му представяне в лигата от втори ред.

Сега си представете, ние тренираме и съобразяваме модела с 10 000 такива играчи с резултати. Когато се опитваме да предскажем резултата на оригиналния набор от данни, нека кажем, че имаме 99% точност. Но точността на различен набор от данни е около 50 процента. Това означава, че моделът не обобщава добре от нашите данни за обучение и невидими данни.

Ето как изглежда прекаленото оборудване. Това е много често срещан проблем в машинното обучение и дори в науката за данните. Сега нека разберем сигнала и шума.

Сигнал срещу шум

При прогнозното моделиране сигналът се отнася до истинския основен модел, който помага на модела да научи данните. От друга страна, шумът е без значение и случайни данни в набора от данни. За да разберем концепцията за шум и сигнал, нека вземем пример от реалния живот.

Нека предположим, че искаме да моделираме възрастта срещу грамотността сред възрастните. Ако вземем проби от много голяма част от популацията, ще открием ясна връзка. Това е сигналът, докато шумът пречи на сигнала. Ако направим същото с местното население, връзката ще стане кална. Това ще бъде повлияно от извънредни стойности и случайност, например, един възрастен е отишъл рано на училище или някой възрастен не може да си позволи образование и т.н.

Говорейки за шум и сигнал по отношение на машинното обучение, добрият алгоритъм за машинно обучение автоматично ще отдели сигналите от шума. Ако алгоритъмът е твърде сложен или неефективен, той също може да научи шума. Следователно, преоборудване на модела. Нека разберем и недостатъчното оборудване в машинното обучение.

Какво е Underfitting?

За да избегнем прекалено оборудване, бихме могли да спрем обучението на по-ранен етап. Но това може също така да доведе до това моделът да не може да се научи достатъчно от данните за обучение, че може да е трудно да улови доминиращата тенденция. Това е известно като недооборудване. Резултатът е същият като преоборудването, неефективността при прогнозиране на резултатите.

Сега, след като разбрахме какво всъщност е недостатъчното и пренастройване в машинното обучение, нека се опитаме да разберем как можем да открием свръхсглобяването в машинното обучение.

Как да открием свръхмонтажа?

Основното предизвикателство при свръхмонтажа е да се оцени точността на работата на нашия модел с нови данни. Не бихме могли да оценим точността, докато всъщност не я тестваме.

За да се справим с този проблем, можем да разделим първоначалния набор от данни на отделни набори от данни за обучение и тестване. С тази техника ние всъщност можем да определим колко добре ще се представи нашият модел с новите данни.

Нека разберем това с пример, представете си, че получаваме 90+ процента точност на тренировъчния комплект и 50 процента точност на тестовия набор. Тогава автоматично ще бъде червен флаг за модела.

Друг начин за откриване на свръхкомплект е да започнем с опростен модел, който ще служи като еталон.

С този подход, ако опитате по-сложни алгоритми, ще можете да разберете дали допълнителната сложност дори си струва за модела или не. Известен е още като Тест за бръснач на Occam , той по същество избира опростения модел в случай на сравнима производителност в случай на два модела. Въпреки че откриването на свръхсглобяване е добра практика,но има няколко техники за предотвратяване и на пренастройване. Нека да разгледаме как можем да предотвратим пренастройването в машинното обучение.

Как да избегнем прекаленото оборудване в машинното обучение?

Съществуват няколко техники за избягване на пренастройване в машинното обучение, изброени по-долу.

  1. Кръстосана проверка

  2. Обучение с повече данни

  3. Премахване на функции

  4. Ранно спиране

  5. Регулиране

  6. Сглобяване

1. Кръстосана проверка

Една от най-мощните функции за избягване / предотвратяване на преоборудване е кръстосана проверка. Идеята зад това е да се използват първоначалните данни за обучение, за да се генерират мини влак-тест-разделяния и след това да се използват тези разделения, за да се настрои вашия модел.

При стандартна проверка на k-пъти данните се разделят на k-подмножества, известни също като гънки. След това алгоритъмът се обучава итеративно на k-1 гънки, докато се използват останалите гънки като тестов набор, известен също като holdout fold.

Кръстосаното валидиране ни помага да настроим хиперпараметрите само с оригиналния комплект за обучение. По същество той държи тестовия набор отделно като истински невидим набор от данни за избор на крайния модел. Следователно, избягване на прекаленото оборудване.

2. Обучение с повече данни

Тази техника може да не работи всеки път, както сме обсъждали и в горния пример, където обучението със значително количество население помага на модела. По същество помага на модела да идентифицира по-добре сигнала.

Но в някои случаи увеличените данни могат да означават и подаване на повече шум към модела. Когато обучаваме модела с повече данни, трябва да се уверим, че данните са чисти и без случайност и несъответствия.

3. Премахване на функции

Въпреки че някои алгоритми имат автоматичен избор на функции. За значителен брой от онези, които нямат вграден избор на функции, можем ръчно да премахнем няколко неподходящи функции от входните функции, за да подобрим обобщаването.

Един от начините да го направите е чрез извеждане на заключение за това как дадена функция се вписва в модела. Това е доста подобно на отстраняване на грешки в кода ред по ред.

В случай, че дадена функция не може да обясни уместността на модела, ние можем просто да ги идентифицираме. Можем дори да използваме няколко евристики за избор на функции за добра отправна точка.

4. Ранно спиране

Когато моделът тренира, всъщност можете да измервате колко добре се представя моделът въз основа на всяка итерация. Можем да правим това до момента, в който повторенията подобряват работата на модела. След това моделът преодолява данните за обучение, тъй като обобщаването отслабва след всяка итерация.

Така че по принцип ранното спиране означава спиране на тренировъчния процес, преди моделът да премине точката, в която моделът започва да превъзхожда данните за обучение. Тази техника се използва най-вече в дълбоко обучение .

5. Регулиране

Това всъщност означава, изкуствено принуждаване на вашия модел да бъде по-опростен чрез използване на по-широк спектър от техники. Това изцяло зависи от типа учещ, който използваме. Например можем да режем а , използвайте отпадане на a невронна мрежа или добавете параметър за наказание към функцията на разходите в регресия.

Доста често регуларизацията също е хиперпараметър. Това означава, че може да се настрои и чрез кръстосана проверка.

6. Сглобяване

Тази техника основно комбинира прогнози от различни модели на машинно обучение. Два от най-често срещаните методи за сглобяване са изброени по-долу:

  • Опитите с багаж да намалят шанса за прекалено монтиране на моделите

  • Повишаване на опитите за подобряване на предсказуемата гъвкавост на по-опростените модели

Въпреки че и двамата са ансамблови методи, подходът напълно започва от противоположни посоки. Bagging използва сложни базови модели и се опитва да изглади техните прогнози, докато ускоряването използва прости базови модели и се опитва да повиши своята обща сложност.

Какво е Goodness Of Fit?

При статистическото моделиране добротата на пригодността се отнася до това колко точно резултатите или прогнозираните стойности съвпадат с наблюдаваните или истинските стойности.Модел, който е научил шума вместо сигнала, е пренастроен, тъй като ще отговаря на набора от данни за обучение, но ще има по-лоша ефективност с новия набор от данни.

Компромисът между пристрастия и вариации

Както вариацията, така и пристрастието са форми на грешка в прогнозирането в . Компромисът между висока дисперсия и висока пристрастност е много важна концепция в статистиката и машинното обучение. Това е една концепция, която засяга всички контролирани алгоритми за машинно обучение.

Компромисът с отклонение с отклонение има много значително въздействие върху определянето на сложността, недостатъчното оборудване и преоборудването за всеки модел на машинно обучение.

как да променя пътя на Java -

Пристрастие

Това не е нищо друго освен разликата между прогнозираните стойности и действителните или истинските стойности в модела. Не винаги е лесно моделът да се учи от доста сложни сигнали.

Нека си представим монтаж на а линейна регресия към модел с нелинейни данни. Без значение колко ефективно моделът научава наблюденията, той няма да моделира ефективно кривите. Известно е като недооборудване.

Дисперсия

Той се отнася до чувствителността на модела към конкретни набори в данните за обучение. Алгоритъм с висока дисперсия ще създаде странен модел, който е драстично различен от набора за обучение.

Представете си алгоритъм, който отговаря на неограничения и свръхгъвкав модел, той също ще се учи от шума в тренировъчния комплект, причиняващ пренастройване.

Компромис при отклонение и отклонение

Алгоритъмът за машинно обучение не може да се възприема като еднократен метод за обучение на модела, вместо това е повтарящ се процес.

Алгоритмите с ниско отклонение и високо пристрастие са по-малко сложни, с проста и твърда структура.

  • Те ще обучат моделите, които са последователни, но средно неточни.

  • Те включват линейни или параметрични алгоритми, като регресия, и т.н.

Алгоритмите с голямо отклонение и ниско пристрастие са по-сложни с гъвкава структура.

  • Те ще обучат моделите, които са непоследователни, но средно точни.

  • Те включват нелинейни или непараметрични алгоритми като , и т.н.

Това ни води до края на тази статия, където сме научили Пренастройване в машинното обучение и за различни техники за избягване. Надявам се, че сте наясно с всичко споделено с вас в този урок.

Ако сте намерили за подходяща тази статия за „Пренастройване в машинно обучение“, разгледайте доверена компания за онлайн обучение с мрежа от над 250 000 доволни учащи, разпространени по целия свят.

Ние сме тук, за да ви помогнем при всяка стъпка по вашето пътуване и да изготвим учебна програма, предназначена за студенти и професионалисти, които искат да бъдат . Курсът е създаден, за да ви даде начален старт в програмирането на Python и да ви обучи както за основните, така и за напредналите концепции на Python, заедно с различни като , и т.н.

Ако попаднете на някакви въпроси, не се колебайте да зададете всичките си въпроси в раздела за коментари на „Прекалено подходящо машинно обучение“ и нашият екип ще се радва да отговори.