dr inż. Michał Malinowski

bazy grafowe, sztuczna inteligencja, cyberbezpieczeństwo

Macierz Pomyłek


Ocena Jakości Klasyfikacji


August 23, 2024

Macierz pomyłek i podstawowe miary
Macierz pomyłek i podstawowe miary
Macierz pomyłek (ang. Confusion matrix) to dwuwymiarowa macierz, która podsumowuje wyniki klasyfikacji w sposób tabelaryczny. Macierz ta zawiera informacje o rzeczywistych klasach oraz o przewidywanych klasach przez model. Jej głównym celem jest prezentacja liczby przypadków, w których klasyfikator pomylił klasy, oraz liczby przypadków, w których klasyfikator dokonał poprawnej predykcji.
W dzisiejszych czasach, wraz z rozwojem sztucznej inteligencji i uczenia maszynowego, rośnie potrzeba dokładnego oceniania jakości modeli klasyfikacyjnych. Macierz pomyłek jest fundamentalnym narzędziem, które pozwala na dogłębną analizę wyników modelu klasyfikacyjnego, umożliwiając zrozumienie, gdzie model działa poprawnie, a gdzie się myli.

Wizualizacja macierzy pomyłek

Poniżej przedstawiam prostą wizualizację macierzy pomyłek dla klasyfikacji binarnej: 
Klasa przewidywana \ Klasa rzeczywista Pozytywna Negatywna
Pozytywna Prawdziwie pozytywna (TP) Fałszywie pozytywna (FP)
Negatywna Fałszywie negatywna (FN) Prawdziwie negatywna (TN)
 W tej macierzy:
  • Prawdziwie pozytywna (TP, True Positives): Model poprawnie zaklasyfikował przypadki pozytywne.
  • Fałszywie pozytywna ( FP, False Positives): Model błędnie zaklasyfikował przypadki negatywne jako pozytywne. 
  • Fałszywie negatywna (FN, False Negatives): Model błędnie zaklasyfikował przypadki pozytywne jako negatywne.
  • Prawdziwie negatywna (TN, True Negatives): Model poprawnie zaklasyfikował przypadki negatywne.
Wizualizacja macierzy pomyłek w postaci tabeli umożliwia szybkie zrozumienie wyników modelu oraz identyfikację obszarów wymagających dalszej optymalizacji. 

Miary bazujące na macierzy pomyłek?

Wartości w macierzy pomyłek pozwalają na obliczenie różnych miar oceny jakości klasyfikacji, takich jak:
  1. Accuracy (dokładność) – miara pokazująca, jak dobrze model klasyfikuje wszystkie przykłady. Jest to stosunek liczby poprawnych predykcji (TP + TN) do całkowitej liczby przypadków.
Accuracy= (TP + TN) / (TP + TN + FP + FN) 
  1. Precision (precyzja) – miara określająca, jak wiele z przewidywanych pozytywnych przypadków faktycznie jest pozytywnych. Jest to stosunek liczby poprawnych pozytywnych predykcji (TP) do liczby wszystkich przewidywanych jako pozytywne (TP + FP).
Precision= TP / (TP + FP) 
  1. Recall (czułość) – miara pokazująca, jak dobrze model wychwytuje rzeczywiste pozytywne przypadki. Jest to stosunek liczby poprawnych pozytywnych predykcji (TP) do liczby wszystkich rzeczywistych pozytywnych przypadków (TP + FN).
Recall= TP / (TP + FN) 
  1. F1-Score – harmoniczna średnia precyzji i czułości, która jest bardziej konserwatywną miarą, łączącą obie powyższe miary w jedną. Jest szczególnie przydatna, gdy mamy do czynienia z niezbalansowanymi danymi.
F1-Score= 2 * (Precision * Recall) / (Precision + Recall) 

Zastosowanie macierzy pomyłek w praktyce

Macierz pomyłek jest narzędziem uniwersalnym, stosowanym w wielu dziedzinach, gdzie wymagane są modele klasyfikacyjne:
  1. Medycyna: W diagnostyce medycznej, gdzie systemy klasyfikacyjne mogą być używane do przewidywania, czy pacjent jest chory czy zdrowy. Macierz pomyłek pomaga ocenić, jak dobrze system identyfikuje przypadki choroby (True Positives) i zdrowia (True Negatives).
  2. Bezpieczeństwo: W systemach detekcji zagrożeń, gdzie istotne jest minimalizowanie fałszywych alarmów (False Positives) oraz maksymalizacja wykrywania rzeczywistych zagrożeń (True Positives).
  3. Marketing: W kampaniach reklamowych, gdzie modele klasyfikacyjne mogą przewidywać, czy użytkownik kliknie w reklamę. Macierz pomyłek pomaga w analizie skuteczności kampanii oraz w optymalizacji strategii marketingowej.
  4. Finanse: W analizie ryzyka kredytowego, gdzie klasyfikatory mogą przewidywać, czy klient spłaci kredyt, czy nie. Macierz pomyłek dostarcza informacji, które pomagają w zarządzaniu ryzykiem oraz w ocenie polityki kredytowej.
  5. Cyberbezpieczeństwo: W systemach wykrywania włamań i ochrony sieci, gdzie macierz pomyłek pozwala ocenić, jak skutecznie system wykrywa ataki (True Positives) oraz jak często fałszywie alarmuje o zagrożeniu (False Positives).
  6. Sztuczna Inteligencja: W rozwoju i ocenie modeli uczenia maszynowego, macierz pomyłek jest kluczowym narzędziem do oceny, które klasy są najtrudniejsze do przewidzenia, co umożliwia dalszą optymalizację modelu. 

Wyzwania i ograniczenia

Choć macierz pomyłek jest potężnym narzędziem, ma swoje ograniczenia. Jednym z wyzwań jest interpretacja wyników w przypadku dużych, niezbalansowanych zbiorów danych, gdzie jedna klasa może dominować nad drugą. W takich przypadkach, same wartości macierzy pomyłek mogą nie wystarczyć i konieczne jest stosowanie dodatkowych miar, takich jak ROC AUC czy krzywa precyzja-recall.

Podsumowanie

Macierz pomyłek jest kluczowym narzędziem w ocenie jakości klasyfikacji, dostarczając wszechstronnego wglądu w wyniki modelu. Pozwala na zidentyfikowanie mocnych i słabych stron klasyfikatora, co jest niezbędne do jego dalszej optymalizacji. W połączeniu z innymi miarami, macierz pomyłek umożliwia pełną ocenę i porównanie różnych modeli klasyfikacyjnych, co jest kluczowe w procesie tworzenia i wdrażania systemów opartych na uczeniu maszynowym. 
#MacierzPomyłek #Klasyfikacja #ConfusionMatrix

Share



Follow this website


You need to create an Owlstown account to follow this website.


Sign up

Already an Owlstown member?

Log in