Confusion Matrix Ne Işe Yarar ?

Irem

New member
Confusion Matrix Nedir?

Makine öğrenmesi ve yapay zeka alanlarında model performansını değerlendirmek oldukça önemlidir. Bu süreçte kullanılan en yaygın araçlardan biri de confusion matrix (karışıklık matrisi)dir. Confusion matrix, sınıflandırma problemlerinde bir modelin doğru ve yanlış tahminlerini görselleştiren bir araçtır. Temelde modelin tahmin ettiği sınıflar ile gerçek sınıflar arasındaki ilişkileri ortaya koyar. Bu sayede, modelin hangi tür hatalar yaptığına dair derinlemesine bilgi elde edilebilir.

Bir confusion matrix, genellikle dört temel bileşenden oluşur: True Positive (TP), False Positive (FP), True Negative (TN) ve False Negative (FN). Bu bileşenlerin her biri, modelin nasıl bir performans sergilediğini anlamamıza yardımcı olur.

Confusion Matrix Neden Önemlidir?

Confusion matrix, modelin doğruluğunun ötesine geçerek modelin gerçek başarısını analiz etmenizi sağlar. Örneğin, doğruluk (accuracy) metrik, doğru sınıflandırmaların toplam gözlemlere oranıdır. Ancak sadece doğruluk metriği, özellikle dengesiz veri setlerinde yanıltıcı olabilir. Örneğin, bir modelin çoğunluk sınıfını sürekli doğru tahmin etmesi, düşük doğruluk oranına sahip olabilir ancak yine de çoğunluk sınıfı için mükemmel sonuçlar verebilir.

Confusion matrix, modelin her sınıfı nasıl tahmin ettiğini gösterir. Bu, özellikle dengesiz sınıflara sahip veri setlerinde faydalıdır. Örneğin, tıbbi teşhis gibi kritik uygulamalarda yanlış negatifler (FN) çok ciddi sonuçlar doğurabilir. Bu nedenle confusion matrix, sadece doğruluğa bakmak yerine hataların türünü ve şiddetini anlamamıza yardımcı olur.

Confusion Matrix Nasıl Okunur?

Confusion matrix, genellikle şu şekilde düzenlenir:

| | Tahmin Edilen Pozitif | Tahmin Edilen Negatif |

| ------------------ | --------------------- | --------------------- |

| Gerçek Pozitif | TP (True Positive) | FN (False Negative) |

| Gerçek Negatif | FP (False Positive) | TN (True Negative) |

- True Positive (TP): Modelin doğru bir şekilde pozitif sınıfı tahmin ettiği durumları ifade eder. Örneğin, kanser hastalığı pozitif ve model de doğru bir şekilde kanseri pozitif olarak sınıflandırmışsa, bu TP olur.

- False Positive (FP): Modelin yanlış bir şekilde negatif sınıfı pozitif olarak tahmin ettiği durumu ifade eder. Örneğin, sağlıklı bir bireyi kanser olarak sınıflandırmak, FP olur.

- True Negative (TN): Modelin doğru bir şekilde negatif sınıfı tahmin ettiği durumu ifade eder. Yani, sağlıklı bir bireyi doğru bir şekilde sağlıklı olarak sınıflandırmak TN'dir.

- False Negative (FN): Modelin yanlış bir şekilde pozitif sınıfı negatif olarak tahmin ettiği durumu ifade eder. Örneğin, kanserli bir hastayı sağlıklı olarak sınıflandırmak FN'dir.

Confusion Matrix ile Hangi Metrikler Hesaplanabilir?

Confusion matrix, yalnızca modelin temel doğruluğunu değil, aynı zamanda daha ayrıntılı metrikleri hesaplamanızı sağlar. Bu metrikler, modelin başarısını daha iyi anlamanıza yardımcı olur.

- Doğruluk (Accuracy): Modelin doğru tahmin ettiği örneklerin toplam örneklere oranıdır.

$$

text{Doğruluk} = frac{TP + TN}{TP + TN + FP + FN}

$$

- Hassasiyet (Precision): Modelin pozitif tahminlerinden ne kadarının doğru olduğunu ölçer.

$$

text{Hassasiyet} = frac{TP}{TP + FP}

$$

- Duyarlılık (Recall) veya Tespit Oranı: Gerçek pozitif örneklerin ne kadarının doğru bir şekilde pozitif olarak sınıflandırıldığını gösterir.

$$

text{Duyarlılık} = frac{TP}{TP + FN}

$$

- F1 Skoru: Precision ve recall'un harmonik ortalamasıdır. Bu, iki metrik arasındaki dengeyi ölçmek için kullanılır.

$$

F1 = 2 times frac{text{Precision} times text{Recall}}{text{Precision} + text{Recall}}

$$

Bu metrikler, modelin hangi durumlarda iyi çalıştığını ve hangi durumlarda hata yaptığını anlamanızı sağlar.

Confusion Matrix Nerelerde Kullanılır?

Confusion matrix, özellikle aşağıdaki alanlarda yaygın olarak kullanılır:

1. Tıbbi Teşhis: Kanser, diyabet veya diğer hastalıkların teşhisinde modelin başarısını değerlendirmek için confusion matrix kullanılır. Burada, False Negative (FN) büyük bir önem taşır çünkü yanlış negatifler, tedavi edilmemiş hastaların geç teşhis edilmesine yol açabilir.

2. Spam E-posta Filtreleme: E-posta filtreleri, spam ve ham e-postaları ayırt etmek için sınıflandırıcılar kullanır. Burada, False Positive (FP) spam olmayan bir e-postanın spam olarak işaretlenmesi anlamına gelir ve kullanıcı deneyimini olumsuz etkiler.

3. Yüz Tanıma ve Biyometrik Sistemler: Yüz tanıma sistemlerinde, doğru bir şekilde kimlik doğrulama veya yanlış kişi tanımlama durumları confusion matrix ile değerlendirilir.

4. Duygu Analizi: Metin veya yorumların pozitif, negatif veya nötr olarak sınıflandırıldığı duygu analizi uygulamalarında da confusion matrix kullanılır.

Confusion Matrix Ne Tür Hatalar Gösterir?

Confusion matrix, sadece hataların türünü değil, aynı zamanda bu hataların ciddiyetini de gösterir.

- False Positive (FP) hatalar, modelin yanlış bir şekilde pozitif tahminler yapmasıdır. Bu, örneğin, spam filtrelerinin yanlışlıkla önemli bir e-postayı spam olarak işaretlemesi gibi durumları içerir. FP, genellikle kullanıcı deneyimi açısından daha sorunlu olabilir.

- False Negative (FN) hatalar, modelin pozitif bir durumu negatif olarak sınıflandırmasıdır. Bu hata, genellikle daha ciddi sonuçlar doğurur çünkü kritik bir durum göz ardı edilmiş olur. Örneğin, kanserli bir hastayı sağlıklı olarak sınıflandırmak, ciddi sağlık sorunlarına yol açabilir.

Confusion matrix, bu tür hataların farkına varmamızı ve modelin nasıl iyileştirilebileceğine dair adımlar atmamızı sağlar.

Confusion Matrix’in Sınırlamaları Nelerdir?

Confusion matrix güçlü bir araç olsa da bazı sınırlamaları vardır:

1. Dengesiz Veri Setleri: Sınıflar arasında büyük dengesizlikler olduğunda confusion matrix yanıltıcı olabilir. Örneğin, tüm verilerin bir sınıfa ait olduğu durumlarda doğruluk metriği yüksek olabilir, ancak model aslında faydalı bir tahmin yapmıyordur. Bu durumda F1 skoru gibi daha anlamlı metrikler kullanılmalıdır.

2. Büyük Veri Setlerinde Karmaşıklık: Büyük veri setlerinde confusion matrix, özellikle çok sınıflı problemlerde karmaşık hale gelebilir. Bu tür durumlarda, daha gelişmiş metrikler ve görselleştirme yöntemleri tercih edilebilir.

Sonuç

Confusion matrix, sınıflandırma problemlerinde modelin performansını detaylı bir şekilde değerlendirmemizi sağlayan güçlü bir araçtır. Modelin doğruluğundan çok, hataların türünü anlamak, yanlış sınıflandırmaların nerelerde yapıldığını görmek ve hataları minimize etmek için kritik bilgiler sunar. Bu nedenle, herhangi bir makine öğrenmesi projesinde confusion matrix’i kullanmak, modelin gerçek başarısını ölçmenin en etkili yollarından biridir.
 
Üst