LLM - Encoder - Embedding - Decoder

LLM - Encoder - Embedding - Decoder Nedir?

Image credit: Unsplash

Büyük Dil Modelleri - Large Language Models (Encoder, Decoder, Embedding)

Büyük dil modelleri (LLM - Large Language Models) bağlamında encoder, embedding ve decoder kavramları çok önemli roller oynar. Bu kavramları, Transformer tabanlı modellerle ilişkilendirerek açıklayalım.


1. Encoder (Kodlayıcı) - BERT Gibi Modellerde Kullanılır

Encoder, girdi metnini daha anlamlı ve işlenebilir bir temsile çevirir.

  • Transformer Encoder’ı, her kelimenin bağlamını anlamak için self-attention mekanizmasını kullanır.
  • Encoder tabanlı modeller genellikle maskeli dil modelleme (MLM - Masked Language Modeling) kullanır.

Örnek: BERT (Bidirectional Encoder Representations from Transformers)

  • BERT, tamamen encoder katmanlarından oluşur.
  • Model, eksik kelimeleri tahmin etmek için iki yönlü (bidirectional) bir anlayış geliştirir.
  • Örnek:

    “Kemal İstanbul’da yaşıyor ve ___ çok seviyor.”

    • BERT, boşluğa en uygun kelimeyi tahmin eder (örneğin, “şehri”).

💡 Encoder modelleri genellikle:

  • Metin anlamlandırma (semantic search)
  • Sentiment analizi
  • Soru-cevap sistemleri
    gibi görevlerde kullanılır.

2. Embedding (Gömme) - Tüm LLM’lerde Kullanılır

LLM’lerin temelinde kelime gömme (word embedding) işlemi vardır.

  • Her kelime, belirli bir yoğun vektör (dense vector) ile temsil edilir.
  • Embedding’ler, modelin kelimeler arasındaki anlamsal ilişkileri öğrenmesini sağlar.

💡 Embedding’in Önemi:

  • “Kral” ve “Kraliçe” gibi benzer kelimeler, vektör uzayında birbirine yakın olur.
  • Embedding’ler sayesinde model, sinonimleri ve bağlamsal anlamları öğrenebilir.

Örnek: Word2Vec, FastText, GPT Embedding’leri

  • Word2Vec: Kelimeleri n-boyutlu vektörlere çevirir.
  • GPT gibi modeller: Önceden öğrenilmiş embedding’leri kullanarak her kelimenin vektör karşılığını alır.

🔹 Örnek Uygulamalar:

  • Bilgi arama sistemleri
  • Öneri motorları
  • Kelime benzerlik analizleri

3. Decoder (Çözücü) - GPT Gibi Modellerde Kullanılır

Decoder, bir metin oluşturmak için modelin öğrendiği temsilleri çözümler.

  • Transformer Decoder’ı, her kelimeyi bir önceki kelimeye bakarak tahmin eder.
  • Causal Self-Attention kullanarak sadece geçmiş kelimeleri dikkate alır (geleceği göremez).

Örnek: GPT (Generative Pre-trained Transformer)

  • GPT, tamamen decoder katmanlarından oluşur.
  • Model, bir sonraki kelimeyi tahmin etmeye odaklanır.
  • Örnek:

    “Kemal İstanbul’da yaşıyor ve”

    • GPT → “şehri” veya “denizi” gibi tahminler yapar.

💡 Decoder modelleri genellikle:

  • Metin üretme (chatbots, haber yazma)
  • Kod üretme (Codex, Copilot)
  • Hikâye anlatma gibi görevlerde kullanılır.

Özet: LLM’lerde Encoder, Embedding ve Decoder Kullanımı

Kavram Görevi Kullanıldığı Modeller
Encoder Metni anlamlı vektörlere dönüştürür. BERT, T5 (encoder-decoder)
Embedding Kelimeleri sayısal vektörlere çevirir. Tüm LLM’ler (BERT, GPT, T5)
Decoder Vektörlerden yeni metin üretir. GPT, T5 (encoder-decoder)

📌 Önemli Notlar:

  • BERT → Encoder modelidir, metni anlamlandırır ama üretmez.
  • GPT → Decoder modelidir, yeni metin üretir.
  • T5 → Hem encoder hem decoder içerir, çeviri ve özetleme gibi görevler yapar.

Bu ayrım, hangi modelin hangi görev için uygun olduğunu anlamak açısından kritik!

Kemal Günay
Kemal Günay
Ph.D. Computational Social Scientist