LLM - Encoder - Embedding - Decoder
LLM - Encoder - Embedding - Decoder Nedir?
Image credit: Unsplash
Büyük Dil Modelleri - Large Language Models (Encoder, Decoder, Embedding)
Büyük dil modelleri (LLM - Large Language Models) bağlamında encoder, embedding ve decoder kavramları çok önemli roller oynar. Bu kavramları, Transformer tabanlı modellerle ilişkilendirerek açıklayalım.
1. Encoder (Kodlayıcı) - BERT Gibi Modellerde Kullanılır
Encoder, girdi metnini daha anlamlı ve işlenebilir bir temsile çevirir.
- Transformer Encoder’ı, her kelimenin bağlamını anlamak için self-attention mekanizmasını kullanır.
- Encoder tabanlı modeller genellikle maskeli dil modelleme (MLM - Masked Language Modeling) kullanır.
Örnek: BERT (Bidirectional Encoder Representations from Transformers)
- BERT, tamamen encoder katmanlarından oluşur.
- Model, eksik kelimeleri tahmin etmek için iki yönlü (bidirectional) bir anlayış geliştirir.
- Örnek:
“Kemal İstanbul’da yaşıyor ve ___ çok seviyor.”
- BERT, boşluğa en uygun kelimeyi tahmin eder (örneğin, “şehri”).
💡 Encoder modelleri genellikle:
- Metin anlamlandırma (semantic search)
- Sentiment analizi
- Soru-cevap sistemleri
gibi görevlerde kullanılır.
2. Embedding (Gömme) - Tüm LLM’lerde Kullanılır
LLM’lerin temelinde kelime gömme (word embedding) işlemi vardır.
- Her kelime, belirli bir yoğun vektör (dense vector) ile temsil edilir.
- Embedding’ler, modelin kelimeler arasındaki anlamsal ilişkileri öğrenmesini sağlar.
💡 Embedding’in Önemi:
- “Kral” ve “Kraliçe” gibi benzer kelimeler, vektör uzayında birbirine yakın olur.
- Embedding’ler sayesinde model, sinonimleri ve bağlamsal anlamları öğrenebilir.
Örnek: Word2Vec, FastText, GPT Embedding’leri
- Word2Vec: Kelimeleri n-boyutlu vektörlere çevirir.
- GPT gibi modeller: Önceden öğrenilmiş embedding’leri kullanarak her kelimenin vektör karşılığını alır.
🔹 Örnek Uygulamalar:
- Bilgi arama sistemleri
- Öneri motorları
- Kelime benzerlik analizleri
3. Decoder (Çözücü) - GPT Gibi Modellerde Kullanılır
Decoder, bir metin oluşturmak için modelin öğrendiği temsilleri çözümler.
- Transformer Decoder’ı, her kelimeyi bir önceki kelimeye bakarak tahmin eder.
- Causal Self-Attention kullanarak sadece geçmiş kelimeleri dikkate alır (geleceği göremez).
Örnek: GPT (Generative Pre-trained Transformer)
- GPT, tamamen decoder katmanlarından oluşur.
- Model, bir sonraki kelimeyi tahmin etmeye odaklanır.
- Örnek:
“Kemal İstanbul’da yaşıyor ve”
- GPT → “şehri” veya “denizi” gibi tahminler yapar.
💡 Decoder modelleri genellikle:
- Metin üretme (chatbots, haber yazma)
- Kod üretme (Codex, Copilot)
- Hikâye anlatma gibi görevlerde kullanılır.
Özet: LLM’lerde Encoder, Embedding ve Decoder Kullanımı
| Kavram | Görevi | Kullanıldığı Modeller |
|---|---|---|
| Encoder | Metni anlamlı vektörlere dönüştürür. | BERT, T5 (encoder-decoder) |
| Embedding | Kelimeleri sayısal vektörlere çevirir. | Tüm LLM’ler (BERT, GPT, T5) |
| Decoder | Vektörlerden yeni metin üretir. | GPT, T5 (encoder-decoder) |
📌 Önemli Notlar:
- BERT → Encoder modelidir, metni anlamlandırır ama üretmez.
- GPT → Decoder modelidir, yeni metin üretir.
- T5 → Hem encoder hem decoder içerir, çeviri ve özetleme gibi görevler yapar.
Bu ayrım, hangi modelin hangi görev için uygun olduğunu anlamak açısından kritik!