Model językowy może tworzyć tekst, wybierając jedno słowo (lub token) po drugim. Sposób, w jaki dobieramy każdy kolejny token, wpływa bezpośrednio na jakość, spójność i różnorodność generowanego tekstu. Poniżej omówimy trzy główne strategie: zachłanne wybieranie (greedy), przeszukiwanie wiązkowe (beam search) oraz metody oparte na próbkowaniu (sampling).
1. Zachłanne wybieranie (Greedy)
Metoda polega na każdorazowym wyborze tokena o najwyższym prawdopodobieństwie.
-
Typ: deterministiczny
-
Zasada działania: w każdym kroku wybieramy token z największym PPP
-
Różnorodność: niska
-
Unikanie pułapek: brak mechanizmu zapobiegającego zastoju w pętli lub powtarzalności
-
Koszt obliczeniowy: minimalny
Zalety:
- Prosta implementacja
- Szybkość działania
Wady:
- Często generuje przewidywalne i monotonne fragmenty
- Brak kontroli nad unikalnością treści
2. Przeszukiwanie wiązkowe (Beam Search)
Beam search to rozszerzenie zachłannego algorytmu, które jednocześnie utrzymuje kilka najlepszych kandydatur.
-
Typ: deterministiczny
-
Zasada działania: na każdym kroku zachowuje B sekwencji z najwyższą sumą log-prawdopodobieństw
-
Różnorodność: umiarkowana (rośnie wraz z szerokością wiązki B)
-
Unikanie pułapek: zapobiega najprostszym powtórzeniom dzięki wyborowi alternatywnych ścieżek
-
Koszt obliczeniowy: wysoki (rosnący liniowo z B)
Zalety:
- Lepsza spójność i jakość niż greedy
- Możliwość generowania kilku wariantów tekstu jednocześnie
Wady:
- Znacząco większe wymagania obliczeniowe
- Wciąż może wpadać w lokalne minima w ocenie jakości
3. Próbowanie z modyfikacją rozkładu (Sampling: temperatura, top-k, top-p)
Metody samplingowe wprowadzają losowość, losując tokeny z odpowiednio przyciętego lub wygładzonego rozkładu.
-
Typ: stochasticzny
-
Zasada działania: losowanie tokenu według zmodyfikowanego rozkładu (parametry: temperatura T, top-k, top-p)
-
Różnorodność: wysoka (rosnąca wraz z wartościami T, kkk lub ppp)
-
Unikanie pułapek: częściowe – kontrolowane przez dobór parametrów
-
Koszt obliczeniowy: średni
Popularne techniki samplingowe:
-
Temperatura (T) – rozciąga lub spłaszcza rozkład prawdopodobieństw
-
Top-k – losowanie spośród k tokenów o najwyższych prawdopodobieństwach
-
Top-p (nucleus sampling) – losowanie spośród najmniejszego zbioru tokenów, których łączna masa prawdopodobieństw wynosi p
Zalety:
- Bardzo duża różnorodność i kreatywność generowanych tekstów
- Możliwość dostosowania poziomu losowości
Wady:
- Ryzyko wprowadzania błędów lub niespójności
- Dłuższe testowanie i dobór parametrów
Podsumowanie
Wybór metody sekwencyjnej zależy od priorytetów: jeśli zależy nam na szybkości i deterministycznych wynikach, sprawdzi się greedy; gdy liczy się spójność i mamy zasoby obliczeniowe, warto sięgnąć po beam search; a gdy chcemy uzyskać najbardziej zróżnicowany i kreatywny tekst, najlepszym rozwiązaniem będzie sampling z odpowiednio dobranymi parametrami.