dr inż. Michał Malinowski

bazy grafowe, cyberbezpieczeństwo, sztuczna inteligencja

Terminologia pojęć LLM


Czyli jak zrozumieć Sztuczną Inteligencję


August 17, 2024

W dziedzinie przetwarzania języka naturalnego (NLP), modele językowe dużej skali (Large Language Models, LLM) odgrywają kluczową rolę w rozwoju zaawansowanych technologii przetwarzania i generowania tekstu. LLM, takie jak GPT (Generative Pre-trained Transformer), BERT (Bidirectional Encoder Representations from Transformers), czy inne nowoczesne modele, bazują na szeregu złożonych koncepcji i technik, które umożliwiają im skuteczne modelowanie języka naturalnego. Poniżej zostały przedstawione kluczowe terminy i pojęcia związane z LLM, takie jak funkcja aktywacji, mechanizm uwagi, model bazowy oraz batch. Zrozumienie tych pojęć jest niezbędne do pełnego wykorzystania potencjału, jaki oferują współczesne modele językowe sztucznej inteligencji. 
Termin angielski Termin polski Definicja
Activation Function Funkcja aktywacji Funkcja w sieci neuronowej, która decyduje, czy neuron powinien być aktywowany, czyli czy powinien przekazać sygnał dalej.
Attention Mechanism Mechanizm uwagi Komponent modelu transformera, który pozwala modelowi skupiać się na istotnych częściach wejściowych danych sekwencyjnych, co poprawia efektywność przetwarzania informacji.
Base Model Model bazowy Podstawowy model maszynowy, który może być później dostosowany do konkretnych zadań poprzez techniki takie jak fine-tuning.
Batch Partia danych Podzbiór danych treningowych używany do jednej iteracji aktualizacji wag w modelu podczas procesu trenowania.
Bidirectional Encoder Representations from Transformers (BERT) Dwukierunkowe reprezentacje kodera z transformatorów (BERT) Wstępnie wytrenowany model językowy, który rozumie kontekst zarówno z lewej, jak i prawej strony słowa w zdaniu, co poprawia jego zdolność do rozumienia tekstu.
Corpus Korpus danych Duży zbiór tekstów wykorzystywany do trenowania modeli językowych i przetwarzania języka naturalnego.
Data Structure Struktura danych Sposób organizacji, zarządzania i przechowywania danych, który umożliwia ich efektywne użycie. Przykłady to tablice, listy, drzewa, grafy.
Deep Learning Głębokie uczenie Poddziedzina uczenia maszynowego, która używa wielowarstwowych sieci neuronowych do modelowania skomplikowanych wzorców w danych.
Development Rozwój Proces tworzenia, trenowania, testowania i wdrażania modeli uczenia maszynowego lub systemów informatycznych.
Embedding Osadzanie Technika reprezentacji elementów, takich jak słowa czy dokumenty, w przestrzeni wektorowej o mniejszej liczbie wymiarów, co pozwala na bardziej efektywne przetwarzanie danych.
Encoding Kodowanie Proces przekształcania danych do formatu, który może być łatwiej przetwarzany przez model lub system komputerowy.
Fine-tuning Dostosowywanie modelu Proces dostosowywania wstępnie wytrenowanego modelu do specyficznych zadań za pomocą dodatkowego treningu na nowym zbiorze danych.
Generative Pre-trained Transformer (GPT) Generatywne pretrenowane transformatory (GPT) Rodzina modeli językowych, które są trenowane na ogromnych zbiorach danych tekstowych i zdolne do generowania spójnych, kontekstowych tekstów na podstawie dostarczonych danych wejściowych.
Gradient Descent Spadek gradientu Optymalizacyjny algorytm używany do minimalizowania funkcji straty, iteracyjnie aktualizując wagi modelu w kierunku przeciwnym do gradientu funkcji straty.
Hyperparameter Hiperparametr Parametr modelu, którego wartość jest ustalana przed rozpoczęciem treningu i który kontroluje proces uczenia, np. szybkość uczenia (learning rate).
Large Language Model (LLM) Duży model językowy (LLM) Model językowy o bardzo dużej liczbie parametrów, który może przetwarzać i generować teksty na podstawie dużych zbiorów danych.
Layer Warstwa Pojedynczy poziom w sieci neuronowej, który przekształca dane wejściowe i przekazuje je do kolejnej warstwy w celu dalszego przetwarzania.
Learning Uczenie się Proces nabywania wiedzy lub umiejętności przez model maszynowy poprzez analizę danych i dostosowywanie jego parametrów.
Learning Rate Współczynnik uczenia się Kluczowy hiperparametr, który określa, jak dużą zmianę wprowadza się do wag modelu podczas każdej iteracji trenowania.
Lematyzacja Lemmatization Proces przetwarzania języka naturalnego, który polega na sprowadzaniu odmienionych form wyrazów do ich podstawowej, słownikowej formy, zwanej lematem.
Loss Function Funkcja straty Funkcja, która mierzy różnicę między przewidywaniami modelu a rzeczywistymi wartościami, co pomaga modelowi w dostosowywaniu jego parametrów w celu poprawy dokładności.
Machine Bias Stronniczość maszynowa Odnosi się do tendencji modelu uczenia maszynowego do dokonywania nieprecyzyjnych lub niesprawiedliwych prognoz ze względu na systematyczne błędy, które mogą wynikać z wadliwych danych treningowych lub architektury modelu.
Machine Learning Uczenie maszynowe Dział informatyki zajmujący się tworzeniem algorytmów, które uczą się wzorców w danych i mogą dokonywać predykcji lub podejmować decyzje bez bycia zaprogramowanymi na te konkretne zadania.
Neural Network Sieć neuronowa Struktura obliczeniowa inspirowana biologicznymi sieciami neuronowymi, składająca się z neuronów (węzłów) i połączeń między nimi, które przetwarzają dane.
Optimizer Optymalizator Algorytm używany do minimalizacji funkcji straty poprzez dostosowywanie parametrów modelu, np. Adam, SGD.
Parameter Parametr Zmienna w modelu maszynowym, która jest modyfikowana podczas treningu, aby zminimalizować funkcję straty i poprawić dokładność modelu.
Perplexity Perpleksja Miara jakości modelu językowego, która ocenia, jak dobrze model przewiduje próbki tekstu; niższa perpleksja oznacza lepszą wydajność.
Process Proces Sekwencja kroków lub operacji, które są przeprowadzane w celu wykonania zadania w kontekście obliczeniowym lub uczenia maszynowego.
Regularization Regularyzacja Technika stosowana w trenowaniu modeli w celu zapobiegania przeuczeniu poprzez dodanie kary za złożoność modelu.
Resource Zasób Dowolny element (np. dane, moc obliczeniowa), który jest wykorzystywany do trenowania, testowania lub wdrażania modelu.
Sample Próbka Pojedynczy przykład z danych używany do trenowania lub testowania modelu maszynowego.
Test Set Zbiór testowy Zestaw danych używany do oceny wydajności modelu po zakończeniu treningu, pozwalający sprawdzić, jak dobrze model generalizuje na niewidziane wcześniej dane.
Tokenization Tokenizacja Proces dzielenia tekstu na mniejsze jednostki, zwane tokenami, które są podstawową jednostką do analizy w przetwarzaniu języka naturalnego.
Training Trening Proces uczenia modelu maszynowego poprzez dostosowywanie jego parametrów na podstawie danych treningowych.
Transfer Transfer Proces przenoszenia wiedzy z jednego modelu lub zestawu danych na inny model lub zestaw danych w celu poprawy wydajności lub przyspieszenia treningu.
Transformer Model Model transformera Model oparty na architekturze transformera, używany głównie w przetwarzaniu języka naturalnego, który pozwala na równoczesne przetwarzanie całego tekstu zamiast sekwencyjnego przetwarzania.
Validation Set Zbiór walidacyjny Zestaw danych używany do dostrajania hiperparametrów modelu i monitorowania jego wydajności podczas treningu, ale nie jest używany do ostatecznego testowania.
Vectors Wektory Numeryczne reprezentacje danych, np. słów, w przestrzeni wektorowej, które są używane w modelach maszynowych do przetwarzania i analizy.
#LLM #NLP #MachineLearning #AI #UczenieMaszynowe #SztucznaInteligencja 

Share



Follow this website


You need to create an Owlstown account to follow this website.


Sign up

Already an Owlstown member?

Log in