← Fogalomtár
Fogalom
RLHF (emberi visszajelzésen alapuló megerősítéses tanulás)
Olyan tréningmódszer, amelyben emberek értékelik a modell válaszait, és ezekből tanulja meg a rendszer, milyen válasz számít hasznosnak és elfogadhatónak. Így lesz a nyers modellből használható chatasszisztens.
Analógia
Mint egy mentorprogram, ahol a junior kolléga folyamatos visszajelzést kap, és ehhez igazítja a munkastílusát.
Miért fontos?
Ezért érződik egy mai AI kevésbé kaotikusnak, mint a korai nyelvi modellek. Üzleti használatban az a tét, hogy a rendszer ne csak okos legyen, hanem együttműködő, biztonságos és követhető is.