Wat is RAG (Retrieval Augmented Generation)?

Wie zich heeft verdiept in de opmars van Generatieve AI heeft er vast wel eens van gehoord: Retrieval Augmented Generation, oftewel RAG. Wat is RAG precies, en waarom is deze techniek zo belangrijk voor iedereen die met Artificiële Intelligentie werkt?

Waarom Retrieval Augmented Generation?

Daarvoor moeten we eerst kijken naar twee van de nadelen van Generatieve AI. Large Language Models, zoals ChatGPT, hebben een aantal grote nadelen:

  • Modellen zijn duur om te trainen. GPT-4 kostte volgens Sam Altman (de CEO van OpenAI) meer dan honderd miljoen dollar om te trainen.
  • Modellen hebben een cut-off data: een versie van ChatGPT die in Maart 2025 uitkomt is bijvoorbeeld getraind op data tot November 2024. Van de periode daarna weet het model niets.
  • Modellen hebben enkel toegang tot data die publiek is. Modellen hebben dus geen kennis van specifieke (afgeschermde) bedrijfsdata.

De oplossing: Retrieval Augmented Generation

Stel je nu eens voor dat je werkt voor een farmaceutisch bedrijf dat net een nieuw medicijn heeft ontwikkeld: Oracal. Er is nog geen informatie over dit medicijn gepubliceerd, enkel medewerkers van dit bedrijf hebben toegang tot informatie over Oracal.

Het bedrijf heeft een interne chatbot ontwikkeld waar medewerkers vragen kunnen stellen over hun producten. Stel je nu eens voor dat een medewerker deze chatbot vraagt:

Wat is Oracal?

Stel je voor het gemak even voor dat we gebruik zouden maken voor een model van OpenAI. Wanneer de medewerker de vraag stelt, krijgt de LLM zowel de vraag als het antwoord door. De prompt ziet er dan ongeveer zo uit:

Je bent een assistent die antwoorden geeft op vragen op basis van de antwoorden die ik geef. Formuleer een antwoord op de volgende vraag:

Wat is Oracal?

Het antwoord:

“Oracal is een medicijn tegen aften”

De chatbot gaat nu een antwoord formuleren: Oracal is een medicijn tegen aften.

De prompt die we gebruiken is een “systeem prompt” en het hele proces van Retrieval Augmented Generation speelt zich af binnen de software van de chatbot. De gebruiker merkt hier niets van.

Hoe werkt Retrieval Augmented Generation (RAG)?

Dat klinkt natuurlijk te mooi om waar te zijn! We geven een LLM gewoon de vraag en het antwoord op een vraag en het model formuleert het antwoord. Maar hoe komen we dan aan dat antwoord?

Door gebruik te maken van een semantische database. Een semantische database is een database waarmee je kunt zoeken op basis van tekst. De database geeft data terug die semantisch overeenkomt met de zoekterm. Dus als wij zoeken op “Wat is Oracal?” is de kans groot dat we een record tegenkomen dat lijkt op “Oracal is een medicijn tegen aften”.

Retrieval Augmented Generation

Dat klinkt te mooi om waar te zijn: een database die teksten ophaalt die (semantisch) lijken op de zoekterm. Weten hoe dit precies werkt? Daar lees je meer over in het artikel over embeddings.

Conclusie

Retrieval Augmented Generation is een oplossing die je op een goedkope manier een Large Language Model laat gebruiken met je eigen data. Veel bedrijven maken gebruik van RAG om chatbots met hun eigen data te laten werken. Het wordt ook wel gekscherend “poor man’s AI” genoemd, omdat het zo goedkoop is.

Neem vrijblijvend contact op

Tom’s Tech Academy biedt trainingen volledig op maat voor jouw bedrijf – we maken graag kennis en informeren je over de mogelijkheden!