Het Apriorialgoritme heeft een eenvoudige, maar effectieve aanpak. is ontworpen om associatieregels te vinden in datasets. Deze associatieregels helpen bij het identificeren van interessante relaties tussen verschillende items in de dataset.
- Bereken de support van individuele items: allereerst ga je tellen hoe vaak elk item in de dataset voorkomt. Alleen items die vaak genoeg voorkomen (boven een bepaalde minimumsupport) blijven over voor de volgende stappen.
- Creëer kandidaat-itemsets: nu ga je sets maken van twee items, daarna van drie items, enzovoort. Je kunt dit zien als het combineren van verschillende items om te zien welke sets interessant kunnen zijn.
- Snijd af op basis van minimum support: hier gooi je alle sets van items weg die niet vaak genoeg voorkomen in de dataset.
- Bereken de confidence voor overgebleven itemsets: nu ga je voor de overgebleven sets de 'confidence' berekenen. Als de confidence hoog is, is het waarschijnlijker dat de items in de set samen worden gekocht (of hoe je de items ook maar definieert).
Voorbeeld
Stel je hebt een dataset van 100 klanten die boodschappen hebben gekocht in een supermarkt. Je wilt weten welke producten vaak samen worden gekocht.
- Je berekent eerst hoe vaak elk product is gekocht. Stel, appels zijn 70 keer gekocht, en bananen 80 keer.
- Nu maak je sets van twee: {Appel, Banaan}, {Appel, Peer}, etc.
- Je telt hoe vaak deze sets in je dataset voorkomen. Stel, de set {Appel, Banaan} komt 50 keer voor.
- Als laatste bereken je de confidence. Als appels 70 keer zijn gekocht en de set {Appel, Banaan} 50 keer voorkomt, dan is de confidence 50/70, oftewel ongeveer 71%.
Nu weet je dat als iemand een appel koopt, er een kans van 71% is dat ze ook een banaan kopen. Deze informatie kan bijvoorbeeld nuttig zijn voor marketingdoeleinden.