Site pictogram Food4Innovations (NL) – ir. Wouter de Heij

Over false-positives bij PCR en wat dat betekent indien er ten onrechte te vaak wordt getest zonder triplo monster. Wiskunde A statistiek lesje, en mijn pleidooi voor NIVEL opschaling.

Meepraten of zie je foutjes? Laat je reactie achter op linkedin (of hieronder).

Ik ga proberen wat wiskunde A-sommetjes statistiek met jullie te maken. De sommetjes gaan over false-positives en false-negatives. De sommetjes gaan ook over (klinische) symptomen van ziekte, testen met PCR als er geen symptomen zijn. Ik gebruik hierbij termen die in de statistiek gebruikelijk zijn. Een van die termen is ‘schatter’ en ‘schatting’.

Als je in een grote populatie onderzoek doet, dan kan je niet deze hele populatie testen, er is dus dan altijd spraken van een steekproef uit deze populatie die je test. Als deze steekproef random gekozen wordt en groot genoeg is, dan worden de resultaten van het onderzoek op deze steekproef een “schatting” genoemd. Er zijn allemaal statistische wiskundige methoden om te bekijken hoe correct zo’n schatting dan is, en ik moet bekennen dat ik niet alles meer exact weet (het is bijna 30 jaar geleden dat ik mijn colleges liep aan de universiteit). Eerst maar een voorbeeldje dus.

Stel dat we weten dat er nu op dit moment in Nederland 0,3% van alle Nederlanders besmettelijk is. In Nederland lopen ongeveer 17.250.000 mensen rond. Dan zouden we in heel Nederland ongeveer 51,750 besmettelijke mensen rondlopen (300 per 100.000). Het probleem is, ik veronderstelde nu dat er 0,3% besmettelijke mensen zijn, maar we weten het eenvoudig weg niet.

De vraag is derhalve hoe komen we tot een correcte schatting van die 0,3% dan? De enige manier is om dan random bijvoorbeeld verspreid over Nederland bijvoorbeeld 25.000 mensen op te roepen, en deze te testen op corona. Deze 25.000 mensen kunnen zowel klachten als geen klachten hebben, deze (willekeurige) groepsgrootte van 25.000 mensen moet immers zo random mogelijk gekozen worden. (Dit is wat we zouden moeten doen, maar dat wordt volgens mijn niet gedaan, ik kom hier op terug).

Als ik nu een perfecte test zou hebben en deze steekproef is perfect random gekozen dan zou er uit dit onderzoek bijvoorbeeld kunnen komen “94 mensen zijn besmet”, in dat geval zou je kunnen zeggen “in Nederland zijn 0,376% van de mensen besmet, en we schatten dat er in heel Nederland 0,376% x 17.250.000 = 64.860 mensen besmettelijk zijn, of te wel 376 besmettingen per 100.000 inwoners”

In bovenstaande staan twee grote veronderstellingen “perfecte test (=analysemethode)” en “perfecte steekproef”. Om maar met de deur in huis te vallen beide veronderstellingen zijn absoluut incorrect. De PCR-test is niet perfect, en de steekproef is absoluut niet perfect. De steekproef van mensen die zich bij de GGD’s laat testen is niet perfect, omdat je je alleen mag laten testen als je klachten hebt. Zonder klachten immers geen PCR-test. Ik verwacht derhalve dat het aantal positieve testen altijd veel hoger is dan mijn 0,376% zoals ik hierboven verondersteld heb. Ik kom hier zo op terug.

Naast dat we dus geen perfecte random steekproef hebben, hebben we ook geen perfecte test. Uit de PCR literatuur blijkt dat het aandeel false-positives ongeveer 1% a 2% is. Wat betekent dit? Dit betekent dat als je 100.000 mensen zou testen er 1000 tot 2000 positieve covid monsters uit de screening komen, terwijl deze in de praktijk geen drager zijn van het virus. Daarom is het in de wereld van analyse van zeer groot belang om meerdere monsters te nemen (het beroemde wattenstaafje) die onafhankelijk van elkaar bekeken worden. Nu heb ik begrepen dat de GGD’s helemaal geen duplo of triplo monster nemen. En in dat geval kan je dus voorspellen dat er 1000-2000 false-positives zijn op de 100.000 testen, deze mensen zijn eigenlijk helemaal geen drager zijn van het virus. Of te wel 250-500 false positives zijn op de 25.000 testen. Oeps!

In mijn getallen voorbeeld hierboven veronderstelde ik dat er een besmetting is van ongeveer 0,3%. 300 per 100.000 dus. Maar de PCR meetmethode geeft dus ook al 1000-2000 false positieven. Mijn 376 werkelijk positieven voorbeeld van hierboven vallen dus volledige weg in de ruis van de verwachte 1000-2000 false positieven. Conclusie: we kunnen dus niet aantonen hoe het werkelijk zit bij zulke lage besmettingsniveaus, we kunnen zelfs niet goed inschatten hoeveel mensen er besmettelijk zijn in Nederland op deze manier.

Maar dit betekent dus dat bij lage aantallen werkelijke besmettingen de PCR statistisch gezien niet goed genoeg is. En deze getallen dus geen goede schatters zijn voor wat er binnen een populatie werkelijk aan de hand is. PCR is wel heel goed als 5 of 10% werkelijk besmet is (veel meer dan nu dus), of ter bevestiging van een ziekte als er klachten zijn bij een individuele patient (in aanvulling op klinische klachten dus!). Maar dat is nu waarschijnlijk niet zo, er zijn maar heel weinig mensen besmet in Nederland (ik denk maar enkele tienduizenden maximaal). We zitten dus in de ruis te meten! Waarschijnlijk volledig onder de detectielimieten. Het is dus heel gevaarlijk om op basis van deze gegevens dus conclusies te trekken en nog gevaarlijker om daarop beleid te baseren.

Nu hoor ik de slimme lezer al zeggen “ja maar waarom zien we dan niet 1000 besmettingen per 100.000 inwoners terug in Groningen? Daar vinden we vrijwel geen valse positieven?” Dat klopt, maar er wordt daar minder getest omdat er minder klachten zijn, en omdat er minder klachten zijn komen er ook minder positieve mensen naar voren (en natuurlijk omdat er vrijwel geen corona is in Groningen). En deel je de aantallen positieve testen vervolgens door het aantal inwoners in Groningen dan kom je uit op hele lage aantallen besmettingen. Het blijkt ook trouwens uit Nivel dat er in Zuid-Holland tweemaal zoveel luchtweg infecties zijn dan in Groningen, maar dit gaat over alle luchtweginfecties (dus ook influenza en rhino).

Is PCR dan helemaal een gekke methode? Neen dat hoor je mij niet zeggen. Het eerste wat gedaan zou moeten worden, is om meerdere onafhankelijke monsters (dus meerdere neus-swaps) bij een persoon te nemen. Deze monsters moeten wel echt onafhankelijk genomen zijn. Om 1 wattenstaafje meerdere keren door de PCR te halen verbeter je het systeem niet. Neen, je moet bijvoorbeeld drie of vijf swabs nemen in keel en neus.

Ik denk dat een triplo het minste aantal monsters is dat genomen moet worden bij een patient. De kans dat je dan een false positieve testuitslag hebt bij die persoon wordt aanzienlijk kleiner. Reken maar na 1% x 1% x 1%, het wordt dan 0,0001%. En als je dan 2 uit 3 positief hebt dan kan je ‘iets’ zeggen over covid (maar nog steeds helemaal niks over besmettelijkheid of ziekte!). Volgens mij wordt er in de covid praktijk echter maar 1 monster genomen. En als dat klopt -ik heb nu geen tijd om dit op detail na te kijken- dan gaat het gruwelijk mis met die 120.000 testen per week. Dit zou (ook) een verklaring kunnen zijn voor het feit dat het aantal ziekenhuis opnamen, het aantal IC plekken en aantal sterftes vrijwel niet toeneemt. Er is daarom in mijn ogen helemaal geen tweede golf aan de gang. Dit blijkt ook uit de Nivel data (zie hieronder). Er is wel een golf van onkunde en paniek (op het gebied van statistiek!)

De vraag is dus hoe hier mee om te gaan? Als je in de voedselveiligheidswereld kijkt hoe met monitoringsplannen, wetgeving en analyses wordt omgegaan bij pathogen. Dit heeft tientallen jaren gekost om tot een correct ‘systeem’ te komen. De basis is HACCP, en aangezien je nooit alle voedselproducten kunt testen (bij een autofabriek of lampjesfabriek kan dat wel, daar kan je alle producten even testen), is er een systeem om risico’s te minimaliseren. Dit HACCP systeem moet gecontroleerd worden door een externe partij (NoBo), en daarvoor zijn microbiologische analyses van belang. Onderdeel van het HACCP systeem is een statistisch correct ontwerp van het monitoringsplan (hoevaak een monster, waar, wanneer, het belang van duplo’s, triplos, etc., maar vooral ook nooit sturen op 1 analysemethode maar combinaties maken) is alles bepalend. Ik pleit daarom voor dezelfde aanpak in ‘corona-tijdperk’.

Een andere voorbeeld uit de voedselpraktijk. Bij GMO testen van Soja wordt ook PCR gebruikt. Het is gebruikelijk om een mengmonster te maken (dat lukt bij mensen niet zo goed 😉 en daarna dit door de PCR te halen. Je kan je voorstellen dat daar a) false positieven inzitten, of dat er toevallig 1 soja deeltje toch GMO is, maar de rest van de partij niet. Juist daarom wordt in de praktijk een detectielimiet gehanteerd van bijvoorbeeld 0,9%. Erboven kan je wat zeggen over GMO(besmetting) eronder niet meer.

Pierre Capel geeft ook zijn opinie over de PCR als screening in het begin van deze YouTube.

Bij een menselijke populatie die getest wordt op corona verwacht ik exact hetzelfde probleem als bij GMO-soja of pathogen zoals listeria. De statistiek van monstername in combinatie met de preciesheid en reproduceerbaarheid van de analysemethode zijn er bepalend bij de uitkomsten! Voorzichtigheid is dus op zijn plek.

Als we ongeveer 120.000 monsters per week analyseren met PCR in enkelvoud, dan mag je alle rapportages minder 1000 alleen maar bestempelen als ‘onder de detectielimiet’. Ik adviseer het RIVM en de GGD’s om minstens een triplo-monster (dus driemaal een swab) te nemen, en als een persoon dan 2 uit 3 positief is, vervolgacties te nemen. Verder is het uitvoeren van PCR testen op personen met zeer milde klachten (rhino, hooikoorts, …), of zelfs helemaal geen klachten ook onhandig, want dat geeft alleen maar meer false-positieven gevallen op. We leren daar niks uit.

Nivel peilstation data. Ook de laatste weken vooral Rhino dus en geen Covid.

Wat dan wel? Ik ben wel een groot voorstander van random screening in heel Nederland. Wat wil nu het geval, dat hebben we al: NIVEL weekcijfers. Deze onderzoeken worden al sinds 1970 uitgevoerd. Via een representatieve steekproef vanuit 350 huisartsenpraktijken wordt data verzameld en gekeken welke virussen er per week rondgaan. Patiënten hebben klachten en gaan naar de dokter, daarna wordt PCR ingezet om te bevestigen of de klachten hoort bij een bepaalt virus. En zo hoort het.

Nice data IC. Er is geen spraken van een tweede golf!

Wat we zouden kunnen doen, is dit NIVEL systeem verder opschalen. Dus dat we alle patiënten met klachten automatisch testen, maar hiervoor is wel een eerste screening van de huisarts nodig. Een belletje naar de GGD is in mijn ogen echt niet voldoende, het huidig systeem zorgt voor paniek. En dat is niet nodig. De huisarts is immers de portier van ons zorgsysteem (dus NIVEL data), daarna het ziekenhuis (regulier en IC, data NICE), en tenslotte sterftecijfers (CBS). Deze data zouden in het dashboard moeten zitten. Maar de ‘paniek’ die is ontstaan rondom GGD data in de laatste weken is onnodig.

Samengevat:

Aanvulling 1 (27 augustus) : eerste feedback op dit stukje:

Mobiele versie afsluiten