Dagens blogginnlegg er skrevet i samarbeid med min dyktige kollega Eivind Kvitstein, en usedvanlig allsidig sørlending som er både aktuar, data scientist, revisor og nå også hobby-epidemiolog.
Covid-19-viruset har spredt seg over hele verden og snudd opp ned på vår hverdag. I nettavisene som f.eks. VG kan vi følge utviklingen i antall døde, antall smittede både i Norge og hele verden. Dette har ført til en rekke feiltolkninger av dataene.
I debatten på NRK på tirsdag kveld hevdet man at så mange som 150 000 nordmenn kunne dø av Covid-19. Det er basert på denne enkle analysen: Folkehelseinstituttet estimerer at 2,2 millioner nordmenn kan bli smittet, 6,7% av bekreftede smittede i Italia er døde, noe som angivelig gir ca 150 000 døde nordmenn.
Problemet med dette estimatet er at antall smittede trolig er ekstremt underestimert, mens antall døde i mindre grad er dette. Faktisk er det så vanskelig å estimere dødelighetsraten at vi sannsynligvis må vente et par år før man får et godt estimat.
Det er to forhold som gjør at vi mangler noen tilfeller i både nevneren og telleren:
- Vi plukker ikke opp i nærheten av alle som faktisk er smittet. Mange som har testet positivt har uttalt at de knapt har hatt symptomer, så mange syke har nok aldri blitt testet. Nevneren blir dermed kraftig underestimert.
- Sannsynligvis plukkes tilnærmet alle døde opp, når de først har dødd. Det er derimot en liten feilkilde her også, ved at dersom man tar antall døde i dag delt på antall smittede i dag så vil det være en del folk som “ikke har rukket å dø”. Telleren blir dermed noe underestimert - men denne effekten er langt fra like sterk som effekten beskrevet over, og har spesielt liten effekt i et land som Kina hvor utviklingen har stabilisert seg.
For en bayesiansk tilnærming av hvordan man kan estimere faktisk dødelighet, ved å hensynta begge forholdene beskrevet over, anbefaler vi denne artikkelen. Her diskuterer forfatterne også misforholdet som tilsier at jo yngre en Covid-19-smittet person er, jo lavere er sannsynligheten for at smitten oppdages (pga. høyere sannsynlighet for milde symptomer og lavere sannsynlighet for testing). Dødeligheten blant yngre mennesker er dermed trolig mye lavere enn hva “rådataene” skulle tilsi.
I dette blogginnlegget gjør vi noen enkle analyser av utviklingen i Covid-19. Vi understreker at vi ikke er epidemiologer, og at vi dermed på ingen måte er eksperter på spredningen av smitte. Tallene vi bruker er hentet fra VG og fra R-pakken nCov2019.
Utvikling på verdensbasis
La oss begynne med en enkel GIF, generert via R-pakken “gganimate”. Her ser vi hvordan antall smittede har utviklet seg i verden siden 20 februar, da smitten virkelig begynte å skyte fart. Problemet med disse tallene er at det avhenger sterkt av hvor mange mange tester. I Norge har man endret testkriteriene underveis og i Italia tester man stort sett de alvorlige syke og de som allerede er døde grunnet begrenset kapasitet. Det er dermed svært vanskelig å sammenligne på tvers av landegrenser.
Vi kan også se hvordan det har utviklet seg ved hjelp av et animert bubble-plot. Vi har her filtrert vekk Kina grunnet mangelfull data i starten av utbruddet. Punktet som er i “ledelsen” hele veien er Italia, men man ser hvordan mange andre land er på vei opp mot Italia sitt nivå.
Figuren under viser et stillbilde av situasjonen i dag, hvor man kan holde over punktene for å se status per land.
Antall smittede i Norge
La oss se på antall smittede i Norge basert på VG sine tall. Tidspunktet for når de endret testvilkårene er markert med en stiplet vertikal linje. Etter dette tidspunktet er nok mørketallene ganske store.
Eksponentiell vekst?
Dersom man kun ser på data fra starten av utbruddet kan det være naturlig å trekke konklusjonen at Covid-19 har en eksponentiell vekst i antall smittede. Slik er det for alle levende organismer som får mulighet til å leve i et miljø hvor de trives, har tilgang til ressurser (mennesker) og mangler konkurrenter (vaksiner og “antibodies”).
For Norge ser vi at dette er tilfellet, hvertfall for de første dagene frem til man endret testkriteriene. Hvis vi bruker dagene frem til man endret testkriteriene som utgangspunkt, kan vi estimere hvor mange personer som er smittet i dag. Ifølge denne naive modellen vil antall smittede vokse med 13039.
Antall smittede vil altså vokse med 42% per dag. Etter en stund vil man raskt oppdage at antall smittede er større enn Norges befolkning. Det vil faktisk skje etter ca. 44 dager. Modellen tar altså ikke hensyn til at vi er en begrenset populasjon.
Estimert utvikling
En modell som bla. hensyntar at antall mennesker i Norge ikke er uendelig, er en såkalt SIR modell. Dette er fortsatt en veldig enkel modell som f.eks. ikke hensyntar at vi i Norge bor med relativt spredt sammenlignet med andre land som Italia.
I en SIR modell kan hver person være i tre ulike tilstander, henholdsvis ikke smittet (S), smittet (I) og frisk fra smitte/død (R). Vi benytter kun tall frem til man endret testvilkår i Norge, dvs. 13 mars. Av grafen under ser vi at modellen virker å være ganske god frem til man endret testvilkår 13 mars.
Vår veldig enkle modell predikerer altså at det er omtrent 25 000 nordmenn som er smittet med Covid-19 per i dag - langt mer enn hva FHI sine tall tilsier.
Det har vært mye snakk i media om R0. Dette sier noe om hvor mange personer som hver smittet viderefører sykdommen til. For influensa er dette tallet 1,3. Basert på tallene ovenfor får vi en R0 på 2.07. Dette tallet er kun et grovt estimat. Beregningene er basert på antall smittet som er særdeles usikkert (selv før man endret testkriteriene) og veldig få dager med observasjoner.
Estimert antall smittede
Vi kan nå se på hvor mange som er smittet på et gitt tidspunkt. Dette er en graf vi har sett mye i media i den siste. Fokuset har vært på å gjøre grafen for Covid-19 flatere - slik at kurven vil ligne mer på en vanlig influensa (som sjeldent er et stort problem for helsevesenet).
Hvis vi antar at det å stenge skolene en periode vil føre til at Covid-19 sprer seg med samme fart som influensa, så vil antall smittede komme opp i ca. 2.27 millioner om 2 måneder. Dette er ikke langt unna FHI sitt estimat på 2,2 millioner.
Akkumulert antall smittede blir da:
Akkumulert antall smittede Italia
Tilsvarende kan vi se hvordan modellen treffer for Italia.
For Italia får vi en R0 på hele 2.79.
Igjen ser vi at modellen mener det er langt flere smittede enn hva som faktisk er observert. Dette er fordi modellen tar utgangspunkt i den eksplosive utviklingen i starten, da det ikke var satt igang noen tiltak. I tillegg starten testingen i Italia for sent, noe som medførte at økningen i antall positive tester per dag i starten sannsynligvis ikke fanget opp en reell økning i antall tilfeller, men snarere en økning i antall tester.
Avslutning
I dette blogginnlegget har vi gjort noen enkle analyser av tallene som er tilgjengelig om Covid-19.
Det bør presiseres at å modellere et nytt virus som Covid-19 ved hjelp av dataanalyse er ekstremt vanskelig, ettersom det er så utrolig stor usikkerhet i datagrunnlaget. For en mer presis gjennomgang av utfordringene med å modellere dette viser vi til et innlegg av Rob Hyndman (muligens R-miljøets fremste ekspert på forecasting).
Selv om noen av tallene som blir presentert om dødelighet trolig er overdrevet, vil vi selvfølgelig oppfordre alle til å ta trusselen seriøst og holde avstand i tiden fremover.