Årets ISPOR – lite reflektioner kring AI
I vår senaste Insikt reflekterar vd Peter Lindgren över AI och hälsoekonomi.
Det var ingen tvekan om vad som var ett årets stora teman på årets ISPOR-möte i Barcelona: AI. Även om ingen av huvudsessionerna handlade om just detta, fanns ett tiotal parallellsessioner om AI. Utöver detta hölls flera sponsrade dragningar på ämnet och det fanns dessutom en drös postrar. Vad kan man då ta med sig från detta?
Till att börja med att spotlighten helt är på det som kallas för generativ AI (eller stora språkmodeller, large language models: LLM). De flesta har nog vid det här laget åtminstone lekt lite med modeller som ChatGPt eller Gemini. Maskininlärningsfältet är dock större än så, och de medicinska tillämpningar som finns använder sig av andra tekniker (här är till exempel en ekonomisk utvärdering av en sådan inom sepsis).
Generellt kan sägas att konkretionsgraden av diskussionerna kring AI var ganska låg, och som ofta när AI diskuteras, domineras de av tankar om vad som skulle kunna bli, men lite om hur (och om man ska vara elak- av konsulter som vill profilera sig inom området). NICE:s nysläppta beskrivning av hur de ämnar arbeta vidare med AI-frågor fick en del uppmärksamhet även om den innehållsmässigt mest säger att de kommer arbeta vidare. (NICE har tidigare i år släppt en rekommendation kring evidensgenerering med hjälp av AI som kan sammanfattas som ”var väldigt försiktig, och fråga oss först”). Var står vi då praktiskt idag?
Min bedömning är att det idag finns två områden där generativ AI är till praktisk hjälp för hälsoekonomen. Detta påverkades inte i någon riktning av vad som diskuterades på ISPOR. Det första är, kanske inte överraskande givet vad dessa modeller ursprungligen utvecklats för, är sammanfattning och extraktion av data ur text, och liknande stöd vid hantering av texter. (Beroende på vilket språk du läser detta på är sannolikheten stor att jag använt mig av en LLM för att snabbt översätta texten). Nej, ChatGPT kommer inte skriva din GVD åt dig, men du kan få god hjälp med att exempelvis skriva en sammanfattning på 300 ord. Du gör bäst i att läsa den noga efteråt dock. De flesta är bekanta med språkmodellernas tendens att ibland ge felaktiga svar, ofta beskrivet som att modellen hallucinerar. Townsen Hicks, Humphries och Slater argumenterar för att man i stället skulle säga att den snackar skit. Anledningen är att en LLM som ChatGPT inte har någon uppfattning om vad som är sant eller falskt, och den har heller ingen förmåga att resonera. Den ger bara ett svar som är sannolikt givet den indata den fått. (Av den här anledningen är jag mindre imponerad när jag ser rubriker där en modell presterat bättre än människor på någon medicinsk examination: att modellen ställer åtta av tio diagnoser rätt när en människa får sju av tio rätt kompenseras nog av att människan gissningsvis vet när hen är osäker och då frågar en kollega, detta oaktat att frågorna sannolikt ingått i träningsmängden när modellen skapades vilket för det till en ganska dålig benchmark för modellens prestanda i sig). Detta gör det viktigt att en människa är med i loopen. Att ersätta en mänsklig granskare med en språkmodell för att välja ut abstrakt till en systematisk litteraturgenomgång är dock helt möjligt idag. Det finns potential i att kunna automatisera processer där stora material ska gås igenom och där det inte är praktiskt med noggrann mänsklig kontroll, men den vinsten måste då vägas mot att det kommer finnas fel i data. Hur känsliga vi är för fel är situationsberoende. Man kan lätt tänka sig en AI som går igenom journaler för att identifiera kandidater för en klinisk studie: falskt positiva kommer ändå sorteras ut senare och falskt negativa är kanske inte hela världen. Om tanken däremot är att använda data för någon sorts analys, blir situationen genast svårare på grund av bias som kan smyga sig in.
Ett annat område där modellerna är hjälpsamma är vid programmering, särskilt för en person som mig, som en gång i tiden programmerat mycket men som nu är minst sagt ringrostig. AI är till god hjälp för att hitta de lösningar jag vet borde finnas, och som jag annars kanske lagt mer tid att försöka hitta på stack exchange. Anekdotiskt så är bekanta som är riktigt duktiga utvecklare mindre imponerade – för dem går det fortfarande fortare att skriva kod helt själv. Det kan vara så att nyttan är störst för dem som ligger i mitten av kompetensfördelningen – för de mindre erfarna kommer de felaktiga lösningar som modellen föreslår ta en del tid att lista ut. Det kan här vara värt att också förtydliga att den hjälp man kan få handlar om att ta fram ett skal för en funktion som genererar något man sedan kan modifiera – vi är väldigt långt från att säga till modellen att programmera upp en Markovmodell enligt en viss specifikation, även om det finns de som försökt, gubevars!
Som med alla fält där det råder en betydande hype, kan det vara värt att lägga på minnet att om det låter för bra för att vara sant är det förmodligen också det – åtminstone inom den närmaste framtiden. Utvecklingen går dock fort framåt och om problemen med skitsnack och bias kan lösas, kan mycket användbara verktyg stå för dörren.
Författare