Forskningsprojekt Integritetsskyddande tekniker för stora språkmodeller

De senaste årens genombrott inom AI har drivits av så kallade språkmodeller. De kan vara mycket användbara men utgör också en säkerhetsrisk: De läcker information om sina träningsdata. Detta projekt handlar om att identifiera sådana sårbarheter och föreslå integritetsskyddande tekniker.

En riddare i rustning i ett fantasilandskap.

Bild: Thomas Vakili (genererad med Open AI:s Dall-e 2).


Stora språkmodeller (på engelska: large language models, LLMs) har lett till flera genombrott inom artificiell intelligens (AI) och språkteknologi. Dessa språkmodeller är uppbyggda av ofantligt många parametrar och tränas att behandla språk genom att bearbeta enorma mängder text.

Flera studier har visat att språkmodeller memorerar information som sedan kan läcka. Dessa säkerhetsrisker förvärras i takt med att modeller växer i storlek och träningsdata. Särskilt riskabla är modeller som tränas att behandla text från känsliga domäner, som den kliniska. Samtidigt är det i sådana situationer som AI kan göra mest samhällsnytta. Detta projekt syftar till att identifiera de integritetsrisker som orsakas av moderna språkmodeller samt till att undersöka tekniker som kan mildra dessa risker. Detta är en förutsättning för att modern AI-teknik ska kunna användas på ett etiskt och lagenligt sätt.

Projektet är Thomas Vakilis avhandlingsprojekt. Han handleds av Hercules Dalianis (huvudhandledare) och Aron Henriksson.

Forskningsprojektet har inga projektmedlemmar.

Institutionen för data- och systemvetenskap

Språkmodeller som inte läcker – ny metod skyddar dina data

För att stora språkmodeller som Chat GPT ska fungera behöver de matas med enorma mängder data. Om systemen sedan utsätts för intrång finns alltid en risk att känsliga uppgifter läcker ut. Thomas Vakili har utvecklat metoder som värnar om integriteten, samtidigt som språkmodellernas fördelar tas till vara.

Institutionen för data- och systemvetenskap

Svensk teknik för säkra språkmodeller testas i Chile

Hur kan integriteten skyddas när AI-baserade språkmodeller hanterar våra hälsodata? Thomas Vakili studerar frågan i sitt avhandlingsarbete. Nu har han fått ett chilenskt stipendium – och möjligheten att testa sina modeller på nya dataset.

Inga evenemang tillgängliga.