Vi utvecklar avancerade AI-lösningar och maskininlärningssystem för företag och organisationer
Stockholm, Sweden
caj@maiosolutions.com
+46707866941
NER-klassificering (Named Entity Recognition) innebär att man vill lokalisera och extrahera ord eller span från en text och tilldela dem en kategori.
NER-KlassificeringVarför är detta användbart? Jo, det finns många användningsområden för NER, men i detta fall handlar det om att specialisera modellen till att extrahera och hitta känslig information som ex. personuppgifter (PII).
Från ett utomstående perspektiv kan det låta som att detta borde vara ett ganska enkelt problem att lösa, framförallt med LLM:er som ChatGPT eller Claude (decoder-only-arkitekturer). Forskning pekar fortfarande på att LLM:er kan vara relativt undermåliga för uppgifter som NER, framförallt när det kommer till precision och snabbhet Källa: Arxiv. Dessutom kräver decoder-only-modeller ofta betydligt fler parametrar för att vara likvärdiga, ofta fler än 10 gånger så många!
Utöver modellval finns andra svårigheter med NER-klassificering. Först behöver man bestämma ett urval av etiketter beroende på vad man vill hitta, exempelvis namn, företag, eller adress. Problemet med detta steg är att vissa etiketter kan överlappa och skapa tvetydigheter. Detta kan bli ett stort problem både för människan som ska samla in datan och för AI-modellen under träning och inferens.
En klassisk NER-modell kan endast hitta ett diskret antal etiketter från en text, vilket behöver förbestämmas innan projektet drar igång. Detta gör att modellen blir svår att ändra om man exempelvis behöver lägga till eller ändra etiketter, eftersom man då behöver träna modellen igen. Dock finns det några nyare lösningar som i teorin kan extrahera vilken etikett som helst, utan att den nödvändigtvis har sett just den etiketten i träningsdatan. Detta kan du exempelvis pröva i valfri LLM och det kan fungera helt okej, men för ett mer träffsäkert resultat kan en egentränad modell vara nödvändig.
Vi har samlat in och syntetiserat mängder av data till detta ändamål, där vi har annoterat en del med LLM:er i ett marknadsledande annoteringsprogram för att snabba på processen. Ofta behöver man ganska stora mängder data, och i specialfall som dessa kan vissa etiketter vara svåra att hitta i publika datamängder.
Sedan har vi tränat ett flertal olika transformermodeller, både encoder- och decoder-only-varianter, där den minsta har runt 500M parametrar (encoder-only) och den största runt 8 miljarder (decoder-only). Detta är ett pågående projekt, men än så länge har vi sett fantastiska resultat med hög precision och recall, vilket är två viktiga statistiska mått. De här modellerna gör att kunder kan erbjuda marknadsledande resultat i sina produkter, samt spara mycket pengar eftersom de här modellerna kan köras på en vanlig server med tillgång till GPU. Resultatet blir högre prestanda och lägre kostnader än många off-the-shelf-lösningar.
Letar ni efter AI-lösningar som dessa eller något helt annat inom AI och ML? Vi hjälper er från idé till produktionsklar lösning. Boka ett kostnadsfritt rådgivningssamtal idag.
Kontakta OssVi utvecklar avancerade AI-lösningar och maskininlärningssystem för företag och organisationer
Stockholm, Sweden
caj@maiosolutions.com
+46707866941