Sjekkliste • Beste praksis • Ytelse

Kom i gang med LM Studio: sjekkliste du faktisk får nytte av

Målet er rask oppstart og stabil kvalitet. Denne siden gir deg en gjennomtestet rekkefølge: installer, velg modell (inkludert Qwen3 Coder Next og Gemma), sett riktig kvantisering og start et lokalt API.

1) Installer og grunnoppsett

Installer LM Studio

Last ned fra offisiell side, start appen og gå til fanen Models.

Velg hvor modellene lagres

Store modeller tar mye plass. Sett en disk med god kapasitet (helst SSD) som modell‑cache.

Aktiver GPU‑akselerasjon om du har

I Runtime/Settings kan du ofte velge GPU‑offload. Mer VRAM gir vanligvis høyere throughput.

2) Modellvalg: hva bør du starte med?

Start med en modell som matcher oppgaven og maskinvaren din. Et praktisk oppsett er: én allround chat‑modell + én kode‑modell.

  • Allround: Llama 3/3.1 Instruct, Gemma/Gemma 2 Instruct, Mistral Instruct
  • Kode: Qwen2.5‑Coder, Qwen3 Coder Next, Codestral, StarCoder2
  • Liten og rask: Phi‑3 (for enklere oppgaver, lavere minne)

Se etter «GGUF» når du laster ned for lokal kjøring, og «instruct/chat» når du vil ha god dialog.

Kvantisering (GGUF)
  • Q4: ofte beste «starter» (lavere minne, bra fart).
  • Q5/Q6: litt bedre kvalitet, mer minne.
  • Q8: høyere kvalitet, merkbart mer minne.
  • Hvis du får OOM/kræsj: gå ned i kvantisering eller velg mindre modell.

3) Kvalitet: systemprompt, parametre og test

Forutsigbare svar handler mer om prosess enn «magisk» modell.

  • Lag en fast systemprompt (rolle, språk, formatkrav).
  • Hold temperatur lav for fakta/struktur, høyere for kreativitet.
  • Lag et lite testsett (10–30 spørsmål) og sammenlign modeller.
  • Be modellen om kort svar først + «utdyp hvis jeg spør».
Eksempel: systemprompt
Du er en presis assistent.
Svar på norsk.
Bruk punktliste når det passer.
Hvis du er usikker, si det eksplisitt.

4) Start OpenAI‑kompatibelt API i LM Studio

Gå til Local Server i LM Studio, velg modellen, og start serveren. Standard endepunkt er vanligvis http://localhost:1234/v1.

Test med curl (chat):

curl http://localhost:1234/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "lokal-modell-navn",
    "messages": [
      {"role": "user", "content": "Skriv 5 fordeler med lokale språkmodeller."}
    ]
  }'
Integrasjon
  • De fleste OpenAI‑klienter kan peke på base_url lokalt.
  • Sett timeouts og rate‑limits hvis du bygger en intern tjeneste.
  • Logg forsiktig – maskér sensitiv tekst.

5) Neste steg: RAG og dokument‑QA

Chunking

Del dokumenter i biter med metadata (kilde, dato, seksjon) så svaret kan være etterprøvbart.

Embeddings

Bruk embeddings + vektorsøk for å hente relevant kontekst før du spør modellen.

Grounding

Be modellen svare kun basert på kontekst og vise kildehenvisninger.