LM Studio • Lokale LLM • OpenAI‑API • GGUF

Kom i gang med LM Studio – kjør språkmodeller lokalt (uten friksjon)

LM Studio er en brukervennlig desktop-app for å laste ned og kjøre store språkmodeller lokalt. På LMStudio.no finner du en praktisk norsk startpakke: modellvalg, ytelse (CPU/GPU), kvantisering (GGUF), og hvordan du eksponerer et OpenAI‑kompatibelt API fra din egen maskin.

Personvern Full kontroll Rask prototyping

Hvorfor bruke LM Studio?

Enkelt for team

GUI for nedlasting, parametre og testing – uten at alle må lære en ny CLI først.

Lokalt personvern

Du kan kjøre modeller uten å sende tekst til en ekstern leverandør (avhengig av oppsett og integrasjoner).

OpenAI‑kompatibelt API

Start en lokal server og bruk standard klientbibliotek i apper, scripts og verktøy.

Populære modeller i LM Studio

I LM Studio finner du typisk modeller i GGUF-format (kvantisert for lokal kjøring). Mange velger én «allround»-modell + én kode‑modell. Her er et utvalg navn du ofte ser:

  • Qwen: Qwen2.5, Qwen2.5‑Coder, Qwen3 Coder Next
  • Google: Gemma / Gemma 2 (inkl. instruerte varianter)
  • Meta: Llama 3 / 3.1 (instruksjonsmodeller for chat)
  • Mistral: Mistral, Mixtral, Codestral (kode)
  • Microsoft: Phi‑3 (små, raske modeller)
  • Andre: DeepSeek (inkl. coder), StarCoder2, Yi, Falcon

Tips: Se etter «instruct»/«chat»-varianter for dialog, og «coder» for programmeringsoppgaver. Velg kvantisering (f.eks. Q4/Q5/Q8) ut fra maskinvare.

Eksempel: test API

Når du har startet Local Server i LM Studio, kan du teste med curl:

curl http://localhost:1234/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "lokal-modell-navn",
    "messages": [
      {"role": "system", "content": "Svar kort på norsk."},
      {"role": "user", "content": "Forklar hva GGUF og kvantisering er."}
    ]
  }'

I guider viser vi også hvordan du kobler dette til Python/Node, og hvordan du setter temperatur, topp‑p og kontekstlengde.

Veikart: fra første modell til nyttig lokal assistent

1

Velg riktig modell og kvantisering

Start med en modell som passer maskinen din. Lavere kvantisering gir lavere minnebruk, men kan redusere kvalitet.

2

Standardiser: systemprompt og testsett

Lag en fast «rolle» (systemprompt) og test på representative oppgaver før du bestemmer deg for modell.

3

Eksponer et lokalt API

Bruk LM Studio sin Local Server og koble på apper, verktøy og integrasjoner via OpenAI‑kompatible endepunkter.

4

Bygg «RAG» og arbeidsflyt

Når du trenger egne data: hent relevant kontekst fra dokumenter, og la modellen svare med tydelige kildekrav.