Hva er GGUF?
Et vanlig filformat for kvantiserte LLM‑vekter som er laget for effektiv lokal kjøring (ofte med llama.cpp‑økosystemet).
FAQ • Feilsøking • Maskinvare
Her finner du korte, konkrete svar på vanlige spørsmål om LM Studio, modeller (Qwen3 Coder Next, Gemma, Llama, Mistral osv.), GGUF/kvantisering og lokalt OpenAI‑kompatibelt API.
Et vanlig filformat for kvantiserte LLM‑vekter som er laget for effektiv lokal kjøring (ofte med llama.cpp‑økosystemet).
Det er nivåer av kvantisering (komprimering). Lavere Q bruker mindre minne og kan være raskere, men kan gi noe lavere kvalitet.
Som start: Q4 eller Q5 på en 7–8B‑modell. Hvis du har mye VRAM/RAM og vil ha mer kvalitet: prøv Q6/Q8.
LM Studio kan starte en lokal server. Standard base‑URL er vanligvis http://localhost:1234/v1.
Mange biblioteker støtter dette ved å peke base_url til din lokale server.
curl http://localhost:1234/v1/models
curl http://localhost:1234/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "lokal-modell-navn",
"messages": [{"role": "user", "content": "Gi meg 3 punkter om kvantisering."}]
}'
Ofte ser du Llama, Mistral/Mixtral, Qwen‑familien, Gemma, Phi og ulike «coder»-modeller.
Ja, dersom du finner en kompatibel variant (typisk GGUF) og den passer maskinvaren din.
Coder‑modeller er ofte bedre på repo‑kontekst og kodegenerering, mens chat‑modeller kan være bedre på generell dialog.
Se sjekklisten for oppstart, eller guidesiden for oppskrifter.