/b/ - Olen nyt yrittänyt käyttää tätä erään nyymin suosittelemaa forkkia llama.cpp:stä. Se ei ole mennyt kovin hyvin ja olen joka kerta joutunut palaamaan vanhaan ratkaisuun takaisin, enkä ole vielä löytänyt toimivaa kombinaatiota. ik_llama.cpp: - Qwen3.6-27B-IQ4_NL.gguf - Qwen3.6-27B-IQ4_XS-mtp.gguf Ensimmäinen juutui jatkuvasti looppeihin ja jälkimmäinen ei yksinkertaisesti pystynyt käyttämään mitään työkalukutsuja, vaan kaikki ne tulostettiin suoraan normaaliviesteinä. Näiden mallien kanssa vaikuttaa olevan kaikenlaisia ihme ongelmia, eikä mikään näistä vaikuta kovin luotettavalta. Kokeilen nyt ainakin tätä Unsloth:in versiota vielä. - Qwen3.6-27B-Q4_0.gguf llama.cpp: - Qwen3.6-27B-UD-Q4_K_XL.gguf Tämä on ollut täysin ylivertainen ja turboquant on oikeasti todella hyvä ominaisuus. Se auttaa nimen omaan isojen konteksti-ikkunoiden kanssa agenttityötaakoissa. Se pienikin ero ja apu jotenkin osuu täydellisesti tähän kokoonpanoon ja antaa juuri riittävästi lisäapua kriittisessä kohdassa. En sitten tiedä mitä teen oikein väärin ja missä ongelma(t) pohjimmiltaan piilee. Onko näiden MTP implementoinnissa jotain olennaisia eroja, mitkä aiheuttavat hämminkiä. Tuleeko nuo nopeusoptimoinnit vaan tällaisten kompromissien kanssa. Onko se kiinni vaan oikean mallin löytämisestä. Silloin merkitsee muutkin asiat kuin pelkät nopeustestien tulokset, kun pitäisi saada jotain oikeasti aikaiseksi. Ylioptimointi yhden perspektiivin osalta saattaa joskus tapahtua monen muun asian kustannuksella. Hmmm... ehkä olisi syytä kokeilla myös vielä ilman näitä Hadamard välimuistiasetuksia mitä en vielä täysin ymmärrä. Lisäsin ne vaan mukaan kun vaikuttivat lupaavilta. Ehkä tämä onkin se ongelma. Kokeilenkin tätä heti. [code]llama-server \ -m .models/Qwen3.6-27B-UD-GGUF/Qwen3.6-27B-IQ4_NL.gguf \ --mmproj .models/Qwen3.6-27B-UD-GGUF/mmproj-Qwen3.6-27B-BF16.gguf \ -c 200000 \ -n 32768 \ -ngl 9999 \ --port 1234 \ --flash-attn on \ --fit \ --spec-type mtp \ --draft-max 3 \ --draft-min 0 \ --cache-type-k q4_0 -khad \ --cache-type-v q4_0 -vhad \ --temp 0.15 \ --top-k 20 \ --top-p 0.9 \ --repeat-penalty 1.1 \ --presence-penalty 0.0 \ --no-context-shift \ --jinja \ --threads 8 \ --threads-batch 8 \ --mlock[/code]

Olen nyt yrittänyt käyttää tätä erään nyymin suosittelemaa forkkia llama.cpp:stä. Se ei ole mennyt kovin hyvin ja olen joka kerta joutunut palaamaan vanhaan ratkaisuun takaisin, enkä ole vielä löytänyt toimivaa kombinaatiota.

ik_llama.cpp:
- Qwen3.6-27B-IQ4_NL.gguf
- Qwen3.6-27B-IQ4_XS-mtp.gguf

Ensimmäinen juutui jatkuvasti looppeihin ja jälkimmäinen ei yksinkertaisesti pystynyt käyttämään mitään työkalukutsuja, vaan kaikki ne tulostettiin suoraan normaaliviesteinä. Näiden mallien kanssa vaikuttaa olevan kaikenlaisia ihme ongelmia, eikä mikään näistä vaikuta kovin luotettavalta.

Kokeilen nyt ainakin tätä Unsloth:in versiota vielä.
- Qwen3.6-27B-Q4_0.gguf

llama.cpp:
- Qwen3.6-27B-UD-Q4_K_XL.gguf

Tämä on ollut täysin ylivertainen ja turboquant on oikeasti todella hyvä ominaisuus. Se auttaa nimen omaan isojen konteksti-ikkunoiden kanssa agenttityötaakoissa. Se pienikin ero ja apu jotenkin osuu täydellisesti tähän kokoonpanoon ja antaa juuri riittävästi lisäapua kriittisessä kohdassa.

En sitten tiedä mitä teen oikein väärin ja missä ongelma(t) pohjimmiltaan piilee. Onko näiden MTP implementoinnissa jotain olennaisia eroja, mitkä aiheuttavat hämminkiä. Tuleeko nuo nopeusoptimoinnit vaan tällaisten kompromissien kanssa. Onko se kiinni vaan oikean mallin löytämisestä.

Silloin merkitsee muutkin asiat kuin pelkät nopeustestien tulokset, kun pitäisi saada jotain oikeasti aikaiseksi. Ylioptimointi yhden perspektiivin osalta saattaa joskus tapahtua monen muun asian kustannuksella.

Hmmm... ehkä olisi syytä kokeilla myös vielä ilman näitä Hadamard välimuistiasetuksia mitä en vielä täysin ymmärrä. Lisäsin ne vaan mukaan kun vaikuttivat lupaavilta. Ehkä tämä onkin se ongelma. Kokeilenkin tätä heti.

llama-server \
  -m .models/Qwen3.6-27B-UD-GGUF/Qwen3.6-27B-IQ4_NL.gguf \
  --mmproj .models/Qwen3.6-27B-UD-GGUF/mmproj-Qwen3.6-27B-BF16.gguf \
  -c 200000 \
  -n 32768 \
  -ngl 9999 \
  --port 1234 \
  --flash-attn on \
  --fit \
  --spec-type mtp \
  --draft-max 3 \
  --draft-min 0 \
  --cache-type-k q4_0 -khad \
  --cache-type-v q4_0 -vhad \
  --temp 0.15 \
  --top-k 20 \
  --top-p 0.9 \
  --repeat-penalty 1.1 \
  --presence-penalty 0.0 \
  --no-context-shift \
  --jinja \
  --threads 8 \
  --threads-batch 8 \
  --mlock

Name
Email
Subject
Message
File	Drop, paste, or click to select files
Embed

Password	(for post and file deletion if you lose your account)
Oekaki	Size: × px
File Options	Randomize filename Remove EXIF data
User	Show username

Ebinlauta

User

Boards

Friends