Olen nyt yrittänyt käyttää tätä erään nyymin suosittelemaa forkkia llama.cpp:stä. Se ei ole mennyt kovin hyvin ja olen joka kerta joutunut palaamaan vanhaan ratkaisuun takaisin, enkä ole vielä löytänyt toimivaa kombinaatiota.
ik_llama.cpp:
- Qwen3.6-27B-IQ4_NL.gguf
- Qwen3.6-27B-IQ4_XS-mtp.gguf
Ensimmäinen juutui jatkuvasti looppeihin ja jälkimmäinen ei yksinkertaisesti pystynyt käyttämään mitään työkalukutsuja, vaan kaikki ne tulostettiin suoraan normaaliviesteinä. Näiden mallien kanssa vaikuttaa olevan kaikenlaisia ihme ongelmia, eikä mikään näistä vaikuta kovin luotettavalta.
Kokeilen nyt ainakin tätä Unsloth:in versiota vielä.
- Qwen3.6-27B-Q4_0.gguf
llama.cpp:
- Qwen3.6-27B-UD-Q4_K_XL.gguf
Tämä on ollut täysin ylivertainen ja turboquant on oikeasti todella hyvä ominaisuus. Se auttaa nimen omaan isojen konteksti-ikkunoiden kanssa agenttityötaakoissa. Se pienikin ero ja apu jotenkin osuu täydellisesti tähän kokoonpanoon ja antaa juuri riittävästi lisäapua kriittisessä kohdassa.
En sitten tiedä mitä teen oikein väärin ja missä ongelma(t) pohjimmiltaan piilee. Onko näiden MTP implementoinnissa jotain olennaisia eroja, mitkä aiheuttavat hämminkiä. Tuleeko nuo nopeusoptimoinnit vaan tällaisten kompromissien kanssa. Onko se kiinni vaan oikean mallin löytämisestä.
Silloin merkitsee muutkin asiat kuin pelkät nopeustestien tulokset, kun pitäisi saada jotain oikeasti aikaiseksi. Ylioptimointi yhden perspektiivin osalta saattaa joskus tapahtua monen muun asian kustannuksella.
Hmmm... ehkä olisi syytä kokeilla myös vielä ilman näitä Hadamard välimuistiasetuksia mitä en vielä täysin ymmärrä. Lisäsin ne vaan mukaan kun vaikuttivat lupaavilta. Ehkä tämä onkin se ongelma. Kokeilenkin tätä heti.
llama-server \
-m .models/Qwen3.6-27B-UD-GGUF/Qwen3.6-27B-IQ4_NL.gguf \
--mmproj .models/Qwen3.6-27B-UD-GGUF/mmproj-Qwen3.6-27B-BF16.gguf \
-c 200000 \
-n 32768 \
-ngl 9999 \
--port 1234 \
--flash-attn on \
--fit \
--spec-type mtp \
--draft-max 3 \
--draft-min 0 \
--cache-type-k q4_0 -khad \
--cache-type-v q4_0 -vhad \
--temp 0.15 \
--top-k 20 \
--top-p 0.9 \
--repeat-penalty 1.1 \
--presence-penalty 0.0 \
--no-context-shift \
--jinja \
--threads 8 \
--threads-batch 8 \
--mlock