[ ukko / epic / a / art / b / coco / int / m / meta / x / yolo ]
[My] [Replied] [Hidden] [Watched] - [Notifications(0)] [Home] [Search] [Preferences]

Posting mode: Reply
Name
Subject
Message
File
Drop, paste, or click to select files
Embed
Show more fields
Password
(for post and file deletion if you lose your account)
Oekaki Size: × px
File Options
User

  • Remember to read the Rules and FAQ before posting.
  • Supported file types are: jpg, jpeg, png, gif, webp, avif, swf, aac, flac, ogg, opus, mp3, mp4, wav, webm, mkv
  • Maximum file size allowed is 39.07 MB
  • Images greater than 250x250 pixels will be thumbnailed.

[Return] [Catalog] [Bottom] [Download] 0 Replies • Page 8 • Viewed 11 times • 0 Watchers 2 Hides Return Catalog Bottom Reply to thread

File image.png - ( 2188x1563, 2.36 MB PNG )
image.png
Olen nyt yrittänyt käyttää tätä erään nyymin suosittelemaa forkkia llama.cpp:stä. Se ei ole mennyt kovin hyvin ja olen joka kerta joutunut palaamaan vanhaan ratkaisuun takaisin, enkä ole vielä löytänyt toimivaa kombinaatiota.

ik_llama.cpp:
- Qwen3.6-27B-IQ4_NL.gguf
- Qwen3.6-27B-IQ4_XS-mtp.gguf

Ensimmäinen juutui jatkuvasti looppeihin ja jälkimmäinen ei yksinkertaisesti pystynyt käyttämään mitään työkalukutsuja, vaan kaikki ne tulostettiin suoraan normaaliviesteinä. Näiden mallien kanssa vaikuttaa olevan kaikenlaisia ihme ongelmia, eikä mikään näistä vaikuta kovin luotettavalta.

Kokeilen nyt ainakin tätä Unsloth:in versiota vielä.
- Qwen3.6-27B-Q4_0.gguf

llama.cpp:
- Qwen3.6-27B-UD-Q4_K_XL.gguf

Tämä on ollut täysin ylivertainen ja turboquant on oikeasti todella hyvä ominaisuus. Se auttaa nimen omaan isojen konteksti-ikkunoiden kanssa agenttityötaakoissa. Se pienikin ero ja apu jotenkin osuu täydellisesti tähän kokoonpanoon ja antaa juuri riittävästi lisäapua kriittisessä kohdassa.

En sitten tiedä mitä teen oikein väärin ja missä ongelma(t) pohjimmiltaan piilee. Onko näiden MTP implementoinnissa jotain olennaisia eroja, mitkä aiheuttavat hämminkiä. Tuleeko nuo nopeusoptimoinnit vaan tällaisten kompromissien kanssa. Onko se kiinni vaan oikean mallin löytämisestä.

Silloin merkitsee muutkin asiat kuin pelkät nopeustestien tulokset, kun pitäisi saada jotain oikeasti aikaiseksi. Ylioptimointi yhden perspektiivin osalta saattaa joskus tapahtua monen muun asian kustannuksella.

Hmmm... ehkä olisi syytä kokeilla myös vielä ilman näitä Hadamard välimuistiasetuksia mitä en vielä täysin ymmärrä. Lisäsin ne vaan mukaan kun vaikuttivat lupaavilta. Ehkä tämä onkin se ongelma. Kokeilenkin tätä heti.

llama-server \
  -m .models/Qwen3.6-27B-UD-GGUF/Qwen3.6-27B-IQ4_NL.gguf \
  --mmproj .models/Qwen3.6-27B-UD-GGUF/mmproj-Qwen3.6-27B-BF16.gguf \
  -c 200000 \
  -n 32768 \
  -ngl 9999 \
  --port 1234 \
  --flash-attn on \
  --fit \
  --spec-type mtp \
  --draft-max 3 \
  --draft-min 0 \
  --cache-type-k q4_0 -khad \
  --cache-type-v q4_0 -vhad \
  --temp 0.15 \
  --top-k 20 \
  --top-p 0.9 \
  --repeat-penalty 1.1 \
  --presence-penalty 0.0 \
  --no-context-shift \
  --jinja \
  --threads 8 \
  --threads-batch 8 \
  --mlock

[Return] [Catalog] [Top] [Download]
Snitch post:

0 Replies • Page 8 • Viewed 11 times • 0 Watchers 2 Hides
Download Thread

[ ukko / epic / a / art / b / coco / int / m / meta / x / yolo ]
[My] [Replied] [Hidden] [Watched] - [Notifications(0)] [Home] [Search] [Preferences]