Hello, Oleg!
Thursday February 19 2026 12:41, from Oleg Artemjev -> Sergey Kaluzhskiy:
А что можно поставить имея терабайт не ссд диска и 16 гиг ОЗУ из
LLMок?
llama, какую не помню, я как-то внутри Qubes ВМки гонял - очень
медленно. о может оно приемлемо шуршит на bare metal?
Для запуска генеративного ИИ, т.е. то что называют GPT, ChatGPT.. нужна топовая видюха(и) с дофига видео-памятью. Если современный Мак на M1, то там универсальная память, она доступна как CPU, так и GPU, тогда как на дискретных видеокартах есть параметр VRAM - т.е. видео память.
Виртуализации плохо работают с доступом к видеокарте, только если это не pci passthrough какой-нибудь.
Можно запускать модели на CPU, но это супер медленно, раз в 10 может быть. Можно запускать в гибридном режиме, когда-то часть вычислений происходит на видюхе с видеопамятью, а остальное на CPU в системной памяти, тогда по-максимуму задействуется железо, но такие сепаты требуют задавать параметры вручную, а это чуть сложнее однокнопочных Ollama и LM Studio, у которых под капотом llama.cpp.
Чем больше миллиардов параметров модель, тем больше нам нужно памяти, плюс память на размер контекстного окна. Диск нужен только чтобы загрузить модель в память/видеопамять, и тут вообще проблемы нет.
Для уменьшения требования к объёму памяти, можно использовать квантованные модели, что ухудшает качество, но в разы снижает потребление памяти. Практически, на домашнем железе получается запускать либо квантованные но большие модели, либо неквантованные но маленькие.
По-сути сегодня есть два типа моделей. Dense-модели, когда нужно каждый параметр пробегать для каждого токена - это долго, и вся модель должна быть в памяти. MoE-модели (Mixture of Experts), когда только часть параметров активна, т.е. модель может быть огромной, но не вся постоянно в памяти. Возможно за MoE-моделями будущее, но там вопрос, правильно ли эти самые эксперты выбираются из всех параметров.
Я приведу выдержки из моей локалки.
= local.cc (2:5015/46) ========================================================
From : Egor Gavrilov 2:5015/519 24 Dec 25 17:00:20
To : Nil A
Subj : Локальный инференс ===============================================================================
[...]
У меня gpt-oss-20b спокойно вертится на RTX 5060. MoE-слои выношу в проц, Dense-слои и K/V-кэш - в VRAM.
Qwen3-Coder 30B тоже спокойно работает. И всё это на лэптопе, с 32 гигами RAM, и с 8 гигами VRAM. о заряд аккума сжирает будь здоров.
Почему решил ноут взять? Потому что без портативности всё равно мне никуда, к сожалению. Я люблю, когда моя лошадка всегда со мной - и в доме, и между домами.
Кайф маков на арме, что у них вся память плоская - если у тебя 24ГБ (маркетологи хуевы тут поработали), то это и под рам и под вирам. Писюковые (всмысле x86) видюхи имеют свою вирам на борту, и только с
ней они могут работать. Модельки на 6 миллиардов квантованная целиком залазит в вирам, и быстро генерируют токены. о кайф llama.cpp, что я
можу указать, сколько слоёв обрабатывается на видюхе, сколько на
проце, а на проце у меня есть рамы на 64 гига, но писец тормозно. Я пробовал "взрослые" модели, они все на ЦПУ у меня идут, зажирая 64ГБ,
но неюзабельно по скорости.
у камон, почему не MoE? У меня на Dense-моделях тоже максимум 8B параметров.
А MoE позволяет выжать и 20, и даже 30 лярдов параметров.
Итого, я ограничен в домашних экспериментах кинуть несколько уровней
на ГПУ 8ГБ, и остальное на ЦПУ с 64ГБ, и довольно жирные опенсорц
модели пробовал. Всё что можно выжить из такого железа, с пиздецовым временем ожидания - уровня ChatGPT 3.5. Говорят, что опенсорц
модельки типа Qwen, или Deepseek, с дох@я миллиардов, могут типа
ChatGPT 4o уровня решать задачки, что за@бись. о даже со своим
железом, в домашних условиях, я могу фидошные сообщения прогонять
через токенайзер и ибеддинг, чтобы, например, искать по сообщениям.
о даже на 8 миллиардах llama или 7b mistral, я могу немного
попросить обощить прочитанное.
Я спокойно юзаю gpt-oss-20b, и качество вполне себе неплохое (в плане агентной разработки, например). Qwen3-Coder, по моему мнению, с тем же Continue не дружит особо. о возможно, что дружит с тем же Roo Code, VeAI, и другими плагинами. Ибо Continue само по себе далеко не лучший именно как агент. ===============================================================================
Best Regards, Nil
--- GoldED+/LNX 1.1.5-b20250409
* Origin: Gemini can make mistakes, so double-check it (2:5015/46)