/ai/ - работа lmm модели на слабой карте

работа lmm модели на слабой карте Аноним 19/06/25 Чтв 09:59:38 № 1250776 1

как думаете есть ли возможность пусть и в теории запустить lmm(хотя не принципиально можно просто предсказывающею конец токена последовательности) модель на rx 550 на 2 гб ? скорее как эксперимент, без цели ускорить работу, я понимаю что в 2гб нормальная модель даже квантонизированной не влезет, но допустим мы качаем модель в озу, и гони модель из озу в psl порт видеокарты, да скорость напрочь убьет распараллеливание , хотя я скорее всего не прав, я знаю тут много умных людей подскажите кому не составит труда.

Аноним 19/06/25 Чтв 17:47:18 № 1251032 2

2 гб кагбэ намекает что видюха из прошлого тысячелетия, а это значит, что на ней софт для инференса вообще может не запуститься.
кароч отложи эту затею до покупки видюхи хотя бы десятилетней давности.

Аноним 20/06/25 Птн 11:54:40 № 1251620 3

gemma-3-12b весом 8 гигов завелась даже у меня на ноутбуке со встройкой и боль менее быстро отвечала, нахуй спрашиваешь если можно попробовать?

Аноним 20/06/25 Птн 14:44:32 № 1251756 4

>>1250776 (OP)
Запускал Gemma 3 4b 4q k_m.gguf на такой же видяхе, но на 4 гб. Запускал через kobold.cpp с бэкэндом vulkan, из 4 гб доступно лишь примерно 3800 мб, контекст не квантованный fp16, примерно выставляется в 4000 токенов. Грузится на 100 %, скорость 2-3 токена...
К слову, в кобольд( за остальное не могу сказать) можно загружать только часть слоёв в GPU, остальные что в Ram, будут считаться на CPU(но я точно не знаю).

Можно попробовать tinny lamma запустить, говорят они очень маленькие и работают на старых CPU.

Есть ещё Gemma 3 на 1b.

Аноним 21/06/25 Суб 23:01:47 № 1253357 5

>>1250776 (OP)
Jan.ai - самая лучшая софтина для запуска языковых моделей. Главные плюсы:
а) простота - устанавливаешь и ебашишь, минимум пердолинга, GUI опять же. Ничего сложного, можешь прям сейчас качать и запускать;
б) непритязательность в плане вычислительных ресурсов. Не капризна совсем. Если LM Studio только AVX2 подавай или новую CUDA, то Jan.ai может использовать старый проц без AVX, может использовать AVX первой версии, ну и AVX2 и CUDA, разумеется, причём CUDA и новую, и старую. Менять можно в настройках.

>модель на rx 550 на 2 гб

Можно без использования видюхи, чисто на проце и с моделью в RAM. Скорость вывода будет зависеть от размера модели и производительности процессора.

Аноним 22/06/25 Вск 21:28:02 № 1254084 6

>>1250776 (OP)
Так есть же 1b модели, их на бомже-телефоне можешь запустить, не то что с 2 гб видео.

Аноним 22/06/25 Вск 22:30:13 № 1254137 7

Современные процы буквально быстрее этих 2-4 ГБ затычек. У меня древняя ноувидия 740 работает медленнее чем кор ай 3 10100. Про то что к процу можно 32 ГБ памяти набрать это вообще отдельный разговор.

Аноним 23/06/25 Пнд 19:57:03 № 1254760 8

>>1250776 (OP)
В теории можно все. На практике - нету смысла, т.к. в подобном случае, узкое место для LLM - скорость памяти, а не мощность процессора. При генерации только на CPU, i5-8400 - хоть 2 ядра выделяй, хоть 5 - скорость одинаковая. Память не справляется. И с подобной картой то же самое будет. Еще и шина pci-e может добавить тормозов.