как думаете есть ли возможность пусть и в теории запустить lmm(хотя не принципиально можно просто предсказывающею конец токена последовательности) модель на rx 550 на 2 гб ? скорее как эксперимент, без цели ускорить работу, я понимаю что в 2гб нормальная модель даже квантонизированной не влезет, но допустим мы качаем модель в озу, и гони модель из озу в psl порт видеокарты, да скорость напрочь убьет распараллеливание , хотя я скорее всего не прав, я знаю тут много умных людей подскажите кому не составит труда.
2 гб кагбэ намекает что видюха из прошлого тысячелетия, а это значит, что на ней софт для инференса вообще может не запуститься. кароч отложи эту затею до покупки видюхи хотя бы десятилетней давности.
>>1250776 (OP) Запускал Gemma 3 4b 4q k_m.gguf на такой же видяхе, но на 4 гб. Запускал через kobold.cpp с бэкэндом vulkan, из 4 гб доступно лишь примерно 3800 мб, контекст не квантованный fp16, примерно выставляется в 4000 токенов. Грузится на 100 %, скорость 2-3 токена... К слову, в кобольд( за остальное не могу сказать) можно загружать только часть слоёв в GPU, остальные что в Ram, будут считаться на CPU(но я точно не знаю).
Можно попробовать tinny lamma запустить, говорят они очень маленькие и работают на старых CPU.
>>1250776 (OP) Jan.ai - самая лучшая софтина для запуска языковых моделей. Главные плюсы: а) простота - устанавливаешь и ебашишь, минимум пердолинга, GUI опять же. Ничего сложного, можешь прям сейчас качать и запускать; б) непритязательность в плане вычислительных ресурсов. Не капризна совсем. Если LM Studio только AVX2 подавай или новую CUDA, то Jan.ai может использовать старый проц без AVX, может использовать AVX первой версии, ну и AVX2 и CUDA, разумеется, причём CUDA и новую, и старую. Менять можно в настройках.
>модель на rx 550 на 2 гб
Можно без использования видюхи, чисто на проце и с моделью в RAM. Скорость вывода будет зависеть от размера модели и производительности процессора.
Современные процы буквально быстрее этих 2-4 ГБ затычек. У меня древняя ноувидия 740 работает медленнее чем кор ай 3 10100. Про то что к процу можно 32 ГБ памяти набрать это вообще отдельный разговор.
>>1250776 (OP) В теории можно все. На практике - нету смысла, т.к. в подобном случае, узкое место для LLM - скорость памяти, а не мощность процессора. При генерации только на CPU, i5-8400 - хоть 2 ядра выделяй, хоть 5 - скорость одинаковая. Память не справляется. И с подобной картой то же самое будет. Еще и шина pci-e может добавить тормозов.