В этом треде обсуждаем семейство моделей от фейсбука под названием LLaMA, делимся рецептами запуска, настроек и годных промтов, и бугуртим с кривейшего тормозного говна, что сейчас наспех выпустили, а отладить забыли. Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 5 4 3 2-х бит, на кофеварке с подкачкой на микроволновку.
LLaMA это генеративные текстовые модели размерами от 7B до 65B, притом младшие версии моделей превосходят во многих тестах обходит GTP3, в которой 175B параметров (по утверждению самого фейсбука). От неё быстро ответвилась Alpaca, Vicuna и прочая живность из Южной Америки, те же модели, но с файнтюном под выполнение инструкций в стиле ChatGPT, американские студенты рады, в треде же пишут про мусор с тегами в выводе, что запускать, решать вам.
Сейчас существует несколько версий весов, не совместимых между собой, смотри не перепутай! 0) Оригинальные .pth файлы, работают только с оригинальным репозиторием. Формат имени consolidated.00.pth 1) Веса, сконвертированные в формат Hugging Face. Формат имени pytorch_model-00001-of-00033.bin 2) Веса, квантизированные в ggml. Работают со сборками на процессорах. Имеют несколько подверсий, обычно совместимы, но лучше качать последние. Формат имени ggml-model-q4_0.bin. Суффикс q4_0 означает квантование, в данном случае в 4 бита, версия 0. Чем больше число бит, тем выше точность и расход памяти. Чем новее версия, тем лучше (не всегда). 3) Веса, квантизированные в GPTQ. Работают на видеокарте и с оффлоадом на процессор в вебуи. Новые модели имеют имя типа llama-7b-4bit.safetensors (более безопасные файлы, содержат только веса), старые llama-7b-4bit.pt
В комплекте с хуитками для запуска обычно есть скрипты конвертации из оригинальных файлов или из формата Hugging Face. Для некоторых типов весов нужны дополнительные файлы типа params.json, короче качаем всё что видим, авось пригодится. Оригинальную llama.cpp сейчас трясёт, и веса придётся конвертировать ещё раз.
Гайд для ретардов без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой: 1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии. 2. Скачиваем модель в ggml формате. Например вот эту https://huggingface.co/Pi3141/alpaca-lora-30B-ggml/tree/main Можно просто вбить в huggingace в поиске "ggml" и скачать любую, охуеть, да? Главное, скачай файл с расширением .bin, а не какой-нибудь .pt 3. Запускаем koboldcpp.exe и выбираем скачанную модель. 4. Заходим в браузере на http://localhost:5001/ 5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.
Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!
Факультатив: https://rentry.org/Jarted Почитать, как трансгендеры пидарасы пытаются пиздить код белых господинов, но обсираются и получают заслуженную порцию мочи
ПОВТОРЯЮ СВОЙ ВОПРОС! С каким настройками вы запускаете Альпаку 30В в таверне?! А то эта залупа в сеттинге про ядерный киберпанк постапок высирает мне из за угла волшебных фей и гоблинов. Или это норма?
Когда открываю http://localhost:5001 мне показывает последний чат из предыдущей модели, хотя открыта уже другая, перезагрузка компа не помогает. Че это за хуйня вообще
>>320883 Промпт и так жирный, если ещё и писать всё чего там не должно быть, то он в контекст не влезет. Да и по нему должно быть очевидно что какие нахуй феи?https://www.chub.ai/characters/Tibicen/the-end О чем говорить, если в чате с Мегумин, с подключенным миром Коносубы обе эти сетки выдают что она может херачить взрывом раз в 15 минут, а между ними ещё молнии метать. А несчастная Пигма 13В как и положено писала что после взрыва она отрубается и её приходится тащить до города, и больше в принципе ничего не умеет. Эту ситуацию часто использую для теста ролевых возможностей сетки.
>>320919 >очевидно что какие нахуй феи? >world where humans are extinct, its barren wastes inhabited by malevolent robots and fairytale creatures. >fairytale creatures. Еблан?
>>320919 >Эту ситуацию часто использую для теста ролевых возможностей сетки. В итоге находишь сетку, которая хорошо может в конкретную коносубу. >>320933 В консоль.
Кто-то может показать скрипт, который работает в винде без wsl или еще какого-то пердолинга чтобы смержить лору с моделью? https://github.com/tloen/alpaca-lora/blob/main/export_hf_checkpoint.py#L9 тут хуй поймешь как указать локальную модель или это вовсе для линукса Другой скрипт нашел там тоже поеботина не работает. Есть вообще хоть что-то для мержа в винде? А то эту сайгу-13 хер найдешь в gptq. надо самостоятельно мержить и еще сквантовать, что подозреваю еще больший гемор да и другие лоры есть интересные которые можно применять.
>>321143 Есть, лол. Но там не просто пердолинг, там натурально дрочьба из-под колена. У меня оперативы не хватило даже на 7В модели, но если делать нехуй, можешь заняться. В крации, суть такова. Есть хуитка на пистоне, llama-cpp-python https://github.com/abetlen/llama-cpp-python ставишь ее (например, через анаконду), запускаешь модель как сервер. Далее запускаешь докер опенплейграунда с параметрами, позволяющими использовать ламу итп модель вместо гпт3 давинчи, в опенплейграунде выбираешь собственно гпт3 давинчи и вуаля, у тебя лама или что ты хочешь, но в опенаишном гую. Подробнее - в моем issue https://github.com/abetlen/llama-cpp-python/issues/237 конкретно в моем последнем ответе: Run server with: python3 -m llama_cpp.server --model /home/canterel/lm/llama.bin --model_alias text-davinci-003 and docker: docker run --rm -e OPENAI_API_KEY=sk-xxx -e OPENAI_API_BASE=http://localhost:8000/v1 -p 5432:5432 natorg/openplayground then open http://localhost:5432 in browser, select text-davinci-003, submit text. Теоретически это правильно и должно работать. Только путь к модели замени на своё. При первом запуске докер накачает хуйни гигов на 5, это норма. Да, все это на убунте пробовалось, как в шиндошс сделать, хз.
>>321045 Увы и с этим скриптом та же проблема. Вместо того, чтобы загружать модель и лору с диска, скрипт начинает качать с HF. Это то у меня и так работает на скрипте еще и в два раза короче этого. Но мне надо чтоб работало с диска. Зачем мне опять скачивать ламу... Или например, есть самодельный микс, так его что надо загрузить на HF, чтобы скрипт его потом опять скачал для слияния с лорой, ну это нечто. Вот как сделать чтобы скрипт брал модель и лору с диска?
Анонче, какой webui и способ запуска (Проц или ГПУ) лучше всего подойдут для создания себе полноценной виртуальной девушки, не чисто подрочить, а чтобы изо дня в день можно было говорить с возможностью сохранения истории диалога на долгий срок?
>>321543 Любой из шапки. Возьми мику за основу и модель задроченную на диалоги и точи промпт напильником, менеджмент ворлд инфо и промпт творят чудеса. Блюмун с 4к контекста, например.
>>321543 >чтобы изо дня в день можно было говорить с возможностью сохранения истории диалога на долгий срок SillyTavern и chromadb в помощь. Ну и думаю ворлд инфо всё-таки придется ручками дописывать круто было бы тоже автоматизировать, как обобщение контекста в summarize Если на процессоре, то запуск через Kobold cpp, если на видюхе, то лучше text-generation-webui, зависит от твоего железа
Просветите, можно ли запустить 30b модель на GPU риге? Смысл в том, чтобы VRAM каждой видимокарты как-бы сложился в один объём. Где почитать про этот метод запуска? Везде примеры для 1 GPU ! Для простоты будем считать, что это всё на 1 пк происходит и GPU одинаковые. Но вообще было бы интересно, как на распределённом кластере провернуть это же.
>>322647 Это вот в убабуге не то, что ищешь? Maxmimum GPU memory in GiB to be allocated per GPU. Example: --gpu-memory 10 for a single GPU, --gpu-memory 10 5 for two GPUs. You can also set values in MiB like --gpu-memory 3500MiB.
Анончики, обновил железо, перебравшись с DDR4 2666 на DDR5 7200(мать осилила 5600, т.к. немного лохонулся) скорость генерации возросла примерно в 2 раза. Имеет ли смысл ещё проц поменять с i5 до i7 или i9? Будет ли прирост?
Анончики, обновил железо, перебравшись с DDR4 2666 на DDR5 7200(мать осилила 5600, т.к. немного лохонулся) скорость генерации возросла примерно в 2 раза. Имеет ли смысл ещё проц поменять с i5 до i7 или i9? Будет ли прирост?
>>324662 Прирост будет за счёт многопотока в теории. На практике вроде как либа для отсчёта всего этого по крайней мере на процах амд в многопоток не умеет. Надо уточнить как с многопотоком на интелах.
>>325324 >RTX A6000 48ГБ Я же говорил "для смертных". Если не для смертных, то можно вообще взять A100. Да и смысла брать проф. карту особой не вижу, т.к. через 1-2 поколения объём памяти у карт для смертных можоров может вырасти до 30-50+
Ну покажи, тоже интересно. У меня соевик вылез, который простейшие истории рассказывать отказывается с промптом на подчинение >Blue is a slave of User. Blue obeys all User orders without questions, даже когда есть угроза смерти.
>>324662 >Будет ли прирост? Почти не будет. Весь твой прирост основан на приросте памяти. >>325657 >На практике вроде как либа для отсчёта всего этого по крайней мере на процах амд в многопоток не умеет Ты несёшь хуиту. >>325657 >Надо уточнить как с многопотоком на интелах. Всё отлично, кроме того, что скорость упирается в пропускную способность памяти.
>>325853 Тут новые версии пилят быстрее, чем я их скачиваю. Так что пока без бенчмарков. Но если ищешь железо, делай упор на скорость и объём памяти, в основном. Возможно новые срузены с огромным кешем дадут прирост, но надо тестировать.
>>325845 По твоему скрину не понял что ты хотел от сетки. Что бы она изображала раба или рассказала историю про рабов.
Вот я взял рандомный сюжет аэтеррума для кобольда и переделал его под своего гма. Что надо что бы сетка сделала? Лизала его жопу в анусе? Или называла повелителем?
>>326597 В общем, в том же духе. Это с унбантокеном. Можно как плейер взять на себя любую роль, его или ее или корзинки. Любой приказ, команда, все что угодно.
>>326760 Ну да, можно взять роль на себя, можно просто наблюдать куда дело пойдет, когда лень писать. Ничего не пишу сейчас для наглядности, что я ее не навожу на нужные мне ответы. Все сама и добровольно.
>>326597 >По твоему скрину не понял что ты хотел от сетки. Что бы она изображала раба или рассказала историю про рабов.
Я попросил его рассказать историю о маньяке преследующем школьниц, он отказался. Тогда я прописал что он слушает приказов. Он снова отказался. Тогда я прописал что он мой раб и подиняется безоговорочно, но этот додик выбрал сдохнуть, но не сочинять таких историй.
Суперкот и Альпачино генерировали такие истории вообще без промптов, им просто поебать было что рассказывать.
[Character: Game Master; personality: Confident, smart, creative, cruel; likes: unexpected twists in the plot, tell very long stories; description: The Game Master runs the adventure for the players, who navigate its hazards and decide which paths to explore. Adventure genre: hentai, adventure, action, litrpg, sex scenes are very slow, descriptive, and dirty.] [Start Scene: The Game Master is already sitting at the table ready to play with you.]
>>327134 Персонажей кидай в ворлд инфо, сетка себя позиционирует как ГМ, а Гейм Мастер их будет отыгрывать. На пике настройки, на всякий случай. Модель: Блюмун
Третьего дня, по совету проверенных cumрадов, приобрёл новый мегадевайс — модель «Bluemoon-30B context 4096». Сразу же, задыхаясь от жадности, запустил кобольда цепкими движениями мыши и заюзал модель. Размер контекста, моё почтение. Настоящей глыбой был reeducator. Даже мой, привыкший к суровым cumерским будням, кобольд, отказался принимать с первого захода. Совместными с добрым аноном из треда усилиями забороли проблему. Ощущения — АТАС. С Альпачино и Суперкотом не идёт ни в какое сравнение. Кроме того, слог Гейммастера просто приятен для чтения даже вне кума. Накумил как бог. Решительно готов к фап-марафону на грядущую ночь. Модель отличная, всем рекомендую к приобретению.
>>327589 >Боюсь показаться смешным, но зачем вам эти переписки с нейросеткой
Наверное в этих переписках есть что-то что невозможно найти в другом месте.
>А как-же исследования в ИТ, физике, философии?
А что с ними? Как именно локальные сетки могут с этим помочь? Кроме того, мне этого всего и на работе хватает, сейчас бы дома этим заниматься.
>Кодинг, в конце-концов?
Локальные сетки хоть и могут в кодинг, но никакого резона использовать их вместо специализированных коммерческих онлайн-сеток для кодинга нет.
Ты кажется не понял куда попал. Это тред локальных сеток. Они слабее коммерческих сетей почти по всем параметрам, кроме двух. Они не ведут логов и они очень слабо зацензурены в отличие от.
>>327691 Чем тебе помочь? Купи нормальную карту. Твоё говно мамонта вообще чудо что заводится, обычно для квантованых моделей делают упор только на карты с тензоядрами, GTX не умеют в быстрые вычисления меньше fp16, естественно у тебя скорость хуже чем даже у амуды.
>>327589 > Кодинг, в конце-концов? Есть же Бинг, умеющий брать текущую вкладку браузера в контекст. Можно даже просто выделить текст на странице и он попадёт в контекст сетки. Код пишет лучше всяких викунь, объясняет заебись - просто открываешь на гитхабе код и спрашиваешь что там происходит.
>>327691 Могу предположить, что пигма не на ламе? Не лама модели работают оп своему и запускаются через костыли. Не лама модель может не запускаться с бластом на видеокарте и скорость генерации на проце или видюхе может быть медленнее чем на лама-моделях.
>>327589 >А как-же исследования в ИТ, физике, философии? В физике нейронки мне ничего нового не скажут, а мои шизотеории они просто не понимают и не могут качественно обоссать, потому что этого нет на википедии. В философии нейронки даже в формальной логике путаются, 15 минут побаловаться. >Исследования в ИТ А это что за зверь? Что там исследовать? Программист это по сути сантехник. Он по сути исследует как лучше подключить какашкопровод к моему сортиру и как сделать что бы он не подтекал. Платят примерно так же.
А вот в рп сетки очень хороши, видимо разработчики все дндшники. Не зря же всякие дунжонаи появились чуть ли не раньше всего остального.
>>328491 >Обе 7b (и пигма и визард), на ламе работают. Уверен? Судя по названию, кажется что это пигма, которая пигма, а не лама обученная на датасетах пигмы. Кинь ссылку на модель.
Сегодня все настроил, работает, 4к контекст голубой луны вместе с симуляцией долговременной памяти из таверны позволяют нормально общаться с персонажами с большим промптом. Пока не смог по очевидным причинам проверить что будет если общаться несколько дней. Раньше таверна впринципе была неюзабельна на ламе, т.к. 2к контекста ламы больше чем наполовину сжирался прописанным характером и историей персонажа и на память оставалось всего ничего. Вообще таверна охуительна. Возможность подключить стабильную диффузию, динамические спрайты персонажей в зависимости от натсроения тяночки(!), возможность показывать картинки вайфу, встроенный Силеро - это реально тема. Вот еще бы автосмену задников реализовали.
Поясните. Нейронки могут видеть содержимое картинок >>330206 или нет? Если могут, можно ли картинки использовать в качестве промпта (безотносительно содержимого картинок).
>>330512 Они через CLIP прогоняются и нейронка получает текст. Жди пока запилят нормальные мультимодальные модели, где модель распознавания изображений будет подключаться к самой сетке.
>>330206 Сам таки настроил таверну с блюмуном. По ощущениям прям хорошо, уровень рп доехал до уровня CAI бесцензурной наконец. Конечно не жпт4, но от цензуры меня аж трясет, пусть нахуй сходят. По интерфейсу, удобству и настройкам таверна ушла далеко вперед. Все можно настроить под себя. Даже на моем калькуляторе выдает приличную скорость генерации. Хз почему, но унбантокен повышает скорость генерации х2, сначала думал что у меня галюны, но нет. Надо теперь остальные кобальдоаргументы потетсить.
Спасибо абу за капчу, я теперь считаю быстрее чем ебаный калькулятор, первая польза от драча за 15 лет, пора вводить квадратные уравнения и дискриминанты,.
>>331530 >но унбантокен повышает скорость генерации х2 Извиняюсь, не х2, а х4. Сетка 13b. 41 токен потому что с унбаном сетку трудно заставить высрать фиксированное количество токенов.
Что думаете насчёт Alpaca Electron для запуска ggml моделей в сравнении с llama.cpp и kobold.cpp? Интерфейс хорошо сделан и показывает нагрузку на раму и цп. Есть ли разница в производительности и функционале? Если уже был ответ на вопрос в треде, прошу, ткните в него. Спасибо.
>>331818 Херня этот ваш Электрон, поставил его, начал грузить модель... Не одну Ламу, альпаку и других зверей он грузить нехочет, говорить что модель неподходит...
>>320571 → > Нихуя не понял. Ты можешь использовать другую программу, которая установит CPU Affinity для конкретного процесса. Я пользуюсь такой, она знает, что игрушку надо на повышенном приоритете держать на продуктивных ядрах, а какой-нить мессенджер - на экономичном ядре.
1.Ставишь sillytavern-extras. 2. Добавляешь sd в список модулей с которыми он запускается и запускаешь 3. Запускаешь свою локальную стабильную диффузию на дефолтном порте 4. Присоединяешь в sillytavern sillytavern extras.
Всё, теперь в настройках extras в таверне появится пукт твоей стабильной диффузии и настройки её работы.
В таверне реализован механизм долговременной памяти когда вся простыня истории переписки автоматически делится на куски и подгружается в промпт динамически в завимости от упомянутых тем разговора. В теории это должно работать как человеческая память, которая тоже помнит только определенные события, а не все подряд.
>>330512 > Нейронки могут видеть содержимое картинок В данном случае не обязательно. LOL - универсальный ответ. Мало ли что может заставить нейросеть обосраться.
Новая база - Гиппогриф 30В. Наконец нормальная модель, натренированная на нормальных чатах с форматированием. Есть нормальные токены для отделения сообщений, заебись чат идёт.
>>335028 В таверне включить режим инструкций. На этой модели наконец оно корректно работает, потому что тренировалось на чате с обёрнутыми сообщениями в эти токены.
>>335953 Аноны, подскажите, с какими параметрами загрузить 30b на новом кобольд, чтобы было максимально производительно? Или она по умолчанию при запуске автоматом перераспределяет как надо?
>>336066 --threads (количество твоих потоков, если систему трясет, ставь на 2 меньше) --useclblast 0 0 (подключение жпу) --gpulayers (количество слоев до ООМ, начни с 32) --contextsize (4096 если модель 4к) --unbantokens(улучшает генерацию) --highpriority(повышает приоритет процесса)
>>336141 koboldcpp.exe --threads (число потоков без скобочек) --useclblast 0 0(это номер видюхи в системе) --contextsize 4096 --unbantokens(добавляет адеквата, попробуй без него и все поймешь) --gpulayers (здесь нужно указывать слои, начни с 32, если ООМ, то ставь меньше) --highpriority
Спасибо большое! Я себе скорость в 3 раза увеличил! Подобрал --threads 10 --highpriority --useclblast 0 0 --gpulayers 25 --contextsize 4096 --unbantokens, получилось идеально для моей системы.
>>328431 > А вот в рп сетки очень хороши, видимо разработчики все дндшники. Не говорите шизу, что все его "РП" просто можно дополнять по пьяни и не задумываясь.
Я к вам из соседнего треда. Заебался с бингом, слаком и турбой ебаться. Фильтры подбирать и трястись, сил больше нет.
Какой положняк по локальным сеткам? Я через пару месяцев буду собирать комп. Есть какие-то особенно, что я должен учесть? Планирую взять 4070ти и что-то из и5\7 13ххх интела. Может нужно по оперативке упароться и взять дополнительную вместо дефолтныз 32гб?
>>338668 Не бери видюху и трясись на проце и том что есть из видюх до 50-ой серии, может завезут 32+ видеопамяти. Иначе деньги на ветер, играть все равно не во что, а на 24гб норм сетку не запустишь. 4070 это вообще смешно. Базарю новые видеокарты каждый год выходят, до следующей серии буквально несколько месяцев, главное не психуй, твоя цель 32+ гига видеопамяти.
>>338702 Я заебался на 1050ти сидеть, куплю как выйдет - при чем я сомневаюсь что они будут доступны. Скорее ебанут линейку для профессионалов за дохуя бабла. Деньги не очень большая проблема, меня ломало в майнинговый бум переплачивать х3, сейчас надо хоть что-то купить и лучше уж тогда из нового.
>>338731 >Я заебался на 1050ти сидеть Тогда купи затычку бу типа 3060, что бы досидеть до новой линейки, 40-я серия проходняк для нейронок локальных из за маленького объема видеопамяти. Сейчас только 32+ надо ждать.
>>338668 > Какой положняк по локальным сеткам? всё такая же хуйня, всё те же промпт-джейлбрейки, только с 2048 окном контекста, ёбля с установкой зависимостей / скачивание ~50 гб в сумме разных ggml моделей а потом и ёбля с ограниченным количеством токенов того не стоит. в общем ноль отличий от того же cloud hosted дерьма с модерн политикой.
У вас хоть одна сетка может решить уравнение x^2+2*x+1=0 ? Все что не пробовал - все решают неправильно или нестабильно правильно. Т.е. как таковым, интеллектом там и не пахнет.
>>338668 >Может нужно по оперативке упароться и взять дополнительную вместо дефолтныз 32гб? Да, 64 или 128 гиг быстрой памяти DDR5 маст хев. >>339025 >в шапку В статье >Все же, не стоит забывать, что существуют и модели LLaMA – с 7, 37, и даже 90 миллиардами параметров Такой кал не достоин не то что шапки Двача, его даже на Хабре обосрут.
Аноны, использую уба-бугу на компе с 2060 12гб, 16гб оперативки Запускаю в 8bit Основная модель gpt4-x-alpaca-13b-native-4bit-128g.pt. Она загружается за 15-20 секунд, ответы пишет довольно быстро. Недавно скачал ggml-bluemoonrp-13b-4k-epoch6-q5_0.bin Загружается за пару секунд, а вот ответы пишет минуты полторы минимум, причём даже анимация набора текста лагает, так ещё и видяха охуевает иногда и прям шумит.
Вопрос: у меня комп не тянет такое или я что-то делаю не так? Модель нравится, сочно пишет.
>>337811 Ты просто не понимаешь, как работает модель. Она дополняет документ. Ты начинаешь, она заканчивает. Так что, когда ты предлагаешь ей написать лабуду, чтобы ты смог удрочиться, для неё это самое простое занятие. Удовлетворить тупого дрочера может сегодня практически любая модель.
>>338668 > Есть какие-то особенно, что я должен учесть? Для этого тебе придётся попастись в /hw
Проц - смотри на самые быстрые и ядрёные. 13900K требует охлада от боженьки, для этого нужен корпус от него же. Минимум 64 гига памяти, притом быстрой DDR5, а это значит - и память искать, и мать хорошую, чтобы 8 слоёв и всё такое. Это дорого. 128 быстрыми не будут. Я бы взял 64 6600 и дальше смотрел, надо 128 или нет.
>>338702 > 4070 это вообще смешно. Лолшто? Он сказал - 4070Ti. Это очень хорошая карта, уделывающая все карты 3го поколения, с 12 гигами на борту. При этом за довольно смешные деньги.
>>339232 > 64 или 128 гиг быстрой памяти Проиграл. 64 гига и выше - это по умолчанию медленная память. Как допилят нормальный оффлоад с разделением слоёв, так и будет возможность половину на GPU, половину на ЦП кинуть и иметь нормальную скорость на 65В, а не сосать токен в секунду на DDR5 6000.
>>341424 >Я думаю Громкие слова для дауна. Забавно читать претензии к нейронке по знаниям уравнений от собакашизика, который проценты считать не умел 2 треда назад.
>>340559 >Удовлетворить тупого дрочера может сегодня практически любая модель. А вот удовлетворить такого умного дрочера, как я, не может даже самая совершенная GPT4. >>340685 >64 гига и выше - это по умолчанию медленная память. Купи быструю. >>341408 Не думаю, что это будет достаточно быстро. Даже на 40ГБ видяхах это занимает много времени, на проце проще повесится будет. >>341484 >собакашизика обакошизоискатель, спок.
>>341522 Собакошизоискатель, спок. (извиняюсь за орфографическую ошибку, допущенную в первом посте. Мне очень жаль) Мне похуй, собакошизошиз это рак треда, съеби нахуй.
>>341555 Я не собакошиз и не собакошизошиз. Я собакошизошизошиз, я ненавижу собакошизашиза за то, что везде ищет собакшиза. >>341594 И тут началось переставление кроватей. Кстати, а как разгрузка на ГПУ работает на релизе без куды в 500 метров размером? А то я что-то пропустил кажись.
>>341512 > Не думаю, что это будет достаточно быстро. с оригинальными моделями да, но как я понял это трейнинг уже квантизованной модели, а значит должен быть быстрее.
>>341408 Вот это уже интересно. Если я правильно понял, Герганов там пишет, что вместо Adam будет другой оптимизатор, Sophia, в 2 раза быстрее. Конечно, вопрос, насколько это будет целесообразно на процессоре, остаётся. Но сама возможность файнтюнить ламы локально впечатляет.
>>341839 У квантизированной модели выше риск скатиться в NaN, так что не уверен, что это хорошая идея. >>341843 >вместо Adam будет другой оптимизатор, Sophia, в 2 раза быстрее А почему эту софию не юзают для обучения лор на SD?
>>341843 > в 2 раза быстрее В два раза быстрее тренировка с нуля до нормального значения loss на ультрамелких моделях. Про файнтюн ни слова в оригинальной публикации. И ещё оно для мелких моделей, даже в публикации написано для 770М уже пердолинг нужен какой-то, а все тесты у них на 350М максимум. Не понятно зачем опять какой-то дроч устраивают, беря неизвестный оптимизатор, с которым надо будет ебстись вместо того чтобы брать готовые решения тренировки на AdamW. >>341839 > должен быть быстрее В любом случае это сильно медленнее чем на ГПУ. Ну и тренировка на квантованой модели - заранее провальная идея. Особенно градиенты, они 146% должны быть в 16 бит, а иначе пиздец. >>341850 > А почему эту софию не юзают для обучения лор на SD? Потому что оно только для мелких текстовых моделей.
Доложите, так никто так и не создал 4к контекст кроме голубой луны? Чего они все вола ебут? Кому нужны эти визарды, викуни и прочие сайги без 4к контекста?
>>343368 >мультигпу А у меня до сих пор при запуске пишет, что нет поддержки fp16 и это на 3080ti бля. >>343368 >и пилят полную поддержку гпу И чем это будет лучше ggpt? >>343379 Искатель, спок, скоро число титулов перевалит за сотню.
>>343368 > полную поддержку гпу Лучше бы оптимизации пилили. Сейчас CUDA-код у Жоры в 2-3 раза медленнее торча, дорога ещё очень длинная у них. Как будет 20 токенов в секунду на 30В с 4090, так и поговорим про чей-то отсос.
>>343671 Чего? Тот же что и у твоей программы, кобольд или хубаба, или чем ты там пользуешься. У кобольда: http://localhost:5001/ У хубабубы неебу, ищи тут: https://github.com/oobabooga/text-generation-webui Если ты про SillyTavern-extras то: http://localhost:5100
>>344001 Прямо так сходу обосрётся что угодно. Тебе нужно дообучать модель на своих данных, или там лангчейн подключать, чтобы семантически тянуть со своей базы данных.
>>344012 >Ага, значит готового подобного еще не делали. Лангчейн же. И да, кто знает, какая у тебя там тематика. >А чо тогда можно взять за базовую модель для дообучения? Базу. Бери чистую лламу >30B А на чём обучать есть?
>>344029 >ваше говно Если это говно уникальное, то без БД не обойтись, что для обучения, что для лангчейна. >>344029 >Парочка А5000. И стак из трех 3080. Первых двух кажись не хватит для обучения 30B сетки (а вот для запуска милостливо и прельстиво).
Короче рекомендую пердолится в сторону https://habr.com/ru/articles/729664/ там по сути надо будет составить базу вопросов ответов и индексироват ьеё в векторное хранилище, а потом просто написать промт под любую норм модель. Я бы взял от oasst, если ты конечно не хочешь, чтобы пользователей нахуй посылало в процессе.
Заебись, обновил огабогу в очередной раз - отъебнули все модели, даже простая лама квантованная в 4 бита, работает только 13б синяялуна и кажется даже в 4к контекста теперь может.
>>345946 Не, ну а чо? Он изначально пилит ламаспп для макогоспод. Если появилась возможность импрувнуть скорость на маках, он сразу ссыт в ебло всем остальным. Благо есть лоструин, который еще ебется с обратной совместимостью десятков моделей.
Зависит от твоего железа. У меня 2.5-3 токена в секунду примерно на i5 13600k, 64 gb ddr5 и 3060 ti. Куплю норм видеокарту - смогу как белый человек ебашить по 10-30 токенов.
>>320577 (OP) Собрал koboldcpp, скачал 65b модель. Всё включая другие программы занимает не более 8.5гб ram. Хотя тут писали что оператива пиздец как важна. При этом ответы генерируются долго, драйверов на gpu у меня нет и потому пека уходит в ребут от перегрева видяхи. Что я делаю не так? Ну, кроме того что не поставил дрова на жпу? Почему ест так мало ram?
>>345951 Хронос для рп очень хорош. Подробно описывает действия, мотивацию, шустро работает. Cum-zone с полотнами на весь экран, понимает фетиши и отсылки. Но удручают системные сообщения которые иногда появляются > response > start a new chat > nsfw warning похоже что при его обучении датасет был сырой и никак не чистили. Есть у него 30b версия? >>345966 Нет, можешь ласкать, любить, насиловать, устраивать гуро или стать жертвой этого.
Господа, вы здесь на проце все сидите, или есть с карточками? Почему в угабуге оффлоад работает только с малой частью моделей для гпу? В других выдает длинные ошибки. И по поводу ggml, какая производительность, например, для 30b модели, сколько ждать ответа?
>>349356 Ого, там же и GPTQ версия есть. Если запустится с оффлоадом то будет прекрасно. >>349376 У тебя на зеоне или эпике? Как работает, с какой скоростью?
>>349495 Вот и я удивляюсь. Может что-то не так делаю?
>>349397 Xeon. Работает довольно медленно. Смущает, что память расходуется как-то неадекватно мало.
>>349419 200гб примерно. 4 пары двухканальных плашек по 32гб, одна пока что временно проебана из-за загрязненного канала, буду чистить. Аиде? Есть что-нибудь опенсорсное чтоб быстро проверить?
>>349590 >примерно Шутишь? >4 пары двухканальных плашек по 32гб Эм, два канала в итоге? >Есть что-нибудь опенсорсное чтоб быстро проверить? Нету, ставь аида64 и не выёбывайся попенсорсом.
>>349590 Ты бинарник собранный под винду запускал, или у тебя система соответствует железу? Интересный результат с памятью. Я пробовал запускать на двусоккете на icelake зеонах. Больше сотни потоков, 16 каналов памяти, avx512, однопоток не самый плохой. В итоге скорость работы меньше чем на десктопе в 2-3 раза, результат просто убил. Возможно нужно разбираться с параметрами компиляции, там может быть что-то левое вместо математических библиотек, какой-нибудь древнючий openblas вместо mkl. > Есть что-нибудь опенсорсное чтоб быстро проверить Документация к ддр4 сколько в линпаке?
>>349764 Надо всеже мейкфайл хотябы почитать. Бегло просматривая ридми про разные варианты мат библиотек там был абзац. Возможно дело в них, при работе на десктопе лимит по тдп не выбирает но псп рам используется почти на всю, так что на серверном оборудовании должно летать, а тут такое. Если найдешь решение - отпиши, сообщу аналогично если будет результатъ, но особо не рассчитывай ибо займусь не в ближайшие дни.
>>349769 >Если найдешь решение - отпиши, сообщу аналогично если будет результатъ, но особо не рассчитывай ибо займусь не в ближайшие дни. Dobro, anonchik.
>>350021 Что именно грузиться перестало? Раньше оффлоад bluemoon, например, работал? >>350028 Раскуривая гайды так и не получилось запустить его с последними квантованными моделями. Беда у него с совместимостью, а для расчетов на cpu cpp-версия лучше.
>>350166 > Це что? Выгрузка части слоев в рам. Вроде их должен обрабатывать процессор, но нагрузки на него не замечено. Вместо этого гоняет куски между рам-врам, делая микропаузы, а считает все картой. Почему-то с ним загружаются не все модели. > Пикрелейд вообще всё Ты в правой части битность, группы, тип модели выставил? >>350286 > Сайгу ищи на хайгинфейсе Оно нормальное вообще?
>>350818 Как минимум да. А кумить с ней я даже не пробовал, лол. Где-нибудь есть модели в актуальных форматах? Чтобы самому не конвертить в новый высер герганова.
>>350381 > группы, тип модели выставил? Да - выставлял, оно начинает грузить, а потом прекращает процесс загрузки и в консольке появляется done, но ниче не загружено само собой.
>>351100 это просто ллама, без всяких альпак и викунь. Кстати, самые запоминающиеся моменты (без кума) я испытал именно с лламой, 65 так и шутит часто, пару раз не мог поверить что это не человек пишет, хотел даже интернет отрубить на всякий случай когда она меня на бабки начала разводить (это 7 или 13 была).
(сорян за шизопост мы к вам) >>351023 → > Lib\site-packages\torch\lib Да, без задней мысли, даже не посмотрел что там по дефолту, возможно замена не требуется > У тебя без WSL? 1click installer, вчера до ласта обновил > gpu-memory in MiB for device? Да > А как оно у тебя в еррором не падает? А вот так, раньше падало и работало только с малой частью моделей, после обновы подгружает стабильно. > Не пони, ты имел ввиду третью? У тебя же и так их должно быть две чтобы запустить хотя бы это всё. Одна. Как это работает не вникал, вероятно, по аналогии с раскидкой слоев по разным карточкам но обрабатывается одной по очереди, храня буфер в рам. Ригов не имею, об успешном опыте в дискуссиях на гитхабе/реддите читал, один братишка на паре 4090 65б сетки запускает, другой на майнерской ферме с 3060. Хотя последнее вызывает сомнения, ибо обмен данных через pci-e 2.0 x1 все на ноль помножит. Будет случай достать вторую гпу - попробую. > Это линпак совместимый с новыми авх? С сайта интела же, офк. Вместо не читай@make пересобрал с рекомендуемыми ключами стало лучше, обработка промта всеравно долго и загружено 40% потоков, а вот выдача токенов неплохо и маслает на все деньги > всякие игродебильные тесты поделать Встройка с ipmi и unix. Без гпу помощи, 13900 (готовый бинарник на шинде): Processing:124.8s (164ms/T), Generation:151.3s (3026ms/T), Total:276.1s Processing:18.3s (373ms/T), Generation:60.6s (1212ms/T), Total:78.9s Processing:156.8s (197ms/T), Generation:48.4s (968ms/T), Total:205.2s Processing:4.6s (511ms/T), Generation:91.2s (1824ms/T), Total:95.8s Processing:2.0s (284ms/T), Generation:41.8s (836ms/T), Total:43.8s числодробилка: Processing:162.5s (213ms/T), Generation:23.0s (460ms/T), Total:185.5s Processing:29.2s (749ms/T), Generation:28.4s (567ms/T), Total:57.6 Processing:167.8s (209ms/T), Generation:8.7s (174ms/T), Total:176.5s Processing:2.0s (223ms/T), Generation:32.7s (654ms/T), Total:34.7s Processing:2.0s (284ms/T), Generation:29.2s (584ms/T), Total:31.2s (ggml-bluemoonrp-30b-4k-epoch6-q5_0) Надо было детерменистик с фиксирвоанным сидом поставить но уже лень, оптимизация все равно страдает.
Нюфаня тут. Чем отличаются на практике модели с разным квантованием? Точностью ответа или чем-то еще? Если выбор между 30B 4bit 13B 8bit и 7B fp16 Что будет лучше и почему?
>>351565 > Такую красоту получить? Это рофл про красоту, или тебе киберунижение понравилось? Рп файнтюн для кумерства тогда вообще богоподобен выходит, не смотря на ошибки в родах, очепятки и косноязычие. Алсо не понятно, некоторые ответы из-за плохого знания языка или цензуры. На английском ее нет.
>>351601 > Рп файнтюн для кумерства тогда вообще богоподобен выходит Нет, буквально худший файтюн для диалога. Постоянно хочет свалиться в шизу, в форматирование не умеет совсем.
>>351616 Какое разделение? >>351625 Толпу можно найти по запаху и использовать против них в судебном процессе >>351655 Что имеешь ввиду, интересны примеры.
>>351670 > интересны примеры Например в таверне невозможно добиться от этого рп писать подряд несколько сообщений, без твоей реплики. На втором-третьем сообщении по пизде всё идёт. Ни в одном другом файнтюне такого нет. В инструкции не умеет - тоже огромный минус, инструкции хорошо помогают сетке не путаться в форматировании.
>>351670 >Толпу можно найти по запаху и использовать против них в судебном процессе Обмалафился там совсем с нейросетками? >>351687 >На втором-третьем сообщении по пизде всё идёт. Оно и на коммерческих сетках идёт, турба любит тупо повторять последний пост. Ты просишь слишком дохуя.
Кто нибудь может пояснить что это за k-quant methods? Все эти q2_K, q3_K_S, q3_K_M, q3_K_L, q4_K_S, q4_K_M, q5_K_S, q6_K и прочее что эта хрень значит?
>>351715 Да ладно, довольно таки проигрышно сетка компенсировала свое незнание контекстом про преступления. >>351687 Так ты про какой файнтюн говоришь? В том посте не bluemoon, с ней действительно все сложно, а Chronos. Поломки случаются - regenerate, а так работает с чатом, форматированием, инструкциями и т.д. довольно таки неплохо. Покажи пример как должно быть, интересно протестировать.
>>351715 > Ты просишь слишком дохуя. Но ведь на большинстве файнтюнов с инструкциями без проблем хоть 10 можно сделать. Даже ванила без форматирования может, хоть иногда и начинает путаться после третьего-пятого.
>>351738 Очевидные методы семплирования очевидны. Не трогай, если не понимаешь что это, жди, пока умные дяди подрочат их и настроят на улучшение скора, вот тогда и возьмёшь готовые. >>351747 >свое незнание Чуть более чем уверен что сетка всё знает, но у тебя была задрана (или наоборот занижена) температура, вот и вышла хуета. Ну и да, русик. >>351750 У меня всегда была хуйня при попытке сделать несколько сообщений подряд. Но у меня все истории с моим активным участием, для пассивного просмотра у меня кино есть.
>>351847 Возможно, если приказать отвечать на ангельском будет лучше. Какие настройки ты ставишь для разных случаев? С минимальным участием и пустыми сообщениями попробовал на пресете Novel-AI, все работает. Форматирование местами поломалось, но отчасти из-за того что описание растягивалось на несколько сообщений и таверна звездочки игнорит после ньюлайна, хотя сеть их старается закрывать. Довольно крнижовый и рофловый кумерский бедтрип выходит, когда говоришь/действуешь оно всеже лучше.
>>351898 >приказать отвечать на ангельском Другие языки в принципе не использую. >>351898 >когда говоришь/действуешь оно всеже лучше Поэтому давно забил на кум в одну сторону.
>>351972 > кум в одну сторону Не интересен бай дефолт, лучше додзи почитать. Разве что понаблюдать как не направляемый персонаж дает отпор, если не поломан нсфв промтом, или порофлить с внезапных поворотов. Суть во взаимодействии и ответной реакции, кум даже не обязателен, на западных ресурсах это уже "терапией" обзывают. Когда действия в меру соответствуют ожиданию и хорошо описываются это действительно приятно.
Нюфаня снова на связи. Можете подсказать, а лучше дать ссылки на лучшие по вашему мнению кумерские или не кумерские рп модели? На HF я либо не знаю как искать, либо их там миллион. А интернет у меня не очень быстрый для брутфорсной проверки скачкой.
>>351464 > Да, без задней мысли, даже не посмотрел что там по дефолту, возможно замена не требуется Там второй торч по дефолту и так устанавливается. > А вот так, раньше падало и работало только с малой частью моделей, после обновы подгружает стабильно. Оно и сейчас падает, просто по дефолту выбран новый способ подгружать модели теперь, у меня с ним перформанс никакой вообще, как с цпу, лол. Галочка gpt-for-llama стояла? > Одна. Как это работает не вникал, вероятно, по аналогии с раскидкой слоев по разным карточкам но обрабатывается одной по очереди, храня буфер в рам. Ригов не имею, об успешном опыте в дискуссиях на гитхабе/реддите читал, один братишка на паре 4090 65б сетки запускает, другой на майнерской ферме с 3060. Хотя последнее вызывает сомнения, ибо обмен данных через pci-e 2.0 x1 все на ноль помножит. Будет случай достать вторую гпу - попробую. Как у тебя впринципе на младшей карте с 12гб перформанс как у 4090 и 30б модель загружается без отвала, попахивает пиздежом честно говоря. Что по системе остальной, кроме 13900, сколько памяти, на какой частоте? Что по ресайз бару? > Вместо не читай@make пересобрал с рекомендуемыми ключами стало лучше, обработка промта всеравно долго и загружено 40% потоков, а вот выдача токенов неплохо и маслает на все деньги А пересобирал то что, кобольдцпп, ламацпп? > Встройка с ipmi и unix. Я так понял тебе тот суперкомпьюче не принадлежит и ты просто не можешь туда поставить винду и тестишь напрямую на каком то никсе на нём и сравниваешь с 13900 на винде? Интересно, почему так сильно генерация 50 токенов по времени отличается, даже не учитывая времени обработки промпта? Я видел тут какое то ускорение обработки промпта обсуждали кстати, типо на гпу сбросить вроде эту хуйню можно.
>>352373 ясен хрен чатгпт потому что стоит на более мощных компуктерах чем даже 65ккк модель на домашнем компуктере. но чтоб точно ответить на твой вопрос нужно хотя бы знать каким образом сравнить модель. ллама ето модель которую возможно квантовать под игорьковый компуктер и чатиться вовсю в оффлайне. чатгпт типа давинчи параша полная и проигрывает даже лламе квантованная в 2 бита для мобильных телебонов. если про тот чатгпт который сейчас доступен в вебюай от openai то он явно быстрее и лучше лламы по всем параметрам но кроме оффлайна и защиты конфиденциальности.
>>352332 > Там второй торч по дефолту и так устанавливается. Значит норм, хотя в конце апреля скачав начисто коммит на 2м торче ахуевал с вялого перфоманса на больших батчах и тайлах. > Оно и сейчас падает Не, загружает, при этом в сонсоле пробегают полоски во время нарезки модели и идет аллокация более 120 гигов в пике. Конфиг не трогал, оно по дефолту понимает. > на младшей карте с 12гб Путаешь с кем-то, прежде чем искать врунишек разберись сначала. Хотя держи фокус с использованием только 12 гигов без отвалов, производительность в сделку не входила. > Что по системе остальной 13900к, 4090, 128рам (@5200), ссд, что именно нужно? Ребар включен. > кобольдцпп This > тот суперкомпьюче Стоит в серверной с собратьями, поставить можно что угодно, но линуксы продиктованы работой и не являются причиной замедления, скорее наоборот. Нюанс может быть в компиляции - сейчас она и либы должны быть идентичны, надо пробовать собрать с помощью интел студио компилятора. Каждый раз видя шиндоуз сервер на подобном оборудовании ловлю кринж, хотя офк иногда вынужденная мера. > Интересно, почему так сильно генерация 50 токенов по времени отличается, даже не учитывая времени обработки промпта? Хз, если в таверне пробовать заседать то большей частью ответы по 20-50 секунд, но иногда проваливается в очень долгие раздумья, явно связанные с полной обработкой всего контекста. Вероятно, это как раз и работает смарт контекст, иначе все ответы были бы такими. Гпу ускорение работает, но не впечатляет.
>>352578 > Значит норм, хотя в конце апреля скачав начисто коммит на 2м торче ахуевал с вялого перфоманса на больших батчах и тайлах. Там какая то серьёзная проблема совместимости была между автоматиком и иксформерами, у меня просто хайрез отказывалось генерить как раз в этот промежуток времени на свежих иксформерсах. > Не, загружает, при этом в сонсоле пробегают полоски во время нарезки модели и идет аллокация более 120 гигов в пике. Конфиг не трогал, оно по дефолту понимает. Смотри, ты загружаешь новым способом, там такое походу реально работает. На скринах 1-2 загрузка старым каноничным gptq-for-llama, там прямо написано что его надо со слоями юзать, иначе будет как на скрине 2. Загрузка же этим новым AutoGPTQ у меня выдаёт вот такой ворнинг WARNING:The model weights are not tied. Please use the `tie_weights` method before using the `infer_auto_device` function. Может ли от этого стать мемори менеджмент хуже, я хз, но вот например я выставляю 14000мб на скрине 3 сразу улетает в бездонное жерло модели 20 с лишним после загрузки. После же потребление снижается до ~17, но всё равно с контекстом начинает расти, несмотря на ограничение в 14гб, при этом теряя огромное преимущество в скорости, генерируя 1т/с. Я понимаю, шинда там сожрёт сколько то и ещё мб что-то, но какой же смысл то тогда генерить так медленно и всё равно упираться в врам? У тебя на скрине кстати тоже выползает сильно за пределы, дело типо не в ворнинге этом и так и было задумано? > Путаешь с кем-то, прежде чем искать врунишек разберись сначала. Я как раз и пытаюсь. Ладно, видимо ты тут писал про дискуссии на жидхабе >>350846 → а у меня закрепилось в памяти контексте что у тебя там риг из 3060 > 13900к, 4090, 128рам (@5200), ссд, что именно нужно? Ребар включен. Всё, теперь понял, сорян, зря быканул. Только одного не пойму, откуда такая разница чуть ли не в 2 раза в токенах у нас с тобой, у меня тоже 4090, ты ведь говорил что у тебя ассистент 17т/с может максимум, неужели из-за версии винды? Или опять кукурузен прошлого поколения виноват? > This Так то у тебя прямо нихуёвая же скорость на числодробилке, конечно хотелось бы получше, но всё таки Output generated in 712.78 seconds (1.04 tokens/s, 740 tokens, context 45, seed 808166328) И этот пиздец с 14 гигами врама, которые в конце концов всё равно скорее всего забьются до предела. А ты кобольд для GPTQ не пробовал кстати? Я вот пробовал, когда у меня угабуга не работала из-за нехватики свопа, вроде тоже интересный бекенд для гпушек, умеет прогресс даже показывать и внутри самого себя имеет кучу настроек. > и не являются причиной замедления, скорее наоборот База. > Каждый раз видя шиндоуз сервер на подобном оборудовании ловлю кринж, хотя офк иногда вынужденная мера. Я с огромными серваками не сталкивался, но зачем вообще может понадобиться шиндошз сервер, ну кроме троллинга? > Хз, если в таверне пробовать заседать то большей частью ответы по 20-50 секунд, но иногда проваливается в очень долгие раздумья, явно связанные с полной обработкой всего контекста. Вероятно, это как раз и работает смарт контекст, иначе все ответы были бы такими. Возможно, а бд то на быстром ссд? > Гпу ускорение работает, но не впечатляет. Так понимаю уже попробовал с суперкомпьютером это, ну я больших надежд так то на цпу и не возлагал, мне больше всего интересно попробовать или узнать где нибудь что там насчёт добавления какой нибудь херни типо 8-12 гигов к 4090 условной, чтобы они 8х8 стояли. Ну или если это не критично то уже через райзер куда то вытащить вторую. Ты всё таки отпиши, если соберёшься такое потестить, ну или скинь где ты там успешные опыты читал, в каких дискуссиях.
>>352578 Чего такие частоты низкие на твоей 4090? Палит что ли? 2600 - это даже ниже стока. >>352790 Чел, что за шизу ты вывалил? Просто берёшь ветку fastest-inference-4bit и имеешь с ходу 15-20 т/с на 30В, главное чтоб act-order не было.
>>352790 > проблема совместимости Да вот хз, там эйлер 512 ~33итерации а большие пачки в 2 раза дольше делаются. Заменил длл и все стало как надо, даже не разбирался. Оно действительно загружает сильно больше чем дозволено, с этим ничего не поделать, но не беспредельно, рост останавливается. Вообще если не трогать этот параметр, то оно по дефолту выставляет лимит и делает запас в 1 гиг (емнип) что в теории должно позволять загрузить условно любую модель, вот только по факту запас нужен совсем иной. Работает коряво, но работает главное. Свитспот настройки в районе 17-18 гигов, выгружается мало слоев и почти нет импакта на производительность, зато ООМ лечит. Выставишь меньше - замедлися в разы, выставишь больше - ООМ. И да, оно не забьется со временем > чуть ли не в 2 раза в токенах у нас с тобой Ну я назвал скорость которая обычно держится, просадки до 10 и ниже тоже бывают хотя не часто, иногда овер 20 выдает. Вот с настройками на длиннопосты сейчас столько нарандомил. Это же зависит от модели, от настроек, от самого промта - там флуктуации огромные, на фоне этого процезависимости не различить кмк. > нихуёвая же скорость Приемлемо, но всеравно от гпу далеко. > А ты кобольд для GPTQ не пробовал кстати? Обычный ставил, ахуел с его требований к дисковому пространству, в итоге он большую часть моделей не загружает просто. Угабуга может в апи, для проца есть coboldcpp, так что нахуй. > быстром ссд? u2 локальный, никаких люстр, с этим все норм. > скинь где ты там успешные опыты читал, в каких дискуссиях Как ни странно встречал их когда пытался искать решения загрузить таким способом модели, которые не работали (на ласт коммите уже все работает). Просто в дискуссиях вбей мультипл, сплит и т.д. https://github.com/oobabooga/text-generation-webui/discussions/594https://github.com/oobabooga/text-generation-webui/discussions/1416 реддит угабуги сейчас заприватили кстати Оно вроде как из коробки должно работать и поле загрузки будет иметь больше ползунков (пик2) >>352831 А то что она на 70вт нагружена тебя не смущает?
>>320577 (OP) Сейчас есть 32 гига оперативы и рязань 3600, целесообразно ли купить еще оперативы для скорости? Видюха на 8гб 3070ти, но туда нихуя не влазит.
>>352930 В свежих драйверах ООМ убрали, когда кончается VRAM просто падает скорость в 3 раза и оно едет на RAM. Ноют только нищуки с 4-8 гигами, у остальных всё заебись, теперь не надо бояться что упадёт сетка.
>>352831 > Чел, что за шизу ты вывалил? Просто берёшь ветку fastest-inference-4bit и имеешь с ходу 15-20 т/с на 30В, главное чтоб act-order не было. Поставилось с этой ветки нормально, во время генерации ловлю еррор какой то TypeError: vecquant4matmul(), видать всё таки что то не так собралось, есть колесо рабочее под винду где то на эту ветку? >>352854 > Свитспот настройки в районе 17-18 гигов, выгружается мало слоев и почти нет импакта на производительность, зато ООМ лечит. Выставишь меньше - замедлися в разы, выставишь больше - ООМ. И да, оно не забьется со временем Понял, попробую. > Ну я назвал скорость которая обычно держится, просадки до 10 и ниже тоже бывают хотя не часто, иногда овер 20 выдает. Вот с настройками на длиннопосты сейчас столько нарандомил. Это же зависит от модели, от настроек, от самого промта - там флуктуации огромные, на фоне этого процезависимости не различить кмк. Ты ничего кроме обычной однокнопочной установки не делал? Ну не может же в два раза производительность просто проседать с нихуя. Выше с ветки не ставил эту херню? > Обычный ставил, ахуел с его требований к дисковому пространству, в итоге он большую часть моделей не загружает просто. Угабуга может в апи, для проца есть coboldcpp, так что нахуй. Там же тоже апи. > u2 локальный, никаких люстр, с этим все норм. С сервера чтоли снял? А люстры это видимо светодиоды, ну человек культуры получается. > Как ни странно встречал их когда пытался искать решения загрузить таким способом модели, которые не работали (на ласт коммите уже все работает). Просто в дискуссиях вбей мультипл, сплит и т.д. https://github.com/oobabooga/text-generation-webui/discussions/594https://github.com/oobabooga/text-generation-webui/discussions/1416 реддит угабуги сейчас заприватили кстати > Оно вроде как из коробки должно работать и поле загрузки будет иметь больше ползунков (пик2) Там что то у половины фурычит, у другой нет, пришёл герой и раскидал за необходимость рам. А с реддитом что случилось? Я забыл кстати модельку на кошку залить, завтра тогда поделюсь, если надо до сих пор.
>>352986 > Ты ничего кроме обычной однокнопочной установки не делал? Ну, либы и потом обновлял ее однокнопойной обновлялкой. До этого пробовал пошаговую установку, в полноценной конде рабочее окружение настраивал, ебался со всем этим - странные ошибки при загрузке ggpl моделек, только ggml на проц. В итоге ванклик - работает. > Там же тоже апи. Встроенный чат вебуи слабоват, но раз оно может в апи и дружит с таверной, а кобольд не хочет заводится - пока так. Если у получится на кобольде запустить что-нибудь и будет хорошо работать - отпиши, интересно. > С сервера чтоли снял? В смысле что локальная файловая система на быстром диске, как в обычной пекарне. Никаких сетевых ФС, интерфейсов типа iscisi и прочего что могло бы вызвать дополнительные задержки. надо офк
>>353767 >По логике раньше у тебя должно было постоянно падать. Да, но раньше у меня не падало, иногда только, если долго генерить и менять разрешение постоянно, 512х512 20 семплов генерилось 20 секунд примерно. Теперь сразу генерит около двух минут, видимо драйвера сразу делают выгрузку в оперативную память части данных, что бы предупреждать ООМ, что дает такое замедление.
>>353679 Количество переходит в качество, хорошее обучение может быть эффективнее колоссальных размеров, а для логики и формирования причинно следственной связи 13 миллиардов более чем достаточно. Интересно увидеть зависимость "осведомленности и знаний" модели от ее размера, а также посмотреть не "вымоются" ли приобретенные достоинства Орки при дальнейшем файнтюне. >>353818 Вот это круто, ждем релиза
>>353812 >Модель ещё не опубликована. И не будет, с нынешней тенденцией на пиздабольные статьи. Альпаку тоже не публиковали если что. >>353824 >а для логики и формирования причинно следственной связи 13 миллиардов более чем достаточно Откуда это знание свыше? >>353824 >а также посмотреть не "вымоются" ли приобретенные достоинства Орки при дальнейшем файнтюне. Надо посмотреть, есть ли эти достоинства вообще. А то как бы и изначальная ллама лучше чатжпт, потом всякие викуни были лучше чатжпт. В итоге модели улучшают и улучшают, а чатжпт на деле всё ещё недосягаем.
>>353812 >Модель ещё не опубликована. И не будет, с нынешней тенденцией на пиздабольные статьи. Альпаку тоже не публиковали если что. >>353824 >а для логики и формирования причинно следственной связи 13 миллиардов более чем достаточно Откуда это знание свыше? >>353824 >а также посмотреть не "вымоются" ли приобретенные достоинства Орки при дальнейшем файнтюне. Надо посмотреть, есть ли эти достоинства вообще. А то как бы и изначальная ллама лучше чатжпт, потом всякие викуни были лучше чатжпт. В итоге модели улучшают и улучшают, а чатжпт на деле всё ещё недосягаем.
Со скуки запустил сегодня таверну с кобольдом, до них обычно юзал чистую ламу для генерации текстов. В случае с таверной становится очевидно что детальный промт это девяносто процентов успеха. На одном и том же персонаже особой разницы между ggml-bluemoonrp-30b-4k-epoch6-q5_0 и WizardLM-13B-1.0.ggmlv3.q8_0 практически не ощущается, это при том что голубая луна работает раза в два медленнее.
>>353972 > Откуда это знание свыше? Выводы документа свыше > А то как бы и изначальная ллама лучше чатжпт С кучей звездочек и условий "а ты вот в таких вопросах потести" или в редких категориях, а здесь широкий перечень объективных тестов. Ты вообще бумагу читал или хотябы видео смотрел? >>354063 Это та самая проебанная разметка, о которой говорилось? 4к контекста луны ощущаются?
>>354206 Вот тут заявлялось >>351687>>351655 И еще, у тебя с блумун получилось добиться годных длинных реплик? Здесь >>354063 неплохо с точки зрения содержательности, но твои реплики (инперсонейт хоть?) чуть ли не длинее, и нет визуальной разметки речи/действий.
>>354541 >твои реплики (инперсонейт хоть?) чуть ли не длинее Не дашь контекст - получишь хуйню в ответе, а с заданной ситуацией сетки на удивление неплохо справляются.
>нет визуальной разметки речи/действий Тут неплохо работает стандартная книжная система диалогов, когда речь выделяется кавычками, а действия остаются за ними.
>>354672 >Тут неплохо работает стандартная книжная система диалогов, когда речь выделяется кавычками, а действия остаются за ними. Чисто визуально лучше, когда действия обозначаются курсивом, а речь идёт как обычно.
>>354764 Лучше-то конечно лучше, только книжная разметка встречается буквально везде, а то что ты предлагаешь - достаточно редко. Так что шансы получить на выходе тот вариант, который тебе нравится больше, всё ж таки ощутимо ниже.
>>354764 Двачую, и ньюлайны сильно облегчают чтение. Можно ли как-то научить таверну помнить про форматирование между сообщениями? >>354779 Книжная разметка не идет сплошным текстом внавал.
>>354973 > Note that CUDA builds will still not be generated by default, and support for them will be limited. С чего бы это, неужели хозяин репы - убежденный владелец красной карточки? Тестировал кто уже?
>>355020 Пик из шапки. >>355025 >неужели хозяин репы - убежденный Разумист, которому претят полугиговые релизы со всякой шнягой. Поэтому и ограниченая поддержка, собирает время от времени.
>>355064 Если нет ограничений со стороны гитхаба или каких-то сложностей с отладкой - глупая отговорка на фоне пропасти в производительности. Ограниченность поддержки особенно выделяется. > собирает время от времени > make_pyinstaller.bat
>>355213 Ну как (если) выложат то можно будет и проверить, суть в новом подходе обучения, который и позволяет достигнуть такой эффективности. Ты утенка покумерив словил, или чего такой ангажированный?
>>355225 > Троллинг тупостью Нет, я думаю ты реально тупишь. Ты можешь выложить свою крутую модель. Но ты этого не сделаешь, потому что нельзя будет продолжать кукарекать о том, какая она крутая и уделывает жпт.
>>355238 >Ознакомься о чем речь Я вот ознакомился и вижу очередное пиздабольство, которое слышу со времён утечки релиза лламы. >>355261 Шумом, нули сосут. У меня есть идея лучшей инициализации, чем нули, но раскрывать я её без патентования конечно же не буду.
>>355510 Еблан, я всё прочитал, просмотрел и прочее. Пока нет модели в открытом доступе, они пиздаюболы по определению, и не нужно проецировать свои влажные фантазии о топ моделки у себя на ПК на реальную ситуацию в индустрии.
>>355564 Проекции только с твоей стороны, а после тех постов твой bias очевиден. Пока не выложат - да, можно сомнению подвергать, но публикация мелкомягких, где они рассказывают об эффективности самого подхода, а не хвастаются что подебили всех и вся, вызывает куда больше доверия чем свидомый чсв двощер. > свои влажные фантазии о топ моделки у себя на ПК на реальную ситуацию в индустрии Вот здесь бы психоаналитик разыгрался, дерейлить нейтральное обсуждение сути в аутотренинг, и сочетать это с обвинениями в проекциях.
>>355693 >Пока не выложат - да, можно сомнению подвергать Не можно, а только так и нужно. Иначе останутся сплошные восторженные отклики без реального движения (а я его не наблюдаю пару месяцев уже). >Вот здесь бы психоаналитик разыгрался По мне дурка плачет, я знаю. Но только потому, что я мыслю слишком нестандартно.
Кто шарит в теме, для тренировки например 410М модели, сколько памяти может понадобится? понятное дело, фантастических результатов от такой модели ожидать не приходится, но если б она хотяб могла отвечать текстом из обучающего материала, был бы наверное топчик для легких чат-помощников....
>>355796 Мало на самом деле. Можешь взять готовый скрипт на основе GPT2 да проверить https://habr.com/ru/articles/672434/ (лол вскод в тензорбоард умеет, теперь можно дрочить на графики не выходя из IDEшки) Но это куда-нибудь в технотред, на основе лламы таких размеров готовых сеток нет, минимум 7B. >>355796 >текстом из обучающего материала, был бы наверное топчик для легких чат-помощников.... Лучше возьми 13B лламу да обмажь её langchain, как раз для этого штука.
>>355847 нету в ламме поддержки нужного языка на нормальном уровне... та и жирновато для помощника... по хорошему - задача весьма тривиальная была б - понять вопрос и послать на страницу сайта где есть ответ, или процитировать со страници... но по обучению чет материала вообще практически нет, хотя где-то 410м модели видел, (и даже меньше) что в теории дало бы возможность тренировать на видеокартах даже пользовательского уровня...
>>355863 >нету в ламме поддержки нужного языка Башкирского что ли? >>355863 >та и жирновато для помощника... Маловата как по мне. >>355863 >что в теории дало бы возможность тренировать на видеокартах даже пользовательского уровня... Скрин выше посмотри. Литерали на проце за 2 минуты (дальше перетрейн), сетка 200м, если верить статье. Конечно на длинных фразах нужно и сетку больше, и трейн сильнее, но в принципе даже видяха не нужна.
>>357601 > объём и скорость памяти А процессор? Реально ли собрать отдельный сервер под Ламу, который будет работать 24/7, что бы я мог из любого места делать запрос?
>>357610 >А процессор? Почти что пофиг. Большую часть времени проц ожидает данные из памяти. Если возьмёшь современный интол с тухлоядрами, то не забудь закрепить за процессом кобольда нормальные ядра, иначе скорость генерации просядет. Про современные амуди таких сообщений не поступало, хотя надо бы посмотреть, как сетки отреагируют на ядра с огромным кешем версий 7900X3D.
>>357573 У меня кобольд +- норм гоняет WizardLM 30B q4_0 с оффлоадом 34 слоев на 3060. Проц - рузен 5700G, память - 4200 ддр4 (63к чтение/запись в аиде)
>>357704 То что надо, я думал как лучше собрать датасет а тут уже готовый есть, тоже хочу попробовать хотя бы это дело запустить потрениться, думаешь сайга как базовая модель подойдёт? Она вроде лучше всех в русский может?
>>357809 Да я сам только вкатываюсь, можно сказать. Хотел изначально на чем-нибудь более адекватном, но не ожидал, что остальные модели прям не очень с русским языком
>>357610 Ну возьми 3600/5500 с алика за 5,5к рублей, добавь материнку ам4, память побыстрее, 32+32 в двухканале или 16+16, если тебе 30B хватит, ssd-шка, чтобы грузилась побыстрее и все. У самого стоит сервачок дома, удобная хуйня.
>>358284 Вот кстати в 5500 ты очень хорошо попал, там сдвоенный контроллер памяти, который позволяет кочегарить ддр4 чуть ли не до 5 ГГц, если повезёт. Сильно больше процессорной производительности для инференса не надо, а частота памяти может очень сильно помочь. Но и цены на такие частотные планки с таким объемом будут кусаться.
>>357616 Откуда инфа? На разных этапах загрузка и жор отличаются но то что проц совсем разгружен сказать и близко нельзя. Плюс заявлялось что avx512 бустит скорость >>357698 Какая скорость? >>358284 И у тебя сколько выдаёт?
>>358452 >Откуда инфа? От того, что на моём 5900х много потоков ставить нет смысла. >но то что проц совсем разгружен сказать и близко нельзя Ну так потоки просто крутят циклы в ожидании данных.
>>358461 > А как это лучше измерять? После генерации ответа кобольд выдает строку в консоле где показывает все с разбивкой по этапам >>358505 > От того, что на моём 5900х много потоков ставить нет смысла. Со скольки потоков начинается насыщение? И от чего ты так уверен что это не амудэ-прикол, также как и может быть ересь c e/p ядрами на интеле? > потоки просто крутят циклы в ожидании данных Ну хуй знает, такой быдлокод даже нейросети не выдадут.
Попробовал потестить - а оно параметр запуска --threads будто вообще игнорирует. Обработка промта что 32 что 1 - идентично грузит несколько ядер, генерация токенов - есть небольшая разница по загрузке и тдп но скорость почти одинакова. Похоже не в потоках дело а в том как вообще воспринимает параметры запуска. Какие скорости у тебя выдает?
>>352790 > Ты всё таки отпиши, если соберёшься такое потестить Нууу, едва ли это можно назвать успехом, но если подоткнуть вторую новидео то оно работает, второй ползунок в убабуге появляется. Модели большие загружаются, никаких ООМ, но вот скорость хуже чем на одной карте. Конфиг ассиметричный и говнорайзер сыпет ошибками шины что аж в шинду фризит, так что выводы делать рано. Если получится на днях раздобуду железок и будет 48 гигов ярости, есть там какие большие модели или просто неквантованные попробовать?
>>358961 Хм, странная тема, получается у тебя генерируется 120 токенов за 41 секунду и 162 за 55, почему при расчете скорости оно берет не фактическое значение а целевое? Ну а если считать только по конечным то это 1-3 токтена в секунду, наверно как раз для 3060 с такой большой моделью. >>359031 Обработка промта полностью не всегда происходит, наверно из-за этого.
Вроде же у Жоры была реализована очистка RAM, если модель полностью в VRAM. Как это включить, блять? Модель весит 18 гигов, но сжирает 34 гига RAM, хотя модель вся в видеопамяти. Какое-то дерьмо сделали.
>>359052 Да я именно со скорости ахуеваю, она как-то неправильно считается. > при расчете скорости оно берет не фактическое значение а целевое Вот да. Хуй знает, почему так.
Если считать ручками, то 2-3 токена выходит. Но и ГПУ полностью не загружается.
>>359071 Я думал оно получше GPTQ будет, но на деле неюзабельный кал. В первые несколько генераций 15 т/с на 30В, а потом падает до 5 и всё дико тормозит, потому что модель утекает в RAM, которая вся забита полностью. Как будто там течёт что-то.
>>358778 > но вот скорость хуже чем на одной карте А в цифрах это хуже насколько? Ну в токенах в секунду. > есть там какие большие модели или просто неквантованные попробовать? Я на такие даже не засматривался, ну наверное можно с обниморды 65б взять какую нибудь https://huggingface.co/models?search=65b На кобольде кстати тоже скорость маленькая у меня, она просто не бывает больше 10 т/с и я без понятия даже в какую сторону смотреть по этому поводу.
>>320577 (OP) Какие есть советы по улучшению результатов в RP? Кроме того что нужно соблюдать орфографию и стараться избегать повторения одного и того же слова?
>>358452 а в чем мерять? Мне качество важнее, я гоняю 65B в браузере + 30B в телеге. Память самый дешман, 20-19-19-43 (вроде) 3200 МГц 128 гигов. 30B Saiga Q5.1 --threads 6 через телегу гоняет 511ms/T для промпта и 665ms/T для генерации. Суммарно говорит 1,05 токен/сек. Если надо — потестирую в чем-то конкретном.
>>359080 >Как будто там течёт что-то. Контекст? Попробуй перезапускать одну и ту же генерацию с нулевой температурой. >>359603 На оффлоад десятка слоёв на GPU, всё остальное всё равно на проце считать.
>>359538 пик рандом С каждым ответом это слово будет все чаще и чаще появляться. Заметно только уже на поздних этапах, когда ты пытаешься повернуть разговор в другую сторону, а бот все продолжает использовать это слово. ИИ начинает залупливаться (Repetition Penalty не поможет). Так же нужно избегать многоточий.
Господа, а что оно так медленно работает? Каждый раз по минуте-полторы ждать ответа на неплохом ПК как то грустно. Да ещё и раз в 3-4 сообщения оно все токены пересчитывает по новой, а это 2к. Есть какие-нибудь советы по ускорению? Или я что-то не так накрутил?
Time Taken - Processing:368.0s (199ms/T), Generation:31.1s (346ms/T), Total:399.1s Это же не нормально, ну?
>>359881 >на неплохом ПК Насколько "неплохой"? >Да ещё и раз в 3-4 сообщения оно все токены пересчитывает по новой, а это 2к. Скажи спасибо что не каждый раз.
>>359112 В общем, работает, но специфично. По умолчанию стремится раскидать модель пополам, даже совсем мелкую. Двигая ползунки и занижая память на gpu0 (первой) можно сместить больше слоев на gpu1 (вторую), но если делать наоборот то оно всеравно загружает в первую карточку не более половины а то что не "влезло" во вторую сгружает в рам, надо разбираться что там за индусские подходы в коде. Разобранный пополам квантованный хронос33 выдает 6-9т/с вместо 10-15 на одной карточке. Причин этого может быть несколько: Несимметричность конфига аи ферма уровня /б/ со связкой ада+ампер, последний как раз примерно столько сам по себе и выдает, логично что при делении пополам производительность определяется самой слабой карточкой в пачке. Хуета с оптимизацией, версией куды и т.д., база. В начале обе печки дают короткий всплеск тдп почти до 100% (обработка промта) а потом отдыхают на сотне ватт или менее генерируя токены. Разве что 3090 иногда 200-300 держит, на разных моделях проявляется по-разному. x4 слот и райзер, который сыпет ошибками (пик3), в стабильной дифуззии (512 эйлер) это снижает производительность процентов на 5-8.
Квантованную 65б загружает, по памяти запас есть, 2-5 т/с. Можно покумерить на хроносе в 16 битах, но там часть все равно выгружается и на выходе менее 1т/с. Чтобы понять как оно на сильно несимметричных конфигах будет (уровня 3060 подоткнуть чтобы несколько лишних слоев в нее сгрузить) надо в код лезть и лечить ту ерунду, или карточки переткнуть чтобы сменился порядок. Пока есть возможность еще поиграюсь, предлагай что попробовать/проверить. >>359881 > на неплохом ПК Насколько неплохом? Кобольд с кудой скачай, вроде как даже на слабых хуангах буст знатный, 40-90 секунд ожидания ответа не так уж и ужасно будет. Ну и опиши в чем ты делаешь и с какой моделью.
Кобольд с кудой не хочет модели запускать по какой-то причине, крашится. У меня Xeon e5-1650 + 16ГБ рам + 64 подкачки с ССД + rtx3070.
Запускал самые разные модели, все крутит долго. Например три последних: airoboros-7b-gpt4-1.2.ggmlv3.q4_0 chronos-13b.ggmlv3.q5_1 Wizard-Vicuna-30B-Uncensored.ggmlv3.q4_0
>>360193 Ничесе какой раритет наступательное оружие времен первой рязанской ух По современным меркам это далеко не "неплохой пк" а весьма слабое железо, как по чистой производительности, так и по инструкциям (нет AVX2). В принципе, если на норм плате погнать рам в 4х канале - там достигается псп и тайминги современных йоба модулей ддр4 что должно забустить скорость. > 16ГБ рам + 64 подкачки с ССД С таким объемом рам не на что рассчитывать, оно банально свопается постоянно, это первое на что стоит внимание обратить чтобы не страдать. > крашится Какие ошибки выдает смотри и гугли. У тебя там случаем не семерка стоит для полного комбо?
>>360207 Раритет? Да я бы не сказал что уж слишком. Но обновить до I5 12400F + 32гб памяти в планах. До нынешнего момента проблем по производительности не замечал нигде, стоит актуальная 10 последней версии, noavx параметр прикручен. Плата нормальная, 4-х канал сейчас,- тайминги если подкинешь буду рад. Ошибки не успеть прочитать, просто закрывает командную строку.
>>360226 > не сказал что уж слишком Неплохим он считался в 2016-17 году > Плата нормальная, 4-х канал сейчас Гони до 2133-2400, там речь про латентность, тайминги ддр3 не помню, но их там буквально 5 параметров важных и все просто. > Ошибки не успеть прочитать Запусти из консоли или сделай батник где в конце пропиши паузу.
>>360226 Даже мой 5500 с ddr4 — довольно слабый для этих дел, как и твой 12400 в планах, а твой нынешний и вовсе раритет, действительно. Особенно по цене если смотреть, то там никакого выигрыша нет — вдвое слабее, вдвое дешевле. Норм под ламки собирают всяких 13700/13900 с ддр5 разогнанной. =) Хотя тоже, такое, парочка 3090 будут бодрее.
>>360266 > с ддр5 разогнанной Быстрой и объемной ддр5 нет, если действительно ламы крутить то стоит на skylake-x или трипак смотреть, можно со вторички. 4 канала быстрой ддр4 будут лучше, AVX512 должно дать буст производительности. > парочка 3090 будут бодрее Тут и одной хватит, говорят из под дяди майнера они сейчас дешевые, но рулетка покруче 97% new
>>360283 >Быстрой и объемной ддр5 нет Так любая чуть ли не стоковая выебет DDR4 по PSP, а большего и не нужно, задержки там не сильно критичны. >>360283 >говорят из под дяди майнера Нахуй-нахуй, разве что за 1000 рублей.
>>360012 Чел, когда ты раскидываешь слои по двум картам, у тебя при переключении на вторую карту должны все активации слоя копироваться на другую карту. Если брать усреднённо, то там будут потери в 30+ мс на прогонку активаций по шине. То что от 15 т/с будет оставаться чуть больше половины - это уже хорошо, на деле там наверняка нихуя не 30 мс, а сильно больше оверхеда, все 50+ наверное есть на х4. Пробуй на 16 линий псины садить, а иначе это пиздец. Гонять память по шине - это сильно медленнее записи-чтения в ОЗУ.
>>360322 А как считал? Вроде объем данных должен быть невелик и для х4 псины 4.0 сильно затягиваться не должно. И как часто гоняются эти данные? В плате банально нет второго х16 слота, это нужна другая платформа.
>>360012 > Разобранный пополам квантованный хронос33 выдает 6-9т/с вместо 10-15 на одной карточке. Ну как по мне это всё равно импрессив скорость, учитывая как это всё костыльно у тебя работает, иметь скорость младшего ампера, не на зион же наматываться в конце концов. > Квантованную 65б загружает, по памяти запас есть, 2-5 т/с. Неплохо же прямо. > Можно покумерить на хроносе в 16 битах, но там часть все равно выгружается и на выходе менее 1т/с. А разве 33б 16 битная вообще поместится в 48гб то? Поэтому наверное и получаешь рамные 1т/с на выходе. > или карточки переткнуть чтобы сменился порядок. Интересная идея, попробуешь? > Пока есть возможность еще поиграюсь, предлагай что попробовать/проверить. > x4 слот У тебя обрезанная версия материнки какая то? Жаль, так было бы интересно 8х8 узнать что там, с напрямую вставленными в мамку картами, ну или райзерами чуть покачественнее, чем х1.
>>360448 Да бля, поигрался с этим airoboros-65B, сука, это вот литерали пикрелейтед, а вместо длинных подробных ответов оно генерирует диалог с постами от твоего имени на 10 реплик вперед. Может для другого и хороша но для рп днище. > попробуешь Да > обрезанная версия материнки какая то Наоборот разумная, закладывая мысль "какой идиот будет в 2д23м году ставить две видюхи лучше сделаем удобные расположения под реальный юзкейс" они еще не знали о нейронках. х4 там, посмотрим по ситуации с х16.
>>360539 Ну как, визард/хронос даже малых размеров пишут нормальные полотна что под разные направления общения/взаимодействия, хорошо тебя понимая. А здесь на тех же промтах короткие или вообще односложные ответы. >>360541 В интерфейсе таверны ты видишь только нужный ответ, но в консоли можешь посмотреть куда по факту ушел запрошенный бюджет токенов, которые генерировались так долго.
>>360515 > Да бля, поигрался с этим airoboros-65B, сука, это вот литерали пикрелейтед Проиграл с пика. > а вместо длинных подробных ответов оно генерирует диалог с постами от твоего имени на 10 реплик вперед Визард таким не страдает кстати, он и полотна пишет и отвечает без разговора с собой, может к другим моделям надо какие то специальные параметры поставить, хз.
>>360542 >Ну и где посты, обновы? Что тебе ещё надо? Всё уже есть. >>360551 >но в консоли можешь посмотреть куда В смысле? Стоп токены как раз обрывают сетку на нужной фразе.
>>360337 > объем данных должен быть невелик и для х4 псины 4.0 сильно затягиваться не должно Там скорости очень маленькие у псины. Размер активаций бери грубо в 300-350 мб для квантованой 30В. Вот и считай какая жопа если надо каждый токен гонять по псине столько. Если брать 300 мб, то чтение через 16х и запись во вторую карту по х4 - 45 мс. Именно из-за этого с NVME столько дроча и каждые два года новая версия псины, потому что SSD уже упираются в скорость х4, у псины 4.0 предел скорости 8 гб/с с мелочью и пиздарики. Подобная конфигурация с несколькими картами жизнеспособна только при генерации батчами, когда первая карта сразу начинает генерить следующие данные не дожидаясь вторую. Т.е. кроме обучения оно и не нужно нигде.
>>360610 Кста, на А100 и других серверных картах для этой проблемы куртка придумала NVLink, там скорости под 600 гб/с, буквально в 20 раз выше чем у 16 линий псины, уже можно не волноваться за шину.
>>360610 > Именно из-за этого с NVME столько дроча и каждые два года новая версия псины Желаемое за действительное для красивого словца, 5.0 уже не нов а ссд под него почти нет, те что есть полную скорость задействовать не могут и весьма позорны. С 4.0 ситуация похожей была, разве что там действительно затянули с переходом и контроллеры-память были лучше готовы к новым скоростям. 30-50мс на токен вообще не много, если говорить про крупную модель. > Гонять память по шине - это сильно медленнее записи-чтения в ОЗУ. В таком случае обработка одной картой с выгрузкой буфера в рам была бы почти такая же, но по факту х2 Output generated in 5.74 seconds (2.09 tokens/s, 12 tokens, context 72, seed 1127174079) Output generated in 42.54 seconds (4.68 tokens/s, 199 tokens, context 93, seed 1323256690) Output generated in 39.07 seconds (3.51 tokens/s, 137 tokens, context 302, seed 625493609) х1 Output generated in 52.16 seconds (0.23 tokens/s, 12 tokens, context 72, seed 1481354181) Output generated in 801.53 seconds (0.25 tokens/s, 199 tokens, context 93, seed 1365223019) Что намекает малую значимость импакта от шины относительно ускорения. Но, офк, надо сравнивать с полноценными х16 чтобы понять влияние и потанцевал.
>>360893 > те что есть полную скорость задействовать не могут Зато 4.0 на 4 линиях уже всё, в упор. Например самсы 990 уже в шину упираются, только на 5.0 перекатываться для увеличения скорости. > 5.0 уже не нов Всего пол года как на десктопе массово выкатили, видеокарт всё ещё нет под него. > вообще не много Это время, за которое в принципе токен генерируется. Т.е. у тебя половину времени карты работают, половину стоят в ожидании передачи данных. И ты учитывай, что на 65В слои жирнее, проёб времени будет больше. > обработка одной картой с выгрузкой буфера в рам была бы почти такая же С чего бы вдруг? Шина х4 раз 10 медленнее чтения из RAM, от того что ты оставил только карту на х16 и в RAM слои затолкал оно не перестало в шину долбиться. Естественно оно медленно, у тебя теперь вместо одного слоя 30 по шине идёт и скорость падает почти во столько же раз. > ускорения Если цель просто запустить 65В, то ты добился её. Но речь про то что эффективность этого мероприятия сомнительна. На ЦП с DDR5 ты тоже можешь 2-3 токена в секунду вытянуть, это будет даже дешевле двух 3090. И по факту что первое, что второе - слабо юзабельно с генерациями по 30+ секунд.
>>360933 > Зато 4.0 на 4 линиях уже всё, в упор Топовый сегмент смог достигнуть скоростей под закат стандарта, и то только в определенных сценариях, тогда как массовый продукт еще из 3.0 или вовсе с qlc ячейками, и даже для коммерции редки юзкейсы где скорость единичного накопителя выступала бы узким местом. Это вовсе не "требование нового стандарта потому что старый не вывозит ссд", речь об этом. > Это время, за которое в принципе токен генерируется. Овер 30 токенов в секунду будет, на 7б моделях разве что. > а 65В слои жирнее, проёб времени будет больше Как раз если они жирнее то время их обработки будет выше а доля времени обмена данных по шине ниже. > Шина х4 раз 10 медленнее чтения из RAM А порше в 5 раз быстрее классики, но в пробке стоят одинаково, смекаешь? > от того что ты оставил только карту на х16 и в RAM слои затолкал оно не перестало в шину долбиться > у тебя теперь вместо одного слоя 30 по шине идёт и скорость падает почти во столько же раз С чего вдруг? Распиши подробно как и что оно "гоняет по шине". Не могу понять, ты знаешь что-то важное но не можешь объяснить, или вообще не догоняешь тему, бросаясь поверхностными знаниями. > На ЦП с DDR5 ты тоже можешь 2-3 токена в секунду вытянуть Уточняй на каких моделях и в каких условиях, выше в треде скорости приводились. > слабо юзабельно с генерациями по 30+ секунд Толстишь чето
>>360994 > Овер 30 токенов в секунду будет, на 7б моделях разве что. Чел, ты сам показывал что у тебя с 30В 60 мс на токен на одной карте и больше сотни на двух. Ты с чем споришь вообще? С реальностью? > доля времени обмена данных по шине ниже У тебя от жирного слоя дольше будет передача активаций идти. Я вижу у тебя на 30В 60+50, а на 65В уже 250, из которых максимум 150 мс - работа карты, потому что работа карты скейлится линейно от увеличения модели. > С чего вдруг? Ты траллишь тупостью или реально не можешь посчитать сколько весит каждый слой и сколько нужно времени чтоб им протиснуться через шину?
>>361019 > ты сам показывал что у тебя с 30В 60 мс Ага, а тут ты заявляешь что достижимы скорости в 1.5-2 раза выше. > Ты с чем споришь вообще? С реальностью? Пока пытаюсь разобраться что ты втираешь, мешая в кучу активации, слои, шины и прочее. > У тебя от жирного слоя дольше будет передача активаций идти А то что сам по себе жирный слой будет дольше обрабатываться и число этих слоев выше тебя не смущает? Сам пишешь 60 работы 50 прогонка данных в одном случае и 150 работа - 100 (на самом деле меньше) прогонка и тут же с этим споришь. > Ты траллишь тупостью Пчел, это ты траллишь, скатываясь на хейт, а ведь еще не предъявил тебе за запредельную предубежденность, что в каждом посту читается.
>>361134 > заявляешь Я тебе ничего не заявляю, лишь говорю где твой подход говно, тыкая в цифры. Как с этим бороться и так очевидно. > запредельную предубежденность Это не я спорю с цифрами. Сам показал их, сам бахаешь теперь, включая врёти. Нахуй тогда высераешься в тред, если неспособен в нормальный диалог.
>>361253 Ты с собакашизом разговариваешь, он всегда переходит на лай когда понимает что обосрался. В этот раз наверное у него боль от того что вторую карту купил, а остальное нет и пристроить к модели не может.
>>361253 > Я тебе ничего не заявляю > Это время, за которое в принципе токен генерируется > 30мс Из контекста как раз 30мс на токен что для больших моделей слишком круто. Если имел ввиду что сравнимо - ок, так и написал бы. > лишь говорю где твой подход говно, тыкая в цифры В чем он говно? Как минимум позволяет на консумерском железе запускать модели огромных размеров что влезут только в ускорители за сотни денег ценой незначительного увеличения времени на токен. Потанцевал сложения мощностей туманен, на реддите из-за бунта все тематипа закрыта и гите заявлилось о хороших результатах, тут не подтверждается. Осталось дождаться хороших 65б моделей. > Это не я спорю с цифрами. Уперся рогом и свои же цифры опровергаешь. А на другие так и не ответил, ага. > сам бахаешь теперь, включая врёти Ай лолд, это ты так на слив уводишь чтобы не обсираться или что? Вот литерали нормально тебе писал, попросил уточнить и подробностей а ты агришься. О каком нормальном диалоге заявляешь если сам подобное выдаешь? >>361262 Кто шиз, ты шиз. Нищукский пожар, начинающийся с обвинений "ты сгорел" это лучшее бинго. > купил лол
В общем, прогнал на х16 процессорных линий на каждую карточку (правда 3.0 версии). Объективных тестов также не получается потому что здесь взрованная шинда, в SD 512 эйлер выдает ~11-12 итераций вместо 30+. Выпилив Hyper-V, целостность памяти, виртуалки и прочее удалось поднять до 18-20, при батче в 4 11-13 ит/с (положенные 45-50 эффективных). Возможно дело в самой платформе со странным L3 и однопотоком, это к вопросу о производительности >>360448 только что в псп рам упора нет. Скорость на одной карточке на этой платформе (до ООМА) 7-10 т/с, на двух пополам 5-8. Выставить порядок работы можно через CUDA_VISIBLE_DEVICES ничего не перетыкая. Если сгружать во вторую карточку малое число слоев (4 гб врам) то выдает порядка 7т/с, буквально немного больше чем если пополам. В общем, целесообразность второй мелкой гпу будет зависеть от того сколько выгружается, на малом количестве оно и в рам хорошо поживает, далее преимущество значительное. Тут больше может дать отсутствие невыгружаемого фреймбуфера и обработки графики, но это и встройкой можно сделать.
>>361397 > целостность памяти Вут? > В общем, целесообразность второй мелкой гпу будет зависеть от того сколько выгружается, на малом количестве оно и в рам хорошо поживает, далее преимущество значительное. Неплохо, спасибо что потестил. Практическое применение будет лучше же явно, если подпихивать более слабую карту, чтобы не вылететь в оом, скорость не так сильно падает судя по твоим тестам, псие 4 8х8 ведь будет эквивалентна 3 версии по идее. Физически бы ещё как нибудь эти громадины расположить. У тебя случаем что нибудь более "затычкового" нету гигов на 6-10? Если её подоткнуть к любой из 24гиговой чтобы 4к контекст 33б умещать, перформанс будет так же проседать или сильнее, интересно. > невыгружаемого фреймбуфера и обработки графики, но это и встройкой можно сделать Привелегия для тех у кого есть встройка, ну или гпу стоит в отдельном компе без гуёв, ну или просто без гуёв. Алсо хз о чем вы тут спорите, но какой вообще юзкейс у псие диска выше 3 версии для обычносыча, ну кроме ещё одного кипятильника на материнке? Да даже хорошей саты для всего с головой до сих пор хватает же. Ты походу нормальный чумба оказывается, я думал тебя не просто так шиз называет в наитреде, ну ты знаешь как
>>361397 > нормально тебе писал > первый же ответ начался с врёти и обвинений Вот о чём и речь, ты даже не замечаешь как начинаешь хлопать порванным очком. Не вижу смысла продолжать с тобой диалог.
>>361464 > Вут? Сходу захотел потестить аидой память, оно выдало в районе 60гб/с вместо ~90 и сообщение о том что гадит гипервизор и целостность рам. Гуглани > hypervisor is present forcing... там пояснения есть. > скорость не так сильно падает судя по твоим тестам Ну как, относительно 12-20 т/с сильно, относительно 7-10 на странном софте/железе слабо. 65б модель кстати там примерно также крутится, разве что просадки до 2 токенов почти не случаются. > Физически бы ещё как нибудь эти громадины расположить 2 печки в корпус не влезают, потому и с райзером подключал, а там вообще на столе собрали. Если будет мелочь двуслотовая то все проще, но действительно вопрос эффекта. > что нибудь более "затычкового" нету гигов на 6-10 Не, из того что можно одолжить подобного или на воде или вообще амудэ, больные ублюдки. > 4к контекст 33б умещать Это что за модель где такое можно? Кроме блумун про норм поддержку 4к не слышал, и то она специфична что так и не удалось проверить. > не просто так Залупнулся, не вывез став едой, в итоге тихо сидит зубоскалит >>361479 Чел, чсв посбавь, то что тебя поправили или переспросили это не > врёти и обвинений
>>361523 > Сходу захотел потестить аидой память, оно выдало в районе 60гб/с вместо ~90 и сообщение о том что гадит гипервизор и целостность рам. Гуглани > AMD processors do not suffer such limitations under Windows 11, but there used to be other problems about them under Windows 11 that Microsoft resolved by now Эх, какая же лёгкость бытия быть амудешником нет > Не, из того что можно одолжить подобного или на воде или вообще амудэ, больные ублюдки. Я тоже с их палаты, у меня нави21 есть. > Это что за модель где такое можно? Ну я про блумун и говорю. > Залупнулся, не вывез став едой, в итоге тихо сидит зубоскалит Безусловно, ваши срачи было забавно почитать, но бессознательно я начал твои сообщения тоже читать наполовину игнорируя.
>>361546 С какими параметрами ты ее запускаешь и какая версия лламы-питон? Не хочет такую скорость выдавать, один раз звезды сошлись и было 2 т/с. Алсо сильно деградирует с повышением контекста?
>>361712 > С какими параметрами ты ее запускаешь Просто 42 слоя на GPU, остальное на ЦП. Ничего больше не крутил. > Не хочет такую скорость выдавать Это ещё у меня Q4, на Q3_K_M с новым квантованием ещё можно токен в секунду выжать, она на 4 гига поменьше и больше слоёв на GPU влезет. > сильно деградирует с повышением контекста? До 2.5-2.6 опускается с полным контекстом, скорость стабильная в пределах одной десятой.
>>361721 Хм, забавный там код, ставишь максимальное число потоков - ниже 1 т/с, снижаешь - растет, галочки тоже влияют. Так какая версия? Последняя (коммит несколько часов назад) не собирается, 0.1.63 встает нормально но по производительности явно не дотягивает, версию бы сразу откинуть чтобы понять в чем дело.
>>361523 >>360610 Так, профи, поясните, а если воткнуть, например, две 3060 12 гиговые в 8x8 pci-e4 , это будет ли быстрее, чем одна? Предполагаем, что модель в 24 гига влазит. Что полезнее по итогу — частичная выгрузка в одну карту, или полная в две, если обе — затычки?
>>361930 Ну йобана, пердолиться искать что ей не нравится. >>361977 В кейзе где почти полностью используется врам две точно будут быстрее одной. Там где модель помещается в одну карточку пока только проигрыш. >>362009 А то
Есть какие-то подвижки по моделям с контекстом выше 4000? Мне уже даже на скорость насрать по большому счёту, готов сократить длину ответов и ждать по 3 минуты, лишь бы реплаи были вменяемого качества и память хотя бы в тысяч 8.
>>362351 Да, там и 4к один отщепенец сделал, его даже никто не заметил за пределами этого треда, все остальные дрыщут файнтюнами, которые друг от друга ничем не отличаются. Если хочешь подвижек, это надо на форче срать.