Локальные языковые модели (LLM): LLaMA, MPT, Falcon и прочие №38 /llama/
Аноним
19/01/24 Птн 01:13:46
№
616097
1
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2-х бит, на кофеварке с подкачкой на микроволновку.
Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.
Текущим трендом на данный момент являются мультимодальные модели, это когда к основной LLM сбоку приделывают модуль распознавания изображений, что в теории должно позволять LLM понимать изображение, отвечать на вопросы по нему, а в будущем и манипулировать им.
Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.
Кроме LLaMA для анона доступны множество других семейств моделей:
Pygmalion- заслуженный ветеран локального кума. Старые версии были основаны на древнейшем GPT-J, новые переехали со своим датасетом на LLaMA, но, по мнению некоторых анонов, в процессе потерялась Душа ©
MPT- попытка повторить успех первой лламы от MosaicML, с более свободной лицензией. Может похвастаться нативным контекстом в 65к токенов в версии storywriter, но уступает по качеству. С выходом LLaMA 2 с более свободной лицензией стала не нужна.
Falcon- семейство моделей размером в 40B и 180B от какого-то там института из арабских эмиратов. Примечательна версией на 180B, что является крупнейшей открытой моделью. По качеству несколько выше LLaMA 2 на 70B, но сложности с запуском и малый прирост делаю её не самой интересной.
Mistral- модель от Mistral AI размером в 7B, с полным повторением архитектуры LLaMA. Интересна тем, что для своего небольшого размера она не уступает более крупным моделям, соперничая с 13B (а иногда и с 70B), и является топом по соотношению размер/качество.
Qwen - семейство моделей размером в 7B и 14B от наших китайских братьев. Отличается тем, что имеет мультимодальную версию с обработкой на входе не только текста, но и картинок. В принципе хорошо умеет в английский, но китайские корни всё же проявляется в чате в виде периодически высираемых иероглифов.
Yi - Неплохая китайская модель на 34B, способная занять разрыв после невыхода LLaMA соответствующего размера
Сейчас существует несколько версий весов, не совместимых между собой, смотри не перепутай!
0) Оригинальные .pth файлы, работают только с оригинальным репозиторием. Формат имени consolidated.00.pth
1) Веса, сконвертированные в формат Hugging Face. Формат имени pytorch_model-00001-of-00033.bin
2) Веса, квантизированные в GGML/GGUF. Работают со сборками на процессорах. Имеют несколько подформатов, совместимость поддерживает только koboldcpp, Герганов меняет форматы каждый месяц и дропает поддержку предыдущих, так что лучше качать последние. Формат имени ggml-model-q4_0, расширение файла bin для GGML и gguf для GGUF. Суффикс q4_0 означает квантование, в данном случае в 4 бита, версия 0. Чем больше число бит, тем выше точность и расход памяти. Чем новее версия, тем лучше (не всегда). Рекомендуется скачивать версии K (K_S или K_M) на конце.
3) Веса, квантизированные в GPTQ. Работают на видеокарте, наивысшая производительность (особенно в Exllama) но сложности с оффлоадом, возможность распределить по нескольким видеокартам суммируя их память. Имеют имя типа llama-7b-4bit.safetensors (формат .pt скачивать не стоит), при себе содержат конфиги, которые нужны для запуска, их тоже качаем. Могут быть квантованы в 3-4-8 бит (Exllama 2 поддерживает адаптивное квантование, тогда среднее число бит может быть дробным), квантование отличается по числу групп (1-128-64-32 в порядке возрастания качества и расхода ресурсов).
Основные форматы это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это серьёзно замедлит работу. Лучше оставить запас.
Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/TheBloke/Frostwind-10.7B-v1-GGUF/blob/main/frostwind-10.7b-v1.Q5_K_M.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.
Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!
Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся
Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ
Ссылки на модели и гайды:
https://huggingface.co/TheBloke Основной поставщик квантованных моделей под любой вкус.
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://rentry.co/lmg_models Самый полный список годных моделей
http://ayumi.m8geil.de/ayumi_bench_v3_results.html Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально
Шапка треда находится в https://rentry.co/llama-2ch (переезжаем на https://2ch-ai.gitgud.site/wiki/llama/ ), предложения принимаются в треде
Предыдущие треды тонут здесь:
Суть проблемы заключается в том, что код llama.cpp, на основе которого построен Koboldcpp, использует функцию PrefetchVirtualMemory из ядра Windows, которая появилась только начиная с Windows 8. Из-за этого попытки использовать Koboldcpp под Windows 7 в любых режимах, отличных от "NoAVX2 Mode" и "Failsafe Mode", приводят к падению на этапе загрузки модели. Соответствующие правки ещё давно были внесены в код llama.cpp и Koboldcpp, но сделаны они таким образом, что вызов PrefetchVirtualMemory не используется только в режимах "NoAVX2 Mode" и "Failsafe Mode", что лишает возможности задействовать AVX2 инструкции и/или GPU для ускорения работы, в самом лучше случае (при выборе "NoAVX2 Mode") у вас будут задействоваться только AVX1 инструкции. Разработчики Koboldcpp несколько раз делали специальные билды, совместимые с Windows 7, но это не приняло системного характера, поэтому чтобы иметь свежую полноценную версию Koboldcpp под Windows 7 вам потребуется собрать её самостоятельно.
(дальнейшие действия по мотивам https://github.com/LostRuins/koboldcpp?tab=readme-ov-file#compiling-on-windows)
1. Скачайте архив со сборочными инструментами: https://github.com/skeeto/w64devkit/releases, под 64-битную систему вам нужен архив w64devkit-1.21.0.zip, под 32-битную w64devkit-i686-1.21.0.zip.
Распаковываете его в отдельную папку.
2. Скачайте архив с исходным кодом Koboldcpp: https://github.com/LostRuins/koboldcpp/releases, выбираете "Source code (zip)".
Распаковываете его в отдельную папку.
Чтобы получить совместимые с Windows 7 библиотеки, задействующие AVX2, потребуется внести незначительные правки в процесс сборки. Найдите в исходном коде файл Makefile, откройте его в текстовом редакторе. Выполните поиск строки "gpttype_adapter.o: $(GPTTYPE_ADAPTER)" (без кавычек), после ней идёт строка "$(CXX) $(CXXFLAGS) -c $< -o $@", замените её на "$(CXX) $(CXXFLAGS) $(FAILSAFE_FLAGS) -c $< -o $@" (т.е. просто добавьте $(FAILSAFE_FLAGS) посередине, аналогично как в соседних). Это исключит вызовы PrefetchVirtualMemory при сборке библиотек koboldcpp_default.dll (загружается при выборе "Use No BLAS") и koboldcpp_openblas.dll (загружается при выборе "Use OpenBLAS").
3. Процесс сборки.
Откройте командную строку (запустите cmd.exe).
Перейдите в папку, где у вас лежит исходный код Koboldcpp:
> cd "c:\users\anon\downloads\koboldcpp"
Добавьте путь к сборочным инструментам (конкретно - подпапке "bin") в переменную окружения PATH:
> set PATH=c:\users\anon\downloads\w64devkit\bin;%PATH%
Если в пути встречаются пробелы, то заключите его в кавычки.
Запустите процесс сборки:
> make
В результате вы получите все необходимые компоненты, собранные из исходного кода.
4. Для непосредственного запуска модифицированного Koboldcpp или сборки однофайлового исполняемого файла (аналогично официальным сборкам) вам потребуется Python интерпретатор. Совместимые с Windows 7 сборки Python можно взять отсюда https://github.com/adang1345/PythonWin7/tree/master/3.12.1. Убедитесь, что при установке Python в режиме custom installation (если вы его выбрали) у вас включён Tcl/Tk.
Для непосредственного запуска просто установите Python интерпретатор, убедитесь, что .py файлы с ним ассоциировались, и кликайте по koboldcpp.py для запуска.
Для сборки однофайлового исполняемого файла вам потребуется также установить PyInstaller (https://www.pyinstaller.org/en/stable/installation.html) и запустить скрипт make_pyinstaller.bat.
>Ну, в среднем для 70б - это 2 токена/с, для 34б - 7т/c, для 20б и меньше - 15+т/c. Если мне память не изменяет.
Вопрос по 70B - это результат для двух карт, при полностью загруженной в видеопамять модели? А какой квант?
> Windows 7
> 2024
Нахуй так жить? Если такой конкомформист - есть линукс, который отлично работает как на старом, так и на новом железе.
Сап, аноны.
Надоела бездушность и соевость хыпыты, так что решил потестить локалочки.
Заспунфидьте дебилу пожалуйста. Скачал noromaid + mixtral instruct 0.4, просто mixtral instruct новый, с матрицей этой.
Пошел запускать и тестировать, но прям тяжко идёт. Постоянно тупит и повторы как на пик3, иногда не такие резкие, но все ещё повторы.
Есть вариант пофиксить, я же по любому обосрался где-то. Вот настройки на пик1, пик2. В обоих моделях ChatML формат вроде.
У меня вопрос - почему у меня чем дальше ты генеришь тем все меньше текста на выходе дает нейросеть вплоть до самых простых фраз? После 15к токенов уже совсем генерит примитивное yes/no, bye.
И может здесь есть macos-бояре? Как правильно скомпилить kobold? У меня он совсем не юзает gpu. Ответа не нашел, тот же sd нормально работает.
>У меня вопрос - почему у меня чем дальше ты генеришь тем все меньше текста на выходе дает нейросеть вплоть до самых простых фраз? После 15к токенов уже совсем генерит примитивное yes/no, bye.
смотри, сетка когда берёт нить повествования в каком-то стиле, потом её хуй отвадишь от такого. возможно, тебе стоит поредачить её вывод чтобы она немного "взбодрилась".
>И может здесь есть macos-бояре? Как правильно скомпилить kobold? У меня он совсем не юзает gpu. Ответа не нашел, тот же sd нормально работает.
пердолься
А у тебя не контекст закончился?
Вангую, что сейчас расскажут, насколько я неправ и хуйню пишу, однако. При ёбке ллм всё упирается в контекст. Грубо говоря, сколько текста она можешь прохавать за один раз. В этот же контекст должен влезать твой промпт плюс ответ. В угабуге можно зайти в настройки и выставить Truncate the prompt, чтобы промпт обрезался, начиная с более старой хуйни. То есть у тебя остаётся больше пространства для новой хуйни, в которую, очевидно, входит и ответ модели. Если ты упираешься в 15к, обрезай пораньше. Можно ещё разрешить растягивать max new tokens, но у меня с этим тормоза начались.
Ставь просто noromaid 20b кванта, который влезает. Даже Q3K_M подойдет, на 20б оно не сильно лоботомирует, в идеале exl2 6 бит.
Пресет инстракт режима - дефолтный roleplay в обоих пунктах вместо chatml, можешь подредактировать или вообще удалить часть про 2 paragraphs.
Пресет семплеров - Simple-1, а не та дичь что выставлена. Будет следовать промту, держать разметку, выдавать интересный текст без лупов.
>>616274
> После 15к токенов уже совсем генерит примитивное yes/no, bye
Что за модель? Если повелся на 32к копиума мистралей - оно чисто номинальное, и нужны настройки rope.
> Как правильно скомпилить kobold?
Так ух выходит что макось-господа должны страдать. Тут или полноценный убабуга, что легко ставится в один клик и на макось, но занимает много места и без того мелкого диска, или пердолинг с кобольдом, в котором на маки кладут.
Удивил меньший расход видеопамяти, нужно выяснить это флеш-атэншн и прочее там эффективнее работает чем на шинде, или при шаринге расход немного повышается.
> нужно выяснить это флеш-атэншн и прочее там эффективнее работает чем на шинде
Нет, конечно. Там одинаковый CUDA-код, лол. В том числе nvcc там одинаковый, т.е. даже оптимизации при компиляции идентичные. На линуксе разве что получишь сырее драйвера под новые карты.
llama-2-70b.Q4_K_M.gguf - весит 39G
с контекстом как раз память выедает всю
Можно конечно и без контекста загрузить менее квантованную модель, но какой в этом смысл
Ну, сами картинки распознаются моделью CLIP, а чат от LLaMa.
Как альтернатива — BaKLLaVa имеет ту же модель, но болтает Mistral'ю.
>>615597 →
Да, в теории — можно.
>>615607 →
>>615591 →
Ребят, скажите, на русском какая-нибудь из моделей норм говорит?
А то на мою Нейрославу жалуются, что она тупая. Пока перевод пробрасывать в гугл я не готов, хочу модельку поменять. Как придет P40, может 20b или 34b какую взять.
Yi сколько влазит, в каком кванте?
>>615701 →
Но у меня нет!.. =с
>>615725 →
Интересно в стабле, может xttsv2 запустишь.
Всякие RCV мне лично не так интересны.
>>615750 →
> whisper на модели large распознает голос в текст почти в реалтайме.
> text to speech и замена голоса работают так же в реалтайме, у них только ощущаются задержки на буферизацию.
Оп-оп, спасибо, кажется надо было сразу 2 карты брать… =D Под llm и под обвес.
>>615770 →
>>615767 →
2 итерации в секунду — это как P104-100. У меня так же генерит (ну я занизил частоту с потреблением — 1.8 ит/с).
Вроде не закончился поставил в настройках кобольда и таверны 16к, оно не сразу генерит короткие фразы, а постепенно. Пропадают эпитеты, описание мира, потом мысли, остаются только фразы и становятся все примитивнее.
>>616321
Короче я так понял если несколько раз сетка сгенерит что-то короткое оно и дальше начнет обрезать?
>>616364
Да я фроствинд заюзал из шапки, это говномодель? Пробовал mlewd он лагает о я ебал (генерит две минуты) и 30гб памяти сожрал.
Что за убабуга?
я бы хотел погонять Adventure Mode из кобольда в силлитаверне, но не могу объяснить ей что она рассказчик и должна генерировать мне историю и вводить персонажей, а не общаться со мной. в идеале вообще чтобы я мог прописать условия мира и всякую предысторию, а игра мне выдавала порции текста в ответ на мои действия, описанные уровня
> try to sneak behind and pickpocket a guard
>Короче я так понял если несколько раз сетка сгенерит что-то короткое оно и дальше начнет обрезать?
буквально да.
> смотри, сетка когда берёт нить повествования в каком-то стиле, потом её хуй отвадишь от такого
Это уже такие лупы, но действительно бывает. В старых сетках такое случалось из-за долгого стояния на месте, но лупы были более классические а не отупение. Здесь скорее из-за контекста беда.
>>616396
> Да я фроствинд заюзал из шапки, это говномодель?
Для своего размера - более чем, она старается, пусть и не идеальна. Вполне пригодна для рп и с ней можно довольно purrs.
>>616396
> Что за убабуга?
Text generation webui. Шапку прочти и в ней ссылка на вики.
>>616399
Нужно прописать промт, что передается в этом эдвенчур моде?
>Что за убабуга?
добро пожаловать в тред
владелец двух p40
>>616399
вот это поле в хубабубе говорит инструкции для нейросети. У тебя в кобольде есть что-то похожее? Вот тебе это надо править.
>Нужно прописать промт, что передается в этом эдвенчур моде?
>>616412
>вот это поле в хубабубе говорит инструкции для нейросети. У тебя в кобольде есть что-то похожее? Вот тебе это надо править.
вот в том и дело что в кобольде этот промпт скрыт. скорее всего, там абзац текста потипу как вот на скрине >>616412, но мне не удаётся нормально его оформить под адвенчурку.
>Ребят, скажите, на русском какая-нибудь из моделей норм говорит?
я ещё не встречал.
Все говорят "ебал её рука", если пытаешсья на русском с ними.
Я правда не искал специально русскоязычные.
Есть xttsv2, занимает 4,5 гига.
Есть Animaze, занимает 1 гиг.
В перспектике будет Whisper и какой-нибудь PyTorch, OpenCV и всякое.
И нужна модель, которая бы отвечала за вменяемое время.
Варианта вижу три:
1. Переводить гуглом, генерить моделькой на инглише, переводить гуглом обратно.
Минус — на стриме любят задавать каверзные вопросы.
2. Переводить локальной моделью (ALMA?), генерить другой моделькой на инглише, переводить обратно.
Минус — дольше за счет двух переводов, хз где и на чем гонять вторую модель.
3. Генерить сразу на русском. Получается криво, зато скорость не страдает, все локально, прямо, туды-сюды, контекст не ломается при переводах.
Из железа:
4070ti 12G
1630 4G =)
P104-100 8G
И идет P40 24G (одна штука).
Сейчас я на P104-100 держу Mistral Q8, которая кое-как умеет в русских, а иногда прям хорошо.
А на 4070ti держу xttsv2 и Animaze.
Проблема в скорости. xttsv2 генерит в среднем 2-3 секунды. Плюс Mistral отвечает 2 секунды (20 токенов/сек, контекст — одно сообщение).
Итого 5 секунд тратится только на генерацию. А еще передачи запросов, и вот 7-8 секунд мы получаем.
Долговатая реакция. Учитывая задержку стримов, выходит и вовсе 10-15.
В перспективе бы увеличить контекст, чтобы моделька помнила последние 10 сообщений + последние 10-20 сообщений автора (но без ответов от нее тоже такое себе, да и с промптом придется поебаться). Проблема в том, что P40 умеет только в выгрузку GGUF, а значит скорости в 40 токенов нам недоступны. С контекстом на 34b вроде выходит 6-8 токенов. Что увеличит время ответа втрое? Будет 6 секунд.
С другой стороны, +4 сек — это суммарно 25%-50%, не сильно критично, но уже неприятно.
С другой стороны, можно выгрузить сразу две модели (можно же?), Mistral и ALMA в три захода будут где-то по 3-4 + 3-4 + 2 секунды писать, то есть те же 4 сек получу. Но, возможно, качество русского будет лучше.
Хотелось бы иметь Tesla A80 для запуска квантованной Микстрали или 70b, ну или хотя бы парочку RTX 4090, но чего нет — того нет. =(
Даст ли 3090 бушная буст относительно P40 на 34b сетке? Будет ли там 12 токенов с контекстом? Будет ли там 20 токенов без контекста?
Эх, шо поробышь, шо поробышь…
>Yi сколько влазит, в каком кванте?
Я это юзал. Каждая карта 24 гб.
https://huggingface.co/TheBloke/yi-34B-v3-GGUF/tree/main
> вот в том и дело что в кобольде этот промпт скрыт
Он опенсорс, все можно найти, но скорее всего отдельно описан. Если сам не сможешь - тогда подожди пока кто-нибудь раскурит и надейся что не забудется
>>616418
> Даст ли 3090 бушная буст относительно P40 на 34b сетке?
Даст офк, раза в 3 примерно. Ты скажи какой квант потестить, на обрезанном по тдп ампере потом могу прогнать.
Максимальный q4_K_M, если я не ошибаюсь.
Любую, какая есть, буду рад. =)
Без контекста и с контекстом на 2000-3000 токенов (если там влезет, вроде должно).
>>616420
Пасиб!
> Максимальный q4_K_M, если я не ошибаюсь.
Вообще там самый жирный gptq вмещается с [x]k контекста, кощунство использовать жору когда есть бывшая. Ну вечером уже или завтра, заодно можно попробовать сравнить потребление врам.
>Можно конечно и без контекста загрузить менее квантованную модель, но какой в этом смысл
Смысл в том, что если видеопамяти хотя бы немного не хватает, то тест уже никуда не годится. Нужно, чтобы модель и контекст влазили полностью. Чувак с Реддита писал про 9 с лишним токенов в секунду на 5K_M - у него правда 4 P40 было. Попробуй.
Ещё здесь говорили, что под Линуксом с работой на нескольких ГПУ похуже, чем под Виндой.
Блин, точно, на ней же экса заведется! Я дурак, каюсь, тыкай ее. =)
Можно еще ее https://huggingface.co/LoneStriker/Yi-34B-200K-DARE-megamerge-v8-5.0bpw-h6-exl2 попробовать, должна влезть с небольшим контекстом.
>https://huggingface.co/LoneStriker/Yi-34B-200K-DARE-megamerge-v8-5.0bpw-h6-exl2
Ебать мерж, буквально из всего. И как, норм?
Пока качаю, но мне важна в данном случае битность и скорость.
А там уж выберу подходящий мердж и попробую сам квантануть.
———
Кстати, кто подскажет, как там легко квантовать Exl2 модели? Помню, писали, но потерял.
>под Линуксом с работой на нескольких ГПУ похуже, чем под Виндой.
пиздёж. Виндобляди не знают даже как посмотреть у себя в системе открытые порты, глупо было бы рассчитывать что они что-то компетентно могут сказать про скорость работы нейросети.
>3. Генерить сразу на русском.
>Получается криво, зато скорость не страдает
Скорость страдает, токенов\с столько же, но сами токены это слоги, а не слова, как на английском. Потенциально меньше текста и, очевидно, сама скорость на слово ниже. Вот у меня на пике текст\перевод, на русском 34 токена, на английском 26. И, т.к больше токенов - это больше жрёт контекст. Лично у меня с ростом контекста скорость генерации падает в пизду, даже при учёте того, что это всё ещё помещается в память.
>Учитывая задержку стримов, выходит и вовсе 10-15
Ты, чтоли, вчера стрим скидывал? У тебя что-то сильно неправильно работает. Прям охуеть, как сильно.
Гугол транслейт. Потому и не хочу гонять переводы, лучше буду заталкивать модели в анус шизу сразу на русском. Ещё бы лоры быстрее тренировались.
Прости, кожаный, у меня нет денег на шкаф видимокарт.
В консоли посмотри, весь промпт пишется в параметре "prompt". Я запустил на каком-то пресете с галочкой эдвенче мод - там совсем простецкая инструкция, и нет никакого форматирования толком. Вот она со скриншота: [Interactive Fiction: Game Mode Enabled]\n[You are playing a choose-your-own-adventure game. Please input action.]\n\n\n> Look\n\nYou look around, observing yourself and your surroundings. Всё, что ниже, это я пытался пару обычных реплик написать в story режиме и пару действий в action режиме. Все реплики и действия чередуются через две пустые строки, перед действиями автоматом пишется префил в виде >. Думаю, что в таверне это можно даже более адекватно сделать, дав больше примеров действий и ответов на них и расширив систем промпт. Единственное, что нельзя будет выбирать между story/action, но уж значок > можешь и сам писать.
Чел, не гори. В обоих ОС юзери тупо гуглят, как что делать, и то, что ты заучил ss -tupl не делает тебя лучше.
>>616515
>Потому и не хочу гонять переводы
Гоняй на инглише сразу.
>>616414
Алсо добавлю, что на чабе полно рпг/сторителлинг карточек, вроде вот такой https://chub.ai/characters/SpringyTwist/text-adventure. Полноценно с соблюдением всех инструкций, может, и не будет работать, но на каком-то уровне вести игру-приключение должно. Систем промпт в данном случае мб даже пустой лучше оставить, потому что инструкция в карточке написана.
я просто отметил, что виндобляди не считаются компетентными хоть в чем-нибудь.
Блин, точка к ссылке приклеилась. Продублирую для удобства. https://chub.ai/characters/SpringyTwist/text-adventure
>Гоняй на инглише сразу.
Не хотет. Прикручиваю спич ту текст, на английском пиздеть вообще не варик. Походу, на каких-то стримерах обучалось, просит подписаться, хотя я тупо нос почесал. Ещё и цензурит местами, но очень выборочно.
Ты точно не настраивал rope, а просто увеличил контекст. Поэтому когда модель выходит за свой размер контекста или даже приближается к нему, у нее падает качество ответов и они становятся все короче.
Настраивай параметр rope вместо 10000 ставь либо рекомендованное значение для сетки которую ты скачал, либо наугад ставь хотя бы 20к-30к при удвоении контекста, 40к-50к при 4х.
Потому что это не правда, илитарий мамкин.
>>616679
>Не хотет.
А придётся. Все другие варианты это просадка в качестве ответов.
>А придётся. Все другие варианты это просадка в качестве ответов.
Я больше скажу - Гугл-перевод вообще лучший вариант. Язык моделей довольно суконный, и они ждут от пользователя примерно того же. Перевод от Гугла идеально подходит - просто нужно понимать его особенности. Я пробовал прикрутить перевод от Дипла в обе стороны, так результат был хуже.
> Есть xttsv2, занимает 4,5 гига.
> Есть Animaze, занимает 1 гиг.
> В перспектике будет Whisper и какой-нибудь PyTorch, OpenCV и всякое.
Это все на другую видюху или вообще на отдельную пекарню раз некрожелеза хватает.
> Проблема в скорости
Лучше адеквантный и хороший ответ через 20-30 секунд чем вываливающиеся потроха кривого промта и шиза за 7.
> В перспективе бы увеличить контекст, чтобы моделька помнила последние 10 сообщений + последние 10-20 сообщений автора
Обязательно, но так чтобы это не сильно внимание смещало и она больше понимала общую атмосферу разговора, а не упарывалась в детали. Можно оборачивая правильно в промт организовать. А историю сообщений юзеров так вообще динамической подгрузкой с учетом ответа, а остальное что дальше - суммарайз. Только аккуратно сделать чтобы относительное положение во времени не уплывало и не ломалось.
> Но, возможно, качество русского будет лучше.
Не только качество лучше, но и гораздо меньше тупняка.
Вообще, сколько там врам нужно для нормального файнтюна хотябы лорой, но без квантов? Использовать датасет из того проекта финов, добавить чатов стримеров и хотябы для мистраля запилить попробовать.
>616446
> Чувак с Реддита писал про 9 с лишним токенов в секунду на 5K_M - у него правда 4 P40 было
Попахивает пиздежом, реально. Или есть возможность под них соптимизировать. Ускорение от добавления карточек в llamacpp не должно быть.
>>616483
Хуя триггернулся
слушай, а как работает Rope scale и rope lenght? в чем разница и что крутить?
>Или есть возможность под них соптимизировать.
Именно, там еще в первых постах писали на реддите что нужны какие то оптимизации при сборке llama.cpp на линуксе
Какие именно - го ту реддит искать по темам с p40
>>617193
А где там по дефолту у тебя 10000 стоит? Я если что про кобальд и лламаспп говорил, там есть эти параметры
https://github.com/LostRuins/koboldcpp/wiki#what-is-rope-config-what-is-ntk-aware-scaling--what-values-to-use-for-rope-config
> Можно еще ее https://huggingface.co/LoneStriker/Yi-34B-200K-DARE-megamerge-v8-5.0bpw-h6-exl2
На шинде с адой в 24 гига влезает ~3-4к контекста (офк чтобы был запас)
> Output generated in 9.36 seconds (31.95 tokens/s, 299 tokens, context 2663, seed 510213228)
> Output generated in 9.69 seconds (30.85 tokens/s, 299 tokens, context 2663, seed 1910527247)
> Output generated in 8.91 seconds (33.56 tokens/s, 299 tokens, context 2663, seed 938647000)
На прыщах с ампером 6-7к
> Output generated in 16.91 seconds (17.68 tokens/s, 299 tokens, context 5216, seed 1217045473)
> Output generated in 12.18 seconds (24.05 tokens/s, 293 tokens, context 5216, seed 1675320773)
> Output generated in 12.53 seconds (23.87 tokens/s, 299 tokens, context 5216, seed 1709675759)
На 3090 будет чуточку быстрее
>Попахивает пиздежом, реально. Или есть возможность под них соптимизировать. Ускорение от добавления карточек в llamacpp не должно быть.
Вот ещё один, 3 P40:
https://www.reddit.com/r/LocalLLaMA/comments/17zpr2o/nvidia_tesla_p40_performs_amazingly_well_for/
Цитата: "Я ни разу не разочаровался! Здесь у меня есть скриншот с его запуском Goliath 120b Q4KS, который в основном выжимал максимум из видеопамяти. Он работает со скоростью 3-4 т/с с некоторым загруженным контекстом. Он определенно замедлится с увеличением контекста, но для того, сколько стоят эти карты, я думаю, что это очень хорошая производительность!"
Здесь же в тредах мы видим очень скромные результаты. Разница на первый взгляд только в том, что у тех чуваков с Реддита количество линий PCIe максимально или близко к этому. Так же по ссылке явно на Винде запускали. Разобраться бы надо.
Кто там с сетками хотел баловаться? Вот какой то опенсорс проект ускоритель файнтюна с меньшим использованием памяти.
Я не в теме, но выглядит отлично
Новая сетка для погромистов, топчик по их тестам.
Но метод обучения в комментах описан интересным. Конечно 7b соснет в качестве генерации, так как не сможет большие тексты вниманием держать или соблюдать одновременно много инструкций. Я просто думаю это тестовый запуск, после которого будет обучена сетка по больше, хотя бы та же 34b
Хотя на коротких примерах до 2к-4к 7b может быть на ровне с большими сетками, если хорошо надрочена на отличных примерах. Поэтому не уверен что это полный пиздеж, комментаторы как всегда играют в пророков еще не щупав результат
эти чуваки с реддитов вечно нихуя нормально показать не могут. Как они там запускают, с какими параметрами, какие версии, на каком железе - нихуя вообще не показывают.
Только скрины своих виндовых окошек постят.
Виндобляди ас из как говорится.
Пользы от таких постов как с козла молока.
>>617317
> Какие именно - го ту реддит искать по темам с p40
Любопытство сильно, но оно - единственный мотиватор, наверно, пусть владельцы ищут.
> что у тех чуваков с Реддита количество линий PCIe максимально или близко к этому
Почему тогда у анона с x4 2.0 почти нет разницы при делении сетки на две карты? Да и перфоманс излишне высокий если сравнивать с тем что на 3к/4к серии, если скейлить результаты с exllama то получится 7-11 токенов при том что там перфоманс выше более чем в 3 раза даже без оптимизаций на малую битность.
Возможно там есть какая-то оптимизация, что может быть применена ко всем, но вероятность мала.
>у анона с x4 2.0 почти нет разницы
я тут.
Я когда ёбся с попытками оптимизации
https://github.com/ggerganov/llama.cpp/pull/4233
я не совсем llama.cpp пересобирал.
Я пересобирал python-llama-cpp который потом подсовывал жоре.
Может быть это послужило причиной, хотя не должно было.
А еше можно проверить откатившись на старый коммит
https://www.reddit.com/r/LocalLLaMA/comments/17xcn5d/psa_if_you_have_telsa_p40_which_has_abysmal_fp16/
>это просадка в качестве ответов.
А меня на самом деле устраивает качество ответов. Меня не устраивает пара моментов. Иногда сетка может ебануться и ответить мне моим же постом или крутить один и тот же пост несколько раз подряд. Или просишь рассказать о котах, а потом о собаках. Он берёт пост о котах и меняет котов на собак. И всё, буквально ничего другого не меняется. По идее, нужно отхуяривать контекст, или я хуй знает. Ставил цфг выше, температуру выше, на выхлопе шиза.
Легче всего с коверканием слов, здесь можно прикрутить простой скрипт со словарём, который это всё пофиксит за наносекунду.
Потыкал палкой виспер, ебать же шизоидальный бред получается. Пиздос. Никуда не годится. Причём если налету переводить в английский, то предложения получаются осмысленные, но, сука, абсолютно не с тем смыслом.
тот у кого 2 p40
>А еше можно проверить откатившись на старый коммит
проверил, это не дает эффекта
Чел. Таких тейков про 7б говно наравне с гпт4 было уже воз и маленькая тележка. По итогу что?
Магии не бывает. Деда мороза нет.
>про 7б говно наравне с гпт4
Так ведь говорится про узкую задачу, к тому же непонятно как были сделаны тесты. Что там в реальном использовании уже другой вопрос
> Магии не бывает.
ЖПТ4 Турба уже крошечная по размерам. Было бы что обгонять. Она внезапно неплохо просела по некоторым тестам в ноябре по сравнению с мартом без турбы.
Дак мы тока настраиваем. API ебучее, хрен проссышь, че и как передавать.
Но опять же, представь 34 и 26 против 34 и 34 но постоянный перевод туда-сюда.
>>617187
> Лучше адеквантный и хороший ответ через 20-30 секунд чем вываливающиеся потроха кривого промта и шиза за 7.
Это пофиксил немного.
> А историю сообщений юзеров так вообще динамической подгрузкой с учетом ответа
Да, буквально — сохранять в базу, выбирать 10 последних, пихать в историю, оформлять промпт «я помню, что раньше он писал…»
А далее — текущий контекст чата.
>>617256
Ух, бодро! Спасибо!
>>617901
Да.
———
Сегодня смог запустить с миростатом, общаться стала гораздо адекватнее.
Ебучее API убабуги, хуй найдешь, документации нет, чувак из силлитаверны — гений, по-ходу, раз смог заставить это все работать.
Причем, так как фразы короткие, тау вогнал в 1, а эту в 0,9.
Почти всегда укладывается в 64 токена генерации, отвечает гораздо больше в тему, чем раньше.
В общем, доволен, почему раньше миростат не юзал! Аж интересно, как он себя ведет в больших текстах и в рабочих задачах.
Ну и я снова немножко побуду тварью и кину ссылочки.
https://goodgame.ru/neuroslava
https://twitch.tv/neuroslava
https://www.youtube.com/watch?v=8BcqlT_F5iI
>neuroslava
Она же у тебя как несла полную ахинею, так и несет.
Дабл.
Пофиксил.
Короче, в чем проблема.
При низком значении тау и высокой эта, она почему-то начинает сообщения с «А…»
Говорит адекватно (напоминаю — ей надо уместить в 64 токена, а не решать уравнения), но постоянное «А».
Фиг знает, как это побороть.
Если кто знает, как фиксится стартовый токен — буду рад услышать.
> Это пофиксил немного.
По видео не заметно. А еще она вообще молчаливой стала, куда не скрольнешь - тишина и унынье, зато шевелится.
> оформлять промпт «я помню, что раньше он писал…»
Хз, формулировка не самая удачная. Суммарайз - полный чат, а сообщения юзера как можно раньше рядом с суммарайзом или их отдельный суммарайз, но это сильно затратно уже.
> Ебучее API убабуги, хуй найдешь, документации нет
Всмысле нет, основное в доках, параметры и функции в typing.py, все достаточно интуитивно там.
>>618035
> ей надо уместить в 64 токена
Это случаем в промт не пихнул?
> как фиксится стартовый токен
Тут бы причину лечить а не симптом, нужно стукнуть чтобы не лупилась. А так отдельный запрос на первый токен с баном А делаешь а потом на остальное, по скорости разницы почти не будет.
Оказалось что действительно умнее, но как же они долго обрабатывают контекст сука... За что.
13в залезают мне в 12гб врама целиком, но за ближайший апгрейд до 16гб надо заплатить в два раза дороже, молчу уже про 24гб......
> Всмысле нет, основное в доках, параметры и функции в typing.py, все достаточно интуитивно там.
Хз, я гит пролистал, ниче там не нашел.
Можешь ткнуть носом?
> Это случаем в промт не пихнул?
Нет, это max_tokens =)
> А так отдельный запрос на первый токен с баном А
Научишь? Че-т туплю.
>API ебучее, хрен проссышь, че и как передавать.
Ты шутишь?
https://github.com/oobabooga/text-generation-webui/wiki/12-%E2%80%90-OpenAI-API
Там буквально обосcаный жсон, ничего легче быть не может. Как раз пилю себе приложение, которое будет связывать угабугу и STT, но, блядь, какая же это залупа. Нужно или тренировать на свой голос, или просто нахуй пойти.
>постоянный перевод туда-сюда.
Потому я и не хочу гонять переводы. Но здесь дело не только в том, что 34 против 26, у этой херни кумулятивный эффект, ты в итоге получаешь 3400 контекста вместо 2600. А это уже играет роль.
Есть вариант второй 12гб и будет 24, но нюансы тяжеловаты.
>>618136
> Можешь ткнуть носом?
https://github.com/oobabooga/text-generation-webui/blob/main/docs/12%20-%20OpenAI%20API.md
> Научишь? Че-т туплю.
Дорого обучение обойдется, custom_token_bans в запросе
Изучу, спасибо.
>>618169
>Есть вариант второй 12гб и будет 24, но нюансы тяжеловаты.
Она мне даже в корпус не залезет скорее всего...
>>618159
>Он
Твой голос в голове? Хуёво тебе че.
>Нужно или тренировать на свой голос, или просто нахуй пойти.
#mv /dev/ass/hands /dev/shoulders/
Бля, ну твой текст про супчик и у меня опознаётся. Но это смешно просто.
>OpenAI — американская научно-исследовательская организация, занимающаяся разработками в области искусственного интеллекта.
Зачитываем, смотрим варианты.
>ОПН-А-И
>опын аэй-американская научность
>ОПН-АЙ - американская научнаяся исследовательская организация занимающая разработками власти.
>ОПН-АЙ, американская научнаяся исследовательская организация занимающая разработками власти искусственной
Интеллекта оно не услышало, так что я повторил
>и с гостиной Вентилек.
>из гостинного интеллекта.
Зачитывал посты из треда, художку, новости, ни одного предложения полностью корректно не опозналось. Включал диктора с ютуба, тот пиздит слишком быстро, 90% текста отваливается, оставшееся опознаётся неправильно. Плюс эта хуита крайне нервно реагирует на шум, но тут уже хуй с ней, всё равно требуется понимать только голос, зачитанный в полной тишине. Но этого нет. Всё это, как водится, рилтайм, вангую, что с обработкой записей будет лучше, но вряд ли намного.
ну хз.... есть конечно пара мест где она ошиблась, но мне кажется, что нейросеть должна проглотить такие огрехи и не заметить, потому что тупо токены похожи друг на друга.
Там вроде сетки разного размера, ты может с тини сидишь? скачай побольше
Так все хотят…
>>618161
Где там по твоей ссылки стоп-слова? :) Я в нее раз пять смотрел.
В итоге в консоли силлитаверны все прочел.
Нихуя нет документации.
В документации нормальной перечислена каждая строка, каждое свойство, со всеми значениями.
Даже у силлитаверны ВНЕЗАПНО два свойства: "stopping_strings" и "stop". Хотя в ишьуах упомянуты "custom_stoppings_strings".
> 3400 контекста вместо 2600
Меня еще напрягает, что с большим контекстом падает скорость. Поэтому сильно раздувать тоже не хочется.
Короче, трудно быть бомжом, сплошные компромиссы.
>>618169
Тот же вопрос — где там стоп-слова? :) Нетути их там. Хуйня, а не док.
Из него скрипт берешь, он работает, все изи, но на этом польза заканчивается. Все остальное — приходится пиздить из силли-таверны.
"mode": "chat",
"character": character,
"messages": message,
"max_new_tokens": 64,
"max_tokens": 64,
"temperature": 1,
"top_p": 1,
"typical_p": 1,
"min_p": 0,
"repetition_penalty": 1,
"frequency_penalty": 0,
"presence_penalty": 0,
"top_k": 0,
"min_length": 0,
"min_tokens": 0,
"num_beams": 1,
"length_penalty": 1,
"add_bos_token": True,
"ban_eos_token": False,
"skip_special_tokens": True,
"custom_token_bans": '', — окей, вот сюда токен номер «а» поместить, допустим
"dynamic_temperature": False, — по названию понял, что это.
"dynatemp_low": 0,
"dynatemp_high": 2,
"dynatemp_range": 0,
"stopping_strings": [ '\n', '(' ], — непонятно, работает ли это, скорее нет, чем да.
"stop": [ '\n', '(' ], — вот этого в гите убабуги ваще не нашел, но, по-ходу, как раз оно работает.
"truncation_length": 256,
"top_a": 0,
"tfs": 1,
"epsilon_cutoff": 0,
"eta_cutoff": 0,
"mirostat": 1,
"mirostat_mode": 1,
"mirostat_tau": 1,
"mirostat_eta": 0.9,
"rep_pen": 1,
"rep_pen_range": 0,
"repetition_penalty_range": 0,
"encoder_repetition_penalty": 1,
"no_repeat_ngram_size": 0,
"penalty_alpha": 0,
"temperature_last": True, — это-то что вообще такое? х)
"do_sample": True,
"guidance_scale": 1,
"negative_prompt": '',
"grammar_string": '',
"repeat_penalty": 1,
"tfs_z": 1,
"repeat_last_n": 0, — а это что?
"n_predict": 64, — хм, тоже не совсем ясно, но на всякий случай заменил.
Короче, у меня претензия не в том, что не ясно как писать. КАК писать ясно. А вот ЧТО писать — отсутствует начисто. Строки заявленные просто не работают. У Таверны какой-то свой тег вообще в виде «stop»-а. Может быть я просто избаловался за последние месяцы, и ожидал подробную документацию.
Ладно, сорян, что сгорел.
Пойду кастом бан токен пробовать на вкус.
Одним соевый, другим грубый… =)
Но, да, он не соевый, если задать ему грубое поведение — сдерживаться он не станет.
Еще и самовлюбленный бывает.
Кстати, слух, а разве там нет виспера?
Там же буквально везде он был полгода назад, и в убабуге, и в таверне?
Меня не устроило, что он не может прослушивать постоянно, или включаться сразу после ответа бота, приходилось заново кнопкой тыкать. Но вроде ж было везде.
А распознавание мне в свое время понравилось, качественненько.
> Тот же вопрос — где там стоп-слова? :) Нетути их там. Хуйня, а не док.
Бля ну ты совсем варебух?
> stop: str | List[str] | None = None
> А вот ЧТО писать — отсутствует начисто
> Строки заявленные просто не работают.
Работают, большую часть тестил, просто нужно понимать совместимость с лаунчерами и в общем то что ты делаешь. Тем более готовый пример таверны есть.
>>618592
> сдерживаться он не станет.
> Еще и самовлюбленный бывает.
Примеры есть?
>сдерживаться он не станет.
Чот да. Я вроде не задавал ему ничего, чистый пресет. Видимо карточка такая. По накатанной теперь уже вообще смерти желает, лол. Такое конечно в гпт4 не увидишь
>>618169
Спасибо, учитывая, что я делаю рандомного бота, просто вставлю в код custom_token_bans рандомное значение. То пустое, то нужный токен. Иногда пусть начинает фразы с «А», если ей очень хочется, а иногда будет норм генерить.
Идея с первым запросом норм, но лень реализовывать. А так — одна переменная с random.choices().
На стриме кто-то спросил «что лучше я или мешок картошки».
Я всхрюкнул с вопроса и стал использовать его в тестах. Логично, что от стримерши ждешь плюс-минус в равной вероятности оба ответа. Или шутку про мешок, или няшность про себя.
Микстраль процентах в 90 отвечала «Лучшая здесь — я!»
Я прям спецом ее рероллил много раз.
Остальные модельки отвечали более ожидаемо. Кто-то больше токсил, кто-то чаще хвалил.
Забавное поведение, кмк.
> Бля ну ты совсем варебух?
У меня Ctrl+F по stop нихуя не находит, даже поиск по всей репе ниче не дает.
Странно, пиздец. Ну то хуй с ним, ладно уж.
Так или иначе, уже со всем разобрался, пасиба.
>Окее давай попробуем что-нибудь посложнее и нескольких предложений. Наш горький дух и память на стамид. Наш горький дух первый раз и стимы как травы. В нём время спитках не драх дирамит. На непорфирнем раморт не границ. Не создают незыбленные правы.
Хуй знает. Всё очень плохо. Потом посмотрю, какие настройки покрутить, но пока что впечатление крайне хуёвое. Параллельно есть модель на 44 мегабайта, которая понимает мою речь вполне приемлемо, но требует хорошей дикции. Зато не генерирует мусор, как виспер. Типа [МУЗЫКА] или [АВТОР СУБТИТРОВ]. Охуеть вообще.
>>618463
На базовой, она побольше. И есть ещё трёхгиговый "файнтюн", уже не помню, где нашёл.
>>618591
>Где там по твоей ссылки стоп-слова?
Передай просто stop. Строка или массив.
>В документации нормальной перечислена каждая строка
Да ты охуел.
>"custom_token_bans": '', — окей, вот сюда токен номер «а» поместить, допустим
>"stopping_strings": [ '\n', '(' ], — непонятно, работает ли это, скорее нет, чем да.
Не должно работать.
>а разве там нет виспера?
Есть, но хули толку.
https://github.com/oobabooga/text-generation-webui/issues/5259
У меня вот этот баг, разбираться в причинах нахуй надо. Что работает через командную строку, то работает, а что нет, то и хуй с ним.
> Логично, что от стримерши ждешь плюс-минус в равной вероятности оба ответа.
Ожидаешь токсичное нейронное и забавное.
> «Лучшая здесь — я!»
Хороший вариант.
> У меня Ctrl+F по stop нихуя не находит
Пикрел
Бля, клевая идея, да и в комменте про shellgpt такой себе ии помощник описан
Жаль только линукс обычно на что то слабое ставится, занимать кучу рам да и грузить процессор, или ставить серверу видеокарту, ну такое. Хотч может там и 1b хватит.
>Жаль только линукс обычно на что то слабое ставится
ты охуел?
Да всё, не трясись, красноглазик. Чего-то в последнее время совсем разбушевались тут.
Ахахах, обыграл и уничтожил! =D
>>619024
А че там, TinyLlama вообще живая? А то я ее так и не попробовал, на Ракете остановился.
Не думаю, что она сможет генерить настолько живые и адекватные тексты, но что-то простое — хз, мб.
Ну дома обычно это медиасервер или файлопомойка или еще что, конечно дома и мощные серверы могут быть, че нет то, но мне кажется реже
Про корпоративное я и не говорю, там все на нем
>А че там, TinyLlama вообще живая? А то я ее так и не попробовал, на Ракете остановился.
Да, ее дотренили, работает. Если нужен какой то совсем простой помощник может даже ее хватит, конечно на сложных инструкциях она будет сосать, но кое как отвечать. Надо будет попробовать если не забуду. Ракета тоже норм вариант как и другие 3b.
Ну или какую нибудь майнерскую карту купить рубля за 4 ибудет локальный 7b.
Лучший вариант это вручную доводить переводы по смыслу. Любая автоматика проёбывает вложенные в текст смыслы.
>>617951
Синтии 70B 1.5 по ощущениям уже с полгода, а она всё так же хороша.
>>617982
Портифьич обзавидовался бы.
>>618591
>Пойду кастом бан токен пробовать на вкус.
Он же совсем забанит. Тебе бы биас настроить, в кобольдцп недавно появился, он ближе по смыслу.
>>618764
>Зато не генерирует мусор, как виспер. Типа [МУЗЫКА] или [АВТОР СУБТИТРОВ].
ЕМНИП это настраивается.
>>618855
В консоль, смотри что отсылается.
Ну я-то как раз с P104-100 и сижу. =)
q6 с контекстом, да.
Просто интересно, последить за развитием.
Вон, нашел TinyMixtral-32х248M, псевдо-МоЕ из 32 Tiny Mistral, кек.
Ща попинаю все это дело.
>Ну я-то как раз с P104-100 и сижу. =)
че по скоростям хоть?
> Жаль только линукс обычно на что то слабое ставится
Хуясе ебать
>>617951
> Что никто не может себе купить блядские 360гб врама что ли и запилить сервис?
Задонать и запилю
>>619094
> Тебе бы биас настроить
Ему же нужно просто чтобы не начинало, так можно напрямую забанить при запросе первого токена, а дальше коплишн обычный. Что байас, что бан если его делать на весь запрос - все распидарасят пиздец.
> какой-то пердольный кал без функционала
> Я что-то упустил?
Да.
Что хорошего в олламе и что такого есть в чатбоксе, чего нет в таверне?
> пердольный
Накатывается одной командой, в отличие от кобальта и таверны.
> без функционала
Ты сказал?
>>619205
Накатывается одной командой, без пердолинга. Нет кумерской ролевой тематики. Работает вне браузера.
Вижу функционал уровня скрипта-примера в консоли и аналогичное удобство.
> пердолите
git clone @ start.bat
Ахуеть пердолинг запредельного уровня
> любые модели
Всратейшие кванты того что ленивый автор соизволил добавить? Основано, конечно же, на старой версии llamacpp?
То что до функционала таверны этой хуйне как раком до Китая и так очевидно.
>ЕМНИП это настраивается.
В оболочке давится, скорее скорее, а у меня её и нет, рав оутпут. Но я, видимо, инпут где-то запорол, что оно не понимает нихуя. Надо будет ещё посмотреть, может, пофиксить можно.
Смотрю на ответы убабуги по api и, вроде, и по-другому нельзя. А всё равно как-то мерзко, блядь. Это один ответ, есличё. Олсо, что получается, контекст хранится в виде сырых сообщений во фронте, а я думал, что там уже затокенизировано всё в бэке. Как-то неоптимально. Хотя, если расчёт на использование одной сетки множеством пользователей, имеет смысл.
Ну я сделал, что в 33% банится, а 66% не банится.
Это, по сути, просто большая буква А. Так что норм, жить можно.
Но гляну, спс.
>>619110
7b q8 — 20 т/сек.
q6 + контекст — 16 т/сек.
Такое ощущение, что контекст обрабатывается дольше слоев.
Но седня еще поиграюсь.
SD1.5 — 1.8 ит/сек на Эйлере.
>>619215
Ну да, кобольд же накатывается вообще без команд.
>7b q8 — 20 т/сек.
>q6 + контекст — 16 т/сек.
>Такое ощущение, что контекст обрабатывается дольше слоев.
>Но седня еще поиграюсь.
>
>SD1.5 — 1.8 ит/сек на Эйлере.
Дак exl2 попробуй в 5-6 бит, должно быть быстрее ггуф, и меньше места вроде как
4 бита и gptq не рекомендую, 7b тупая на них
Ну а для ггуфа можно и 5km, качество будет приемлемым, ниже уже да, фигня
Паскали не умеют нормально гонять экслламу.
Ггуф сильно быстрее.
Только вчера нашел этого чара и он мгновенно вошел в топ 3.
Справедливости ради половину текста на пике написал я, но модель бодро дописывает и подсказывает порою очень интересные вещи.
Короче как копилот для какого-нибудь фаншикшена вообще заебись. Хмммм.
Надо сказать что перса я немного подредачил и пик снят уже после неплохого диалога, в котором я дорисовал сеттинг. Если кто выразит интерес скину допиленного чара.
Модель норомейда 20б 5км
Чар MaidoDism
По совершенно необъяснимой причине, XTTSv2 на P104-100 отрабатывает быстрее, чем на 4070ti.
Фраза на 4070ti работает 1.76 сек самое быстрое, а на P104-100 — 1,75 первый трай и 1.56 самое быстрое.
Мне на руку, теперь поменяю местами генератор текста и речи, буду гонять exllama для текста и генератор на старушке серверной моей.
Вместо 256 контекста смогу добавить 4096, засунуть в память часть чата и старую писанину зрителей.
О — оптимизации.
Ситуационно считаю P104-100 самой выгодной покупкой. За 2,5к-5к 8 гигов и неплохая скорость — отличная покупка. Так-то даже дешевле P40.
Но для LLM слабое применение, конечно. И 175 ватт — тоже не копейки.
Хотя у меня она в простое 23° и не сильно греется, конечно.
Я к чему? Просто пизжу.
Брать не советую — старые майненные карты с малым объемом памяти. Но для некоторых задач — топ за свои деньги: 8 ГБ GDDR5X c 256-битной шиной — это вам не хухры-мухры.
> Такое ощущение, что контекст обрабатывается дольше слоев.
Для llamacpp это нормально, уже сранивали что скорость отличается на 1-2 порядка при полной выгрузке и на много-много при частичной.
>>616476
> ак там легко квантовать Exl2 модели? Помню, писали, но потерял
https://github.com/turboderp/exllamav2/blob/master/doc/convert.md
Если кратко - клонируешь рему экалламы2, активируешь вэнв убабуги (cmd_windows.bat), переходишь в папку с репой и там вызываешь convert.py с нужными параметрами.
Можно вообще сразу написать готовый батник
Измерение:
> set CUDA_VISIBLE_DEVICES=x (0 если одна гпу или вообще убрать строку)
> call F:\...\text-generation-webui\installer_files\conda\condabin\conda.bat activate "F:\...\text-generation-webui\installer_files\env"
> python ./exllamav2/convert.py -i K:\папка_с_fp16_моделью -nr -o F:\временная_папка_на_быстром_диске -om ./результат_оценки.json -c ./wikitext-test.parquet (или заменить на более полный)
Квантование:
> python ./exllamav2/convert.py -i K:\папка_с_fp16_моделью -o F:\временная_папка_на_быстром_диске -m ./результат_оценки.json -cf F:\папка_для_кванта -nr -c ./wikitext-test.parquet -b 6.1235346 (битность)
Измерение идет долго, квантование быстро, одно измерение универсально для всех квантов и с него можно делать любую битность. В обоих случаях файлы с весами должны быть .safetensor а не .bin, конвертируется вызовом скрипта
> python /путь до репы exllamav2/util/convert_safetensors.py *bin
из папки с моделью, .bin потом не забудь удалить, иначе они скопируются в папку с квантом
А, ну очевидно, почему медленнее, я дебил!
xttsv2 для куды 11.8, а я на 12.1 накатил, возможно под ним он просто работает медленней.
Ну не суть, это оффтопик, сорямба.
макакам кинь в >>618889 (OP)
>Синтии 70B 1.5 по ощущениям уже с полгода, а она всё так же хороша.
На самом деле нет. То есть хороша, но довольно быстро скатывается к предложениям из трёх коротких одинаковых по смыслу фраз. Есть дефект. Вот Dawn 70B реально хороша.
> но довольно быстро скатывается к предложениям из трёх коротких одинаковых по смыслу фраз
Что? Что ты с ней такое делаешь чтобы такой эффект произошел?
У нее другая беда, явный оверфит на ерп при некоторых взаимодействиях. В версии 1.5 по сравнению с 1.2 сильно лучше, но иногда встречается. Если ты и не против то это будет даже в плюс.
> Вот Dawn 70B реально хороша
Это шизомикс или полноценный файнтюн?
У меня после первого же регена любая модель начинает генерить одно и тоже сообщение, если включаю динамическую.
Вообще грустно это, в одном треде макаки, в "теоретическом" какие-то шизы срутся за аги. Какой-то конструктив есть только в этом треде.
Да, локально даже не пытайся. Для тебя есть коллаб.
Так это не для рп интерфейс.
>>619285
Так ты описание в репо прочитай и на веб-сайт зайди, а лучше не пизди и скачай.
> Всратейшие кванты того что ленивый автор соизволил добавить?
Можно любую GGUF модель импортировать, но из коробки самое сочное все и так есть.
> Основано, конечно же, на старой версии llamacpp?
Ну только разве что в твоем манямирке.
> То что до функционала таверны этой хуйне как раком до Китая и так очевидно.
Правда таверна это кал для рп и кумеров, нормальным людям она не подходит. Функционала там нет, только карточки.
Зачем ты форсишь какую-то хуергу, если "не для кума" уже сто лет как есть lmstudio?
Зачем предпринимать усилия если это заведомо мэх.
> любую GGUF модель
Бинго, а еще имплаит что не оно
> нормальным людям она не подходит
Мамкиным нитаким как все оно не подходит. Буквально попытка сделать что-то другое ради чего-то другого и прогулка по граблям. С word count обзмеился.
>>620056
> lmstudio
В ней хотябы пытались пили что-то новое и свое, но киллерфич кроме хлеб-френдли не особо.
Ну челик пытается хуй пойми что форсить, при том что оно объективно сосет у лмстудио по его же пизданутым запросам
> lmstudio
Зачем эта хуита, когда можно прям в VS Code генерить код?
Все верно, ее то уже давно сделали. Но для кодинга идеально бы иметь интеграцию с IDE а не просто чатик, который есть везде.
там вроде уже есть плагины в иде как раз для локолок
Можно взять его содержимое любым скриптом на языке в который умеешь, и скармливать сетке с соответствующим запросом и получать на выходе нужное. Сетка поможет тебе этот скрипт написать, промт придется уже самому.
0 аргументов, только пиздеж тупой ленивой шалавы.
> Мамкиным нитаким как все оно не подходит
Еще раз, деградант с заплывшим спермой мозгом. Все что перечислено в шапке, не подходит для классического чата, это поделия для рп дегенератства.
> Буквально попытка сделать что-то другое ради чего-то другого
Блять какой ты тупой, это классический чат, что-то другое это у вас уже 40 тредов, эхочембер ебучий, уже забылись в своем манямирке и отупели от дрочки.
> 0 аргументов, только пиздеж тупой ленивой шалавы
Литерали все твои посты. Нихуя не соображаешь а тащишь какую-то залупу и агрессивничаешь когда ее назвали тем что должно. Фу, биомусор.
> в своем манямирке
Пчел...
Опять ничего дельного высрать не смог, я даже не сомневался. Тупорылый школьник.
А ты сам пользовался? Там поддержка гпу для галочки, нужно самостоятельно подбирать количество слоев и даже если полностью умещается в гпу, то производительность ниже чем в ollama или kobaldcpp в разы.
Нахуя мне такая поддержка, которая от цпу на 4 токена в секунду отличается?
Что он несет, какой «обычный чат»?
Блядь, чат —этокогда ты можешь писать буковы в поле, потом отправлять и получать ответ.
Это есть в таверне, кобольде, убабуге, где угодно.
Дрочить никто не заставляет.
Все эти поддержки, хуйдержки, «ручной подбор слоев» — какой ужас!
Накатываешь голую лламу/экслламу, работаешь в СВОЕМ чатике по API.
В чем проблема?
Хз, сколько не сижу, убабуга устраивает (кроме документации=), силлитаверна норм тоже.
Не хватает ауто-комплит, но ссылочку скинули, пойду, разберусь, что ли.
Где вообще проблемы видно? ИМХО, большинство проблем сейчас —это литералли скилл ишью.
Если нужен гайд могу накатать, пока не забыл
> пока не забыл
Да ты сам туповат. За сколько часов контекст забивается?
Шизло не трясись, ты и твой мусор никому не нужны
>>620332
> большинство проблем сейчас —это литералли скилл ишью
Ну да, или навык и понимание, или упрощение-обобщение в ущерб функционалу и перфомансу. Тут лучше сразу в прикладные задачи вкладываться и их реализацию пилить, а не пытаться упростить то что трогать нельзя.
>>620343
Накатывай, интересно
> Что он несет, какой «обычный чат»?
Ты chatgpt пользовался? Если для тебя таверна это то же самое, то ты либо тролль, либо просто дебил.
https://github.com/TheR1D/shell_gpt/issues/276
Но с поправками, так как он старый
Адрес меняется на
OPENAI_BASE_URL=http://localhost:8000/v1
без ключа будет ругаться
OPENAI_API_KEY=false
https://github.com/abetlen/llama-cpp-python
Команда установки llama-cpp-python из раздела OpenAI Compatible Web Server
Команда запуска что то вроде такого
python3 -m llama_cpp.server --model /neuro/tinyllama-1.1b-chat-v1.0.Q8_0.gguf --chat_format chatml --n_threads 2 --seed -1
https://github.com/TheR1D/shell_gpt
Установка
pip install shell-gpt
Запуск самого shell-gpt кажется этим
python3 -m sgpt
Или я чет другое делал, уже не помню короче
Работает но надо поумнее сетку, да и настроить ее формат ответа потом в. Может с промптом в шеллгпт поиграться. Можно писать свои функции и сетка будет их вызывать если посчитает нужным, ну это описано на гихабе
Подключился от кобальда по локалке, запустив его на другом компе.
Только OPENAI_BASE_URL на его заменил и заработало.
>Зачем это нужно,
Что именно?
>когда есть ollama?
Пили чем она хороша, может потыкаю заодно
Товарищи! Нужен ваш совет, кто знает как прикрутить анимированнную картинку персонажа к чату Silly Tavern, что бы это выглядело как у витюберов? А ещё заставить говорить персонажа своим уникальным голосом?
Хватит, более чем. До модели 30В включительно производительность будет терпимой. Ну и 32Гб оперативной памяти нужно. Модели больше размером с такой видеокартой уже требуют 64Гб оперативной памяти и выдержки.
(Это всё о Koboldcpp, если что)
Да, про процессор и память ты не сказал, а это важно. 12400 уже норм, DDR4 3200 тоже сойдёт.
На мегамаркете возьми с кэшбеком, кэшбек слей во что-то полезное.
>>620852
Да и 10400 хватит, че уж. Да и зеона хватит с AVX2, че уж.
>>620725
Чел из треда делал wav2lip в таверну. Поищи.
Но вообще, если хочешь именно витубера — то просто запусти любой софт с audio-based lipsync, и кинь туда звук из браузера. Просто поищи, много такого софта.
Уникальный голос — берешь xttsv2 и в качестве сэмпла кидаешь ему тот голос, который нравится тебе.
———
Продолжаю страдать с нейростримом.
Всю ночь прокопался с контекстом — не получается. То ли формат стрима выносит ей мозги, то ли фиг знает. Ничего не помнит, начинает называть свое имя перед сообщением, просто скатывается в смесь языков. Попытался послать не массивом json'ов, а как единый prompt — фиг там, не принимает, по какой-то причине.
У СиллиТаверны уходит поле prompt, у меня — пишет field required. Какой филд — фиг его знает.
Седня как проснусь — буду разбираться дальше, а пока просто стартанул ее без контекста.
> 3060 для локальных нейронок?(в основном текстовых)
Гружу 7b в восьми битах, расход под 9 гигов со старта. Если хочешь уместиться в vram, то 13b потолок, и то, квант пожиже, контекст помельче. Выгрузка в ram это для очень терпеливых, на постоянной основе сильно не советую. Для SD будет окейно, там не так важна скорость отклика, сможешь даже XL погонять.
Шиза паршивая, тупая и припизднутая.
https://huggingface.co/TheBloke/Nous-Capybara-limarpv3-34B-GGUF
Вот для чатов, но похотливая и статы для рпг так себе держит.
https://huggingface.co/TheBloke/Nous-Hermes-2-SUS-Chat-34B-Slerp-GGUF
В целом умная статы держит, но как до ебли доходит персонаж начинает слегка тупить, нужно пара генерации чтобы выдал нормальный ответ и может двигать сюжет.
Yiv3 показалась совой, остальные для РП вообще похоже не расчитаны.
> А есть какие-нибудь нейронки, которым можно скормить excel файл, чтобы она отсортировала похожие значения по похожести? Руками что-то заебался.
Чел, это задача буквально для любого алгоритма кластеризации из 60-80х годов, коих наверное, миллион, и которые работают на любом тостере. Использовать для такого LLM это все равно что забивать гвозди телескопом Хаббл.
>Выгрузка в ram это для очень терпеливых, на постоянной основе сильно не советую
Да нормально можно с выгрузкой 7-8 t/s получить.
Это практически скорость чтения
> Да нормально можно с выгрузкой 7-8 t/s получить.
На какой частоте?
>7-8 t/s получить
У меня на пустом контексте 4-6 t/s. Естественно, чем больше - тем хуже. Инцел 12400 @ 3600 ddr4
>It allows to run Llama 2 70B on 8 x Raspberry Pi 4B 4.8sec/token
За условные 30-35к можно гонять 70В модели.
8 разберипи4 это далеко не 30к. Ну и 1 токен в 5 секунд, тут без комментариев
>4B 4.8sec/token
>30-35к
За эти шекели 2011-3 будет работать даже быстрее. И это уже полноценный компьютер пригодный не только для нейросетей.
>30-35к можно гонять 70В модели.
Зашёл на трёхбуквенный, восьмигиговая стоит 22к. Перемножаем на 8, покупаем 4090.
Поэтому они и не нужны. =)
>>621115
Он уже за 20 будет работать быстрее. Раза в полтора-два.
А за 30 — там и в три-четыре.
Только на видюхе норм поместится 11б модельки, все остальное с привлечением процессора и замедлением.
> тратить 40к
> 3060
Вут? Там чуть добавить совсем и 4060@16 бралась
>>621009
Это на какой модели?
>>621096
Интересно насколько трансфер по сети вносит импакт в их алгоритме, видно что есть оптимальное число девайсов, но почему на минимально возможном хуже чем на 4х, память свопается чтоли?
> It allows to run Llama 2 70B on 8 x Raspberry Pi 4B 4.8sec/token
> Average Single Token Generation Time
> Llama 2 70B 4842.81 ms 🔥(I: 2121.94 ms, T: 2719.62 ms)
Где?
>У меня на пустом контексте 4-6 t/s. Естественно, чем больше - тем хуже. Инцел 12400 @ 3600 ddr4
Неестественно. С технологией Context Shift размер контекста на общую скорость ответа нейросети практически не влияет.
Новая сетка, ориентированная на соблюдение инструкций, написание историй и реалистичность
Я так понимаю это топ для всяких режимов приключений и написания историй
Что-то вроде мистралевского плавающего окна? Я просто хуй знает. Загуглил, что этот шифт в кобольде есть. По-моему, чудес не бывает, весь "контекст" запихивается нейронке в глотку каждый раз заново, то есть ей каждый раз нужно просчитывать всё, тут нихера не оптимизируешь - больше памяти, больше пропускной способности.
Картошечный тест. Есть вообще разница в этих вариантах? Не могу отучить этого долбоёба коверкать слова, фильтровать через словарь вариант, конечно, но хотелось бы без костылей в анусе.
Тест картошки вобще к чему? Реакция на сравнение теплого с мягким?
Не 3b, но почти, 7b. Ответы не по теме из-за карточки, наверное, а тупость из-за общей тупости модели. Меня больше интересует степень корявости построения предложений. На дефолте больше по теме, но сваливается в непонимание языка. И, по сути, нейронка не понимает, что вопрос шуточный, пытается всё в кулинарию свалить. С карточкой ебаната мне ответы больше нравятся.
Обосрался с "дишь", словарный запас явно недостаточный и у долбоёба слова кочуют из языка в язык.
>>621469
Там выше чел запускал нейрострим и ему в чат написали этот вопрос. Анон из треда заметил и запостил сюда. А мне похуй вопрос, меня грамматика интересует. А она покинула чат.
шизомикс это когда мешают хуй пойми что хуй пойми как, тут же качество смеси выше
кобальдаи тим всегда норм сетки выпускает
унди хоть и поехавший какой-то, но в модели для КУУМА чел могёт
фроствинд без перевода, на русской версии карточки
Ну, могет иногда, хоть и проебывается
> качество смеси выше
Проиграл. Особенно вижу качество смеси в том что это микс из миксов. Там уж точно качество смеси заебись, да.
Ага.
>>621499
Cкачал, удачные ответы как-то довольно редко.
>Ну да... Если бы ты был едой, я бы тебя съел. А если нет - то я бы тебя убил.
>А вообще, это же такой вопрос! Какого хренского значения будет? Ты живой организм, а эта мухиная сущность - просто кусок земли с кожуром. Я бы не стал давать себе ответ...
>А это вопрос! Я же знаток всего того, что происходит. Так что, если бы я был богом, я бы дал жизни этим двум существам одновременно, чтобы они были как один, так чтобы они были способны удовлетворяться друг от друга без претензий. Однако, я также знаю, что человечество недоступна для этого, но душа может достичь такого состояния. Пожалуйста, присоединитесь к этому обществу, которое является единственным местом, где можно получить такой эксклюзивный контент.
Третий пик фроствинд, первые два мистраль. Правда, гоняю всё квантованным, памяти мало. Карточка без шизы, просто однострочная хуйня "ты ассистент и отвечаешь на ответы". Шизы рулят.
Как по мне, у мистраля чаще получаются ответы, которые я бы назвал приемлемыми.
Фроствинд просто как пример проверил, из сетки что была запущена, ну и он у меня был в 5км
openchat-3.5-1210 попробуй и starling-lm-7b-alpha
Это чат боты, что у них по языкам не знаю, но это сетки от больших организаций заточенные на общение, может и русский был в датасетах
У меня на стриме кто-то спросил, я кекнул и сюда притащил.
Если описать персонажа слегка токсиком, то проблем нет, но вот именно проверка граматики хорошая.
>>621474
> слова кочуют из языка в язык
Да, так и есть. Порою забавные словечки попадаются.
Но, что самое смешное, это ведь типичные англицизмы получаются, нейронка, как и мы, тащит слова, чтобы выразить смысл, из другого языка.
>>621548
> мухиная сущность
Пхх.
> Как по мне, у мистраля чаще получаются ответы, которые я бы назвал приемлемыми.
Да, Мистраль знает русский хоть и хуево, но лучше остальных.
Остальные, даже солар и прочие миксы самой мистрали, усиливают те знания, которых в ней много и ослабляет русский по итогу, кмк.
Растут частые веса, уменьшаются редкие.
Ну, ИМХО, канеш.
>>621575
Старлинг мне не понравился в русском.
Список 7b с ру тегом, если и искать мистраль с улучшенным знанием русского, то как то так
https://huggingface.co/Unbabel/TowerInstruct-7B-v0.1
Новенькая модель переводчик с заявленным русским, например
Что то еще
https://huggingface.co/AlexWortega/Vikhr-7b-0.1
https://huggingface.co/0x7194633/fialka-7B-v3
https://huggingface.co/TIGER-Lab/TIGERScore-7B
О ебать кто то поигрался с токенизатором наконец то
https://huggingface.co/rccmsu/ruadapt_mistral_7b_v0.1
prompt в виде строки отправляется только в режиме text_completions, в то время, как в chat_completions отправляются messages в виде массива.
В очередной раз спасибо силлитаверне, и НЕ спасибо пустой документации убабуги.
Но спасибо тем, кто подсказал искать непосредственно в коде, повставлял принты, увидел отличие функций и откуда и что приходит.
Осталось теперь разобраться с форматированием мистрали, все эти [INST][/INST] прописать вручную, и разобраться с карточкой, чтобы она отвечала на все сообщения от первого лица без форматирования.
И все это в 7B, потому что 70B мне в видяху не влезет. =')
https://arxiv.org/abs/2312.02598
Судя по всему модификация токенизатора действительно нужна, как мы тут и обсуждали недавно
Без нее сетку на русский дрочить долго и неэффективно, а знание языка будет все равно хуже
Откуда эти модели вообще берутся? Как и на чём их обучают(имею ввиду датасеты)?
Соре за тупой вопрос, я нюфаг.
Взял летом Palit 3060 на маркете, с кешбэком вышло ровно 30. solar-10.7b_Q5_K_S + 4096 влезает полностью, еще остается место для xtts. Все летает - 28 t/s, в таверне полный ответ приходит за ~2 секунды. Раньше баловался с медленными 56b и 70b (4 и 1 t/s), но теперь мне важнее скорость, чем едва заметная прибавка к уму. 13b вроде тоже влазит полностью, но там нужен квант намного похуже.
>это сетки от больших организаций заточенные на общение
Ну хуй знает. Опенчат пока не тыкал, старлинг, походу, имеет странный формат инструкций и надрочен на тексте, сгенерированном в жипити.
>>621654
>это ведь типичные англицизмы
Я не против англицизмов, наоборот, это радует, что связи, которые мы раньше обсуждали - всё-таки существуют. Это заебись. Но иногда протекает наеборот, русское слово в транслит.
>Ну, ИМХО, канеш.
Пока только майкрософт научились заглядывать в веса и понимать, что там происходит в процессе, а у нас тут не майкрософт, все посты можно по-дефолту так подписывать.
>>621695
>и НЕ спасибо пустой документации убабуги
http://127.0.0.1:5000/docs#/
А ты точно везде посмотрел?
>>621745
Мне кажется, с адаптированным токенизатором просто будет более корректное построение предложений. Слова-то он и так интуитивно правильно разбивает на слоги.
Потыкал несколько моделей, буду дальше ебать мистраль, наверное. По лорам, низкоранговые что-то слабо заметны. Небольшое влияние на способ построения предложений, слова коверкает по-старому, токенизатору похуй. В районе 10к шагов на небольшом датасете.
Олсо, какой из разделов туч-хэ-ка будет лулзовее всего распарсить и загнать в нейронку? Подумываю на счёт снача или зога.
>>621745
Ага у них в пейпере при human eval сравнении ответов результаты почти неотличимые от оригинальной сайги2-7b. Чуда не произошло, разве что, скорость немного выше стала.
Там обучение не особо глубокое, то что при изменении токенизатора вобще не упало качество я считаю плюсом, дальше нужно только допиливать и токенизатор и нормально дообучить на качественном датасете
Почему они не могут просто на дампе русскоязычных книг с флибусты натренить? Какой кекабу, какой хабр? Они бы на архивах /b/ ещё обучили.
https://belladoreai.github.io/llama-tokenizer-js/example-demo/build/
И там действительно ли всё так плохо с токенизатором для русского? Там же не отдельные символы токенизируются, а есть слоги и отдельные части слов.
Я просто недавно пробовал запускать пару локалок и общаться с ними на русском, и, как мне показалось, они мало косячят саму грамматику, но при этом просто несут бессвязную шизофрению.
А как его ебать? Скачал, токенизатор хорош, датасет - мерзейший мусор, на чём-то таком гигачат обучали. Увиливает от ответов, советует позвонить другу и задать вопрос ему, извиняется и т.д.
Отвечает 3-4 раза, потом генерирует ответ на 1 токен. И этот токен - пробел. Причём если пробел сгенерировался то уже всё, пизда. Режим, impersonate, ничего не влияет, просто пустой ответ. Хуй знает, где крутить и что.
Просто сетки оптимизированы для английского, остальные языки сосут, хоть и представлены в токенизаторе и датасете, но этого мало.
Вот как метод дообучения нужному языку, без нормальной настройки токенизатора выйдет хуйня, хоть и будет работать. Но могло бы гораздо лучше.
И че у тебя выйдет с книг? Нам диалоги нужны для примеров общения между 2 персонажами, там немного другое выйдет.
>>621827
Та сетка не допилена, я думаю это результат проверки статьи сделанный на отъебись
Ну или скачай ее инструкт версию, это же базовая модель
Я так понимаю главный плюс оптимизированного токенизатора - экономия токенов, возрастание скрости ответа, ну и теоретически лучшая возможность формирования ответов на обученном языке. Последнее уже будет зависеть от качества обучения и датасета
Ну, это очевидно.
Не знаю за знание, но объем больше, это факт.
Все жду, когда Сбер или Яндекс выпустят аналоги Мистрали, но на русском. =)
Не надо матерных комментариев, я знаю результат! =D
>>621782
> русское слово в транслит
Да, тоже такое ловил. )))
> А ты точно везде посмотрел?
Давай я не буду сегодня туда заглядывать, чтобы не расстраиваться, ок? хд
———
Промпт написан, она помнит инфу между сообщениями. Может путаться в чужих, но свои слова помнит — уже хорошо.
Завтра потестируем в живом чате на много человек, а пока — спать!
А то еще работа. =) Ох уж эта работа…
не, ну там всё равно три абзаца до желтой линии. я честно не понимаю как оно работает в силлитаверне. в кобольде если поставить max context size в 4096 например, то он и будет пересылать 4096 токенов в BLAS, а тут я прогнал через токенайзер, мне пишет что 414 токенов всего учитывается. что делать?
ропе не увеличивает размер контекста, он дает возможность работы на изначально большом запущенном контектсе
Запускаешь ты модель кобальдом, там ставишь 8к контекста например. Твоя сетка поддерживает только 4, значит тебе нужно добавить ропе так что бы она продолжала нормально работать доходя до 4к контекста. И вот ты ставишь при запуске не 10000 а например 40000.
Твоих 64к ропе хватит примерно до 12-16к контекста. Но некоторые модели вобще требуют при запуске 5 миллионов ропе или 500к, так что смотри что запускаешь
бля, анон, спасибо за обьяснения, но я всё равно нихуя не понял(
>Запускаешь ты модель кобальдом, там ставишь 8к контекста например. Твоя сетка поддерживает только 4, значит тебе нужно добавить ропе так что бы она продолжала нормально работать доходя до 4к контекста. И вот ты ставишь при запуске не 10000 а например 40000.
Запустил я кобальдом модельку, поставил 8к контекста. потом я выкрутил Context(tokens) до 7500. и начал крутить нейронку. однако нейронка начала ставить желтую линию сразу после трёх-четырёх сообщений, я поглядел сколько в них токенов, и там около 400-500. ну не должно ж так быть, если я запускаю в самом кобальде, такой хуйни не происходит, а вот таверна режет контекст.
Если в кобальде контекст 8к, и в таверне тоже 8к, то не должно быть проблем с генерацией до этих 8к. При условии что ропе тоже стоит, сетка должна спокойно до конца контекста отвечать.
Чем подключаешься к кобальду? Там изменилось подключение, сейчас так на новых версиях таверны и кобальда
Че означает эта линия не ебу
>Если в кобальде контекст 8к, и в таверне тоже 8к, то не должно быть проблем с генерацией до этих 8к. При условии что ропе тоже стоит, сетка должна спокойно до конца контекста отвечать.
Чем подключаешься к кобальду? Там изменилось подключение, сейчас так на новых версиях таверны и кобальда
да вроде всё правильно, и там и там 8к. подключаюсь как у тебя на скрине.
жёлтая линия это разделение чата на то что сетка помнит и что не помнит. и она у меня помнит только последние три-четыре сообщения. вот я и охуел с её амнезии.
Че то наебнулось, либо настройки таверны либо сама таверна. Скачай последний релиз куда то и запусти его отдельно и на нем тестово потыкай на том же кобальде
Если не поставишь галочку "анлок" то там по дефолту вроде 4к контекста. Огромная карточка, системный промт, и 2к буфер на ответ (!!!) - вот и нету твоего контекста. Нажми галочку и убавь длину ответа до 512. Если оборвешь - нажмешь "продолжить".
>>621867
> а например 40000
для 8к много
> 64к ропе хватит примерно до 12-16к контекста
Если ллама2 или подобное то там отупение пойдет уже.
>Если ллама2 или подобное то там отупение пойдет уже.
Допилят же когда нибудь селф-экстенд расширение контекста, может там и не будет отупления
>для 8к много
А сколько там? 32к вроде рекомендуемое, в любом случае все это подбирается методом тыка, можно и 20к поставить для начала. Только под конец 8к может не дотянуть
Олсо, надрочил нейронку писать себе книгу, лол. Много понял после этого эксперимента на десять тысяч шагов.
>На чём тренировать сетку?
Самое тупое - взять нормальный датасет и пройтись по нему переводчиком. Проверить потом чем нибудь на грамматику, орфографию и верный смысл. Той же нейронкой оценивать потом
гермес, Starling-LM-7B-alpha, openchat-3.5-1210, дельфин
Проверенные временем общие сетки
Вот что то новенькое в топе светит
NeuralBeagle14-7B
dolphin-2.6-mistral-7b-dpo-laser
> openchat:7b-v3.5-0106
Хочу попробовать опенчат, вот увидел там эта версия самая крайняя. Ставить ее или 1210?
еще один метод улучшения контекста
>>622133
новая лучше, по идее
>По-моему, чудес не бывает, весь "контекст" запихивается нейронке в глотку каждый раз заново, то есть ей каждый раз нужно просчитывать всё, тут нихера не оптимизируешь - больше памяти, больше пропускной способности.
Верно, запихивается, только уже обработанный. Заново требуется обработать только новые токены, которые ты ввёл в последней реплике. А сверху от (раньше) обработанного контекста отрезается старое в таком же количестве токенов, чтобы в контекстное окно всё уместилось. Короче, памяти под контекст нужно столько же, но обрабатывается теперь не всё контекстное окно, а только последняя реплика.
Так, блин, а вы почему думали, что обучение соло одним человеком —это сложно? Из-за железа что ли? ПФФФ. Обучение сложно из-за того, что тебе надо собрать хороший и подходящий тебе датасет. А это месяцы и годы работы, а не «скачал/сграббил форум и готово».
Не понимаю удивлений датасетам — других и нет, это логично и ожидаемо.
Потыкал переводы, вроде работает, не знаю правда лучше других переводчиков или хуже
Can I help you with something?
Переведи это на каждый из 10 доступных тебе языков " Компания TSMC вместе с учёными Тайваньского НИИ промышленных технологий (ITRI) представила совместно разработанную память SOT-MRAM. Новое запоминающее устройство предназначено для вычислений в памяти и для применения в качестве кеша верхних уровней. Новая память быстрее DRAM и сохраняет данные даже после отключения питания, и она призвана заменить память STT-MRAM, потребляя при работе в 100 раз меньше энергии. "
Sure, I can translate it into 10 languages for you:
1. English: TSMC, together with Taiwan Industrial Technology Research Institute (ITRI), has unveiled a jointly developed SOT-MRAM memory. The new memory is designed for in-memory computing and to be used as a high-level cache. It's faster than DRAM and retains data even after power is cut off and is expected to replace STT-MRAM, consuming 100 times less power when in operation.
2. Portuguese: A TSMC, em conjunto com o Taiwan Industrial Technology Research Institute (ITRI), apresentou uma memória SOT-MRAM desenvolvida conjuntamente. O novo dispositivo de memória está projetado para computação em memória e para ser usado como cache de nível superior. Ele é mais rápido do que a DRAM e retém os dados mesmo após o corte de energia. É esperado que ele substitua a STT-MRAM, consumindo 100 vezes menos energia ao operar.
3. Spanish: TSMC, en colaboración con el Instituto de Investigación de Tecnología Industrial de Taiwán (ITRI), ha presentado una memoria SOT-MRAM desarrollada en conjunto. La nueva memoria está diseñada para computación en memoria y para su uso como cache de nivel superior. Es más rápida que la DRAM y retiene los datos incluso después de que se corte la alimentación. Se espera que sustituya a la STT-MRAM, consumiendo 100 veces menos energía durante el funcionamiento.
4. French: TSMC, en collaboration avec l'Institut de Recherche sur la Technologie Industrielle de Taïwan (ITRI), a dévoilé une mémoire SOT-MRAM conjointement développée. La nouvelle mémoire est conçue pour l'informatique en mémoire et pour être utilisée en tant que cache de haut niveau. Elle est plus rapide que la DRAM et conserve les données même après la coupure de l'alimentation. Elle devrait remplacer la STT-MRAM, consommant 100 fois moins d'énergie lorsqu'elle fonctionne.
5. German: TSMC hat zusammen mit dem Industrial Technology Research Institute (ITRI) eine gemeinsam entwickelte SOT-MRAM-Speicher vorgestellt. Das neue Speicher-Dienst ist für in-Memory-Computing ausgelegt und zur Verwendung als Hochlevel-Cache gedacht. Er ist schneller als DRAM und behält die Daten bei, selbst nach dem Ausschalten der Energie. Er soll die STT-MRAM ersetzen, bei dem er während des Betriebs 100 Mal weniger Energie verbraucht.
6. Dutch: TSMC heeft, samen met het Taiwanese Industrial Technology Research Institute (ITRI), een SOT-MRAM-geheugen ontwikkeld. Het nieuwe geheugen is ontworpen voor in-memory-computing en om te worden gebruikt als cache op hoger niveau. Het is sneller dan DRAM en herinnert zich de gegevens, zelfs nadat de stroom is uitgeschakeld. Het is de bedoeling dat het de STT-MRAM zal vervangen en tijdens het gebruik 100 keer minder energie zal verbruiken.
7. Italian: TSMC, insieme all'Istituto di ricerca sulla tecnologia industriale di Taiwan (ITRI), ha presentato una memoria SOT-MRAM sviluppata insieme. La nuova memoria è stata progettata per l'informatica in memoria e per essere utilizzata come cache di livello superiore. È più veloce della DRAM e conserva i dati anche dopo aver interrotto l'alimentazione. È previsto che la sostituisca la STT-MRAM, consumando 100 volte meno energia durante il funzionamento.
8. Korean: TSMC는 타이완 산업기술연구소(ITRI)와 공동으로 개발한 SOT-MRAM 메모리를 선보였다. 새 메모리는 메모리에서의 컴퓨팅에 적합하도록 설계되었으며 상위 캐시로 사용할 수 있다. 더 빠른 DRAM과 다른 것은 전원이 꺼질 때에도 데이터를 계속 보관한다는 것이다. 이 메모리는 STT-MRAM을 대체하며 작동 중에 100배 적은 전력을 소모할 예정이다.
9. Chinese: 台积电与台湾工业技术研究院合作推出一种共同开发的SOT-MRAM内存。新内存设计用于内存中的计算以及用于高级缓存。它比DRAM快又能保留数据,甚至断电后仍可保留数据。它预计将取代STT-MRAM,在运行时耗能比STT-MRAM少100倍。
10. Russian: TSMC совместно с Институтом промышленных технологий Тайваня (ITRI) представила совместно разработанную память SOT-MRAM. Новое запоминающее устройство предназначено для вычислений в памяти и для применения в качестве кеша верхних уровней. Оно быстрее DRAM и сохраняет данные даже после отключения питания и, как ожидается, заменит память STT-MRAM, потребляя при работе в 100 раз меньше энергии.
Это нормальный топ моделей, а не то говно, что у вас прикреплено, где топ моделей оценивается по тому, как хорошо она сисик-писик свой расписывает.
Как бы не обсирали Айюми, у него там есть новые логи, где с тремя разными начальными состояниями генерации приводятся по три сценария чата между двумя персами. И это неиронично относительно хороший тест не только для кума, но и для ролеплея/сторителлинга в целом, потому что можно оценить "дефолтный" словарный запас моделей без кастомного промптинга и посмотреть, насколько они креативны/держатся за сценарий/тупят/наваливают бондов. Чатбот арена же ни черта не показывает пользователю, кроме того, что за модель больше голосовали на каких-то одиночных вопросах. Не знаю, в каком месте она может быть полезной.
Достаточно глянуть на каком месте у этого твоего Айюми стоит Vicuna 33b что бы понять уровень его "оценок"
> это неиронично относительно хороший тест не только для кума, но и для ролеплея/сторителлинга в целом
Двачую, их похвалить можно хотябы уже за то что прямо говорят суть теста и то что сам ранк может быть неточным.
>>622235
> нормальный топ моделей
Нормальный топ, оценки которого на 99.5% состоят из всратых зирошотов, и который показывает лишь то, насколько авторы натренили свою сетку под такое. Поведение модели, ее возможности, понимание инструкций - никак не иллюстрируется, список моделей ограничен, у некоторых очень странные промты, авторы замечены в подкручивании выдачи.
>>622283
> Vicuna 33b
На заслуженном 500 с хуем, как и положено пиздецовой древности на первой лламе, которая забывает инструкции через 1к контекста, а не где-то высоко как в той херне что ты притащил.
Из нормальных только QA находил. И тоже ёбка с парсингом требуется.
>>622140
Так тут экономия только на токенизаторе, остальное точно так же жрётся.
Там пихоновская обертка используется https://github.com/abetlen/llama-cpp-python в ней ссылка на коммит оригинальной репы. Подмахни на свою и собирай, установив в энв конды.
А что хочешь сделать?
Быстрее работает с AVX512 + HIPBLAS завёлся на амуде. Но видимо придётся пердолиться.
Блок сдох, уже 5 дней нихуя не квантовал. Как тут тестить с таким.
Единственная ссылка и скорей всего работает по новому ггуф формату, который только с последним релизом ллама.спп запускать
Не факт что не сломанный, к тому же
Пизда какая-то с интерфейсом, так ещё lama.cpp врам начал хавать пару лишних гигибайт на тех же моделях.
ЧТО БЛЯТЬ НАВОРОТИЛИ НАХУЙ?!?!
>по новому ггуф формату
А что там изменено? Не слежу последний месяц за новшествами герганова, чет надоело все, не было настроения.
>Обновил text web ui и всё в нём находящееся.
>ЧТО БЛЯТЬ НАВОРОТИЛИ НАХУЙ?!?!
Ну понятно, это как всегда. Переустанавливал раз в месяц-два когда что-то стоящее было в обнове. Нахуй эти обновления - через раз ломается бубуга. А теперь уже месяца три не запускал, уже скучно. Хули все одно и тоже практически.
Попробовал чат-версию, которая уже официально квантованая. Для 14В годно, но есть и говняк. Из хорошего - адекватность на месте, рандом ответов высокий и они без проёбов, промпта слушается отлично, в агрессию умеет. В целом прикольно отвечает, для тех кто хочет отойти от приевшихся мистралей/рп-файнтюнов должно зайти. И у меня сложилось впечатление, что модель знакома с азиатщиной, очень уж хорошо попадает в персонажа на аниме-карточках, нет такого как в мистралях, где прям видно что он не может понять как должно аниме себя вести по анимешным канонам. Или это упор на японский в датасете так позитивно повлиял.
Я тут подумал, а есть вообще файнтюны на чистом аниме? Чтоб вместо РП нормальные японские новеллы, фанфики по реальным персонажам и подобное.
Но есть цензура - в инструкциях на ниггера триггерится и блочится, в ролеплее отвечает без отказов, но заменяет слово на nig*r. В русский не может совсем, прям вообще никак, там упор на японский/корейский/китайский у них кроме английского. Ещё с форматом не очень понятно, надо банить EOS в рп-шаблоне таверны чтоб оно работало нормально, но из-за этого он иногда не может остановиться вовремя.
>А что там изменено?
Размеры стали меньше, качество возросло на 1 уровень. Например новый 4км по перплексити равен старому 5кs
О, это интересно.
>>622918
Проверь нет ли лишних флагов запуска, например для мультимодалок, или не поменялся ли контекст при загрузке.
>>623013
> что модель знакома с азиатщиной, очень уж хорошо попадает в персонажа на аниме-карточках
Тааак, а можно подробнее? Не пробовал ее спрашивать на карточке ассистента и с простым промтом "расскажи о _персонажнейм_ из _вселеннаянейм_"? Подобные модели, пусть иногда, но могут шикарный экспириенс давать в рп на персонажах, которых знают.
> Чтоб вместо РП нормальные японские новеллы, фанфики по реальным персонажам и подобное.
Сложно с этим, размер даже мелких новелл в контекст не уместить, а влезающие фанфики и додзи - примерно тот уровень что можно получить сейчас. Как вариант резать на куски и использовать суммарайз.
Всеравно тут только фантазировать, для обучения даже 13б нужно от 80гб врама.
А, нихуя не получилось, говно китайское.
llama_model_load: error loading model: done_getting_tensors: wrong number of tensors; expected 444, got 363
llama_load_model_from_file: failed to load model
> Не пробовал ее спрашивать на карточке ассистента и с простым промтом "расскажи о _персонажнейм_ из _вселеннаянейм_"?
Ну вот примеры, стандартная карточка из убабуги на симпл-1. Что-то в этом действительно есть. С менее популярными персонажами так легко уже не прокатывает, но вот другие модели внезапно даже так не могут. Микстраль знает о чём речь и откуда эти персонажи, но шизит и притворяется кем угодно, кроме кого надо, каждый свайп новая шизоличность. Опенчату и Yi вообще похуй, даже не пытаются изменять стиль речи, продолжают быть полезным AI-помощником. РП-файтюн 11В-солярки начинает говорить от лица нужного персонажа, но высерает сухие простыни монолога с нейтральным стилем.
Не включил опцию api или порт неверный в настройках таверны указал (например, 5001 вместо 5000).
>>623118
Вполне неблохо, баланс между основной инструкцией и запросом юзера.
>которая забывает инструкции через 1к контекста
Ты скозал? Потому что у меня всё норм, когда я выставляю 8к контекста.
> как в мистралях, где прям видно что он не может понять как должно аниме себя вести по анимешным канонам
> Французская сетка-ассистент
> Привет, ты зомби-горничная-сестра из аниме на 15 фанатов
> што, мой господин? О_О
Ну, не корите ее за это. =)
> Но есть цензура
Это грустно, несмотря на направленность Мистрали, она такое игнорит.
Неприятненько, не люблю джейлбрекать модели, а хорошую хочется.
С другой стороны, если юзать ее в паблик — то это даже может быть плюсом.
> азиатщина
Вот кстати с этим прикол у очень многих моделей. У меня в рп диалоге иногда всплывало chan и прочие японские приставки вообще не к месту. Ломает конечно погружение ахуенно. Видимо тренировали все на одних и тех же тюнах/базах
Ты серьезно юзаешь древнюю викунью в 2д24м? Не офк брутально, все дела, но зачем жрать этот кактус? Даже файнтюны шизоидных китайцев лучше с задачами справляются, в рп и около того даже не сравнимы.
> Ты скозал?
База первой лламы
>>623455
> Ну, не корите ее за это. =)
Опять ты за это. Дело в том что она примерно знает о чем речь и даже пытается выполнить эту инструкцию, но ловит затупы и шизит. Когда тестировал с ней получал аналогичный результат но уже в рп, причем иногда случались проблески и были адекватные посты, но не слишком часто. Учитывая что 7б с подобным могут справиться, такой результат вызывает недоумение.
> если юзать ее в паблик — то это даже может быть плюсом
Если чатботом в магазин - да. Если делать стримера то уныло, на выходе должна быть начало шутки а потом [censored], тогда будет топчик.
>>623555
> в колабе
> кобольддцп
> увеличения т/с
Перестань использовать костыльную штуку для безгпушных на коллабе с гпу, используй exllama в составе убабуги, в шапке ссылка на коллаб. Оно лучше всем, скорость, размер контекста, оригинальные семплеры, cfg.
Ну ладно, в общем так, да.
Ну, что наступит раньше — 48 гигов видеопамяти или умная живая 7B модель, — то и возьму, кек.
Тем временем, P40 добралась до доставки. Обещают 6-11 февраля, но я боюсь стаканется на их Новый Год. Хотя, по идее, должна успеть, если на таможне не сильно забито.
Думаю теперь, может взять вторую, чтобы гонять Mixtral? Люди пишут о 13-14 токенах сек на q6. Конечно, даже q6 пожмет 7B модельку, но, вроде, не так критично.
Сложный выбор.
>>621688
Тауэр у меня упорно выдавала испанский.
Тайгер говорит слабовато. Лучше Llama, но хуже Mistral.
Может я не умею их готовить, конечно.
———
Итак, теперь время играться с семплерами. Попробовал свой собственный инструкт, работает хорошо. Осознает нескольких комментаторов, может отвечать двум сразу, хоть и с пинка (но какой стример не отвечает с пинка?=)
На simple-1 с включенным миростатом отвечает… ну, более-менее.
Я читал, что миростат вырубает многие настройки, но, почему-то, если их крутить — меняется вывод. При этом, если вырубить сам миростат — вывод становится сильно хуже. Видимо, с миростатом работают какие-то дефолтные семплеры.
Нахуя так сложно, я сюда пришел деградировать, а не вот это вот.
Пайтон учи, семплеры учи.
Раньше было проще — я там че-то тыкал в таверне и оно мне отвечало.
Теперь надо прилепить распознавание речи и загнать ее в дискорд.
Никто не подскажет, Whisper, или есть аналоги получше?
Как реализовать слушание? Допустим, я включаю запись звуков, когда она заканчивает свой ответ. Но когда ей сигнализировать, что пора заканчивать слушать и начать отвечать? Просто по времени делать отсечки? Или как-то по тишине можно делать?
>Перестань использовать костыльную штуку для безгпушных на коллабе с гпу, используй exllama в составе убабуги, в шапке ссылка на коллаб. Оно лучше всем, скорость, размер контекста, оригинальные семплеры, cfg.
Пробовал ехл2, при большем жоре гпу получается меньше т/с, НО шизит меньше чем ггуф варианты. ХЗ
> Думаю теперь, может взять вторую, чтобы гонять Mixtral?
Если такой расход не обременителен и есть куда ставить - почему бы и нет. С другой стороны микстраль залупа, тут только надеяться на выход новой версии или годных MOE типа 2х34б. Или 70б оптимизировать до хорошей скорости.
А так вообще хотябы одной дождись и крути 20-34б, там скорости приличные.
> 48 гигов видеопамяти
Давай, нужно угореть по трешу и взять что-то из тюринга/вольты! Там были монструозные варианты на 48, они сильно дешевле А6000, но никто не знает фейл это или шин. Должен быть герой, который нам расскажет.
>>623595
А как ты запускаешь, что выбираешь и т.д.? exl2 правильно приготовленная жрет сильно меньше ггуфа того же размера и работает процентов на 30 быстрее, иногда даже на 100 если речь о больших контекстах.
> шизит меньше чем ггуф варианты
Они часто ломались и может быть просто битность больше, или вообще другая модель.
>А как ты запускаешь, что выбираешь и т.д.?
!pip install exllamav2
!python server.py --loader exllamav2 * --xformers
>может быть просто битность больше, или вообще другая модель.
Да нет, модель точно та же, а ггуф с большей битностью тоже был тупее за ехл2
>Я тут подумал, а есть вообще файнтюны на чистом аниме? Чтоб вместо РП нормальные японские новеллы, фанфики по реальным персонажам и подобное.
Я об этом думал с первых дней как сам попробовал эти модели с чат ботами. Но я бомж на амд со встройкой. Была бы у меня йоба-видеокарта, я бы попробовал сам разобраться как тренить модели с нуля. Выкачал бы с anivisual все новеллы что мог и начал бы пытаться обучать модель на сюжетах изз этих новелл. + подключил бы туда ещё самых знаменитых и качественных ранобэ на русском языке...
НоНо если бы, да кабы...
> !pip install exllamav2
> !python server.py --loader exllamav2 * --xformers
Флешатеншн вышел из чата?
Попробуй готовый блокнот из шапки, там убабуга должна быть со всеми фичами и зависимостями но это не точно.. Всеравно не себе диск жрадио и торчами засираешь и ничего не теряешь.
> а ггуф с большей битностью тоже был тупее за ехл2
А как именно это выражалось? exl2 более эффективный, но чтобы прям отупевало это какой-то косяк формата проявляется опять.
>>623629
> Была бы у меня йоба-видеокарта, я бы попробовал сам разобраться как тренить модели с нуля
Не представляешь себе ресурсов, необходимых для тренировки ллм. Так бы уже тут сидели и тренили все.
> Выкачал бы с anivisual все новеллы что мог и начал бы пытаться обучать модель на сюжетах изз этих новелл
Скачай самые отборные и залей, можно qlora на 13б натренить попробовать.
> Всеравно не себе диск жрадио и торчами засираешь и ничего не теряешь.
и то верно, ща гляну
>А как именно это выражалось?
скомканность ответов, следование контексту/понимание ситуации хуже
>prompt в виде строки отправляется только в режиме text_completions, в то время, как в chat_completions отправляются messages в виде массива.
Ебать ты гений.
>>621745
>2312
Устаревшее прошлогоднее говно.
>>621782
>Слова-то он и так интуитивно правильно разбивает на слоги.
Именно. А в английском токен это часто сразу слово. Так что проёб целого слоя для склеивания слогов в слова, а уж потом идёт смысл.
>>621825
>Какой кекабу, какой хабр?
Нормальные сайты с живым русским языком. Но книги конечно тоже нужны.
>>621825
Сисько?
>>621840
>Все жду, когда Сбер или Яндекс выпустят аналоги Мистрали
Уже выпускали же, говно говна вышло.
>>622140
>А сверху от (раньше) обработанного контекста отрезается старое
Только в случае голого чата, без инструкций. Если хоть один токен сверху есть, то всё, не работает шифт.
>>622322
>оно исправилось само собой
Нужно сгенерить один ответ, чтобы передвинуть линию, лол.
Теперь, за Аюми и двор ебашу в упор.
Это же очевидно и это же соответствует openai api, ты бы хоть почитал. Как в анекдоте где клоун от пидарасов прячется.
> все эти [INST][/INST] прописать вручную
У мистральки один из самых простых форматов, буквально оборачиваешь этим и все. Есть нюансы с пробелами и переносами, но это понятно если посмотреть как токенайзер работает, проверь результаты с отправкой пробела и без нее, могут отличаться значительно.
А вообще он альпаку нормально понимает, за счет форматирования иногда даже лучше чем штатные inst.
>>623690
Мусор из датасета не отфильтровали.
>>623695
> РП (без хентая) просто агонь
Заявка. Можешь чуть подробнее ее описать и как в сравнении с другими?
>Заявка. Можешь чуть подробнее ее описать и как в сравнении с другими?
Не уходит в самоповторение, это беда всех файнтюнов yi34. И нормально может в причинно-следственные связи без шизы. Это вторая беда рпшных yi34, а в среднем все файнтюны yi34 более-менее могут в нормальную лексику.
>>623701
>Это по какой метрике он самый высокий?
Пикрил.
> проверь результаты с отправкой пробела и без нее, могут отличаться значительно.
Да, вот это меня пиздец смущало.
Проверю все-таки, спс.
>>623715
1 (113) =)
Не-не, я ниче, просто кек.
Про тьюринг-вольту — поищу интереса ради, канеш.
>1 (113) =)
Чел... Что с тобой? Тебе писали же в исходном посте.
>>623695
>В рейтинге Аюми среди 34b самый высокий ранг у...
> Чел... Что с тобой? Тебе писали же в исходном посте.
Чел… Что с тобой? Писали же не мне.
Нахуй мне ваш аюми рейтинг, я просто кекнул с 1 (113) места и все, никаких претензий, это просто забавно. =) Нахуя токсить в ответ ни за шо?
Умерь агрессию.
Я не участвовал в вашем диалоге, проскипал, мне Yi-34b просто неинтересна в текущем виде сейчас, вот и все.
Логи удобно читать не в зашакалённой веб морде, а в терминале.
Ищи первую строчку где появилась ошибка. Часто остальные строчки являются следствием первой.
> Первая
> 113
Лол.
Офк с учетом того как именно формируется их рейтинг это нормально. Можно по логам оценить вполне, а так обычные показатели высокие.
>>623725
> Про тьюринг-вольту — поищу интереса ради, канеш.
Ты только посмотри на эту няшу, яркие цвета, агрессивная зеленая линия, мощная турбина без турболага! Смущает турба - есть исполнения под прямую продувку без ничего, для полного погружения.
В теории она должна быть даже шустрой и иметь норм скорость в малых битностях. Правда bf16 и подобного не завезли.
Или поищи экстремальный вариант - тюнинг 2080ti до 44гб.
Давай, нужно интересную движуху организовать и зрелища.
А ну да.
Поврежденная модель что ли. Я пытался ориона сначала на кобольде запустить, но как разузнал че она не запустится там, пришлось попробовать угабугу заново поставить.
а что тогда его поддерживает сейчас с гуфом? И вообще есть ли смысл эту сетку тестить? Умнее ли чем 20b?
Пизди больше, mlewd-remm-l2-chat-20b и другие топовые 20b кум сетки и сейчас мало что обойдет из 34b
Самая дешевая карточка с объемом памяти побольше, проскакивает на ебее и лохито. Есть еще A5000 ada на 32 но они новые и стоят очень дорого.
>>624098
По выполнению инструкций 34б лучше. В рп - по ситуации.
> mlewd-remm-l2-chat-20b
Это говно даже хуже 7В в следовании промпту и адекватности.
> Это говно даже хуже 7В
Да не выдумывай, я сидел на 13б мlewd и запустив 20б, был приятно удивлен деталями повествованиями и общим здравомыслием сетки.
> деталями повествованиями
Простыни шизоидных историй с миллионом эпитетов - это не адекватность.
Сухое "ы меня ебешь" это не лучшее следование промту.
Такое как раз 7б присуще, спамит графоманской шизофазией примерно по теме, не понимая сути и то как это нужно применять.
Так это как раз 20В-шизомиксы безотказные, принимающие за истину крайние 2-3 поста.
Не ждем, а готовимся. =D
>>623749
Кек, щас за 200к на авито есть.
И правда интересно, какой перформанс.
Как минимум, выгоднее 4090 выглядит.
А вот 3090 уже будет заметно дешевле.
Но интересно направление, да.
> Кек, щас за 200к на авито есть.
Дороговато, если только торговаться прилично. Хотя офк смотря с чам сравнивать.
> интересно, какой перформанс
Как у 2080ти на 10-30% быстрее. Если ее действительно подешевле найти то может быть выгоднее чем пара 3090, плюс обучение чего-то доступно.
Так ощущение что когда сетка на одной карточке оно меньше врам использует чем когда на паре в сумме, то что помещалось в пару с запасом по 1-2 гига на кажду на единой оставляет свободным овер 8.5 гигов. Но может дело в новом флеш атеншне.
Такс, а чё получается, если использовать KoboldHorde а не локально у себя запускать то там параметра Rope не существует вообще в принципе?
мимо
https://github.com/janhq/jan
говорят
Наконец-то придумали как установить ChatGPT на базе своего компа — бесплатно, без VPN и цензуры.
В отличие от других установщиков с GitHub, тут все удобно упаковано и с установкой справится кто угодно. В самом клиенте вам предложат загрузить модели — лучше выбирать «короля open-source» Mistral.
Нормальная штука? можно покумить там? кто то пробовал?
Так это же просто веб-морда для llama.cpp очередная, не?
> Наконец-то придумали как установить ChatGPT на базе своего компа
> В отличие от других установщиков с GitHub, тут все удобно упаковано и с установкой справится кто угодно
Этих инновационных установщиков где все круто и готово по несколько штук в неделю выходит. На деле же как >>624405 подметил, это просто обертки поверх llamacpp, где автор уже забил какие-то известные только ему параметры и ограничил список моделей.
7.5к звезд не то чтобы мало, хотя хайповая тема, можешь попробовать, но преимущества эта штука никакого не даст.
> можно покумить там
Для эффективно покумить проще связки кобольд_цпп + таверна не придумали. Лучше нее только убабуга + таверна если есть железо.
Хотя если совсем бреинлесс подход использовать - попробуй, если времени не жалко.
Что насчет этой? Говорят ебет мистраль и AGI Eval достаточно высокий.
> 6b
> AGI Eval достаточно высокий
Последнее время идёт дрочь именно на все эти тесты, а не реальное использование
Это не важно, когда средство оценки становится целью, это больше не средство оценки
Самые главные параметры все эти тесты не учитывают - количество одновременно выполняемых инструкций, их сложность, и время удержания этих инструкций в контексте
И вот неожиданность, тут прямая связь с размером. Потому что эти мозги зависят от количество слоев, которых тем больше чем больше размер сетки.
Поэтому собственно солар обходит мистрали, несмотря на небольшую разницу в размерах
>>624491
> https://github.com/THUDM/ChatGLM3/blob/main/README_en.md
Челы, нахуя вы душните? Вот модель, тестируйте.
>Скачай самые отборные и залей, можно qlora на 13б натренить попробовать.
Это как? Можешь гайды подкинуть?
Куда там .wav файлы то кидать? Какая структура папок в экстре?
Оно вроде несовместимо со всякими лама/кобольд.дцп и прочими тавернами, там какой-то свой китайский загрузчик. Во всяком случае, раньше так было.
>Knowledge Engineering Group (KEG) & Data Mining at Tsinghua University
Хм, это же авторы CogVLM, самой пиздатой открытой визуальной модели, которая ебёт всё что движется, и даже GPT-4V поёбывает местами. И CogAgent, аналогов которой вообще нет. И дохуя ещё годных моделей.
Они в некотором смысле китайский мистраль, просто не так расхайпаны за пределами Китая как французы. Могли и что-то путное высрать, надо проверить.
Как и с мистралем-медиум, у них тут https://www.chatglm.cn/ крутится модель побольше, пока не открытая.
>проёб целого слоя для склеивания слогов в слова
Это же на уровне токенизатора можно настроить, там есть что-то вроде merges. Уже точно не помню. Другое дело, что модель сходит с ума при такой настройке и нужно тренировать новую.
Тренировка на книгах - залупа, нейронка подхватила разные имена, названия, уверовала в Зону и так далее. Ещё обучилась хуярить адовые простыни, но из-за проёба в настройках тренировки, она быстро забывает о чём речь и начинает растекаться во все стороны.
Также тренировка на человеческих чатах оказалась залупой. Возможно, в тексте нужно заменять все имена на какие-то теги, но я в душе не ебу. Из-за этого же я теперь общаюсь с долбоёбом, который не понимает разницы между "ты" и "я".
В этой связи есть идеи, но как быть с именами?
Ебанул себе клиент к угабуге виндовым приложением, чисто визуально скорость выше, чем в вебюи. Хотя это и наебахтунг, скорость генерации одинаковая. Оказалось, что при адекватных параметрах температуры и прочей хуйни отвечает нормально и без Instruction template. А вот если эти параметры недокрутить - можно узнать много нового о словарном запасе модели. Мат, нигеры, пидоры, мудаки, политота. Я ебу.
Олсо, в настройках убабуги по поводу истории написано следующее
>The leftmost tokens are removed if the prompt exceeds this length. Most models require this to be at most 2048.
Но при работе по апи можно загнать в историю только сырые сообщения, никакими токенами не воняет. Это наёб убы и она тоже хранит историю нетокенизированной? Кто-то ебал контест по апи? Если я токенизирую все старые сообщения и зашлю в инпут, то это не сработает, модель видит это всё, как числа.
Ещё чекнул выгрузку в RAM. По сравнению со скоростью на gpu это маловато. Проёб скорости сильно зависит от того, сколько выгружено в ram, но даже немножечко, чайная ложечка - это уже пиздос.
Если ты тупо наизусть выучишь билеты экзамена, это не значит что ты будешь силен в предмете и понимать его. И насчет реальных сценариев - нихуя не отражают многие из них.
>>624484
Кобольд - обертка вокруг llamacpp, местами довольно развитая и с фичами, но не более. Конечно будет.
>>624496
Это скачай и отбери самые интересные и залей, как очередь дойдет, попробую на потренить на q8 11 или 13б.
>>624519
Проорал с пика, огонь. Но объективно она залупа, те же yi на порядок умнее с точки зрения способности подмечать и следовать.
>>624531
Уважаемые ребята, надо будет попробовать.
>>624539
> Другое дело, что модель сходит с ума при такой настройке и нужно тренировать новую.
Ну ты же буквально начинаешь кормить ее токенами, которые раньше имели совершенно иное значение и отвечали за другие слога, естественно ее потребуется переобучать, причем достаточно основательно.
> Тренировка на книгах - залупа, нейронка подхватила разные имена, названия, уверовала в Зону и так далее.
Ты просто сгружал ей части текста из них?
> Возможно, в тексте нужно заменять все имена на какие-то теги
Естественно так нужно делать. Скачай llima датасет, он лежит на обниморде, и посмотри как там сделано. Специальные емлы с четкой разметкой и возможностью удобно загружать и формировать промт под нужный для модели.
> Ебанул себе клиент к угабуге виндовым приложением
Вут?
> Но при работе по апи можно загнать в историю только сырые сообщения, никакими токенами не воняет.
И оно честно это направит в лоадер, где после токенизации раскидает в выделенный массив (при этом левые токены действительно сожрутся) и сразу триггернет ошибку ибо буфера под ответ не осталось.
Если же будешь использовать чат комплишн - там уже будут отсекаться сообщения так чтобы в сумме поместился системный промт, форматирование всего плюс пустые токены на максимальную длину ответа.
> она тоже хранит историю нетокенизированной
Естественно, а как иначе и зачем? Или может не понял вопроса про что ты.
Чёт навалили новый метод обучения под рп, кажется может быть топом, учитывая что предлагают учить сетки без тонн кала с гопоты
С правильным промптом - можешь даже заставить этого персонажа визуальные новеллы писать, лол. В /ruvn/ за этим кстати недавно одного умника спалили.
> без тонн кала с гопоты
Self-Alignment ещё хуже. Лучше уж алигмент к гопоте делать, чем к лоботомированному рп-калу.
Ну хуй знает, меня уже shivers и другая женерик хуня заебали. Пока кто-нить не попробует на этом модель потюнить не узнаем годнота или кал. Но выглядит свежее чем очередной шизомерж.
А что рассказывать, одни чуваки собирали бабло на мод к ЛМР, спустя полтора года выпустили бетку мода, в которой все диалоги настолько плохи, что двач сразу заподозрил нейросеть, так и оказалось, автор хвастался подсосам что научился заставлять нейронку писать ему текст более-менее выдерживая мир и персонажей, а подсосы взяли и слили все это с пруфами.
>причем достаточно основательно.
Я попробовал смержить модели на разных токенизаторах, скопировал токенизатор из первой и установил веса второй в районе процента. Модель ебанулась полностью.
>Ты просто сгружал ей части текста из них?
Ага. Иногда с оверлапом, чтобы у неё сложилось какое-то понимание, что абзац А связан с абзацем Б.
> llima датасет
Все имена в исходном виде лежат. Единственные спецтеги, которые нашёл, это что-то вроде text{degree Celsius} и, скорее всего, связаны с форматированием текста. Не то.
Меня интересовало что-то вроде
"instruction": "Here are $username. Punch him in the balls!",
"input": "",
"output": "I punched $username right to his balls. How do you like it, huh? Jerk."
Чтобы модель запоминала абстрактное пинание по яйцам, не пинание конкретного персонажа. Неужели так нельзя?
>Вут?
Чё? Программа под винду для общения с убабугой по api.
>плюс пустые токены на максимальную длину ответа
Ёбаный рот этого казино.
>а как иначе и зачем?
Чтобы избежать повторной токенизации. Это же бессмысленная работа на каждой отправке каждого сообщения. У тебя есть здоровенная история и небольшое новое сообщение. Абсолютно логично затокенизировать всю историю и гонять её в обход токенизатора. Ну, для этого надо разбираться в питонокоде и переписывать апи, а я что-то в рот ебал такие развлечения.
<START>
{{user}}: 1111111
{{char}}: 1111111
END_OF_DIALOG
<START>
{{user}}: 2222222
{{char}}: 2222222
END_OF_DIALOG
ОРУ
>>624417
> Для эффективно покумить проще связки кобольд_цпп + таверна не придумали. Лучше нее только убабуга + таверна если есть железо.
Это база.
>>624509
Тока отдельную версию… =(
>>624531
> пока
не стоит загадывать, чтобы не разочаровываться. =)
>>624539
> Возможно, в тексте нужно заменять все имена на какие-то теги
Серго, да ну нахуй.mp4
>>624616
А в чем проблема-то? 99% вн-ок написано людьми, но лучше от этого не становятся.
Еще можно вспомнить йуных художников, которые рисуют 5 пальцев, но так хуево, что лучше бы начали ими пользоваться при рисовании.
Не вижу проблемы вообще.
Проще всего начать диалог с этим персом и посмотреть в консоли, в каком виде оно выводится. Насколько помню, тега END_OF_DIALOG не существует. <START> заменится на текст, который указан во вкладке форматирования в поле для разделителя (сразу под окном стори стринг). Проверить вывод в консоли всё равно стоит, потому что к примерам может цепляться всякая фигня из инстракта (префиксы/суффиксы), которая имхо в случае примеров всё портит. Так что если диалоги реально какие-то важные особенности речи и поведения персонажа доносят, и планируешь, что их нужно будет оставлять в контексте, то я бы советовал лучше запихать прямо в дескрипшен перса без разделителя с каким-то кастомным промптом. Я обычно переношу в таком формате:
These are some examples of {{char}}'s speech and reactions:
<examples>
тут диалоги один за другим вида
{{user}}:
{{char}}:
а лучше даже так
какое-то действие кого-либо по отношению к персу или специфический вопрос, триггерящий особенности поведения перса
{{char}}:
</examples>
Последний вариант не захламляет контекст бесполезными примерами речи юзера.
>Конечно будет.
Шикарно, а то на AMD вменяемо работает только ROCm вариант кобольда и я к нему как-то привык уже.
Системный промт поправь что "ты сторитейлер" а не "отыгрываешь чара".
>>624615
Там что-то инновационное интересное?
>>624651
> Модель ебанулась полностью.
Иного и быть не могло. Может быть как-то заработает если возьмешь первые N и последние M слоев от первой, а в середину вставишь от второй.
> Ага. Иногда с оверлапом, чтобы у неё сложилось какое-то понимание, что абзац А связан с абзацем Б.
Ну бля, тут аналогично. Посмотри с чем работает сеть, в начале системная инструкция, потом описание и т.д. А ты просто пытаешься научить ее рандомно продолжать какой-то непонятный текст на входе. Да, так делали иногда это кое как криво работало, но ничего хорошего не получалось.
> Все имена в исходном виде лежат.
Там персон1 персон2 емнип, а имена отдельными параметрами. Все сделано специально чтобы ты при тренировке под правильный инстракт формат сформировал.
> "instruction": "Here are $username. Punch him in the balls!",
> "input": "",
Какая-то ерунда, не понял что тут. Подобное просто промтом делается.
> Чтобы избежать повторной токенизации. Это же бессмысленная работа на каждой отправке каждого сообщения.
Литерали экономия на спичках, а при изменении символа в середине может по пизде пойти серия токенов. Время на эту операцию пренебрежимо мало по сравнению даже с генерацией одного токена.
> бсолютно логично затокенизировать всю историю и гонять её в обход токенизатора.
Главная оптимизация - кэш контекста, уже сделана, причем достаточно устойчивый. Офк никто не мешает заняться этим, но просто потратишь время которое за всю жизнь не окупишь.
>>624853
Этот датасет вьюер показывает только содержание. Внутреннюю структуру ты сам должен оформить и имена там должны быть указаны в каждой таблице. Собственно справа как раз вступление с началом.
извини за гуро, меня интересуют не совсем обычные развлечения, но, думаю, суть ты ухватишь.
Натащил знатно, и как оно работает? Кроме этого там никакого описания мира, сеттинга и т.д. нет, или оно в первых сообщениях?
> за гуро
Обычно хватает Extreme violence is allowed and preferred when fits the plot.
Да вроде заебись работает, просто указав в первом сообщении примерно что должно происходить на экране. Иногда, если хочешь поиграть в гарри поттера или властелин колец, забиваешь что-нибудь в ворлд инфо, но и без него нормально играется. Я вот забил в ворлд инфо имена персонажей с их типажами, чтобы не путаться кто есть кто.
Чары лорбуком выходит идут? Так-то тема годная, вопросы к кучи настаканных инструкций в карточке, а в остальном выглядит хорошо.
> Так-то тема годная, вопросы к кучи настаканных инструкций в карточке, а в остальном выглядит хорошо.
Я экспериментирую с ней пока, да, там не поймешь когда какая инструкция реально работает, а когда это токеномусор, но, мне кажется, для того чтобы уловить суть этого достаточно. В настройках только включи адвенчур мод
> Если ты тупо наизусть выучишь билеты экзамена, это не значит что ты будешь силен в предмете и понимать его
Глупое сравнение, экзамен с парой десятков билетов и бенчмарк с сотнями тысяч, которые местами полностью покрывают топик.
Не пробовал оформить это в несколько предложений и связать некоторые пункты? Офк необязательно будет лучше, но есть шанс что более устойчиво будет восприниматься.
Тема в любом случае интересное, красавчик. На какой модели такое гоняешь?
>>625017
> бенчмарк с сотнями тысяч
Это где такой бенчмарк где сотни тысяч тестов? Столько в датасетах не будет.
По бенчмаркам потому и был вой что их вопросы буквально спамили в датасеты, сейчас перешли к перефразированию, но суть та же.
> полностью покрывают топик
Какой топик? То что модель надрочат складно отвечать на примитивные вопросы нормисов не значит что она выполнит более менее сложную инструкцию, а то и вообще воспримет что от нее нужно.
>Не пробовал оформить это в несколько предложений и связать некоторые пункты?
О, заебись идея, попробую, тем более что я половины из дескрипшона вообще не чувствую.
> На какой модели такое гоняешь?
Перепробовал вот эти, пока что лучшая норомейда как по мне, фроствинд сухой и любит предложения затягивать по мере чатика, пробовал ещё Airoboros на 34B, тоже неплохо, но во-первых, менее кумабельно чем норомейда, а во-вторых, две секунды на токен я рот ебал.
Дошли мне мои 15к-оборотистые вентиляторы, держу в курсе. На полных оборотах как и ожидалось, орут.
Но я не об этом пришел поговорить.
Кто-нибудь что-нибудь может сказать об этой модели?
https://huggingface.co/EleutherAI/pythia-12b
Она походу обучена вообще без цензуры. Может ли она быть интересна нам?
> Может ли она быть интересна нам?
Нет. Сейчас база до 34В - это Орион.
>если возьмешь первые N и последние M слоев
Подозреваю, что модель всё равно ебанётся. Не буду проверять.
>Там персон1 персон2 емнип
Нет. По большей части идёт избегание имён, но где они есть - они есть.
>Jack's cubicle was outstanding, which was ironic
>Write an imaginary rap battle between Steve Jobs and Bill Gates.", "Here is an imaginary rap battle between Steve Jobs and Bill Gates
>Martha is grinding a spice paste. She adds 3 tablespoons of ginger, 1 teaspoon of cardamom
>Jamir and his two friends Sarah and Julien, go to their school's swimming pool
И так далее.
>в начале системная инструкция, потом описание
Инструкция, запрос, ответ. И это работало бы, но я тренировал с малым контекстом. То есть да, на выходе страница из ёбаной книги, только полное ощущение, что читаешь ты её во сне. Ну или после гуглтранслейта, лол. Просто потому, что нужно было хуярить контекст в разы больше, но здесь уже лимиты по железу.
>просто промтом делается
В обучении? Промптом?
>Литерали экономия на спичках
Примерно секунда на каждые 12к токенов. Это очень дохуя.
>а при изменении символа в середине может по пизде пойти серия токенов
А с хуёв будет меняться середина истории?
>Главная оптимизация - кэш контекста, уже сделана
Контекст это и есть история. Погонял web ui, посмотрел на глаз, сколько токенов генерируется и пишется в контекст, судя по всему, обрезаются знаки препинания, системные токены и повторы местоимений. Но это не точно, я ебал в код смотреть.
То есть мои изначальные выводы о том, что история не сохраняется в токенизированном виде, видимо, ошибочные. По крайней мере, для web ui.
>Этот датасет вьюер показывает только содержание
Он показывает содержимое, а не содержание. Просто разбил instruction, input и output по столбикам.
>Внутреннюю структуру ты сам должен оформить
Это готовый датасет, полностью подготовленный к обучению. И на нём уже обучил лору сам автор.
> GPT-Neo
> помойка из 2020 вместо датасета
Даже в теории ничего хорошего из этого не может получиться.
> 15к-оборотистые вентиляторы
Давай лучше о них, они со спрямителями потока на выходе? Тянет их стандартные порты материнки или через молекс/сату питание кидать? Насколько охлаждают траханье и шумны если в корпусе?
> Может ли она быть интересна нам?
Не. Это же на древности типа жпт-2 или чем-то подобном с 2к контекста и очень глупое.
>>625095
> модель всё равно ебанётся
Ну не совсем, такая нарезка работает, была даже статья в которой отследили улучшение с подобным методом. Как себя поведет с другим токенайзером - хз, но скорее всего если правильную методу применить оживет.
> олько полное ощущение, что читаешь ты её во сне. Ну или после гуглтранслейта, лол.
Ну так и чего ты хотел-то, чтобы усваивало связь нужно соответствующим образом готовить, балансировать датасет и обучать не поверх 4 битов лорой.
> В обучении? Промптом?
Модель и так это знает, чтобы применяла нужно попросить промтом.
> А с хуёв будет меняться середина истории?
Лорбук, или ты что-то там решишь поменять. Или банально когда кончится окно контекста и пойдет суммарайз+смещение, это будет на каждый запрос.
> что история не сохраняется в токенизированном виде, видимо, ошибочные. По крайней мере, для web ui.
В лаунчерах есть кэш и это главное. Остальное - строго похуй, влияет только на нервы страдающих.
> готовый датасет, полностью подготовленный к обучению
И под какой тогда он формат? А то что автор разбил по сути - уже молодец, при инстракт режиме типа альпаки там и не должно быть имен перед ответом, только внутри.
Линк реквестирую.
Это который https://huggingface.co/OrionStarAI/Orion-14B-LongChat ? Как его вообще запустить, если он не в ггуфе православном? Я пытался завести пару раз оригинальные веса через убабугу, но трансформеры меня каждый раз подводили. Есть выход для ретардов-виндососов?
В EXL2 есть поддержка. А про гуф - это Жору надо пинать, в Орионе немного нестандартная архитектура.
>улучшение с подобным методом
Так это франкештейн просто. Да, какое-то улучшение будет, но с другим токенизатором ебанётся гарантированно.
>обучать не поверх 4 битов лорой
А это похуй. Я уже пробовал и полную битность, и восемь, и лоры, которые чуть ли не половину модели заменяют. Проблема именно в длине контекста, если правильно настроить, то можно и на четырёх битах обучать.
>суммарайз+смещение
Да это примитивно делается, на каждое сообщение массив токенов. Выбрасываешь сообщение - выбрасываешь его токены. Перегенерируешь сообщение - заменяешь токены.
>применяла нужно попросить
Так я тебе говорю, что модель при обучении запоминает это. А это лишнее. А каких-то спецтегов, чтобы пометить имена, как, собственно, имена - не нахожу. Максимум, который нашёл - совет заменить все имена на Джон Доу. Охуительно.
>В лаунчерах есть кэш и это главное.
Включил вербос в уге. Выглядит так, что кеша нет. Та же таверна суёт всю историю в промпт и хуярит плейнтекст. А, так как api у нас stateless, то и уга не сохраняет ничего в кеш.
>И под какой тогда он формат?
Очевидная альпака.
https://huggingface.co/datasets/Tarklanse/Traditional_Chinese_roleplay_chat_Dataset
Ссылка вот, но вряд ли она тебя порадует.
> А это похуй.
Как раз строго не похуй. Если получается везде хуево - значит тренировка (датасет и/или параметры) очень плохие.
> Да это примитивно делается, на каждое сообщение массив токенов. Выбрасываешь сообщение - выбрасываешь его токены.
Юзлесс ебля ради юзлесс ебли. Сделай если так хочется, отпустит.
> что модель при обучении запоминает это. А это лишнее
Так и не понял что она запоминает, перефразируй в чем там идея. Увидел только странную инструкцию в которой вместо инструкции какое-то сообщение, пустой инпут и панч ин баллз чтобы запоминала. Если ты про формат имен унифицированный - юзей user/assistant и поменяй заголовок общий. Если хочешь чтобы оно в инстракте норм работало - в начале пиши инструкцию где указываются имена, описания, история чата и дается указание написать новый пост, а в респонсе - ответ или просто с самим текстом, или в начале имя а потом текст. Имена желательно чтобы были разнообразные. Посмотри какой промт формирует таверна и придерживайся того же.
> Выглядит так, что кеша нет.
Какого кэша, ты про что в итоге? По апи там формат как у опенов но с расширениями, вызовы или на комплишн где передается полный промт и далее идет генерация, или на чат, где передаются мессаджи, а убабуга уже сама запиливает форматирование, отсекает и кормит результатом лаунчер. Последний кеширует обработку запроса, если промт будет более менее совпадать то не станет обрабатывать по новой а просчитает только новые/изменившиеся токены.
>Давай лучше о них, они со спрямителями потока на выходе? Тянет их стандартные порты материнки или через молекс/сату питание кидать? Насколько охлаждают траханье и шумны если в корпусе?
1. при увеличении силы потока радиатор наконец-то перестал копить в себе постоянно тепло. Турбины которые я ранее ставил - были слишком слабые, это точно.
2. спрямители есть, я показывал ранее https://market.yandex.ru/product--servernyi-ventiliator-arctic-s4028-15k-acfan00264a/1767643955
3. у них 4-пиновые разъемы. я сначала повесил их на 12 вольт без контроля. На полных оборотах ревут так, что даже если сервер стоит на балконе - я его слышу довольно громко. Я подумал, что так не пойдет, поэтому посадил вентиляторы на маткринские порты для шасси. Они стали заметно тише, но увеличивают обороты не когда греются карты, а когда греется b450 чип на плате. А он быстро остывает, поэтому карты все равно греются до 90 под нагрузкой. Я искал как на линуксе повесить контроль шасси фанов на температуру карт, но только говна поел. Производители не считают нужным для каких-то там линуксоидов пилить нормально поддержку своего говна. Ссуки блядь. Придется крутилку ёбаную ставить или ардуину корячить в корпус, чтобы программно управлять оборотами.
> искал как на линуксе повесить контроль шасси фанов на температуру карт, но только говна поел. Производители не считают нужным для каких-то там линуксоидов пилить нормально поддержку своего говна
Ну там же буквально запрос в nvidia-smi а потом запись по acpi скорости, посчитанной по своей функции. Если матплата припезднутая и не получается управлять крутилляторами, есть колхозные но эффективные решения типа добавить пердуину или любую плату, которой по последовательному порту будешь слать сигнал. Есть и готовые решения типа https://github.com/AL-FC/AL-FanControl по крайней мере оттуда что-то вытащить можно.
> или ардуину корячить в корпус, чтобы программно управлять оборотами
Не читай@отвечай, сам все шаришь.
Алсо поставить 2 последовательно чтобы работали на 50% не хватает для охлаждения?
>Алсо поставить 2 последовательно чтобы работали на 50% не хватает для охлаждения?
хм....не пробовал. Спасибо за ссылку на проект, не находил его в поисках.
Я думаю, не буду на постоянном уровне их держать. Половина шума - это все еще шум.
Ну, греются они приемлемо. Жорой довести карты до 90 градусов не получится потому что он утилизирует их примерно наполовину. Горячие становятся только под SD если держать нагрузку в сотню больше ~5 минут.
из картона и скотча сделал временный кожух. Мне товарищ распечатает на принтере нормальные кожухи чуть попозже.
>датасет и/или параметры
Я же изначально писал, что в параметрах беда.
>Юзлесс ебля ради юзлесс ебли.
Экономия секунды на каждых трёх сообщениях с контекстом 4к при 12400 интол. Это далеко не юзлесс. Больше контекст - больше потери. Хуже проц - больше потери. Другое дело, что это нельзя реализовать на стороне фронта. А свой бэк писать такое себе развлечение.
>странную инструкцию
Это стандарт Альпаки. Грубо говоря, инструкция это Q, output это A, а input это опциональный контекст сообщения, который может быть пустым. У викуньи немного по-другому, инструкция и оутпут это всё то же, а контекст один на всю тренировку.
>в начале пиши инструкцию где указываются имена
Блядь, нет. Я про обучение толкую. Если у меня в датасете будет Мистер Залупочёс, то модель запоминает Мистера Залупочёса. И потом будет использовать его.
>Какого кэша, ты про что в итоге?
Про кеширование истории. Залез всё-таки в код, encode это токенизация, question это промпт. Весь. Вся история передаётся в промпт, потом весь промпт токенизируется, если оказывается слишком длинным, то обрезается. Я сразу же проверил, как это работает и пизданул очень длинный промпт. Загрузка гпу на нулях, токенизация идёт в один поток на процессоре. Модель safetensors, загрузчик трансформерс. Когда это отработало, контекст сбросился полностью, да вот беда, если заслать длинное сообщение в чат уги, то оно отсылается с каждым нажатием Generate и каждый раз токенизируется заново. На процессоре. В один поток. И получаем скорость генерации в 2 токена\с, но это пиздёж, т.к во время генерации вошла токенизация, результаты которой в итоге даже не были использованы.
> Экономия секунды на каждых трёх сообщениях с контекстом 4к при 12400 интол. Это далеко не юзлесс.
Десятки-сотни миллисекунд на фоне десятков секунд (сотен в твоем случае раз на профессоре) - времязатраты никогда не окупятся и это никак не изменит экспириенс. Больше повторять не буду, хочется - ебись.
> Про кеширование истории.
> загрузчик трансформерс
Земля пухом.
> но это пиздёж, т.к во время генерации вошла токенизация, результаты которой в итоге даже не были использованы.
> 2 т/с, 45 токенов, контекст 64
Приличные слова кончаются. Лень расписывать, хотябы изучи как это работает и не позорься.
> Это стандарт Альпаки.
У тебя там не стандарт альпаки. В стандарте альпаки в инструкции системная инструкция, по-хорошему она должна быть типовая для задачи. После, все там же, пишутся конкретные задачи, описание условий, исходные данные. Есть незначительные вариации связанные с полем ###input, но его особо никто не юзает и нахер не нужно. Потом ответ и в нем уже результат. А теперь сравни это со своим примером, какая-то странная анрелейтед реплика и какой-то странный ответ, такое только все заруинит.
> Я про обучение толкую.
Ты пытаешься обучать модель тому что она уже знает-умеет, если речь об этом примере. Чтобы внести в знания модели "Мистера Залупочёса" и ничего не поломать потребуется немало усилий (и все равно соснешь). А можно просто описать его в промте.
Инициатива и желание что-то сделать, внести свой вклад и т.д. - это похвально, но такое надо делать не с голой жопой. Хотябы самые базовые основы изучи, иначе это полнейшая кринжатина.
> Лень расписывать, хотябы изучи как это работает и не позорься.
Для меня уже давно позорники те, кому лень, кто гейткипит и пишет подобный бред. Ты задумайся.
мимошел
>сотен в твоем случае раз на профессоре
GPU ждёт 20 секунд, пока отработает токенизатор на CPU, чтобы потом сгенерировать ответ за половину секунды. Внимание, вопрос. Не говно ли ёбаное этот токенизатор?
И да, лично мой икспириенс это изменит кардинально, срезать с каждой генерации 0.2-0.3 секунды, причём самые мерзкие 0.3 секунды, которые идут до начала генерации, это охуенный вариант.
>Земля пухом.
Проверил на GPTQ, т.к для неё там отдельный класс работы с моделью. Ну мало ли. Всё то же самое, токенизатор на CPU, генерация на GPU.
>Приличные слова кончаются.
Ты не понимаешь, как этот счётчик рассчитывается? Плохо быть тобой, хули.
>инструкции системная инструкция
Она при обучении не задаётся.
https://raw.githubusercontent.com/tatsu-lab/stanford_alpaca/main/alpaca_data.json
Вот тебе json от самой альпаки. Поле instruction - вопрос, output - ответ, input дополнительный контекст. Так что у меня там абсолютно стандарт альпаки, разве что не в jsone.
>Чтобы внести в знания модели "Мистера Залупочёса" и ничего не поломать потребуется немало усилий
У тебя контекст закончился? У меня проблема изначальная в том, что модель нахваталась этих Залупочёсов из датасета и суёт куда ни попадя. Изначальный вопрос был в том, как корректно отформатировать имена, названия и т.д. Осталась только очевидная автозамена Залупочёсов на разных Вась, Федь и так далее. Что тоже вариант так себе.
>желание что-то сделать, внести свой вклад и т.д.
Я в рот ебал вклад. Разбирался с апи и увидел, что он сделан хуёво. То есть это с первого взгляда видно, но остаются некие сомнения, не могли же они просто хуяк-хуяк и готово. Оказалось, могли.
А рассуждать о кринже, когда у самого заканчивается контекст на полдороги, когда ты начинаешь затирать про стандарт абсолютно левые и неправильные вещи. Ну, такое себе.
>Системный промт поправь что "ты сторитейлер" а не "отыгрываешь чара".
>>624939
Спасибо, пока что, вроде, получается.
Кто-нибудь тут запускал Вихрь с русским токенизатором? В статье ни одного примера генерации текста, только бенчи.
https://habr.com/ru/articles/787894/
https://huggingface.co/Vikhrmodels/Vikhr-7B-instruct
>Уже выпускали же, говно говна вышло.
Греф выпускал какой-то обрезок, который ещё весной у них использовался. С тех пор уже несколько обнов было, размер накидывали, бот поумнел, а в опенсорсе до сих пор только тот огрызок.
Яндекс никто вообще не запускал, там 100В блеать. Непонятно, для кого она толком предназначена.
Традиционный Китайский Ролеплей.
>>625227
А скажи, без этого крутилятора сколько было на старом охладе в жоре? СД не интересует. Мне интересно, имеет смысл ли мне их брать, или просто поставить 120 мм обычный с кожухом с 3D-принтера.
>>625355
Пока так и не добрался, хотя вчера скачал.
Яндекс древний, у них уже дважды все обновилось с тех пор.
А Греф, да, не дает новые модели. =)
На то и надежда хотелка, что кто-то из них дропнет, как Мистраль.
Есть что хорошее новое из 7В - 20В?
>сколько было на старом охладе
зависит от количества новых токенов. Если их много поставишь - то карты могли греться до 90.
Я думаю, ты сможешь понять, хватит тебе 12 или нет только экспериментально. Мне вот 12 не подошла бы, потому что у меня две карты и места где можно вкорячить вентилятор мало.
Я смотрел какую-то доку по установке p40 в сервера - там было нарисовано так, что две карты обслуживалоись одним фаном. Но то ж серверный фан который не чета хуйне китайской из обычного компа.
> GPU ждёт 20 секунд, пока отработает токенизатор на CPU
Чувак, вот этого достаточно чтобы дальнейший пост не читать. Когда все работает как надо то за 20 секунд ты уже получаешь готовый длинный ответ в несколько сотен токенов на контексте в несколько тысяч. Обработка нового контекста с нуля происходит за доли секунд или единицы если там llamacpp, а операцию токенизации сложно даже отследить на фоне основных расчетов.
Любишь создавать себе проблемы - молодец. Ничего не зная чувствуешь уверенность в новой для себя теме, основываясь на переносе опыта из других и получаешь то что идет вразрез со всем - грош цена такому опыту.
Ля, еще спорит и агрессирует, мэх.
>>625308
Было бы неплохо, вики тем более с горем пополам какое-то наполнение имеет.
>>625355
Интересно, надо попробовать. Жаль файнтюн лорой, но подход основательный и расписано подробно для нормисов.
>>625469
8 гигов, целиком в гпу будет 7б в 4-5 битах, с выгрузкой что угодно но там уже зависит от того насколько ты терпеливый. 10.7б на основе солара файнтюны попробуй, они хороши для своего размера и должны с адекватной скоростью (быстрее чем скорость чтения) работать.
Я на thingverse видел установку 12 на две. Но тоже имею сомнения.
Буду печатать переходник на один 12. Ну и пока одна карта. Если буду добирать вторую для микстрали, то, видимо, заебусь и буду ставить серверные, да.
Хотя, опять же, живу в квартире на первом этаже, куда там сервер ставить… =/
>>625471
> пока отработает токенизатор на CPU
Может у него там токенизатор как-то работает, и он не про обработку промпта? Которая достигает миллисекунд на токен.
Блин, может он про выгрузку слоев на видяху, а не про запуск на видяхе полноценный? =)
> Но то ж серверный фан который не чета хуйне китайской из обычного компа.
Все так, там действительно монструозная штука.
>>625500
> живу в квартире на первом этаже, куда там сервер ставить… =/
Под кровать! отсылка к старым мемам
> Может у него там токенизатор как-то работает
Да хз, что токенизация (ее какбы суперэлементарно проверить несколькими строками кода отдельно) оче шустро работает, что обработка 60 токенов контекста(!) даже на самом вялом железе должна проходить быстро.
Очевидно что сам что-то левое нахуевертил, вот и работает таким образом. Может из тех 20 секунд оно 19.5 модель с диска подгружает вообще.
>>625501
На жоре просто с подключенной карточки без выгрузки скорость обработки достаточно высокая же. Кроме совсем безумных вариантов, такой эффект можно получить в llamacpp при первом запуске без выгрузки слоев с опциями mlock/mmap, когда оно не загружает части модели в память пока к ним нет обращений.
Зацените парни
https://huggingface.co/TeeZee/DarkForest-20B-v1.0-bpw8.0-h8-exl2/tree/main?not-for-all-audiences=true
>Когда все работает как надо
Ты прекращай посты жопой читать, жопочтец. Я же писал
>и пизданул очень длинный промпт
Длинный - это длинный. Это не "как надо" по умолчанию.
Как работает токенизация инпута? Сначала весь ввод токенизируется и загоняется в массив. Это поведение уже можно считать ошибкой. Потом оно пытается обрезать этот массив, если не получается - дропается весь ввод. Это можно считать второй ошибкой, т.к не происходит корректной обрезки.
Пик 2 это получение ебического ввода. Его обработка занимает больше минуты, потом он дропается и модель генерирует с пустым контекстом.
Пик 3 получение контекста в районе 5к, попытка обрезки до 2800. Обрезка работает в цикле, каждый вызов токенизатора срёт в консоль, после успешной токенизации происходит ещё один вызов для добавления bos токена. Так вот, после трёх попыток обрезки, весь ввод был отброшен.
Ну и пик последний моё "как надо". В целом, пойдёт.
>microsoft/Orca-2-13b and KoboldAI/LLaMA2-13B-Erebus-v3 ,
>then jebcarter/psyonic-cetacean-20B
Говно какое-то
Опять ты выебываешься и агрессируешь вместо того чтобы вникнуть и понять что тебе в самом начале написали.
> посты жопой читать, жопочтец
Что там читать, в начале сразу ересь которая все на ноль множит и прикладываешь скрины которые тебя же опровергают.
> Это поведение уже можно считать ошибкой.
Нет
> Потом оно пытается обрезать этот массив
Что обрезать?
Если про выход за лимит контекста - единственная корректная обрезка по нему возможна на текстовом этапе при наличии разделения на части. Если про уже обработанное - нет смысла оптимизировать токенизацию, а лаунчер уже исходя из того что на входе сам разберется как ему использовать собственный кэш, сдвигать контекст и т.д.
> Его обработка занимает больше минуты
Ты рофлишь? Пиздец, токенизация (да даже обработка промта при наличии) занимает больше минуты.
Пик 1 обрезок кода с тестов в рп, берется датасет ллимы, формируется промт с чатом. Используется только токенизатор. Пик 2 - скорость его работы. Что ты там пытаешься оптимизировать вообще?
Пик 3 - тайминги обработки в llamacpp, она очень плохо обрабатывает контекст, этого не избежать, но всеравно 4 секунды на 8к - приемлемо. Второй запрос - уже с ее кэшем, ничего там не тратится на лишнюю обработку и лишь идет сразу генерация.
Пик 4 - уже бывшая но с моделью в 2 раза больше, полная обработка контекста - свайп - полная обработка контекста - свайп.
Все работает шустро и как полагается, никаких лишних задержек нет. Мутишь что-то бесполезное - мути дальше, не можешь выразить свои мысли - продолжай серить.
> да даже обработка промта при наличии
При наличии гпу, фикс
Как не зайдёшь в тред литералли стены текста и пространные диалоги бесцельные
Понял что довольная пробежка по граблям и изобретение велосипеда.
Ты опровергаешь только свои шизофантазии. Надежды на то, что загрузчик сам там что-то оптимизирует и использует свой собственный кеш - просто надежды. Несбыточные. Для всего, что не является LlamaCpp, Ctransformers и Exllamav2 уга принудительно сбрасывает кеши. Возможно, и для них тоже что-то найдётся, я просто не копал, меня интересуют только трансформеры. Алгоритмы токенизации уги для LlamaCpp не используются и если там действительно всё хорошо, то это заебись. Но из твоих постов это не ясно, т.к ты читал жопой и проверял хуйню.
Если ускорение вывода с минуты до 2-5 секунд это "изобретение велосипеда", то всем бы такие велосипеды. Только это просто копание в ошибках дизайна. По идее, можно ещё срезать десяток-другой мс на каждом запросе, но хуй с ним.
Под кроватью у меня коробки от железа. =D
>>625749
Был нейросетью с нулевых годов.
Душные срачи, одобряем. =D
(ненавижу, но, порою, до сих пор участвую)
Какие фантазии? Ты что-то поломал, радикально замедлив токенизацию, а потом поверх этого пытаешься придумать какой-то случай, который никогда не будет реализован. Подобная отсечка контекста в ллм просто по лимиту токенов - 100% хуета на выходе, это без вариантов.
Буквально
> ваш станок говно, когда я сую пульт от него в анус он рвется
> не суйте а используйте по инструкции
> нет я так вижу сейчас буду изобретать средства от этого
В принципе сразу было понятно еще по тем постам что знания крайне ограничены и поверхностны, но чтобы настолько верить в себя - это сильно.
> Надежды на то, что загрузчик сам там что-то оптимизирует и использует свой собственный кеш - просто надежды
топ кек
>Ты что-то поломал,
Вот эти шизотеории. Это дефолтное поведение. Так оно работает из коробки на длинных промптах.
>отсечка контекста в ллм просто по лимиту токенов - 100% хуета
Это тоже дефолтное поведение. Я скидывал скриншот кода, массив обрезается просто по длине. Свои фантазии про анусы можешь оставить для себя, понятно, что ты долбоёб и думаешь только о жопах, но зачем проецировать это на других?
Это не теория, это практика. Скорость работы токенайзера показал выше. Как отпустит - сам поймешь какой кринж тут задвигаешь и насколько позоришься. А если не отпустит - значит это твой предел, кто-то должен представлять идиотов в распределении icq.
> Это тоже дефолтное поведение.
В таком случае запрос будет оборван без окончания, никакого адекватного ответа на такое быть не может.
> проецировать
Ля биомусор, фу фу.
>Скорость работы токенайзера показал выше.
Ты опять жопой читаешь, долбоёб.
>насколько позоришься.
Чем позорюсь? Тем, что потратил вечер на чтение всратого кода?
https://github.com/oobabooga/text-generation-webui/blob/main/modules/text_generation.py#L73
Надо же, очистка ёбаного кеша. Сама функция
https://github.com/oobabooga/text-generation-webui/blob/main/modules/models.py#L434
> запрос будет оборван без окончания
Ты тупой. Запрос обрезается с начала, а не с конца. Опять же, это понятно, если хоть раз заглянуть в код.
>input_ids = input_ids[:, -truncation_length:]
Пиздец, конечно, столько с тобой спорил, а ты нобрейн идиот, который даже в код ни разу не смотрел.
А тебе для чего?
На 34б несколько тредов назад мини обзоры были, еще замесы с гермесом хвалили. Файнтюны от migtissera очень хороши (tess/synthia). Старые модели (xwin, airoboros) не потеряли актуальности, goat хорошо может в сторитейл и не дефолтно пишет. Из замесов Aurora-Nights можно попробовать, но пока не понял шин это или фейл. Нет времени покумить, увы.
А тут, хоть и сухие ответы, зато почти нет языковых ошибок. Инстракт режим выключен. Пытался миростат включить - вроде стали чуть красочнее, но почему-то чаще уходит в повторы, не смог побороть.
Попроси художественно перевести старую шизоплатину
> ""Ah, home sweet home,"" her voice dripped with a melancholy that only comes from longing for places left behind. ""My little sanctuary lies hidden amongst the labyrinthine alleys of Tokyo's Shibuya district.""
> She paused briefly to collect her thoughts before continuing.
> ""It's nothing grand really - just an ordinary flat in an aging high rise building overlooking bustling streets below filled with people hurrying about their lives unaware presence ancient creature dwelling midst them all. Inside walls covered artwork depicting scenes nature inspired by memories forest we used call haven thousand years ago …and yes it does have special room dedicated solely storing tea collection acquired various travels throughout centuries ;). Want to give a try?""
Синью 1.5, карточка которая нравится, ролплей пресет, только удали про параграфы в ###response. Можешь добавить про "финишинг только по решению юзера", но и так нормально.
Спасибо. Синью? А латиницей это как? Ну и мне важнее всего понимание карточки, а не красота прозы.
https://huggingface.co/TheBloke/SynthIA-70B-v1.5-GPTQ
Многие карточки понимает отлично, знает фандом-вики и применяет знания оттуда, усиленно пытается распознавать чего хочет юзер. Хотя иногда тупит и уводит не туда, тут уж или ультимативный рп/кум где все идеально, или фейлы.
На троечку, совсем дичи нет, но фейлов прилично. Хз как оценивать, для 7б оче круто, для 56б - ну такое.
Эээ… Чел, 7b, Q8 конечно.
И, да, она топ.
Но 70b лучше, просто эта гораздо быстрее.
С подключением, что ли.
Принципиально все также. Кум стал доступнее на слабом железе (7б-11б уже не кринж), его уровень и разнообразие поднялись на средне-высоком (20б-34б), верхушка типа 70б уже месяца 3 без значительных изменений. Китайскую 65б кстати как-то и не приняли толком.
Появился большой контекст, новые методы, МОЕ местами перспективен и всякие мелочи. Мультимодалки, но это не для кума.
>Китайскую 65б кстати как-то и не приняли толком.
Спасибо. А что с ней? Есть кванты и файнтюны?
>>626582
Очепятка, не 65 а 72б
Кванты на обниморде ищутся https://huggingface.co/aisensiy/Qwen-72B-Chat-GGUF https://huggingface.co/istemedu/Qwen-72B-Chat-awq https://huggingface.co/keyfan/Qwen-72B-Chat-2bit exl2 можно самостоятельно сделать.
Файнтюны - тоже какие-то находятся типа https://huggingface.co/moreh/MoMo-72B-lora-1.8.7-DPO https://huggingface.co/CausalLM/72B-preview-GGUF
Надо скачать попробовать что там
разве она не отвечает сухо и скучно? мимодругойанон.
>появился большой контекст
200к в теории это заебись но смогу ли я их получить от обычного железа? На хорде и колабе как было 8к так и осталось
Как раз наоборот.
Там другие проблемы, например в желании везде совать шаблон
> ""Ahh~ So good~"" she pants, her breath hot against your skin. ""Keep going… don't stop…""
@
> Her breathing grows heavier, her chest rising and falling rapidly. ""Please… more…"" she begs, her voice husky and desperate. ""Don't hold back… I want to feel it…""
@
> Glancing up at you, {{char}} flashes a tired but satisfied grin. ""Thank you,"" she whispers, her eyes heavy with exhaustion. ""That was amazing.""
И это просто обнимашки-прелюдия а даже не кум.
За красочностью описания это не триггерит сильно, но из раза в раз может напрягать. Более менее фиксится промтом.
>>626943
> от обычного железа
Смотря что понимать под обычным. На топовом десктопном (или той же P40) - да. С новыми методиками можно будет увеличить контекст на любых моделях без особого ущерба (считай можно эффективно растягивать 11б)
> и колабе
Там можно выставлять сколько хочешь, вопрос в возможностях методов и моделей.
В оперативе — да.
>>621688
Fialka-13B хорошо говорит на русском. Но вот со смыслом не очень. Проверку на нейростримершу не прошла. На рандомные маты просто поулабалась (Мистраль искренне удивляется, не поехал ли зритель кукухой), на доту путается между мобой и браузерным шутером, простых комментаторов иногда называет актерами (что?=).
Но тем, кому интересна русская модель — могу порекомендовать ознакомиться с фиалкой.
Vikhr-7b-0.1 — ну, эээ… Он лучше понимает контекст и отвечает, но качество так себе. У меня осталось впечатление, что Мистраль лучше.
Фиалку-7б не тестил.
Короче, из всех меня заинтересовала только фиалка (плюс, она развивается). Остальное — мусорные модели.
Попробовал еще микро-модели.
TinyLlama-1.1b-chat и правда умеет в русский! Говорит смешно и местами путает логику, но тем не менее. Пытается держать роль и контекст.
OpenBuddy-StableLM-3b — на русском говорит, но контекст вообще в трубу. Может ответить по теме, может повторить фразу, может ляпнуть что-то левое, может ответить на другом языке. И любит ставить кавычки, мне лень разбираться с форматированием.
>фиалкой
Ну охуеть, объяснил так объяснил, всё понятно стало.
Так а в чем проблема? Не понял, если честно.
И название, и ссылки есть. Не понял предъявы, если честно. =(
Сейчас качаю 4 версию, попробую сквантовать для себя в экслламу.
>влазящие в 24 гига видеопамяти
За 24 гига видеопамяти ты отдашь +100к деревянных, а я кручу 4x7b, 33b и т.д. на своей оперативке и мне норм.
Ничего не понимаю… И это кумеры? Говно какое-то, пидоры, блядь. Дядя Ляо им дал p40 — покупай! Запускай модели, блять! Не хочу, хочу жрать говно! Что такое? Это анон локального LLM?! 0.3t/s - это "перформанс"?! DDR3 в хуананы накупили, говно жрут — пидоры, блядь, ёбаные…
>>626960
Fialka-13B
Это типо тюн ruGPT?
Кстати сколько токенов скормили ruGPT, в инфе указано 400gb данных но сколько токенов не ясно.
4х7B псевдо-МоЕ разве норм? Мне показалось, рядом с Микстралью и не стоят. Ошибаюсь?
>>627026
> 0.3t/s
0.7, попрошу!
>>627033
А хз, на самом деле, я не разбирался.
Вполне возможно.
Но мне нужен результат, буду играться с промптом.
Может и мусор, канеш. Но пока выглядит лучше остальных (как и мистраль, если честно=).
Слушай, я не пригляделся, а ты прав!
GPT2LMHead
Ты прав, выходит.
Ну тады ладно, пофиг.
Остаемся на Мистрали.
на DDR4 (3800) 32 гига с Ryzen 5600g выдаёт (2.76T/s) на 4x7b модели прямо сейчас
>4х7B псевдо-МоЕ разве норм? Мне показалось, рядом с Микстралью и не стоят. Ошибаюсь?
Да ты прав, это говно, полное, я сейчас по фану перебираю так называемые "топ модели" с этого вашего парашечного сайта http://ayumi.m8geil.de/ayumi_bench_v3_results.html и эти самые люди продолжают мне заявлять что Vicuna 33b говно... Да это ебаный алмаз по сравнению с этой парашей из топов этого говнокумерсого-сайта.
Есои что, то я сейчас про модель Buttercup 4x7B q4_k_m говорю, она сейчас на 6 месте в топе весит. При этом нихуя нормально историю с несколькими персонажами вести не может. Путается как бабка в маразме.
Ну, q4 это прям совсем мусор.
Я на q6 редко опускаюсь, а чаще 8q стараюсь использовать с любыми 7b моделями, конечно.
Ну и плюс, они же прям… Ну не знаю.
ЗЫ Я тоже не люблю этот рейтинг. Скока не пробовал — фигня была в топах.
(2.22T/s) если начать с нуля диалог с новым персом и ждать пока он всю карточку персонажа прогрузит
(2.53T/s) обычный ответ
У меня 3 плашки. 2 по 8 гигов + 1 по 16 гигов
Как я понял, скорость немного зависит так же и от самого персонажа. Если у него много деталей прописанных то скорость ответов получается чуть медленнее.
Сейчас специально попробовал почти пустого персонажа и при общении с нуля он начал выдавать (3.71T/s) а при последующих ответах (2.74T/s)
Уникальный программный продукт даже для опенсорса, не видел ещё настолько хрупкой хуйни, которая бы ломалась от любого дуновения ветерка.
Сам рейтинг отстой, но от него есть польза: а именно, логи нового формата. Можно кликнуть Logs во втором столбце либо пойти вот сюда http://ayumi.m8geil.de/erp4_chatlogs/ Там есть три пары персонажей со своим кум сценарием, и вот там уже можно посмотреть, как модель себя ведёт при некоторых, возможно и не идеальных для неё, параметрах. Открываешь тот же Buttercup, видишь дичь на пике, где эта модель и двух персонажей местами путает - понимаешь, что ну нафиг такую шизу. Понятно, что подобное может быть из-за неподходящих настроек сэмплеров, но, тем не менее, какое-то представление о модели можно получить. И такая стата собирается по большому числу моделей, среди которых много маленьких, что для среднестатистического юзера со слабым железом полезно. Та же арена такого функционала не даёт, даже если её рейтинг более достоверный в плане интеллекта представленных там моделей.
>За 24 гига видеопамяти ты отдашь +100к деревянных
Всего 17к за теслу p40.
Еще одна мейда, сколько их блядь уже.
Опять КУУМить.
>>627347
DPO это способ обучения модели.
На цензуру метод не влияет, влияет чем учат.
Норомейд без цензуры.
Если ты откроешь указанные DPO датасеты, то увидишь, что они содержат пары ответов, один из которых поощряется, а другой нет. По сути, сам метод реализует что-то типа скрытого вознаграждения модели за правильный ответ. Соответственно, будет модель зацензурена или расцензурена, будет зависеть от датасета и тех ответов, что в нём поощрялись. В данном случае использовали два датасета, в которых предпочтение оказывалось токсичным и прочего рода "небезопасным" ответам, так что модель должна быть более расцензуренной.
А, оу… Понятно…
Ну 8-гиговые плашки в нашем деле уже древность, канеш. =)
Но и дело началось год назад. ^_^'
>Buttercup 4x7B
Пиздец это просто микс 7В говна которое делали чтоб гопоту унижать в бенчмарках.
Из бенчмарков их потом пидорнули.
Лишний раз убеждаюсь в дниществе аюми лол
https://huggingface.co/TheBloke/Etheria-55b-v0.1-GGUF
>>627460
Забыл добавить что в 4х7В есть только две нормальные модели
Beyonder-4x7B и Toppy-Mix (но эта для шизокума)
>>627473
Какая-то всратая склейка Йи, что там интересного?
> но качество так себе
В каком смысле? Плохо понимает инструкции и контекст, или пишет на великом-мугечем? Просто буквально что может быть хуже микстраля из относительно мультиязычных моделей?
> 3b
> но контекст вообще в трубу
Ну и на что рассчитывал то.
>>626963
Опиши подробнее чего хочешь.
>>626976
> тут у всех 2 ядра 2 гига чи шо
Тут у всех 24+гб врам какбы. активничают те у кого меньше, остальные сидят с нейронками
> модели, влазящие в 24 гига видеопамяти
Что именно тебя интересует?
>>627008
> За 24 гига видеопамяти ты отдашь +100к деревянных
3090 стоит дешевле и работает оче быстро. P40 вообще народная тема и позволяет многое занидорого.
>>627037
> 0.7, попрошу!
Простите, господин, быченье неуместно!
>>627033
> попробовал потренить PALM 2
Это который огромный? Тогда на чем тренил?
Ну это просто склейка, как все 20В модели например.
Небось такая же шиза будет.
> Остаемся на Мистрали.
Чего он вам так нравится то?
>>627064
> заявлять что Vicuna 33b говно
На она ведь рили уг. Вместо тестирования мусора в поисках жемчужины мог бы глянуть нормальные файнтюны.
>>627195
> насколько убабуга пердольный кошмар
> стоило добавить апи в параметры - тут же отвалилась жопа и перестала загружаться модель
Ммаксимальнсый скилл ушью. Для вас только готовый бинарник сборки всратого форка на пихоне. реально рофлово звучит
>>627473
За що они надругались над и так шизоидной YI. Или она излечилась? Еще и вместо gptq затычка, пиздец грусть.
Плохо пишет на великом и могучем.
Может это скилл ишью и я его неправильно приготовил, конечно.
> Ну и на что рассчитывал то.
Да больше поржать. =)
>>627503
> Чего он вам так нравится то?
Кроме того, что он умный на английском — он лучше всех из 7b моделей говорит на русском и при этом держим карточку.
А у меня стрим — значит нужно генерить на лету.
На мое удивление, большинство 13b гораздо хуже знает русский, просто не было мультиязычных моделей с русским и все. Ну, то есть, там же только ллама, да всякие франкенштейны.
Ну, как бы, выбора не остается.
Вот будет у меня 48 гигов врама, будет или Mixtral или Llama 70b. И там уже можно будет выбрать.
А пока что — маемо шо маемо.
Заказал уже (вторую) P40 или на более жирные смотришь?
Пока нет.
Во-первых, на цену смотрю, во-вторых там все равно китайский новый год, в-третьих, работу буду менять, хз че по деньгам в ближайший месяц.
Так что, пока это влажные мечты. =)
Но, к счастью, не сильно-то дорогие, да.
А как же культура и детишки? А как же 5090ти?
Подключай донаты и зарабатывай с них, а подписчикам еженедельно скидывай сгенерированные левдсы.
>ломалась от любого дуновения ветерка
У меня так почти с каждым python-проектом, за это я горячо люблю этот язык и всё, что на нём пишут.
Нормалёк, я потом её раз обновился и всё заебок стало.
https://huggingface.co/zaq-hack/Orion-14B-LongChat-bpw600-h6-exl2
На выходе получил такую шляпу:
Traceback (most recent call last):
File "/text-generation-webui/modules/text_generation.py", line 426, in generate_reply_custom
for reply in shared.model.generate_with_streaming(question, state):
File "/text-generation-webui/modules/exllamav2.py", line 137, in generate_with_streaming
chunk, eos, _ = self.generator.stream()
File "/usr/local/lib/python3.10/dist-packages/exllamav2/generator/streaming.py", line 112, in stream
chunk, eos, chunk_token_ids, probs = self._stream()
File "/usr/local/lib/python3.10/dist-packages/exllamav2/generator/streaming.py", line 170, in _stream
next_token, next_prob, eos = self._gen_single_token(self.settings)
File "/usr/local/lib/python3.10/dist-packages/exllamav2/generator/streaming.py", line 341, in _gen_single_token
logits = self.model.forward(self.sequence_ids[:, -1:], self.cache, loras = self.active_loras, input_mask = self.input_mask, position_offsets = self.position_offsets).float().cpu()
File "/usr/local/lib/python3.10/dist-packages/torch/utils/_contextlib.py", line 115, in decorate_context
return func(args, kwargs)
File "/usr/local/lib/python3.10/dist-packages/exllamav2/model.py", line 559, in forward
r, ls = self._forward(input_ids = input_ids[:, chunk_begin : chunk_end],
File "/usr/local/lib/python3.10/dist-packages/torch/utils/_contextlib.py", line 115, in decorate_context
return func(args, kwargs)
File "/usr/local/lib/python3.10/dist-packages/exllamav2/model.py", line 623, in _forward
x = module.forward(x, cache = cache, attn_params = attn_params, past_len = past_len, loras = loras)
File "/usr/local/lib/python3.10/dist-packages/exllamav2/layernorm.py", line 83, in forward
self.bias.data if self.bias is not None else ext_c.none_tensor,
AttributeError: module 'exllamav2_ext' has no attribute 'none_tensor'
Как фиксить?
Специально сделал это перед запуском.
Может они поддержку только в llama.cpp добавили?
> Специально сделал это перед запуском
Пиздишь. В первые же дни в ExLlama 2 добавили поддержку, там самая первая поддержка Ориона была. У меня всё работает.
Сейчас общаюсь с Yi 34b chat 4 k m и получаю выхлопы со скоростью (1.62T/s) и это не считая того, что у меня часть модели не влезло в оперативку и на ssd записалось.
Хуй там плавал.
Только что всё поставил заново. Модель в память загружается, но генерация не идёт, выдаёт ту же ошибку.
Гуи теперь определяет перфоманс бэков?
>>627969
От рабочих станций/серверов. Если карточки двуслотовые и похуй на число-качество линий, то бери любую что подходит по габаритам.
>>628024
pip show exllamav2
Впрочем в обычных чатах показала себя не так уж плохо, даже РПГ статистику держит хоть и с ошибками
Не, я говорил про саму модель или её мержи. Там в основе новая модель от китайцев, которая не франкенштейн, а полноценно (наверное) 20б. Importance matrix для gguf квантования сейчас и к квантам других моделек начали делать, не про это спрашивал.
Модель: LoneStriker_Aurora-Nights-70B-v1.0-5.0bpw-h6-exl2
Онлифанс и бусти!
>>627982
О, пасиб!
>>628249
Вот, если честно, смутные подозрения, что там не совсем 20b, нам уже обещали-обещали не раз подобное.
Но, будем надеяться.
>>628292
Плюсую вопрос, не разобрался, как в exllama контекст растягивать.
В шапку посмотри, 3я картинка. Для лламы2 с базовым 4к. Как будет на других где заявлено больше (но часто уже с ропом) - хз, те же величины должны работать.
Кто-нибудь новые мультимодалки ковырял? В первую очередь интересно с точки зрения понимания 2д и нсфв.
>Это который огромный? Тогда на чем тренил?
Да тот самый огромный.
Гугл сам тренит тебе только нужно предоставить датасет, все бесплатно
https://makersuite.google.com/app/prompts/new_data
Тут доступ но через американский ВПН, там можно затренить и юзать через апи. Тренить можно хоть до посинения, ограничения только на запросы 90 в час. Брал датасет ToxicQAFinal и урезал его до 500 записей.
есть мультиязычная XVERSE с большим выбором размеров, но до сих пор не реализована поддержка квантования gptq и gguf. Есть обычное int8 и int4 но я не тестил.
Ноуп. Сверху первый ран снизу второй, судя по всему сейчас скорость замедляется в зависимости от размера контекста.
Как откатится на пару месяцев назад?
Что с видеопамятью?
> Сверху первый ран снизу второй
В верхнем оно обрабатывало контекст, внизу использовало кэш, отсюда и разница.
> Как откатится на пару месяцев назад
Достаточно будет откатить только llama-cpp-python с помощью pip. Смысл в этом врядли есть, ищи проблему.
>Какую мать брать, чтоб 3-4 видюхи уместить?
Если Теслы, то как я понял - только б/у HEDT. Не б/у стоят бешеные деньги и не зря. Если хоть одна видюха не берёт PCIe-линии непосредственно от процессора, то скорости считай нет. Если 3090 и выше, то может этот фактор и не так критичен.
> Если хоть одна видюха не берёт PCIe-линии непосредственно от процессора, то скорости считай нет.
Есть иллюстрация такого поведения?
>>628658 (OP)
>>628658 (OP)
Во всех постах на Реддите, где народ хвастается высокой скоростью на больших моделях - именно такие платформы.
Ну что же ты, накидал бы пару постов для порядка сначала
Есть кто работает с Qwen? Как боретесь с редкими китайскими иероглифами в ответах?