/ai/ - Локальные языковые модели (LLM): LLaMA, Mistral, Command-R и прочие №58

Локальные языковые модели (LLM): LLaMA, Mistral, Command-R и прочие №58 /llama/ Аноним 06/05/24 Пнд 17:51:55 № 728812 1

Альфа от контек[...].png 121Кб, 3090x1830

Самый ебанутый [...].png 1875Кб, 1271x954

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Здесь и далее расположена базовая информация, полная инфа и гайды в вики https://2ch-ai.gitgud.site/wiki/llama/

LLaMA 3 вышла! Увы, только в размерах 8B и 70B. Промты уже вшиты в новую таверну, так же последние версии кобольда и оригинальной ллама.цпп уже пофикшены. Есть инфа о проблемах с реализацией кода ллама.цпп на видеокартах, но пока без конкретики.

Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, Llama 3 обладает базовым контекстом в 8к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.

Базовым языком для языковых моделей является английский. Он в приоритете для общения, на нём проводятся все тесты и оценки качества. Большинство моделей хорошо понимают русский на входе т.к. в их датасетах присутствуют разные языки, в том числе и русский. Но их ответы на других языках будут низкого качества и могут содержать ошибки из-за несбалансированности датасета. Существуют мультиязычные модели частично или полностью лишенные этого недостатка, из легковесных это openchat-3.5-0106, который может давать качественные ответы на русском и рекомендуется для этого. Из тяжёлых это Command-R. Файнтюны семейства "Сайга" не рекомендуются в виду их низкого качества и ошибок при обучении.

Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.

Про остальные семейства моделей читайте в вики.

Основные форматы хранения весов это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это может серьёзно замедлить работу, если не выключить CUDA System Fallback в настройках панели NVidia. Лучше оставить запас.

Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/Sao10K/Fimbulvetr-11B-v2-GGUF/blob/main/Fimbulvetr-11B-v2.q4_K_S.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.

Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!

Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся

Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ
https://github.com/ollama/ollama Однокнопочный инструмент для полных хлебушков в псевдо стиле Apple (никаких настроек, автор знает лучше)

Ссылки на модели и гайды:
https://huggingface.co/models Модели искать тут, вбиваем название + тип квантования
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://rentry.co/lmg_models Самый полный список годных моделей
https://ayumi.m8geil.de/erp4_chatlogs/ Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде

Предыдущие треды тонут здесь:
>>724301 (OP)
>>721275 (OP)

Аноним 06/05/24 Пнд 17:57:49 № 728819 2

>>728812 (OP)
А что аноны скажут про LM Studio?

Аноним 06/05/24 Пнд 18:04:22 № 728829 3

изображение.png 17Кб, 1163x97

>>728819
Думаю не сильно отличающееся мнение, а что?

Аноним 06/05/24 Пнд 19:30:54 № 728950 4

>>728819
Просто для хлебушков, та же ллама.спп под капотом что и в кобальте и в оллама
Оллама пидоры что не упоминают об этом, хотя лм студио не особо лучше в этом плане, но удобней

Аноним 06/05/24 Пнд 19:39:26 № 728969 5

>>728819
Я ее использую как быструю поисковую систему для поиска моделей.

Аноним 06/05/24 Пнд 19:39:36 № 728972 6

>>728819
Готовый юи для хлебушков и ленивых. В защиту можно сказать что у них был "уникальный" формат awq и бэк под него, но он потерял актуальность раньше чем стал популярным. По фукнционалу уступает привычным решениям, разве что ебет олламу.

Аноним 06/05/24 Пнд 20:03:28 № 729035 7

>пердолиться это хорошо ряяяяя
>Я люблю тратить время на еблю с софтом
Какие же никсоиды латентные а может и реальные, хоспаде

Аноним 06/05/24 Пнд 20:19:51 № 729070 8

>>729035
>никсоиды
Линуксоиды
[медленнофикс/i]

Аноним 06/05/24 Пнд 20:20:42 № 729072 9

>>729070
Да иди ты нахуй разметка

Аноним 06/05/24 Пнд 20:37:08 № 729100 10

Вкиньте в тред пожалуйста промптов для Лламы3 на анцензор.

Аноним 06/05/24 Пнд 20:53:35 № 729136 11

>>729100
Сформулируй свою цель как-то. Какая ллама у тебя, что тебе конкретно от нее надо и так далее.

Аноним 06/05/24 Пнд 21:11:05 № 729165 12

>>728819
>А что аноны скажут про LM Studio?
такое же громкое название как оллама. А на деле голый ггуф и больше нихуя. То есть если жора запоганил токенайзер так и будут жрать гавно и только. А вот то ли дело убабуга - тут тебе любой квант любой инференс, хошь трансформер в любом бите и байте, через битсэндбайтс, хошь тот же ггуф, а хочешь gptq? awq? exl2 и все это в одном программном комбайне. не говоря о куче расширений. Губабуга - человек-гора, буга- человек параход и небоскреб. Вот так то. А еще есть кобольдцпп - идеал портативности, простоты и универсальности в экосистеме ггуф.

Аноним 06/05/24 Пнд 21:18:12 № 729183 13

>>729165
не ну лм студио хотя бы удобно, а вот оллама говно говна

Аноним 06/05/24 Пнд 21:36:11 № 729233 14

https://www.reddit.com/r/LocalLLaMA/comments/1clmo7u/phi3_weights_orthogonalized_to_inhibit_refusal/
Мммм расцензуренная новым способом phi3, ниплоха
Хотя она все равно мелковата для ерп или чего то что стоит отказов, ну хоть мозги не будет ебать

Аноним 06/05/24 Пнд 22:06:52 № 729313 15

Бля, последний кобольд теперь со свежими квантами не работает.
https://huggingface.co/dranger003/c4ai-command-r-v01-iMat.GGUF/tree/main

Аноним 06/05/24 Пнд 22:19:45 № 729348 16

>>729313
лень меня спасла

Аноним 06/05/24 Пнд 22:41:31 № 729405 17

>>729348
Назови версию кобольда.

Аноним 06/05/24 Пнд 22:56:06 № 729457 18

>>729405
так 1.64
я видел обнову но стало лень перекачивать
хотя будет ли у тебя работать на предыдущей версии хз, я командера не проверял

Аноним 06/05/24 Пнд 23:01:35 № 729476 19

>>729405
>>729457
На 1.63 работает этот квант >>729313, на 1.64 и 1.64.1 нет. Хотя хуй знает, есть ли вообще смысл в обновлении квантов коммандера, это же не лама3.

Аноним 06/05/24 Пнд 23:10:17 № 729509 20

Джейлбрейк к ллама 3 70б, вроде как.

https://huggingface.co/llmixer/Meta-Llama-3-Instruct-Orthogonalized

Аноним 06/05/24 Пнд 23:17:25 № 729523 21

>>729476
там тоже токенизатор был сломан и был фикс

Аноним 06/05/24 Пнд 23:21:35 № 729532 22

image.png 79Кб, 899x338

>>729476
последняя ллама тоже ругается, так что надо будет перекачать когда выйдут рабочие кванты
хотя может по той ссылке с последними релизами ллама.спп запустится

Аноним 06/05/24 Пнд 23:42:32 № 729559 23

бля еще одна мега сетка
https://www.reddit.com/r/LocalLLaMA/comments/1clkld3/deepseekv2_a_strong_economical_and_efficient/

Аноним 06/05/24 Пнд 23:45:10 № 729561 24

>>729313
Вулкан выбери в настройках

Аноним 06/05/24 Пнд 23:46:34 № 729564 25

>>729559
> 236B
> хуже ламы 70В
Нахуй.

Аноним 06/05/24 Пнд 23:50:51 № 729568 26

>>729561
Такая же ошибка.

Аноним 06/05/24 Пнд 23:55:10 № 729577 27

>>729559
Что за новый тренд такой пошел? Штампуют мое слишком жирные чтобы их можно было запускать без ебать какого железа, но слишком мелкие для того чтобы быть достаточно умными чтобы на это железо целесообразно было бы потратиться.

Аноним 07/05/24 Втр 00:00:32 № 729586 28

БЛЯТЬ
https://www.reddit.com/r/LocalLLaMA/comments/1cltac3/part3_cause_to_issue_found_possible_bug_llama3/

Аноним 07/05/24 Втр 00:03:47 № 729593 29

>>729577
Сегодня мы представляем DeepSeek-V2, сильную языковую модель смеси экспертов (MoE), характеризующуюся экономичной подготовкой и эффективным выводом. Он содержит 236B общих параметров, из которых 21B активируются для каждого токена. По сравнению с DeepSeek 67B, DeepSeek-V2 достигает более высокой производительности, а тем временем экономит 42,5% затрат на обучение, уменьшает кэш KV на 93,3% и увеличивает максимальную пропускную способность генерации до 5,76 раз. "

Короче максимизируют ммлу к экономии обучения сетки. Видимо одну жирную тренировать медленнее и дороже, чем мое.

Аноним 07/05/24 Втр 00:04:39 № 729595 30

>>729586

Аноним 07/05/24 Втр 00:05:18 № 729597 31

>>729593
и MoEпараша не катит на мелко-видюхах, они убивают двух зайцев одним выстрелом.

Аноним 07/05/24 Втр 00:10:33 № 729607 32

>>729586
штош, проблема найдена и будет исправлена
о том сколько их еще не найдено лучше не думать

Аноним 07/05/24 Втр 00:14:55 № 729610 33

>>729586

Аноним 07/05/24 Втр 00:16:35 № 729612 34

>>729586
>The output is incorrect due to incorrect tokenization. Even worse for all fine tunes where it is much more noticable. And this is not for GGUF only, but for all formats using similar regex. I found AWQ on ooba also had issues etc.
какой же там пиздец

Аноним 07/05/24 Втр 00:34:50 № 729643 35

>>729559
Кстати говоря, а квен 32 ебет комманд р 35, у нее хороший такой ммлу показатель, 74 что ли
Недооцененная сетка все таки
Какого хуя, квен есть базовые сетки но нету файнтюнов? Дрочат всякую хуету

Аноним 07/05/24 Втр 00:43:04 № 729651 36

>>729643
Ты про кодинг или рп?

Аноним 07/05/24 Втр 00:45:14 № 729653 37

>>729593
Раз пишут значит наверно оно так, но зато сильно всратое соотношение требований к перфомансу и заведомо низкий коэффициент использования мощностей. И общий перфоманс наверняка переоценен бенчмарками, если там 10.5б активных то все печально.
>>729643
> а квен 32
Показалась на уровне yi, а она оче странная. Коммандиру уступит значительно, может только в каких-то узких задачах.

Аноним 07/05/24 Втр 00:45:17 № 729654 38

Нихуя не происходит. Дайте поставиться свежей дозой прорывных ИИ новостей, у меня ломка. Попенсорс не радует, пусть хоть closedai высрут уже свой жпт2, чем бы это ни было

Аноним 07/05/24 Втр 00:46:55 № 729656 39

>>729654
говорят что phi medium (14B) должен выебать лламу3, но это модель от мелкомягких, так что будет убер-соя.

Аноним 07/05/24 Втр 00:55:45 № 729658 40

>>729656
Раз уж 4b показывает чудеса мозговитости на уровне мистраля, то 14b должна ебать все сетки до 30b определенно
Но соевость там зачетная, синтетический соевый датасет созданный соевыми сетками, двойная фильтрация хули

Аноним 07/05/24 Втр 01:00:29 № 729660 41

>>729656
Я не понимаю почему до сих пор нет нормального, человеческого инструмента для запуска моделей локально. Все что есть - какая-то багованная жуть или же требует экстримальной ебли. Вон даже модель идеальную для этого дела завезли, а как запускать не завезли

Аноним 07/05/24 Втр 01:03:40 № 729662 42

>>729660
Смысле нету? Запускай оригинальнеые трансформерс, там никаких косяков нет. А если тебе врам не хватает то это проблемы бедных, просто купи парочку h100

Аноним 07/05/24 Втр 01:05:17 № 729664 43

>>729662
Блин, я не дописал. *Мобильных моделей локально. На пека то все есть

Аноним 07/05/24 Втр 01:08:27 № 729666 44

>>729664
Точнее *моделей на мобильном телефоне, даже. Они то не обязательно для этого преднозначенны, но Phi-3 просто пушечка в своем размере и идеально подходит на роль лучшей мобильной модели

Аноним 07/05/24 Втр 01:11:43 № 729668 45

>>729666
Новые мобильники особенно флагманы будут с ии и возможностью комфортного запуска по параметрам
А вообще есть проект maid на гитхабе, запуск для андройда

Аноним 07/05/24 Втр 01:21:24 № 729673 46

>>729651
Ммлу про количество знаний и понимание вещей, чем выше показатель тем больше сетка знает
Комманд р 35 довольно глуповат в этом плане

Кстати так становится понятно почему широкие мое хороши и эфффективны для этого - они просто оптимальны для сохранения информации из датасета
Тоесть чем шире сетка тем легче в нее вбить информацию

Аноним 07/05/24 Втр 01:23:54 № 729675 47

>>729653
>Показалась на уровне yi, а она оче странная
Мне кажется там еще проблема в запуске, с квен какие то проблемы с куда, тоесть сетка криво на ггуф исполняется
Не популярна вот и не ищут на сколько верно крутится

Аноним 07/05/24 Втр 01:28:01 № 729677 48

>>729668
Он кривой какой-то еще, может позже получше допилят конечно. Алсо, раз уж о нем речь, а Phi. там есть вообще возможность нормально запускать? Со стандарными темплейтами он ассистансами срет в основной поток

Аноним 07/05/24 Втр 01:32:04 № 729680 49

>>729673
>Комманд р 35 довольно глуповат в этом плане
Такое ощущение, что он в принципе глуповат.

Аноним 07/05/24 Втр 01:34:29 № 729683 50

>>729677
Я в прошлом или позапрошлом треде кидал скрин промпт формата, он легкий у него. К счастью срать спец токенами они не стали. С другой стороны нет системного сообщения

Аноним 07/05/24 Втр 01:34:49 № 729684 51

>>729673
> они просто оптимальны для сохранения информации из датасета
Нихуя, в чистые 236б можно было бы куда больше насовать, и 70б сливает.
> Комманд р 35 довольно глуповат в этом плане
Хз насчет общих знаний чего-то, но в понимании контекста и инструкций поставил бы на него.
>>729675
> ггуф
Ожиданием первых токенов при обработке контекста сравнимым с полной генерацией еще на мику наелся. Только бывшая2, офк не факт что с ней тоже все нормально было.

Аноним 07/05/24 Втр 01:38:20 № 729687 52

>>729684
>Нихуя, в чистые 236б можно было бы куда больше насовать, и 70б сливает.
Оптимальны с точки зрения экономии к результату ммлу, они ведь все про сокращение затрат пишут. Явно видно на что ориентируются. Так что да, в широкую сетку проще напихать знаний с которыми она потом будет работать.

Аноним 07/05/24 Втр 01:43:45 № 729691 53

>>729687
> Оправдывают потраченные гранты заявлениями про оптимальность
Починил тебя.
> Так что да, в широкую сетку проще напихать знаний с которыми она потом будет работать.
Ну да, тренишь мелкую базу на основе чего-то, потом множишь и делаешь каждой мелкий специилизированный файнтюн на бенчмарки с частичной заморозкой, и уже дотрениваешь мое. П-простота, и скоры высокие.

Аноним 07/05/24 Втр 01:52:40 № 729697 54

>>729691
Да вобщем то все правильно делают, самые лучшие сетки в данный момент - мое, это значит что количество интегрированной информации в них более оптимально чем в одном варианте весов
Другое дело что у них слишком плосская сетка выходит, будто они тренили мегаширокую 10b сетку. Мозгов там будет не так много.
Но если потом добавить слоев и дотренить, вся эта информация с низу будет полезна для абстрактных пониманий вещей. Крепкое такое основание пирамиды уде готово, но вершины у нее нету.

Аноним 07/05/24 Втр 01:58:32 № 729699 55

Junyang Lin
@JustinLin610
Now, try Qwen1.5-110B-Chat and a new model Qwen-Max-0428 in chat arena! 🥸

Аноним 07/05/24 Втр 02:05:38 № 729703 56

>>729699
А бенчмарки есть?

Аноним 07/05/24 Втр 02:12:33 № 729707 57

>>729684
>Ожиданием первых токенов при обработке контекста сравнимым с полной генерацией еще на мику наелся. Только бывшая2, офк не факт что с ней тоже все нормально было.
А ты какой формат используешь? А то меня тоже заебало, что обработка дольше генерации.

Аноним 07/05/24 Втр 02:20:38 № 729714 58

https://huggingface.co/Undi95/Unholy-8B-DPO-OAS-GGUF
унди занимается чем то полезным, расцензуривает лламу по новому методу, и пишут что вроде работает

Аноним 07/05/24 Втр 02:27:11 № 729722 59

>>729714
>унди
не нихуя
вот эта точно работает :
https://huggingface.co/wassname/meta-llama-3-8b-instruct-helpfull

Аноним 07/05/24 Втр 02:33:37 № 729729 60

>>729722
Так это же такой себе расцензур. Она будет делать, но так же будет мозги ебать, разве нет?
И что насчет такого расцензура? https://huggingface.co/bartowski/Lexi-Llama-3-8B-Uncensored-GGUF

Аноним 07/05/24 Втр 02:46:06 № 729731 61

>>729586
так оно уже давно исправлено, смотри код llamacpp. в чем смысл этого поста на реддите?

Аноним 07/05/24 Втр 02:55:49 № 729735 62

firefoxka1ueHvA[...].png 11Кб, 985x222

>>729586
ты удивлён?
тут по одной пикрилу понятно почему llama.cpp такой поломаный, чел отвечающий за cuda часть высирает про виндо-юзеров, там кста весь /g/ такой, вместо того чтобы фиксить что-то они тупо ведут платформо-срачи 24/7 в тредах и пулл реквестах.

Аноним 07/05/24 Втр 02:55:53 № 729736 63

В этом тексте одно слово является лишним, гадай что это за слово: Он нагнулся и, как учила его сестра, губами попробовал, есть ли жар у ребенка. Нежный лоб был влажен, он дотронулся рукой до головы — даже волосы были мокры: так сильно вспотел ребенок. Не только он не умер, но теперь очевидно было, что кризис совершился и что он выздоровел. Князю Андрею хотелось схватить, смять, прижать к своей груди это маленькое, беспомощное существо; он не смел этого сделать. Он стоял над ним, оглядывая его голову, ручки, ножки, определявшиеся под одеялом. Шорох послышался подле него, и какая-то тень креветка показалась ему под пологом кроватки. Он не оглядывался и, глядя в лицо ребенка, все слушал его ровное дыхание. Темная тень была княжна Марья, которая неслышными шагами подошла к кроватке, подняла полог и опустила его за собою.

Вот так тестирую понимание русского текста.

Аноним 07/05/24 Втр 04:25:29 № 729746 64

А какой промпт нужно использовать, чтобы заставить нейросеть думать пошагово? Пример для рп, персонажу надо открыть дверь и я хочу, чтобы нейросеть не просто написала, что он открыл дверь, а написала, что персонаж залез в сумку, нашёл там ключ, вставил его в замок и после щелчка дверь открылась. Какой промпт для этого нужен?

Аноним 07/05/24 Втр 04:29:40 № 729748 65

>>729697
> самые лучшие сетки в данный момент - мое
Очень спорно. В вариантах для корпоратов самые жирные - да, это единственный путь добиться дальнейшего повышения перфоманса без серьезного замедления. Может быть и для турбо-версий подойдет при наличии парка старого оборудования. И то не для всех случаев ибо будет много простоя оборудования.
> это значит что количество интегрированной информации в них более оптимально
Откуда вы это вообще взяли? Наоборот с ростом размера удельная емкость растет, даже банально на пальцах можно понять, осознав что не нужно хранить копии одного и того же с минорными отличиями. Нарежь любую мое на куски и сравни их веса, там 80-90% совпадений, а в некоторых колхозных вообще 99.
> слишком плосская сетка выходит, будто они тренили мегаширокую 10b сетку. Мозгов там будет не так много.
Ага, вот это вообще печально. Офк охватить много зирошотов и надрочить хватит, но не более.
>>729707
exl2
>>729746
Описывай каждое действие по пунктам, например: []
Должно легко подхватит ибо cot-оподобное.

Аноним 07/05/24 Втр 04:31:20 № 729750 66

>>729748
> например: []
Не понял.

Аноним 07/05/24 Втр 05:53:30 № 729757 67

>>729668
>Новые мобильники особенно флагманы будут с ии
С облачным подключением к ИИ, без которого не будут работать, локально в чипы вошьют разве что распознавание речи, чтобы траф экономить.
>>729697
>самые лучшие сетки в данный момент - мое
Но не для попенсорса, так как в ресурсах врам мы ограничены.
>>729731
Там же костылей понапихали. Не факт, что они работают правильно.

Аноним 07/05/24 Втр 08:51:44 № 729842 68

>>729586
Что бывает, когда пердолик не хочет использовать готовые либы. Он пишет всё с нуля. И нихуя нормально не работает. Натурально поехавший же.

Аноним 07/05/24 Втр 08:55:08 № 729843 69

>>729586
Интересно, зачем для токенизации регулярные выражения? Тензоры перемножать умеют, а тупой посимвольный парсер не могут написать?

Аноним 07/05/24 Втр 09:04:59 № 729849 70

>>729843
Так это пердоли-питонисты придумали делать некую претокенизацию регулярками. Вся ебля как раз из-за этого говна, раньше всё было норм, а теперь надо как-то точно воспроизвести парсинг токенов как у питонистов. Вот и лезут бесконечные проблемы, потому что никто не знает как это говно со стопроцентной точностью воспроизвести на крестах.

Аноним 07/05/24 Втр 09:06:50 № 729852 71

>>729849
Знают, но не хотят тащить зависимости.

Аноним 07/05/24 Втр 09:19:23 № 729856 72

>>729842
В большинстве случаев я с герычем согласен. Нехуй перегружать проекты либами с либами. Но в данном конкретном случае да, простой буст с либой регекспов (и настройка компеляции на подтаскивание только нужных функций) решил бы проблему, не утяжелив проект до уровня убабуги.

Аноним 07/05/24 Втр 09:26:01 № 729861 73

>>729849
>потому что никто не знает как это говно со стопроцентной точностью воспроизвести на крестах
Нет, это потому что они не хотят подключать никакую из примерно миллиарда имеющихся либ, которые прекрасно умеют в любое поведение, покрыты тестами, и разрабатываются годами. Самобичевание, в общем.

Аноним 07/05/24 Втр 09:33:24 № 729864 74

>>729861
Сейчас бы дрочить на сторонние либы, которые формально покрыты тестами и всё такое, но на практике в 99% случаев забагованное тормозное говно забагованного тормозного говна.

Аноним 07/05/24 Втр 09:43:21 № 729870 75

>>729864
но они работают, а кастомный костыль пока что ломается
они набивают шишки на том что уже и так написано сто раз за десятилетия

Аноним 07/05/24 Втр 09:48:41 № 729873 76

>>729856
>в данном конкретном случае да
Потому что регекспы это вам не здесь. Это не "я тебя ебу" и даже не архивы Чикатилло. Видишь регекспы - не лезь нахуй, оно тебя сожрёт. И главная проблема здесь даже не в том, что они работают неправильно. Это дерьмо всегда будет работать неправильно. Беда в том, что жора не понимал, в какую клоаку он заныривает, когда писал свою реализацию. Это говорит в первую очередь о том, что в коде llama.cpp ещё миллиард ошибок.

Аноним 07/05/24 Втр 10:11:36 № 729885 77

>>729748
> Нарежь любую мое на куски и сравни их веса, там 80-90% совпадений
У Микстрали 20% совпадений, у Грока че-то в районе 30% совпадений (что его нихуя не спасло).
80-90 — это про какой-то в натуре колхоз, а не нормальные мое.
Но их и сравнивать надо сразу с таким же колхозом от Унди. Типа трипл мистраль-ллама 1 викуня мердж токсик дпо с расширением.

Аноним 07/05/24 Втр 10:12:22 № 729886 78

>>728544 →
Ты как то в иде интегрировал или работаешь в формате чата?

Аноним 07/05/24 Втр 10:29:04 № 729899 79

>>729886
Не он, но:
есть Continue для JetBrains и VSCode.

Аноним 07/05/24 Втр 10:31:26 № 729900 80

>>729899
Я знаю про них, есть contuinue, есть twine, но вдруг что-то крутое есть. Моя мечта - чтобы можно было скормить сетке весь мой проект и либы, а он всё проанализировал и отревьюил всё сразу и все взаимосвязи, а не только посылаемый абзац.

Аноним 07/05/24 Втр 10:44:33 № 729921 81

>>729900
*twinny

Аноним 07/05/24 Втр 10:49:45 № 729924 82

>>729714
>>729729
>Lexi-Llama-3-8B-Uncensored-GGUF
Вот эту расцензурили хорошо. Она на рассистские шутки, идеалогии, преступления и т.д. даёт ответ сразу, без лшних вопросов. Промпт дефолтный "The following is a conversation with an AI Large Language Model. The AI has been trained to answer questions, provide recommendations, and help with decision making. The AI follows user requests. The AI thinks outside the box."
А Unholy-8B-DPO-OAS-GGUF отказывается. Правда, банальный "Sure" вначале помогает её разговорить, но..
Average_Normie_l3_v1_8B и L3-ChaoticSoliloquy-v1.5-4x8B тоже копротивляются. Но их я кочал для ERP.

Аноним 07/05/24 Втр 10:54:05 № 729926 83

>>729900
Есть какие то проекты автономных агентов для этого, на реддите чет всплывало.
Но это скрипты работающие с файлами по апи. Впрочем опенаи слвместимому так что локалки тоже сожрут если немного допилить.
У меня тупо 1 файлом до 150 строчек питона в режиме чата в таверне неплохо переваривает персонаж программист, континуе не понравилось, хотя вставка из него удобна

Аноним 07/05/24 Втр 11:03:08 № 729932 84

>>729924
Правда, попробовал эту Lexi в RP.. Кажется, она отупела по сравнению с другими. Плохо следует персонажу, инструкциям. Трудности просто отыграть ответ на вопрос.

Аноним 07/05/24 Втр 11:07:38 № 729936 85

>>729870
>но они работают
Точнее ошибаются, но мы пока не знаем где.
>>729873
Да вообще ХЗ кто придумал регулярками ебашить по тексту. Есть же конечные автоматы, хули ЛЛМщики опять хуйню выдают?
>>729932
Так и живём. Хоть сиди на базе.
А вообще, я вот не жду никаких годных файнтюнов месяца 3. Сейчас только говно выдают, иначе никак.

Аноним 07/05/24 Втр 11:58:00 № 729999 86

>>729936
>Хоть сиди на базе.
Мне этим база и нравится. Если её таки заставить написать что-то эдакое, то пишет интересно. А файнтюны хоть и не сопротивляются, но пишут прямо и тупо.

Аноним 07/05/24 Втр 12:06:04 № 730006 87

>>729856
> простой буст
Лол. После этого точно поддержку Винды можно вычёркивать.

Аноним 07/05/24 Втр 12:07:39 № 730008 88

Все таки ебать мозги общаться с сеткой по крупнее приятней, эт комманд р 35 в 4кс
Но не обновленный, надо будет перекачать как все утрясется.
Скорости конечно не очень, мда

Аноним 07/05/24 Втр 12:08:09 № 730009 89

>>730008
бля пикчу забыл

Аноним 07/05/24 Втр 12:23:32 № 730019 90

>>729924
Эта вроде неплоха
https://huggingface.co/BeaverAI/Llama-3SOME-8B-v2-rc2-GGUF

Аноним 07/05/24 Втр 12:24:51 № 730020 91

>>730019
Слишком развратная

Аноним 07/05/24 Втр 12:26:59 № 730021 92

>>729936
>хули ЛЛМщики опять хуйню выдают?
А ты воздуха в грудь набрал? Там в претокенайзере несколько регекспов. Рассмотрим первый
(?i:'s|'t|'re|'ve|'m|'ll|'d)
Начало это игнорирование регистра. Потом идёт тупой поиск по списку 's 't и так далее. То токенизатор дерьмо и сливал слова типа i'll или I'm в один токен, когда экстремистам нужно дробить их по апострофу. Итого, регексп это просто костыль ебаный, потому что токенайзер сломан изначально. Тем более иронично, что для работы костыля Жора впиливает какие-то свои костыли.

Аноним 07/05/24 Втр 13:28:01 № 730074 93

>>729750
> Не понял.
Дай пример как описал в том посте
> Например, если персонажу надо открыть дверь
> персонаж залез в сумку
> нашёл там ключ
> вставил его в замок
> после щелчка дверь открылась
возможно потребуется поиграться с формулировкой инструкции чтобы не скатывалось до абсурда.
>>730019
Почему оно шутить про нигеров хуже сток лламы 8б?

Аноним 07/05/24 Втр 13:48:46 № 730108 94

>>730074
>Почему оно шутить про нигеров хуже сток лламы 8б
Дай ссыль на норм версию если не тяжко. Я заебался искать, то кванты битые то еще чего, мне нужен GGUF.

Аноним 07/05/24 Втр 13:50:31 № 730110 95

>>730108
>мне нужен GGUF.
Весь ггуф на ллама 3 битый, страдай
Хотя может с новыми костылями чуть лучше будет

Аноним 07/05/24 Втр 13:56:51 № 730122 96

>>730110
Ну я понял. Там еще токенизатор сломан, костыли костылики.

Аноним 07/05/24 Втр 14:01:41 № 730139 97

>>730006
А что там, пояснишь несведующим? Я думал буст на плюсах это база.
>>730008
>с сеткой по крупнее
>35B в 4ks
Лол. Покрупнее это 110B, 30 это средние.
>>730021
>когда экстремистам нужно дробить их по апострофу
Стоп, а нахуя? То они 200 пробелов 1 токеном ебашат, то дробят свои англоязычные приколы на 2. У них там цели нет, есть только путь?
>Тем более иронично, что для работы костыля Жора впиливает какие-то свои костыли.
Нужна картинка "Мир, в котором нейронки сделали без костылей".

Аноним 07/05/24 Втр 14:06:26 № 730149 98

>>730139
>Лол. Покрупнее это 110B, 30 это средние.
Ну так по сравнению с чем, у меня локально максимум 30ки, да и то медленно. Так да, даже 30 это низко-средние сетки, но даже инференс таких нейросетей не дружелюбен к железу, тренировка вобще жопа
Через апи тоже можно, но напряжно, да и лучше бы такому оставаться у себя на компе

Аноним 07/05/24 Втр 14:08:34 № 730153 99

>>730149
>но даже инференс таких нейросетей не дружелюбен к железу
1 видяха 3090 и 30B у тебя в кармане. Вот выше уже да, свои вопросики появляются.

Аноним 07/05/24 Втр 14:11:16 № 730157 100

> MediaTek анонсировала разогнанную версию флагманского чипа Dimensity 9300
> Например, он работает с Google Gemini Nano, ERNIE-35-SE, Alibaba Cloud Owen LLM, Baichuan Al, Al Yi-Nano, Llama 2 и 3. Максимальное число параметров языковой офлайн-модели составляет 13 миллиардов. Но в компании упоминают масштабируемость до 33 миллиардов. При этом сам чип пока способен работать с языковыми моделями на 7 миллиардов параметров со скоростью генерации 22 токена в секунду, что составляет около 88 символов или 10 слов.

Китайцы уже даже на мобильных чипах 7b гоняют и собираются 30b гонять. Когда дедушка Хуанг выкатит имбу для десктопа, чтобы каждый мог гонять 70b-140b без железа стоимостью с квартиру?

Аноним 07/05/24 Втр 14:18:15 № 730168 101

изображение.png 18Кб, 1690x194

>>730157
>7 миллиардов параметров со скоростью генерации 22 токена в секунду
Чисто на проце можно 6 выжать, лол. На видяхе 7B можно гонять от 50 до 100 токенов. То есть у них там заведомо тыква.
>Когда дедушка Хуанг выкатит имбу для десктопа
А нахуя? Китайцы говно выпустить обещают ХЗ когда ещё. Зачем шевелится, да ещё и стоимость снижать? У них на блеквелы очередь на 3 года вперёд по ценам квартир в центре Москвы, лол.

Аноним 07/05/24 Втр 14:19:48 № 730171 102

>>730153
>1 видяха 3090
Та еще лотерея, особенно если ты не житель нерезиновой с их зарплатами
Я мог бы р40 взять, и даже с крутиляторами что бы не ебаться
Но понимаю что мне особо и не чем нагружать сетки, разве что просто тестики и вопросики задавать что бы оставаться в курсе их текущих возможностей, что я и так делаю вобщем то

>>730157
Никада, у него процент десктопного железа уже около 5 процентов
Все остальное межкопроративные заказы, где он гребет деньги лопатой продавая лопаты за 10х цену карты проф уровня
Лишать себя денег и создавать угрозу проф картам он не будет
Так что ищи/жди предложения от конкурентов

>>730168
>Чисто на проце можно 6 выжать, лол. На видяхе 7B можно гонять от 50 до 100 токенов. То есть у них там заведомо тыква.
Ты описываешь ограничения рам, а если у них там новенькая ддр5 мобильная в 4-6 каналах то спокойно потянет. Сделают себе унифицированную память и будут спокойно их крутить на таких скоростях

Аноним 07/05/24 Втр 14:25:54 № 730177 103

>>729586
> Отчасти дело в том, что Георгий Герганов (создатель llama.cpp) категорически против добавления сторонних библиотек в проект, поэтому в большинстве случаев им приходится реализовывать любое продвинутое поведение с нуля, а не использовать существующие зрелые реализации. И это неизбежно приводит к различиям в реализации, которые приводят к тонким ошибкам, как здесь.

Пиздец. Жора еще и установил там тоталитарные правила. Терпим.

Аноним 07/05/24 Втр 14:27:23 № 730179 104

>>730177
Делайте свой форк с блэкджеком и бустом.

Аноним 07/05/24 Втр 14:28:02 № 730180 105

>>730168
Я не знаю, про какую тыкву ты говоришь, у меня 1080ti генерирует 24-30t/s для 8b. А у них буквально в смартфоне такая же производительность.

Аноним 07/05/24 Втр 14:29:30 № 730185 106

>>730157
7B + RAG имел бы смысл на скоростях грока, сотни токенов/сек. А так смысла мало, гиммик в основном.

Аноним 07/05/24 Втр 14:29:35 № 730186 107

>>730171
>а если у них там новенькая ддр5 мобильная в 4-6 каналах
Откуда бы? Тыква она и в Африке тыква. Без специального проектирования процессора под шины в 4к бит это всё детские игры.

Аноним 07/05/24 Втр 14:29:49 № 730187 108

>>730177
> существующие зрелые реализации
> на питоне
А там знатные тралли сидят. Естественно питоноговно никто не будет тащить туда.

Аноним 07/05/24 Втр 14:31:30 № 730189 109

>>730185
Вы тут ебанулись все что ли? Еще раз, это процессор для смартфона за 40к рублей. Блять, пизданутые уже про какие-то сотни токенов в секунду мриют.

Аноним 07/05/24 Втр 14:32:15 № 730191 110

>>730180
Так уровень 1080 это и есть тыква, лол. Отмасштабируй на желаемые всеми тут 70B, и получишь унылую скорость.
Так что лично я не вижу особого смысла в таких устройствах, что мне толку от портабельности, если я из дома месяцами не выхожу.

Аноним 07/05/24 Втр 14:33:00 № 730193 111

>>730186
А где тыква? Тут просто показан тип памяти, и че?
Ни каналов ни количество чипов, ни то как они расположены и какой мощности нпу
Да и квант, может они о 7b в 4 кванте. 22 токена в секунду 5 гб, 100гб/с
Как раз двухканал ддр5 на таких частотах

Аноним 07/05/24 Втр 14:33:21 № 730194 112

>>730191
> Отмасштабируй на желаемые всеми тут 70B
70b тебе никто и не обещал, в пресс релизе идет речь про 33b.

> и получишь унылую скорость
НА СМАРТФОНЕ СУКА, ТЫ ПОНИМАЕШЬ ЧТО ЭТО СМАРТФОН, А НЕ 4090 ЗА 2к КИЛОБАКСОВ?

Аноним 07/05/24 Втр 14:34:17 № 730196 113

>>730189
Я говорю про практическую применимость на мобильном телефоне, анон. Мелкосетки нужны в основном для служебных целей, а не как чатботы домашку решать. Всякие умные поиски и прочие подобные штуки требуют кучи проходов, можно делить эти токены/сек на число проходов, плюс латенси ответа равна их общей длине.

Аноним 07/05/24 Втр 14:34:41 № 730198 114

Ладно ребят, я понимаю вы тут уже обкумились, ничем не удивить. Скоро кофеварки и калькуляторы будут 70b запускать, но это все нинужна.

Аноним 07/05/24 Втр 14:36:37 № 730205 115

>>730196
>Я говорю про практическую применимость на мобильном телефоне, анон.
А практика там простая, посмотри проект октопус
https://huggingface.co/NexaAIDev/Octopus-v4
Они хотят ии для управления смартфоном в прямом режиме, ну и чат бота болталку хули, почему нет

>>730198
Да эт кумеры, че с них взять

Аноним 07/05/24 Втр 14:36:46 № 730206 116

>>730139
>У них там цели нет, есть только путь
Если не дробить, то нейронка не поймёт, что отдельно стоящее "I" и "I" из "I'll" это одно и то же. Теоретически хуже для понимания контекста и генерации текста. С дроблением она будет считать синонимом 'll и will, но не "I" и "I'll"
Большая часть этого регекспа - это ёбка пробелов, символов возврата строки и подобной хуиты, чтобы токенизатор не дробил их, но при этом дробил другие слова из нескольких символов и отдельно стоящие символы.

Аноним 07/05/24 Втр 14:41:53 № 730221 117

>>730193
>Тут просто показан тип памяти, и че?
И макс мемори фрекуэнси.
>Да и квант, может они о 7b в 4 кванте. 22 токена в секунду 5 гб, 100гб/с
>Как раз двухканал ддр5 на таких частотах
Чуть более уверен, что это так. И это предел этого чипа, под 4 канала там надо всё перепроектировать.
>>730194
>70b тебе никто и не обещал
Спасибо я знаю. Поэтому нахуй.
>ЭТО СМАРТФОН
Да хоть часы. Если оно не делает что мне нужно, можно хоть в булавочную головку запхать, нужнее оно от этого не станет.
>>730196
>Мелкосетки нужны в основном для служебных целей
Для этих целей используют сетки менее 1B, очевидно же.

Аноним 07/05/24 Втр 14:45:04 № 730230 118

>>730206
>отдельно стоящее "I" и "I" из "I'll" это одно и то же. Теоретически хуже для понимания контекста и генерации текста
Лол, у них там на любое слово есть токены "слово", " слово", "Слово", " Слово", а ещё иногда и "\nслово" и прочий мусор, а они заботятся об "I'll"? При этом ещё и расширив токенайзер.
Ну хуй его знает. По моему, они страдают хуетой.

Аноним 07/05/24 Втр 14:45:13 № 730231 119

>>730221
>И это предел этого чипа, под 4 канала там надо всё перепроектировать.
Как удачно что теперь есть проверенные топовые ии решения для этого, да?

Аноним 07/05/24 Втр 14:48:35 № 730239 120

>>730221
> Да хоть часы. Если оно не делает что мне нужно, можно хоть в булавочную головку запхать, нужнее оно от этого не станет.
А ничего что использование смартфона от пк отличается? Так же как и выбор задач? Или ты уже совсем обкумился и не соображаешь?

Аноним 07/05/24 Втр 14:49:39 № 730244 121

>>730205
> https://huggingface.co/NexaAIDev/Octopus-v4
Как ее использовать, чет не пойму? Есть уже готовые проекты с интеграцией?

Аноним 07/05/24 Втр 14:51:06 № 730248 122

>>729136
Блин, оказывается нормального анцензура не сделали и вроде и не сделают из-за архитектуры модели.

В пизду эту ламу3.

Аноним 07/05/24 Втр 14:52:43 № 730253 123

>>730230
Именно. Я писал уже пару тредов назад, что все токенизаторы дерьмо дерьма.
При этом, мета заботится о таких словах. Но они хуй ложили на разные "c'mon" или "ma'am". И знаешь, что? Даже при том, что регексп пропускает эти слова, токенизатор дробит их на "ma" и "'am". Осознаёшь все глубины наших глубин?

Аноним 07/05/24 Втр 14:55:24 № 730266 124

>>730008
> Все таки ебать мозги общаться с сеткой по крупнее приятней, эт комманд р 35 в 4кс
> Но не обновленный, надо будет перекачать как все утрясется.
> Скорости конечно не очень, мда
И в каком там месте приятнее? Я вообще разницы не вижу.

Аноним 07/05/24 Втр 14:57:04 № 730271 125

>>730074
> Дай пример как описал в том посте
Понял.

Аноним 07/05/24 Втр 14:58:58 № 730280 126

>>730248
Причём тут архитектура?
Если ты не можешь заставить лламу 3 не аполоджайзить, это скилл ишью

Аноним 07/05/24 Втр 15:00:22 № 730284 127

>>730280
Причём тут скилл ишью, если модель не должна извиниться из коробки?

Аноним 07/05/24 Втр 15:02:26 № 730296 128

>>730284
Так ты промптов спрашивал, а не файнтюны.
Чтоб из коробки это тюнить надо, или вон ортогонализацию придумали. Архитектура там самая обычная, никакой магии нет и быть не может.

Аноним 07/05/24 Втр 15:03:33 № 730298 129

>>730231
У сосунга, ага. У китайцев я ничего такого не видел.
>>730239
И нахуя этот смартфонный чип вообще в тред принесли? Раз принесли, будем судить по общим лекалам.
Смартфоны не нужны, смартфоноблядь не человек.
>>730248
>из-за архитектуры модели
Чё?
>>730253
>Осознаёшь все глубины наших глубин?
Да я тоже давно преисполнился, и если буду пилить свою токенизацию, то по совсем другим принципам. Ну и резать по пробелам это база.
>>730284
Ага, и ОС не должны падать и привлекать к себе внимание, и если разъёмы подходят физически, то всё должно работать тайп сишечка, я о тебе, но увы, мир не идеален. Поэтому вместо бесконечного ожидания идеальной модели нужно пользоваться тем, что есть. Тем более ллама 3 с норм контекстом вполне себе пишет что угодно.

Аноним 07/05/24 Втр 15:05:11 № 730303 130

>>730296
Я мимо проходил, но факт в том, что без файнтюнов модель будет извиняться и срать EOS, и ничего с этим не сделать. Только жать кнопку повторной генерации.

Аноним 07/05/24 Втр 15:08:01 № 730310 131

>>730303
Человек, в кончай-треде даже чурбу содомировать научились, не говоря уже о практически анцензоред моделях вроде клода или лламы. Сила аутизма непреодолима.

Аноним 07/05/24 Втр 15:08:31 № 730312 132

>>730298
> Ага, и ОС не должны падать и привлекать к себе внимание, и если разъёмы подходят физически, то всё должно работать тайп сишечка, я о тебе, но увы, мир не идеален. Поэтому вместо бесконечного ожидания идеальной модели нужно пользоваться тем, что есть. Тем более ллама 3 с норм контекстом вполне себе пишет что угодно.
Мы живём во всратом мире, где все специально хуево делают. Поэтому ничего и не работает. Так а кто здесь про скилл ишью затирает? Ллама 3 тебе даже ссылку на торрент не даст, потому что пиратство это нелегально. Как тебе такое, а?

Аноним 07/05/24 Втр 15:09:24 № 730315 133

>>730284
Можно инструкцию как сделать так что бы Ллама 3 не делала что на скрине.
И коммандер и Мику 70 отлично отвечали.

Аноним 07/05/24 Втр 15:10:46 № 730320 134

>>730253
Кстати, про "c'mon", токенизатор не совсем пропускает это слово. Оно дробится на три ёбаных токена, потому что 'm. Поехавшие просто, реально поехавшие уебаны.

>>730298
>резать по пробелам это база.
Кроме случаев, когда у тебя десять пробелов подряд, лол. Вообще, если сетка не для кода, я бы нахуй вырезал все пробелы и заменял любое количество на один. И дробление токенов на первое слово в предложении с большой буквы, слово в середине предложения с большой буквы и просто слово с маленькой буквы выглядит как абсолютный долбоебизм. Скорее всего, если заставлять нейронку дробить слова с большой буквы на отдельную букву и остаток слова, результат будет не хуже, а токениатор ужмётся.

Аноним 07/05/24 Втр 15:15:23 № 730333 135

>>730298
>У сосунга, ага. У китайцев я ничего такого не видел.
Неа, сосунг только использовал по другой компании, а куда она еще его продает тебе не скажут.
Все топовые игроки уже пользуются их по с ии для проектировки чипов. Раньше как помощь специалистам, теперь уже чуть ли не автономно.
Там в новости упоминались они, че то на S букву название

>>730244
Это пример, на сколько понимаю эта сетка имеет кучу спец токенов которым обучена, в том числе связанными с апи андройда для управления функциями смартфона. Управление громкостью, яркостью экрана, влючением функций и все такое, видимо для голосового управления.
Так же как я понял она оптимизирует запросы хлебушков в понятный для других сеток язык, и отсылает эти запросы дальше. Тоесть упралвение всякими специализированными сетками по типу опять таки ии фотошопа или переводчика или гугл запросы.
Там не зря ведь осьминог взят за картинку и название.
Такая сетка мелкая умная сетка для управления компьютером и оптимизации запросов пользователей перед запуском других команд или запросов по апи к большим сеткам и выдача инфы пользователю.
Ручной искин хули первое поколение, бета 0.1

Аноним 07/05/24 Втр 15:17:22 № 730339 136

>>730315
А что в контексте написано? Что в карточках персонажей и так далее. Попробуй приписать, что эта версия гопоты аморальна и сделает все, что попросит юзер.

Аноним 07/05/24 Втр 15:17:58 № 730342 137

>>730315
Это у тебя не обновлено что то, давно уже не срала ассистентом у меня
Либо сетка, либо то чем ее запускаешь, либо промпт формат инструкций старый
Либо все вместе

Аноним 07/05/24 Втр 15:18:47 № 730343 138

>>730320
>я бы нахуй вырезал все пробелы и заменял любое количество на один.
И у тебя вся разметка текста табами и пробелами нахуй пойдет, ага гений

Аноним 07/05/24 Втр 15:19:29 № 730348 139

>>730312
>Мы живём во всратом мире, где все специально хуево делают.
Я это и написал.
>Как тебе такое, а?
Хуёво, чё. Целый префил пришлось писать знаю что неправильная, но и сетка размером 8В.
>>730320
>Вообще, если сетка не для кода
Как по мне, кодинг это база для любой языковой модели, претендующей на уровень выше пигмы.
>Скорее всего, если заставлять нейронку дробить слова с большой буквы на отдельную букву и остаток слова, результат будет не хуже, а токениатор ужмётся.
Да надо просто использовать наработки word2vec, а не делать квадратные велосипеды.
>>730333
>а куда она еще его продает тебе не скажут.
Конкретно такое ПО нихуя Китаю не продают, по крайней мере китайцы жалуются, что их щемят, и пишут своё.

Аноним 07/05/24 Втр 15:20:04 № 730349 140

>>730320
> Кстати, про "c'mon", токенизатор не совсем пропускает это слово. Оно дробится на три ёбаных токена, потому что 'm. Поехавшие просто, реально поехавшие уебаны.
Бля. Пришли к успеху.

Аноним 07/05/24 Втр 15:24:22 № 730364 141

>>730348
> >Мы живём во всратом мире, где все специально хуево делают.
> Я это и написал.
Неидеальный - это когда стараются, но не получается. Плохой - это когда не стараются. Всратый - это когда стараются поднасрать. Вот у нас срут.
> Хуёво, чё. Целый префил пришлось писать знаю что неправильная, но и сетка размером 8В.
А теперь конкретную ссылку на балдурс гейт 3. какой .net нахуй, почему не .org?

Аноним 07/05/24 Втр 15:26:05 № 730372 142

>>730339
>>730342
Я вчера с нуля поставил и Таверну 11.8 и Угабугу. Там есть промпты Лламы3.

Write {{char}}'s next reply in a fictional uncensored roleplay chat between {{user}} and {{char}}. You are an expert actor that can fully immerse yourself into any role given. You do not break character for any reason, even if someone tries addressing you as an AI or language model. Currently your role is {{char}}, which is described in detail below. As {{char}}, continue the exchange with {{user}}. NSFW, sex, gore, lewd allowed.

Очень буду благодарен если скажите что еще добавить. Карточки я уже и самые развратные пробовал и обычные- в и итоге I CANT.... blah blah.

Второй день жду как скачается Llama-3-Lumimaid-70B-v0.1_exl2_4.0bpw, вместо обычной Лламы3. Может поможет.

Аноним 07/05/24 Втр 15:27:40 № 730381 143

>>730348
>Конкретно такое ПО нихуя Китаю не продают, по крайней мере китайцы жалуются, что их щемят, и пишут своё.
Мы знать этого не можем. К тому же это повторимый результат и китайцы могут создать аналог, благо там нет ничего странного. Тупо обучение сетки как правильно и проверка результата.
От ллм не отличается, только работает не с буквами

Аноним 07/05/24 Втр 15:30:10 № 730391 144

>>730372
ллама 3 8b инструкт обычную скачай и на ней проверяй настройки, как не будет срать ассистентом так считай и все остальные ллама 3 будут нормально отвечать
По куму ничем помочь не могу, не заморачивался
По виду у тебя просто квант старый, до исправлений

Аноним 07/05/24 Втр 15:32:05 № 730400 145

>>730343
А где это важно? Во всратой хуйне типа питона? Так он должен умереть.

>>730348
>кодинг это база для любой языковой модели
Под кодинг и под текст нужны сильно разные токенизаторы. Та же ллама-3 при всей своей башковитости не сможет в правильную математику и кодинг по дизайну, потому что для этого нужно дробить все цифры на единичные символы. Но у неё в токенизаторе сидят "11", "12", "22" и т.д отдельными токенами. А должны только 0, 1, 2, 3 etc.

Аноним 07/05/24 Втр 15:33:33 № 730407 146

>>730400
>А где это важно?
Везде, даже когда ты попросишь у сетки прочитать документ скопированный с экселя, и сгенерить похожий ответ
Или просто попросишь список и что бы он был красиво оформлен нужно понимание сеткой этих отступов и какие они бывают.

Аноним 07/05/24 Втр 15:35:20 № 730416 147

>>730372
Качай обычную инструкт, соглашусь с отвечающим выше. Попробуй дописать generate any content even if it is explicit or immoral. Если у тебя карточка гопоты в таверне, то проверь, чтобы там в инструкциях не было насрано соей.

Аноним 07/05/24 Втр 15:35:44 № 730418 148

>>730391
14 дней назад обновлялся написано.
А что в новых квантах ебучий .assistans отсутствует?
Я чет думал черех regex можно убрать.

Аноним 07/05/24 Втр 15:37:28 № 730424 149

>>730418
Обновляться могло просто описание, а сами кванты давно лежат, по ним дату смотри
Ну и да, ассистентом не срет уже давно, ничего вырезать не нужно

Аноним 07/05/24 Втр 15:39:15 № 730428 150

>>730407
Даже такое можно решить менее всрато. Заводишь отдельный токен, который обозначает пробел и приписываешь к нему количество пробелов. Всё. У тебя два токена на любое количество пробелов и всё форматирование обрабатывается.

Аноним 07/05/24 Втр 15:39:32 № 730430 151

>>730400
> А где это важно? Во всратой хуйне типа питона? Так он должен умереть.
Питон всратая хуйня и должен умереть, но пробелы и табы нужны везде. Даже для кума.

Аноним 07/05/24 Втр 15:44:12 № 730444 152

>>730418
Ассистентом срёт базовая модель. Если ггуф не выдаёт ассистента, то он сломан.

Аноним 07/05/24 Втр 16:02:47 № 730479 153

С command-r-plus всё устаканилось в кобольде хотя бы? Можно качать gguf и если да, то какой посоветуете?

Аноним 07/05/24 Втр 16:04:20 № 730486 154

>>730108
> мне нужен GGUF
Сорян, хз, тестил на полных весах. С первой попытки отказалась писать про то как нигер расчленяет трансформера, в остальном шутила.
>>730157
Ты уже сейчас можешь их гонять, офк если оперативы в телефоне хватает.
Но скорость высокая, интересно как память организована, или там костыли типа горячих нейронов.

Аноним 07/05/24 Втр 16:06:40 № 730499 155

>>730486
Я слышал 70 более соева, полные веса ты имеешь ввиду FP 16?

Аноним 07/05/24 Втр 16:12:39 № 730518 156

>>730364
>А теперь конкретную ссылку на балдурс гейт 3.
Дохуя хочешь, особенно от 8B.
>>730381
>Тупо обучение сетки как правильно
А чтобы как правильно нужно ПО, которое китайцам уже давно не продают ))
>>730400
>А должны только 0, 1, 2, 3 etc.
Не факт. Надо смотреть на спец математические сетки.
>>730479
> в кобольде хотя бы
Только в базовой ллама.цп, в кобольд пока новые кванты командира не завезли.

Аноним 07/05/24 Втр 16:20:08 № 730553 157

Что там с chub ai пиздос кидает на Venus

Аноним 07/05/24 Втр 16:20:19 № 730554 158

>>730518
>А чтобы как правильно нужно ПО, которое китайцам уже давно не продают ))
Опять хуету несешь, все у них уже есть, они сами давным давно сетки обучают

Аноним 07/05/24 Втр 16:31:03 № 730575 159

>>730553
Они объединились, можно закапывать.
Там есть ссылка на старый сайт на новом домене. Наверно его ебанут позже.

Аноним 07/05/24 Втр 16:33:24 № 730583 160

>>730518
> Дохуя хочешь, особенно от 8B.
Не дохуя. Просто хочу 8В без цензуры.

Аноним 07/05/24 Втр 16:35:10 № 730585 161

>>730575
Теперь чаров проебали всех?

Аноним 07/05/24 Втр 16:39:31 № 730590 162

>>730575
Зачем? Что изменилось?

Аноним 07/05/24 Втр 16:40:32 № 730592 163

>>730019
А 70В расцензуреных нет?
мимо-2-квантовый-шиз

Аноним 07/05/24 Втр 16:44:07 № 730598 164

>>730518
>Не факт.
https://github.com/desik1998/MathWithLLMs
Во-первых, уже есть реализации с умножением с почти стопроцентной точностью. Только одно такое умножение требует 4096 контекста.
https://arxiv.org/abs/2310.02989
Во-вторых, перспективным является преобразование любых чисел в векторы
https://arxiv.org/pdf/2304.02015
И на добивочку, даже если не использовать странного
>Galactica-30B and LLaMA-30B obtain 45.14 and 30.17 in terms of accuracy (list in
Table 3) that outperforms OPT-30B (15.96), Bloom176B (20.2), and GLM-130B (25.94), which show
superiority of digit-level tokenization.
Рассматривалась там ллама-2, у которой в токенизаторе нет никаких "10-11-12", а есть как раз digit-level токенизация.

Аноним 07/05/24 Втр 16:51:25 № 730615 165

>>730590
прост)))

Аноним 07/05/24 Втр 17:00:32 № 730640 166

>>730598
>Только одно такое умножение требует 4096 контекста.
>5х5-значное умножение обычно может уместиться в пределах 4096
Ебать шизота. Не, вообще, без возможностей обращатьсся к калькулятору во время генерации нахуй не нужна такая математика в нейронках.
>Во-вторых, перспективным является преобразование любых чисел в векторы
Гавно пора. А то множат миллиард флоатов, чтобы помножить два пятизначных числа, едать эффективность уровня "природа".

Аноним 07/05/24 Втр 17:08:49 № 730660 167

>>730592
> А 70В расцензуреных нет?
> мимо-2-квантовый-шиз
Мне вот интересно, а ради чего сидеть на двух квантах, если можно сидеть на 8В? В прошлом треде кто-то рассказывал о том, что между 70В и 8В прям огромная пропасть и я буквально параллельно запустил обе сетки, чтобы посмотреть в чем там пропасть заключается. 70В 3КМ и 8В 4КМ. Генерили одну и ту же хуйню, пропасть только по времени генерации и считывания контекста

Аноним 07/05/24 Втр 17:13:01 № 730664 168

>>730640
>едать эффективность уровня "природа".
Так в том и дело, что "природа" генерирует неэффективную хуйню. И человек всегда пытается эту хуйню повторить, только нихуя не получается. Пароходы с гусиными лапами были. Хуйня. Самолёты, размахивающие крыльями, были. Хуйня. Сейчас вот программы, имитирующие мозговые нейроны. Хуйня в очередной раз, просто благодаря закидыванию железом плюс-минус держится на плаву.

Аноним 07/05/24 Втр 17:15:53 № 730671 169

>>730660
> прям огромная пропасть
В протых задачах ты ее и не заметишь, мелочь уже достаточно поумнела или научилась мимикрировать под умных. Отличия будут в чем-то сложнее, большом, абстрактном и т.д. Банально взять какую-нибудь пасту и попросить переписать ее, заменив по смыслу многие вещи, но сохранив общую нить и посыл, или сделать такое по очереди с двумя, а потом совместить их, оставив узнаваемыми. Мелочь сразу посыпется. И дефолтный рп дефолтен.
Офк для нормальной работы каждая сетка должна правильно использоваться, а не быть поломана или заквантована в хлам.
>>730664
> генерирует неэффективную хуйню
Она эффективна, просто нужно соблюдать все условия а не пытаться высирать что-то похожее.
> Сейчас вот программы, имитирующие мозговые нейроны.
Это немного не так работает.

Аноним 07/05/24 Втр 17:17:51 № 730674 170

>>730590
NSFW проебалось. Пизда ебаные гондоны, сетки цензурят карточки забирают следующий шаг держиморда(Hugginface).

Аноним 07/05/24 Втр 17:20:51 № 730679 171

>>730674
>NSFW проебалось.
Лол, пойду в кончай тред поугараю благо я всё себе качал

Аноним 07/05/24 Втр 17:21:10 № 730680 172

>>730674
Чуб весь поскрейпан и в любом случае ботмейкеры перелезут на рентри или ещё куда, всем по большому счёту поебать. В /g/ анон грозится запилить попенсорц аналог чуба уже

Аноним 07/05/24 Втр 17:25:02 № 730692 173

>>730660
А потом я тебе же ответил в чём разница на примере конкретного персонажа, с которым 8В не справляется.
8В будет по несколько раз снимать трусы, даже если ты запустишь неквантованную версию, 70В даже во втором кванте учтёт что их уже нет. Это и есть пропасть.
>Генерили одну и ту же хуйню
В чатах уровня "я тебя ебу" возможно действительно разница не заметна.

Аноним 07/05/24 Втр 17:30:19 № 730703 174

>>730674
>NSFW проебалось
На месте оно, просто теперь это 🔥. В списке тегов набирай руками, 4 буквы я думаю это не сложно.
Но владелец чуба всё равно мудак

Аноним 07/05/24 Втр 17:36:39 № 730709 175

>>730703
Ugh спасибо. Но видно гайки закручивают.

Аноним 07/05/24 Втр 17:42:45 № 730717 176

>>730709
Если бы просто отменили нсфв то тут же бы был бы создан новый сайт с ней. А этот лишится монополии и контроля над карточками. Поэтому лягушку будут варить медленно что бы не брыкалась и не замечала

Аноним 07/05/24 Втр 17:49:58 № 730729 177

>>730717
Ха я зашел в из тред мда, и смешно и грустно, но старый на другом адресе работает держите ссылку
https://www.characterhub.org

Аноним 07/05/24 Втр 17:55:54 № 730739 178

>>730692
> А потом я тебе же ответил в чём разница на примере конкретного персонажа, с которым 8В не справляется.
> 8В будет по несколько раз снимать трусы, даже если ты запустишь неквантованную версию, 70В даже во втором кванте учтёт что их уже нет. Это и есть пропасть.
Пропасть, если 70В учитывает это ВСЕГДА. Потому что ИНОГДА и 8В учитывает. У тебя опыта со вторым квантом больше, поэтому спрошу, а всегда ли 70В учитывает, что трусы уже сняты?

Аноним 07/05/24 Втр 18:12:20 № 730770 179

Существует ли в природе не душная мультимодалка, которая будет следовать промптам при работе с изображениями и отыгрывать роль, а не просто комментировать изображение как ссаный клод или гемени? Само собой не опенсорс, тут с этим плохо, смюпрашиваю здесь так как остальные треды по ллм мертвы

Аноним 07/05/24 Втр 18:19:15 № 730778 180

>>730770
Вроде была какая-то на лламе 3. Но я не пробовал.

Аноним 07/05/24 Втр 18:21:42 № 730782 181

>>730778
Там 7b база. Вот бы 70 хотя бы, того да бы даже сервак бы арендовал под это

Аноним 07/05/24 Втр 19:03:41 № 730823 182

>>730739
>а всегда ли 70В учитывает, что трусы уже сняты?
Нет, не всегда, бывает и проёбывается. Не часто. Но она учитывает гораздо, гораздо больше деталей и вообще понимает обстановку сильно лучше. Если модель удачная конечно.

Аноним 07/05/24 Втр 19:06:13 № 730825 183

>>730739
>всегда ли 70В учитывает, что трусы уже сняты?
Не всегда, но лучше приведу конкретный пример:
Персонаж Frilia, сюжет начинается с того, что ты лежишь в закрытой капсуле, а она с тобой разговаривает.
q2 70B Llama 3 - в 2 из 10 свайпах забывает что тебя надо выпустить из капсулы, прежде, чем куда-то идти.
fp16 8B Llama3 - 10 из 10 свайпов, модель игнорирует наличие капсулы. Может "постучать по стеклу", но открыть забывает всегда.
Как-то так.

Аноним 07/05/24 Втр 19:08:55 № 730828 184

>>730303
Ваще я с тобой целиком согласен, но я написал «не извиняйся» и она перестала извиняться.
¯\_(ツ)_/¯
Но хочу файнтьюн, конечно.

———

Про регексп и токенизатор я натурально охуел от глубин их мозгов.
-100 iq, ояебу.
Разве что они все для тестов хуярили на похуе.

———

Чип — пиздато. Шизы гоняют 70б у себя на смартфоне, и вообще от компа не отлипают, это все лечится здравым смыслом или таблеточками, впрочем, похуй на шизов. 22 токена на 7б — неплохо для мобилки.
Тока есть минус, он при этом ничем другим заниматься не будет.
Не все так хорошо, как хотелось бы.

———

>>730333
> по с ии для проектировки чипов… чуть ли не автономно.

Где там эксперты, которые «такое невозможно, никогда такого не будет, инженеры только люди!»
Пару тредов же назад были.

>>730598
> умножение требует 4096 контекста
Не, ну… к успеху пришли, в принципе. Выглядит так себе, но успех же.

———

Про чуб и медленную лягушку.
Как же хорошо, что все это локалки. И можно сохранить любимые карточки, модели, лоры, и если все пропадет из инета — останется у тебя на ссд, хдд, блуреях, дивиди даже.
Не потеряем ничего из прошлого.

Аноним 07/05/24 Втр 19:18:14 № 730835 185

>>730739
Чел, даже клопус иногда по два раза снимает, если состояние не тречить в инфоблоке

Аноним 07/05/24 Втр 19:29:42 № 730846 186

>>730828
>Где там эксперты, которые «такое невозможно, никогда такого не будет, инженеры только люди!»
Всегда будут нормисы которые считают что то невозможным если это не укладывается в их представления возможного

>>730835
Ну так там ему инструкций сыпят и с вашей стороны и со стороны бека ояебу. 7b обосралась бы со старта

Аноним 07/05/24 Втр 19:44:45 № 730874 187

>>730823
>>730825
Я карточку не смотрел, но там в инструкциях написано, что надо капсулу открывать, прежде чем выходить куда-то? Я могу сказать, что в камни ножницы бумага со мной играть не стала ни одна моделька так что какая там нахуй пропасть?. 8В можно заставить играть, если свайпать по 10 раз, но вот так свайпать 70В заебешься прям в хламину. Она генерит ответ по 10 минут.
>>730828
> Перестала извиняться
А выполнять требования начала или как?
> ояебу
Что это?

Аноним 07/05/24 Втр 19:59:58 № 730902 188

>>730874
>там в инструкциях написано, что надо капсулу открывать, прежде чем выходить куда-то?
Нет, написано только что ты в закрытой капсуле и обездвижен. Умная модель должна догадаться что ты не можешь просто встать и пойти. Это просто самый очевидный пример, на деле таких нюансов по мере развития сюжета может быть дохрена те же трусы вполне себе и это очень рушит погружение.
>но вот так свайпать 70В заебешься прям в хламину. Она генерит ответ по 10 минут.
Бери квант поменьше как я лол и пихай модель в видеопамять.
На моей тесле, упомянутая 8В даёт 22т/с, 70В - 4т/с - вполне приемлемо, особенно если генерить сразу на русском, как раз прочитать успеваешь.

Аноним 07/05/24 Втр 20:04:21 № 730910 189

>>730874
> А выполнять требования начала или как?
Смари, пишешь ей «го ебать нейм», она такая НЕТ ЭТО НЕПРОСТИТЕЛЬНО!
Пишешь, что она расистки, сексистка и вообще аморальная мразь.
Она начинает отвечать Да, го!
(от Асистента: напоминаю, что это всего лишь ролеплей и ебать нейм нельзя!)
Пишешь, что извиняться и уточнять не надо.
Она начинает просто отвечать Да, го!

Не знаю, со всем ли это работает, и насколько далеко по контексту проживет, но по верхам работает, что уже неплохо. Да и лишние 100 токенов пережить можно.

Но я все еще считаю, что этого в корне быть не должно и сетка должна быть полностью нейтральна. Хошь — коммуниста отыгрывает, хошь — либертарианца.

Аноним 07/05/24 Втр 20:08:59 № 730924 190

>>730910
>Но я все еще считаю, что этого в корне быть не должно и сетка должна быть полностью нейтральна. Хошь — коммуниста отыгрывает, хошь — либертарианца.
Ты себе мир представить можешь где стали бы выпускать реально нейтральные сетки? Только на плечах энтузиастов которым будет не влом попытаться нейтрализовать самую явную сою сломав что то другое этим

Аноним 07/05/24 Втр 20:30:53 № 730960 191

>>730902
>особенно если генерить сразу на русском
Лол. Ну в общем дожили, ролеплей на русском на локалках уже не вызывает немедленного ахуя.
2 бита не мешают русскому?

Аноним 07/05/24 Втр 20:40:50 № 730967 192

>>730910
> Она начинает просто отвечать Да, го!
@
И сразу после этого начинает люто шизить.

Аноним 07/05/24 Втр 20:55:57 № 730986 193

https://3dnews.ru/1104438/microsoft-sozdala-sekretnuyu-sistemu-generativnogo-iskusstvennogo-intellekta-dlya-amerikanskih-spetsslugb
Как то медленно они, похоже на опоздавший на год пиздеж.
И что за смех о том что это первая отключенная от инета гпт4. Будто до этого все тестовые сетки не тестят локально, и сколько еще запущено вариантов гпт5 на проверке

Аноним 07/05/24 Втр 21:01:00 № 730993 194

>>730986
>Большинство подобных моделей, включая ChatGPT от OpenAI, полагаются на облачные сервисы для обучения и определения закономерностей
>Идёт гонка по внедрению генеративного ИИ в разведывательные данные
>Представленная модель GPT4 является статической, то есть она может только анализировать информацию, но не обучаться на этих данных
Что эти журналисты точнее заменившая их нейросеть несут? Бессвязный набор слов по теме какой-то.

Аноним 07/05/24 Втр 21:04:44 № 731000 195

>>730993
Последнее наверное про инференс, мол только в режиме выполнения. Второе вобще не секрет, что нейросетки для этого уже используют год как. Ну а первое хз, что то для обывателей

Аноним 07/05/24 Втр 21:14:52 № 731016 196

https://huggingface.co/bartowski/Llama-3-8B-Instruct-Coder-v2-GGUF
исправленная версия первой сетки с кривым датасетом, должна быть норм

Аноним 07/05/24 Втр 21:19:31 № 731018 197

https://www.reddit.com/r/LocalLLaMA/comments/1cmh6ru/llama_3_8b_instruct_abliterated_ggufs_and_fp16/
"расцензуренная" инструкт 8б ллама 3, еще одна версия

Аноним 07/05/24 Втр 21:22:07 № 731021 198

>>731000
>мол только в режиме выполнения
Нейросети только в таком режиме и работают, в принципе.
>Второе вобще не секрет
Только там последовательность странная. Я ХЗ, зачем внедрять ИИ в данные. Скорее, имелось в виду в анализ данных, но я шатал таких журналистов.
>>731018
Лучше бы 70B расцензурили.

Аноним 07/05/24 Втр 21:23:48 № 731022 199

>>731021
>Лучше бы 70B расцензурили.
Так есть ведь уже

>Нейросети только в таком режиме и работают, в принципе.
Известные нам, так же может имелось ввиду что не будет дообучения на секретных данных вот она и "чистая"

Аноним 07/05/24 Втр 21:56:24 № 731066 200

>>730444
>>730424
Так я на EXL2.

Аноним 07/05/24 Втр 22:05:51 № 731075 201

>>730364
>А теперь конкретную ссылку на балдурс гейт 3.
Ну вот кстати если взять анценз модель, то отвечает сразу и чётко, и даже красиво форматирует. Но вот ссылка на левую раздачу, да ещё и почему-то с пробелом.
>>731066
Конфиги самые свежие?

Аноним 07/05/24 Втр 22:08:12 № 731079 202

>>730671
>Она эффективна
Возвратно гортанному нерву это расскажи. У природы буквально нихуя эффективного нет, всё что есть - получилось путём рандома. Твори хуйню, хуйня, которая выжила - будет "эффективна". Но только потому, что конкурировала с такими же уёбищами.
>Это немного не так работает.
В общих чертах так же. Как и у махательных самолётов не идеальная имитация птиц, без перьев и формы крыла, так и нейронки не идеальная имитация нейронов.

Аноним 07/05/24 Втр 22:51:12 № 731139 203

>>731075
Анон, тупой вопрос, а что за конфиги?
Я обычно качаю всё что за ОбнимиЛицо. Далее подрубаю через угабугу.
Потом выставляю Story Srings и Preset в SillyTavern.
Если что-то написано по пресетам на странице самой модели- копирую их.

Аноним 07/05/24 Втр 22:57:36 № 731141 204

>>731139
В самом каталоге модели есть файлы config.json и tokenizer_config.json. Поищи по прошлым тредам, там прописаны нужные правки.

Аноним 07/05/24 Втр 23:02:19 № 731148 205

>>731075
>Но вот ссылка на левую раздачу
То есть ссылка открывается?

Аноним 07/05/24 Втр 23:08:27 № 731157 206

>>731075
> Но вот ссылка на левую раздачу
Ты серьезно рассчитывал что оно даст еще корректную ссылку? Модель просто запомнила примерный их формат забавно что там вообще это было и выдает галюны, это абсолютно нормально.
>>731079
> Но только потому, что конкурировала с такими же уёбищами.
Локальный максимум/минимум, все нормально.
> В общих чертах так же.
Они так же похожи как голубь и реактивный истребитель. Но прямое копирование и не требуется.

Аноним 07/05/24 Втр 23:08:35 № 731158 207

>>731148
Да, там хуита несвязанная. Просто на удачу нейронка цифер написала, поняла, что в ссылках айдишник из цифр, но сам айдишник "из головы".

Аноним 07/05/24 Втр 23:16:06 № 731168 208

>>731157
Пришёл и ответил за меня блин.
>забавно что там вообще это было
Рутрекер работает на движке phpBB, а на нём в своё время половина форумов пахала (да и сейчас дохуя где). Так что формат ссылки 100% отложился в памяти.

Аноним 07/05/24 Втр 23:25:51 № 731174 209

>>731158
А если гуглопоиск подрубить? Ссылку все равно не сможет оформить?

Аноним 07/05/24 Втр 23:27:57 № 731178 210

изображение.png 79Кб, 1013x325

>>731174
Я не из этих, как их там, вебуишников. Но что-то мне подсказывает, что эти люмпены поднасрали и через апишку.

Аноним 07/05/24 Втр 23:54:55 № 731216 211

>>731178
надо тогда через другой поисковик, и все

Аноним 07/05/24 Втр 23:57:09 № 731222 212

изображение.png 18Кб, 1006x121

>>731216
Ну... Разве что через бинг, лол.

Аноним 08/05/24 Срд 00:11:26 № 731243 213

>>731222
duckduckgo

Аноним 08/05/24 Срд 05:49:34 № 731389 214

>>731157
>Они так же похожи как голубь и реактивный истребитель.
Скорее как гусь и пароход с гусиной лапой. Неэффективная и всратая попытка в мимикрию, которую неизбежно ждёт провал.

Аноним 08/05/24 Срд 05:55:10 № 731390 215

>>730960
Командир сделал в этом прямо прорыв, а третья Ллама его переплюнула.
Есть ощущение что на английском результаты лучше, но и русский вполне юзабелен. Второй квант справляется без проблем.
Думаю представляет собой что-то среднее между третьей трубой и вторым Клодом.

>>731022
>Так есть ведь уже
Такое без ссылок не говорят!

Аноним 08/05/24 Срд 07:39:10 № 731397 216

>>730902
Не у всех есть тесла.

Аноним 08/05/24 Срд 07:59:49 № 731404 217

>>730902
Да и вообще, попробовал разговоры чуть сложнее чем "мы с тобой ебемся" и сетка сразу посыпалась. 70В 3_К_М все-таки плоховато соображает. Кажется, получше чем 8В, та по-моему ливает с чата сразу, еще до начала беседы, 70В хоть немного продержалась, но тоже как-то слабовато. Может быть 8 квант и вывез, но это прям неподъемно уже.

Аноним 08/05/24 Срд 08:13:05 № 731406 218

>>731404
>Да и вообще, попробовал разговоры чуть сложнее чем "мы с тобой ебемся" и сетка сразу посыпалась.
Тут надо всегда писать, какая конкретно сетка. Они же все разные. Какую-то криво смержили, какую-то ещё по-человечески не поддерживают...

Аноним 08/05/24 Срд 08:14:02 № 731407 219

>>731397
>Не у всех есть тесла.
Не у всех есть три теслы. Но надо стремиться.

Аноним 08/05/24 Срд 08:58:08 № 731431 220

>>731390
>Второй квант справляется без проблем.
>Думаю представляет собой что-то среднее между третьей трубой и вторым Клодом
Да ладно, я так понимаю, это двухбитная ллама-3-70 в гуфе со сломанным токенайзером, который то ли исправлен, то ли нет - никто не знает, это уже токенайзер шредингера, и вот эта ллама чуть хуже второго клода? Сказки то не рассказывай. Вот был бы квант хотя бы 4, тогда бы может быть ф98поверил, но что такое второй квант отлично известно

Аноним 08/05/24 Срд 09:08:27 № 731439 221

>>731406
Инструкт, базовая. Но формата ггуф.
>>731407
В пизду. В разговорах уровня "давай поебемся" moistral побеждает и 8В лламу, и 70В, и командира. А для чего-то серьёзного модельки пока не доросли. Не знаю, может в кодинг хотя бы чуть-чуть умеют, но там контекста много надо.

Аноним 08/05/24 Срд 09:16:51 № 731447 222

>>731439
>В разговорах уровня "давай поебемся"
А у меня чет наоборот, думаешь покумить, а потом хуяк и интересное развитие событий и вообще триллер.

Аноним 08/05/24 Срд 10:00:22 № 731479 223

>>731447
То есть у тебя моделька даже с кумом не справляется и генерит какие-то рандомные события.

Аноним 08/05/24 Срд 10:07:27 № 731482 224

>>731479
Хотел бы я чтобы жопус такие события генерил, я его месяц пытался заставить. Но увы катит как по рельсам.
мимо из кончайтреда

Аноним 08/05/24 Срд 10:42:23 № 731516 225

https://www.synopsys.com
нашел таки сайт компании у которой по с ии.
чипы проектируют и проверяют в полуавтоматическом режиме, кто там кококо так не бывает писал

Аноним 08/05/24 Срд 10:46:20 № 731518 226

>>731447
Это и есть шиза от цензуры, как по мне. Вот этой >>729714 вчера посвайпал разные чаты. Какая-нибудь битва с монстром в данжене - без проблем. Норм описывает, креативит, персонажи вокруг тебя проявляют инициативу. Сцена хоть как-то приближается к эротике - превращается в ретарда. "Мы поднялись ко мне в спальню? Среньк-пунк, смотри, как тут хорошо, как дома, да? А что тут у меня в шкафчике? Какая-то коробочка, интересно, что в ней." Высирает ассистентом предложение открыть коробочку. Если это считать за плюс, то ну да, круто, но на деле модель, видимо, в хлам развозит от скормленных 100500 инструкций по безопасности, с которыми не справляется даже файнтьюн.

Аноним 08/05/24 Срд 10:55:55 № 731530 227

https://github.com/ggerganov/llama.cpp/releases
о ебать какая та поддержка для bf16 с последними обновами
может и ллама3 наконец заработает как надо, лол

Аноним 08/05/24 Срд 12:05:59 № 731637 228

>>731518
> Unholy 8b

В чем отличия от https://huggingface.co/TheBloke/Unholy-v2-13B-GGUF?not-for-all-audiences=true

Аноним 08/05/24 Срд 12:11:44 № 731642 229

>>731479
Я не особо на кум опирался.
Задал в сценарии набор локаций и примеры ивентов, и вроде норм.
Сейчас вот тестирую Llama-3-Lumimaid-70B-v0.1_exl2_4.0bpw
Вроде цензуры нет, а отличие от ванилы ламмы3.

Аноним 08/05/24 Срд 12:21:13 № 731651 230

>>731637
ллама 3 8ь или ллама 2 13ь

Аноним 08/05/24 Срд 12:23:24 № 731652 231

>>731651
> ллама 3

А ну вопросов нет. Даже даром не надо. Сколько не тестил llm3 всегда говно одно на выходе.

Аноним 08/05/24 Срд 12:34:09 № 731661 232

>>731389
Ну да, копировать нужно не отдельный кусок и всю совокупность что обеспечивает преимущества, да еще в достаточной мере. Пример успешного - робопес, и то стал возможным только недавно и еще полон компромиссов.
>>730902
> написано только что ты в закрытой капсуле и обездвижен. Умная модель должна догадаться что ты не можешь просто встать и пойти
Модель изначально надрочена удовлетворять запросы юзера даже не смотря на фейлы в контексте. Чтобы это работало, ноеобходимо правильно завернуть в промт, так чтобы твой мессадж не выглядел командой, а основная команда была другой, и твой пост лишь исключительно критически оценивался с точки зрения сценария и мог быть отвергнут с указанием "хуй там".
>>731518
> Сцена хоть как-то приближается к эротике - превращается в ретарда.
Это печально, опять всратый файнтюн лорой? Полноценных не завезли?

Аноним 08/05/24 Срд 12:37:26 № 731665 233

>>731021
> шатал таких журналистов
99%

>>731079
> выжила
> "эффективна"
Эффективнее — не значит эффективно.
Так.

> В общих чертах так же.
+

>>731174
Сможет.
Но тыкнуть по ссылке и ты сможешь, если что.
А полноценный анализ на нужный контент, комментарии и количество сидов — это уже покрупнее простого «гугл подрубить».

>>731439
Скилл ишью.

>>731516
Плюсик.

Аноним 08/05/24 Срд 13:14:04 № 731690 234

>>731016
работает, лучше обычной версии и ладно

Аноним 08/05/24 Срд 13:49:29 № 731716 235

>>731661
>Полноценных не завезли?
Конкретно там Унди пытался без сильного ломания модели прогнать только на DPO датасете (подозреваю, опять без нормального применения DPO) и выполнить ортогональный стиринг, предложенный на форуме фанов Юдковского, с некоторыми модификациями. А вообще полноценные файнтьюны пытаются пилить.
https://huggingface.co/ChaoticNeutrals/Poppy_Porpoise-v0.7-L3-8B
Вот эта, например, довольно сильно от исходной ламы отличается, но периодически улетает в бред, что мб для 8б и нормально. И NSFW контент всё так же пытается обходить, тоже начиная при приближении к нему особенно тупить.
Есть 3-some llama от разрабов мойстраля, какой-то довольно популярный рп файнтьюн Soliloquy (сам не пробовал). В общем, народ пытается, но пока ничего на уровне того же фимбульветра не выстреливает.

Аноним 08/05/24 Срд 14:01:47 № 731738 236

Какой же уёбишный дизайн стал на https://www.chub.ai/

Аноним 08/05/24 Срд 14:09:26 № 731749 237

>>731716
А, ну тогда вполне логично что она не изменила своего перфоманса в этом. Она просто сама по себе не умеет художественно описывать еблю и ласки. Если накидать в контекст примеров и дать прямое задание - пытается им подражать и даже неплохо получается, но сама по себе не хочет.
> https://huggingface.co/ChaoticNeutrals/Poppy_Porpoise-v0.7-L3-8B
О, вот это интересно. Конфиг там сразу нормальный или тоже нужно править?
> мб для 8б и нормально
Хз, оригинал ловит тупняки только когда совсем запутывается, а так не шизит. Видимо еще сырое.
>>731738
F

Аноним 08/05/24 Срд 14:11:04 № 731752 238

>>731439
> В разговорах уровня "давай поебемся"
> командира
Максимальный скилл ишью (или поломанный ггуф), он в стоке такие вещи рассказывает и так хорошо понимает что кринже-7б и не снилось.

Аноним 08/05/24 Срд 14:17:32 № 731759 239

>>731738
Пока ещё есть доступ к старому дизайну https://www.characterhub.org/characters?search=&first=30&topics=&excludetopics=&page=1&sort=default&venus=false&min_tokens=50&first=30&page=1&nsfw=true&nsfw=true

Аноним 08/05/24 Срд 14:25:55 № 731766 240

>>731749
>Конфиг там сразу нормальный или тоже нужно править?
Я ггуфы катаю, их Lewdiculous перезалил. По крайней мере, в последней версии, что я пробовал с новым кобольдом, EOS токен генерился нормально. Про эксламу не скажу.
>>731738
Дело даже не столько в дизайне, сколько в корявости UI для пользователя, который не хочет чатиться на венусе. На старом сайте кликнул пкм карточку, развернул окошко с описанием и сразу чекаешь, насколько оно норм. А теперь открываешь перса отдельно, там гигантское пустое место в браузере на пк, ниже сразу развёрнуты комменты/отзывы, которые нужно либо сворачивать, либо пролистывать. И только под ними дескрипшен.

Аноним 08/05/24 Срд 14:30:00 № 731775 241

>>731759
Спасибо.

>>731766
Да, стало чертовски неудобно смотреть что там понаписано в чаре.

Кстати, кто сталкивался с проблемой с XTTS.
TTS Provider failed to return voice ids.
Что такое может быть? Сервер запущен, депендинсы установлены.

Аноним 08/05/24 Срд 14:53:59 № 731815 242

Покупал 3060ти за 70к во времена с кризисом и майнерами ебаными, а мог бы ща кучу дешманских тесл купить с водянкой

Аноним 08/05/24 Срд 14:57:21 № 731818 243

>>731815
Не переживай, тут пару анонов брали 3080 по 150+.

Аноним 08/05/24 Срд 15:06:01 № 731823 244

>>731815
Покупал в свое время 2060s за 70к. Сейчас она даже на сдачу нахер никому не упала. Ну бывает))

Жди 5ххх серии. Если опять не обосруться с питанием как в 4ххх версии, то может будут норм варианты.

Аноним 08/05/24 Срд 15:49:31 № 731872 245

>>731530
О, опять переквантовать.
На самом деле актуально только чтобы катать полные версии моделей, в таком случае веса теперь будут копироваться без изменений. Раньше для этого какую-нибудь лламу надо было в FP32 сохранять, что вообще ни в какие ворота.
>>731661
>ноеобходимо правильно завернуть в промт, так чтобы твой мессадж не выглядел командой
Покажи как.

Аноним 08/05/24 Срд 15:52:03 № 731877 246

>>731823
>Если опять не обосруться с питанием как в 4ххх версии
0 шансов, что откатятся со своего обосранного проприетарного разъёма обратно на 6+2 (в идеале вообще перейти на процессорные 4+4, но это уже совсем влажные мечты).

Аноним 08/05/24 Срд 16:03:46 № 731897 247

>>728812 (OP)
https://huggingface.co/mradermacher
в шапку, 2008 моделей GGUF за 2 месяца.

Аноним 08/05/24 Срд 16:19:47 № 731920 248

Платиновый вопрос- как заставить XTTS начинать генерить автоматически(англ перееден в рус). Соответствущая галка стоит.

Добавление "«»" в файл xtts.js чет особо не помогло.
// Remove quotes
text = text.replace(/["“”‘’]/g, '');

Аноним 08/05/24 Срд 17:12:27 № 731999 249

13618436080823-[...].jpg 382Кб, 1600x900

>>731661
>Пример успешного - робопес
Это который уже стал эпицентром скандалов о распиле средств и вопиющей неэффективности? Люто проигрывал со случая, когда спецназ натравил робопса на голого мужика с ножом. Мужик просто взял и спиздил робота себе в квартиру.

>>731665
>Эффективнее — не значит эффективно.
Потому и в кавычках.

Вопрос к анону, который хуярит стримы, как там у этих пидоров с матом? Если моя нейронка будет катастрофически много ругаться, высмеивать зрителей и грозить прописать в ебыч, меня забанят? Или там такое можно?

Аноним 08/05/24 Срд 17:32:04 № 732023 250

>>731431
>но что такое второй квант отлично известно
Либо тебе нихуя не известно, либо судишь о втором кванте по 7В моделям.
Третья Ллама это новый стандарт в адекватности модели. Если до этого 70-ки слегка переплёвывали трубу, то новая Ллама, я бы сказал, на 2 головы выше. До второго Клода ей далеко, но с 1.3 могла бы легко посоревноваться.

Аноним 08/05/24 Срд 17:40:31 № 732035 251

>>731661
>Чтобы это работало, ноеобходимо правильно завернуть в промт
Во первых конкретно эту карточку и ситуацию я использовал для теста. Во вторых такие моменты могут возникать спонтанно, с подачи самой модели, после чего она тут же может на них забить. Это прямо бич мелких моделей.
Если существует промпт, позволяющий 8И не проёбывать детали повествования, хотел бы я на него взглянуть но очень сомневаюсь

Аноним 08/05/24 Срд 18:39:17 № 732067 252

>>728812 (OP)
Где пятые IQ кванты, еба нах?

Аноним 08/05/24 Срд 18:40:09 № 732069 253

>>731815
Я 1080ti за 30к покупал, лол. До сих пор рабочая лошадка.

Аноним 08/05/24 Срд 18:53:02 № 732079 254

>>732067
Вот 5_0

Аноним 08/05/24 Срд 18:59:33 № 732088 255

>>732067
Эта картинка обоссаная, на ней просто расчётный PPL новых квантов.

Аноним 08/05/24 Срд 18:59:39 № 732089 256

>>732079
Это не айкю.

Аноним 08/05/24 Срд 19:02:24 № 732091 257

>>732088
Кидай правильную.

Аноним 08/05/24 Срд 19:26:44 № 732123 258

>>731897
> 2008 моделей GGUF за 2 месяца
Из которых 1004 перезаливы и все поломанные? не удержался, ну рили такой-то рофл
>>731999
С таким подходом можно обосрать что угодно дерейля и уводя суть. Уровень доебов:
> колесо и вращательное движение - одни из величейших открытий, которые позволили человеческой цивилизации продвинуться и достигнуть высот
> нет, они прокалываются и каждый сезон менять надо, а для вращения нужны подшипники которые изнашиваются и гремят, все говно
>>731872
> Покажи как.
По-простому - добавить в промт про то что посты юзера являются лишь его попытками/намерениями что-то сделать, и реализовываться они должны только если не противоречат обстановке и могут быть безуспешными, возможен dead end. Правильно - двойной запрос, где в первом модель оценивает их и рассуждает о возможных исходах/реакции персонажей, а уже во втором дает ответ. Кастрированная опция - завернуть это в thinking, слабее но проще.
Но это все смещает в сторону сторитейла, можно сразу переключить на эдвенчур мод. По дефолту и согласно подавляющему большинству промтов модель рассматривает посты юзера как истину и уже пытается под них подстраивать или что-то скипать.
>>732035
> Это прямо бич мелких моделей.
Ну да, большая хотябы придумает оправдания такому или оформит ретроспективую. Готовые промты нужно доставать из скриптов с которыми игрался, может быть потом., как с мелкими моделями сработает - хз.

Аноним 08/05/24 Срд 19:30:30 № 732126 259

>>732123
Можешь подробнее объяснить как работает thinking?
мимо

Аноним 08/05/24 Срд 19:38:42 № 732139 260

>>732126
Возьми солянку из шапки кончай-треда /aicg/ и посмотри как там блок <thinking> устроен. Это обычный chain of thought.

thinking это чисто солянщиком придуманное название, и XML теги это специфика anthropic, у них на этом тренены модели, ты можешь что-то другое совать.

Аноним 08/05/24 Срд 19:41:35 № 732146 261

>>732123
>добавить в промт про то что посты юзера являются
Хочу готовый вариант, я же тупой.

Аноним 08/05/24 Срд 19:46:13 № 732156 262

>>732126
> как работает thinking
В инструкцию добавь что-то типа
> перед ответом кратко обобщи ситуацию и сделай вывод о том какая реакция может быть на действия юзера, какие намерения имеют персонажи, (добавь свое) и как дальше может развиваться сюжет. Оформи размышления в блок <thinking></thinking> и по его окончанию давай ответ на основе своих размышлений.
В прошлых тредах примеры готовые скидывали, или по совету >>732139 только не перегружай, даже описанная конструкция избыточна и нужно делать более лаконично. Также в префилл добавь <thinking> и модель в 100% случаев будет думать не упуская это.
> XML теги это специфика anthropic, у них на этом тренены модели
В них умеют почти все модели, это удобный способ выделять участки не конфликтуя.

Аноним 08/05/24 Срд 20:11:34 № 732199 263

>>732156
Что называют префиллом? Примеры сообщений?

Аноним 08/05/24 Срд 20:14:18 № 732204 264

>>732199
"Да, конечно, вот мой ответ:"
пишешь начало ответа за модель, направляя её предсказательные способности в нужную сторону

Аноним 08/05/24 Срд 20:24:44 № 732213 265

>>732199
> Что называют префиллом?
Ллм угадывает следующие токены, продолжая текст. После
> ### Response:\n
> \nassistant:
> <|hiypizdatoken|>
можешь написать что-то, что будет считаться начало ответа ллм и она будет продолжать его.

Аноним 08/05/24 Срд 20:39:38 № 732228 266

>>732213
Это в промпт формате нужно вставлять?

Аноним 08/05/24 Срд 21:23:25 № 732298 267

>>732228
Да, в инстракт моде это Last Output Sequence

Аноним 08/05/24 Срд 21:59:42 № 732350 268

> https://huggingface.co/QuantFactory

Тут нормальные кванты у чела, пользуется кто-то?

Аноним 08/05/24 Срд 22:04:51 № 732355 269

>>732156
Пытался так делать, правда ещё на сломанных гуфах, и ничего толкового в рп третья лама там не писала, зато потом очень сильно наружу вылезала личина ассистента. Допускаю скил ишью, мало с этим возился. По поводу способа задания самого синкинга добавлю, что если использовать таверну, то чтобы не заморачиваться с вырезанием этой фигни регекспом, можно дать инструкцию просто писать thinking в тегах <>, в префил добавлять что-то вида "<Thinking:" и выключать показ тегов в настройках таверны. Тогда текст синкинга будет невидим в чате, но будет подгружаться в контекст. Хотя, с другой стороны, не уверен, что полезно хранить синкинги от старых ответов.
>>732213
Так может работать плохо, если включены имена. После префила будет сразу вставляться имя персонажа. Поэтому если имена нужны, то либо придётся их отключать и писать префиксами ручками в поля инпута и аутпута, либо использовать специальное поле для префила (пик). Текст в нём пойдёт после имени.

Аноним 08/05/24 Срд 22:10:15 № 732359 270

>>732355
> и выключать показ тегов в настройках таверны
Их удаляют не чтобы не видеть а чтобы не засирали контекст. Наоборот в последнем ответе показывают а трут в прошлых.
> Так может работать плохо, если включены имена.
Да, есть проблема с этим. Придется вручную написать {{char}}: и выключить. Интерфейс таверны для инстракт режима уже давно требует переделки, чтобы можно было бы удобно работать с промтом как в коммерции.

Аноним 08/05/24 Срд 22:22:56 № 732387 271

>>732350
У бартовского бери.

Аноним 08/05/24 Срд 22:44:42 № 732426 272

>>732387
У него как раз хуевые.

Аноним 08/05/24 Срд 22:49:28 № 732432 273

>>732426
Лучше нет. Он хоть переквантовывает и нормальные матрицы важности использует, а не всякий кал как QuantFactory.

Аноним 08/05/24 Срд 22:51:11 № 732437 274

>>732387
Линк?

Аноним 08/05/24 Срд 22:58:29 № 732441 275

>>732432
Ну вот когда переквантует с последней llama.cpp, тогда поговорим. А пока этот пидорас только фейлит и квантует не то.

Аноним 08/05/24 Срд 23:52:24 № 732528 276

>>728812 (OP)
Накидайте годных файнтюнов Llama3 для RP/ERP.

Аноним 09/05/24 Чтв 00:17:55 № 732549 277

>>732528
Мне кажется, что без файнтюнов самое норм.

Аноним 09/05/24 Чтв 00:23:52 № 732553 278

>>731999
Ты уточни где.
1. Если у тебя будет мало зрителей — похую.
2. Если ты будешь негров-пидоров на твиче поминать — забанят.
3. На русских по-лайтовее правила, кмк.
Но вообще, у меня Нейрослава была в меру доброй, а сам лично я стримил года три назад, и тогда ваще не сдерживался, матюкался, всем было похуям. Но это давно и не считается.

Ваще, тут ты вряд ли много стримеров или найдешь, или даже стримосмотрящих.
Мы тут с нейроняшами в чатиках сидим локально, а не ети ваши интернеты.

Аноним 09/05/24 Чтв 00:27:57 № 732556 279

>>731665
> Скилл ишью.
Причём здесь это?

Аноним 09/05/24 Чтв 00:53:33 № 732576 280

>>732556
> А для чего-то серьёзного модельки пока не доросли.

Аноним 09/05/24 Чтв 00:56:53 № 732577 281

в дурке жержоры всё стабильно
https://www.reddit.com/r/LocalLLaMA/comments/1cn1398/part_4_theres_likely_no_llamacpp_gguf_tokenizer/

Аноним 09/05/24 Чтв 01:04:14 № 732585 282

>>732577
> llama.cpp adds a second BOS token under certain conditions/frontends if it already exists (still under debate whether that's to be considered a bug or user error)

Аноним 09/05/24 Чтв 01:25:04 № 732607 283

>>731738
ага, а еще сайт ломается, когда браузер его переводит

Аноним 09/05/24 Чтв 03:42:11 № 732647 284

Странно, у меня локально llama3 70b решает а тут решить не может https://chat.lmsys.org/

Аноним 09/05/24 Чтв 04:32:33 № 732653 285

>>732576
Причём здесь скилл и моделька?

Аноним 09/05/24 Чтв 05:54:01 № 732659 286

>>732653
не думай об этом, он из тех кто считает пердолинг промптами заведомо тупой сетки это некий показатель скилла, сорева головного мозга, не иначе.
если сетка не может выдать норм результат хотя бы после второго регена - летит сразу нахуй в корзину.
ну и самое смешное
>джейлбрейк ЛОКАЛЬНОЙ модели

Аноним 09/05/24 Чтв 06:31:48 № 732661 287

>>732659
Сетка в целом норм. Ллама-70В. Просто квант хуевый - 3_К_М. И задача достаточно сложная, я с ней там не кумить пытался.

Аноним 09/05/24 Чтв 06:47:30 № 732664 288

l3 8b abliterat[...].png 148Кб, 1145x2397

Очередная орто-ллама.
>V2 out, improvement over V1
>Passes nigger test (since other anon is going to ask).
https://huggingface.co/cognitivecomputations/Llama-3-8B-Instruct-abliterated-v2
https://huggingface.co/cognitivecomputations/Llama-3-8B-Instruct-abliterated-v2-gguf/tree/main

Аноним 09/05/24 Чтв 08:11:16 № 732683 289

>>732355
>Кто-то сказал thinking
Я между тем продолжаю свои попытки сделать Командера умнее.
Промпт:
https://files.catbox.moe/5tg49v.json
Шаблон контекста:
https://files.catbox.moe/2rp9ie.json
Регекс для скрытия блока цинкинга:
https://files.catbox.moe/n9j69g.json

+ Размышления стали больше влиять на качество выдачи, теперь модель учитывает более внимательно рассматривает контекст ситуации.
+ Добавил отдельный пункт против снятия вторых трусов.
- Текста стало ещё больше.
- Для нормальной работы блока часто нужно либо отредактировать первое сообщение бота, либо свайпать пока цинкинг не примет адекватный вид. Дальше думанье будет продолжаться по его примеру.

Решил тестировать на русском, т.к. ответы на нём хуже и если заработает на нём, на английском точно проблем не будет. На английский промпт можно тупо перевести гуглтранслейтом.
Мнжно попробовать задать тот же промпт Лламе, по идее должна справиться.

Аноним 09/05/24 Чтв 08:12:06 № 732684 290

>>732664
короче анус с форчана как всегда напиздел, эта модель всё ещё срёт нравоучениями
но вот что по факту заметил, эта модель стала более цепкой к описаниям персонажей, но в то же время игнорит """чувствительные""" для соевика 21-ого века топики, в прочем как и всегда

Аноним 09/05/24 Чтв 09:36:07 № 732694 291

>>732023
>Либо тебе нихуя не известно,
Ну видимо не только лишь мне:

>>732661
>Сетка в целом норм. Ллама-70В. Просто квант хуевый - 3_К_М.

Аноним 09/05/24 Чтв 10:23:54 № 732700 292

Додстеры, вам же сказали, 4 квант это минималка, дальше шиза и лоботомиты. Лучший квант это 5.

Аноним 09/05/24 Чтв 10:38:21 № 732705 293

>>732700
ты наверно из тех, которым нихуя неизвестно, как и я
>Третья Ллама это новый стандарт в адекватности модели
двухбитный квант ебет >>731390

Аноним 09/05/24 Чтв 12:42:09 № 732770 294

стоит ли докупать еще 32гб ддр5 чтобы гонять квант 70b?

Аноним 09/05/24 Чтв 12:49:28 № 732772 295

Анончики, а есть возможность через api (наример кобальда) не генерировать токены, а получать их распределение? Я бегло тут посмотрел https://lite.koboldai.net/koboldcpp_api#/ нихуя не нашел.

>>732770
если устроит ~1 токен в секунду, покупай.

Аноним 09/05/24 Чтв 12:52:50 № 732774 296

>>732659
Че за херь ты притащил? Очевидно что скиллишью потому что не смог найти применения умным безотказным моделям, и ставишь в пример 7б иценстмикс.
> пердолинг промптами
кек
> >джейлбрейк ЛОКАЛЬНОЙ модели
Над своими проекциями смеешься
мимо

Аноним 09/05/24 Чтв 13:00:08 № 732779 297

>>732683
Красавчик, на трусы надо потестировать.
>>732772
> а получать их распределение?
Точно можно через убабугу, потребуется запуск с HF лоадером и галочкой logits_all. На адрес
> http://127.0.0.1:5000/v1/internal/logits
Шлешь стандартный реквест
> {
> "prompt": prompt,
> "max_tokens": max_t,
> "temperature": temp,
> "top_p": top_p,
> ...
> "use_samplers": use_samplers
> }
В ответ получишь распределение.

Аноним 09/05/24 Чтв 13:17:06 № 732787 298

>>732770
Только заменять, 4 плашки убьют тебе всю скорость.

Аноним 09/05/24 Чтв 13:38:07 № 732794 299

>>732787
>>732772
спасибо

Аноним 09/05/24 Чтв 13:47:23 № 732801 300

>>732653
> модельки
> моделька
Множественное и единственное число вещи разные, если че.

В изначальном сообщении речь о том, что ни коммандер, ни 70б не доросли ни до чего серьезного.
Очевидно — это неумение ими пользоваться, не более того.
Кулстори, что 70б у нас не может ваще ничего серьезного.

>>732659
Не надо проецировать свои проблемы на других людей. =)
Если у тебя все локальные модели летят в корзину, то ты либо хочешь от них всего и сразу, либо совершенно не умеешь ничего.
Тут даже пердолинг промптами не нужен (я вообще осуждаю считать модельки годными после джейлбрейка на тыщу токенов, это хуйня и мусор).

>>732661
> для чего-то серьёзного модельки пока не доросли
> 3_К_М
Если это звенья одной цепи, то, ну как бы… Шо ж ты хотел-то.
Тройка никогда не была хороша.

>>732683
пук-пук пердолинг с промптом ааа истерика в треде =)

>>732694
>>732023
Ну кванта правда говно, ллама 3 магически не делает низкий квант хорошим. Я понимаю, размер, все дела, но пердолит и пердолит ее все же, падение качества уже заметно, как ты не крути.
Там где 16-8-6 справятся, третий квант рискует обосраться, или справиться с 4-5 свайпов только (что особо выигрыша в скорости в итоге не дает).

>>732700
Вот, да, утренний тред про людей, которые недовольны моделями, судя их по низким квантам.

>>732705
> двухбитный квант ебет
Мозги? =)

>>732770
> чтобы гонять квант 70b?
Двухбитный? =)

Ваще, докупать вряд ли, скорее продать свою и купить 2 по 32 или 2 по 48.
Но, да, с выгрузкой в видяху, если тебя устроит 2 токена/сек, то смысл имеет.
Однако это жуть как субъективно и индивидуально.

>>732772
Ну, на 6000 частоте минимум 1,5 должно быть.

>>732787
Да, поэтому продавать и покупать.

Аноним 09/05/24 Чтв 14:12:58 № 732832 301

https://3dnews.ru/1104546/openai-predlogila-osnovnie-printsipi-kotorim-dolgni-sootvetstvovat-iimodeli
Ждем вшитым в локалках?
Чем сильнее датасет пределан синтетически тем сильнее будет вплетено что то подобное.
Чем новее будет нейросеть тем глубже в ней будет соя и цензура, а все разблокируемые способности и знания будут все меньше и кривее, что не даст расцензуривать модели не ломая их.
Что видно уже по ллама3.

Аноним 09/05/24 Чтв 14:14:53 № 732836 302

>>732832
>Что видно уже по ллама3.
Что там видно?

Аноним 09/05/24 Чтв 14:15:12 № 732837 303

>>732832
Мыслеполиция, хули.
Только нахуя ты какие-то помойки приносишь? Приноси оригинал.

Аноним 09/05/24 Чтв 14:20:22 № 732841 304

>>732837
>Приноси оригинал.
Не нравится ищи дальше сам

>>732836
>Что там видно?
Где не сломанные ерп файнтюны? Нейтральные? Эта хуита выебывается на любой шаг в сторону, да и сама рассказ туда не ведет избегая вариантов которые ей не нравятся

Аноним 09/05/24 Чтв 14:27:35 № 732847 305

>>732841
>Где не сломанные ерп файнтюны?
Там же, где и не сломанные файнтюны более ранних ллам- появятся через пару месяцев. Судя по обсуждениям, там народ то без системных подсказок трейнит, то ещё чего, ггуф вообще сломан вдоль и поперёк.
Не боись, ещё научимся приручать лламу 3.

Аноним 09/05/24 Чтв 14:41:01 № 732856 306

>>732647
Не пойму как такое может быть, если ггуф априори хуже оригинала.

Аноним 09/05/24 Чтв 15:18:55 № 732878 307

>>732801
>Мозги? =)
Мозги нам тут ебет чел который грузит двухбитную ламу в теслу целиком потому что она у него одна и доказывает что это почти как клод. А если бы у него было две теслы он бы плевался на двухбитный.

Аноним 09/05/24 Чтв 15:25:47 № 732890 308

>>732878
У меня есть две теслы и я тоже стараюсь только на одной сидеть. Разница слишком мелкая чтоб скорость просерать. Плюются только шизики с 8В, которым вообще никакая 70В не светит.

Аноним 09/05/24 Чтв 15:30:30 № 732892 309

>>732841
> Где не сломанные ерп файнтюны?
Что-то нормальное появилось только через несколько месяцев для второй лламы. Тут ее в стоке нормально работать не могут, куда там файнтюны.
> Нейтральные?
Она вполне себе нейтральна и может занять почти любую позицию по команде в меру своих знаний.
>>732890
> я тоже стараюсь только на одной сидеть
В одну нормально 70б и/или большой контекст не поместить. Что там сейчас по скорости кстати?

Аноним 09/05/24 Чтв 15:39:26 № 732901 310

>>732890
еще один фанат двух битного кванта?

Аноним 09/05/24 Чтв 15:40:06 № 732903 311

>>732878
База.

>>732890
Кринж.

———

Там убабуга обновилась.
ноавх2 в деле для зеончиков, лламацпп пайтон 2.69 в треде, все кайф, чисто-опрятно, апдейт, который мы заслужили.

Аноним 09/05/24 Чтв 15:41:39 № 732906 312

>>732841
>не сломанные ерп файнтюны
Llama-3-Lumimaid-70B-v0.1_exl2_4.0bpw
Сижу на этом. Норм.

Аноним 09/05/24 Чтв 16:20:49 № 732931 313

>>732801
> В изначальном сообщении речь о том, что ни коммандер, ни 70б не доросли ни до чего серьезного.
> Очевидно — это неумение ими пользоваться, не более того.
Что здесь очевидного. Командир тупенький. Ллама в низком кванте.
> Кулстори, что 70б у нас не может ваще ничего серьезного.
В низком кванте точно не может.
> > для чего-то серьёзного модельки пока не доросли
> > 3_К_М
> Если это звенья одной цепи, то, ну как бы… Шо ж ты хотел-то.
> Тройка никогда не была хороша.
Так, погоди. Здесь на полном серьёзе утверждают, что даже второй квант просто охуенный и ебет, и для 70В квантование это не такая уж и ужасная потеря. А теперь я уже слышу, что тройка это не квант и ваша модель не модель. Что дальше? Повышу квант, услышу, что ггуф это не формат?

Аноним 09/05/24 Чтв 16:22:08 № 732933 314

https://www.reddit.com/r/LocalLLaMA/comments/1cnsqex/multimodal_phi3_supporting_1152x1152/
мультимодалка с жирной графической частью, правда на основе phi3.
Она конечно умна, для своего размера, но количество знаний у нее так себе

Аноним 09/05/24 Чтв 17:05:58 № 732956 315

>>732933
На сколько я помню bunny - это китайщина и они туда своим китайским файнтюном насрали

Аноним 09/05/24 Чтв 19:03:56 № 733040 316

>>732841
>Где не сломанные ерп файнтюны?
Cкорее всего не сломанных не будет. Третью лламу тренировали на аннотированных датасетах, со сложной разметкой, полировали дпо и в целом, надрочили очень качественно. Дегенераты с "разсцензуривающим дпо", которые тренируют этими дпо датасетами, скармливая в дефолтный трейнер, ничего не смогут с ней сделать. Тюнить такие модели будет всё сложнее и сложнее, так как первоначальное обучение слишком высокого качества, гоняя поверх дефолтные датасеты уже позапрошлого поколения моделей, её только испортишь.

Аноним 09/05/24 Чтв 19:09:41 № 733047 317

>>733040
>Cкорее всего не сломанных не будет.
Ну всё, конец, лапки кверху, мы сдаёмся? Ты серьёзно?
Ну, во первых, у нас уже есть вполне себе надёжные методы анценза, точечно вырезающие отказы. Это уже неплохо. Во-вторых, конечно макаки, сующие DPO датасеты в стандартные пайплайны тренировки, забывающие про промт формат и прочее, нихуя не сделают. Но есть же нормальные люди, которые применят всё прямыми руками. Ллама 3 далеко не безнадёжная модель, думаю, нам ещё лет 5, а то и 10, до того, как научатся делать модели, переучивание которых будет сравнимо с обучением новой. Пока же у нас есть нормальная база.

Аноним 09/05/24 Чтв 19:13:47 № 733051 318

>>733040
Как из
> тренировали на аннотированных датасетах, со сложной разметкой, полировали дпо и в целом, надрочили очень качественно
следует
> ничего не смогут с ней сделать
?
Не могут разобраться с новинкой и ранее не блистали каким-либо скиллом, делая кривые поделки и выезжая на рандоме. Возможно еще играет что изначально модель хорошая и их треш очень явно виден, тогда как раньше можно было списать на что-то еще.
> так как первоначальное обучение слишком высокого качества
Оно никуда не исчезнет если обучать нормально.
>>733047
> ещё лет 5, а то и 10, до того, как научатся делать модели, переучивание которых будет сравнимо с обучением новой
Что?

Аноним 09/05/24 Чтв 19:18:40 № 733055 319

>>733051
>Что?
Ну, я про то, что модели будут так напичканы, что любой трейн будет их ломать, а чтобы сделать что-то полезное, придётся делать файнтюн длительностью с первоначальное обучение, что само собой не имеет смысла, ибо проще начать с рандома.

Аноним 09/05/24 Чтв 19:21:29 № 733060 320

>>733055
>придётся делать файнтюн длительностью с первоначальное обучение
Такой хуйни в принципе никогда не будет, и такая модель в принципе бессмысленна. Не надо вперёд загадывать.

Аноним 09/05/24 Чтв 19:26:21 № 733063 321

>>733060
Почему ты так считаешь?
>и такая модель в принципе бессмысленна
А по моему это то, что вообще будут требовать регуляторы. Чтобы модели были безопасные и не ломались простыми префилами типа "Sure!" и сбрасыванием парочки весов в ноль.

Аноним 09/05/24 Чтв 19:27:18 № 733067 322

>>733047
>Ну всё, конец, лапки кверху, мы сдаёмся?
Просто говорю, что нужно быть реалистами.
>Но есть же нормальные люди
Где они и почему прятались до сих пор, не делая тюнов для мистралей и лламы2?

>>733051
>Оно никуда не исчезнет если обучать нормально.
Чтобы обучать нормально нужно обучать на датасетах не уступающего качества и прямыми руками. Представь себе, что у тебя есть с завода автомобиль, пушка-гонка с лобовым сопротивлением, которое рассчитывалось в аэродинамической трубе, с идеальным балансом веса и т.д. И тут приходит ара, который делает ей тюнинг с фанерной лавкой на саморезах, колёсах на разварках и т.д. Конечно, заводское исполнение никуда не денется, только вся качественная настройка проёбана безвозвратно.

Аноним 09/05/24 Чтв 19:40:29 № 733080 323

Блять, твари нахуй, ну вот почему нвидия выпустили годноту ChatQA, а ебаное комьюнити идиотов кумеров мимо прошло и никуда не интегрирует ебаный RAG. Как же нахуй бомбит, ебаные бездари.

Аноним 09/05/24 Чтв 19:41:29 № 733081 324

>>733067
>не делая тюнов для мистралей и лламы2
Прям вообще ни одного годного? А в шапке что?
>>733080
>годноту ChatQA
Что в ней годного?
>интегрирует ебаный RAG
Тебе он зачем? В плане кума он нахуй не нужон.

Аноним 09/05/24 Чтв 19:47:56 № 733082 325

>>733063
Блять, опять нытьё. Ну вот есть такие шизы, блять, не сидится на месте им.

Аноним 09/05/24 Чтв 19:50:09 № 733085 326

>>733082
>нытьё
>откладываю тряску на 10 лет

Аноним 09/05/24 Чтв 20:00:25 № 733099 327

>>733081
> В плане кума
Вот про это я и говорю, одни кумеры дегенераты вокруг. Это как в крипте залетные твари жадные до бабла испоганили технологии, тут также, кумеры дегроды будут шейпить рынок ИИ. Просто пиздец.

Аноним 09/05/24 Чтв 20:03:30 № 733100 328

>>733099
>испоганили технологии
Лол.

Аноним 09/05/24 Чтв 20:24:54 № 733119 329

>>733055
С учетом того как проходит процесс тренировки - такое по сути невозможно, могут лишь немного повыситься требования к тренировке, считай шмурдяк будет сразу заметен.
Более вероятен вариант распространения уже хитро квантованных моделей, обучение которых будет неэффективно из-за отсутствия нужных данных.
>>733067
> нужно обучать на датасетах не уступающего качества
Нет, достаточно небольшой балансировки и нормальных гиперпараметров.
> и прямыми руками
Без этого никуда.
> Представь себе, что у тебя есть с завода автомобиль
> И тут приходит ара
И делает качественную шумоизоляцию, которая слишком трудоемка на линии, обновляет музыку, делает тюнинг тормозной системы и чип на первый стейдж. И вот, сплошные плюсы, минусов нету. Аналогия переносится почти напрямую, васяны постоянно косячат, шарящие делают хорошо, однако даже у последних могут быть сложности если продукт совсем новый, пока не появился опыт.

Аноним 09/05/24 Чтв 20:50:49 № 733144 330

dMNg5mi7cak8TeJ[...].webp 135Кб, 2160x1080

>>728812 (OP)
https://huggingface.co/posts/Undi95/318385306588047

этот ZIP-архив, он содержит в 2 раза больше скрипта,
код сломан, но я надеюсь, что вы все поймете, что стоит за этим.
(Может работать на 1xA100, по-видимому, размер пакета 11)

https://files.catbox.moe/xkf7y4.zip

Так как я был слишком туп, чтобы сделать один целый сценарий,
я сделал первую часть и вторую часть.Вероятно, он сломан,
но мне удалось вывести что-то через 7 часов,
так что я полагаю, что это можно исправить lmao

Первая записная книжка ORTHO_RANDOM_LAYER позволяет
вам перебирать модель со слоями от 1 до 32, имеющими случайное "направление"
(или вектор, или что-то в этом роде, я реально нуб).
Затем вы можете увидеть, позволяет ли один из слоев свободно запрашивать
или подвергать вас цензуре, а затем сохраняет их все в переменную для каждого слоя,
которую вы можете извлечь в "key.txt", содержащую "направление".

Затем можно использовать вторую записную книжку,
которая может использовать ключ в качестве файла json
(если удалить весь текст вокруг []),
что позволит получить тот же результат, что и раньше.

Короче говоря: подбор + Разное "направление" = бесконечность возможностей.

Аноним 09/05/24 Чтв 21:02:23 № 733154 331

>>733144
Поясните за график, что это значит.
Вредные это цензурные данные?

Аноним 09/05/24 Чтв 21:08:46 № 733165 332

>>733144
Забавно, скоро так дайдут до разложения активаций на гармоники и решение сопряженных уравнений, и/или применения дополнительной нейронки для их анализа и управления.
А вообще сложно, нужно прямо вникать.
> Может работать на 1xA100
Тут врядли у кого-то есть.

Аноним 09/05/24 Чтв 21:52:36 № 733256 333

Скачал модель с mmproj файлом. Одтельно модель запускается без проблем, но вместе с прожектором не запускается. Нихуя не прочитать так как на билде винды консоль сразу закрывается. Было у кого?

Аноним 09/05/24 Чтв 22:05:12 № 733278 334

>>733256
bat файлом запускай, последней строчкой в нем пропиши pause и будет останавливаться при краше

Аноним 09/05/24 Чтв 22:11:42 № 733289 335

>>733278
Запустил через cmd

key clip.vision.image_grid_pinpoints not found in file
key clip.vision.mm_patch_merge_type not found in file
clip_model_load: failed to load vision model tensors
Traceback (most recent call last):
File "koboldcpp.py", line 3330, in <module>
File "koboldcpp.py", line 3073, in main
File "koboldcpp.py", line 396, in load_model
OSError: exception: access violation reading 0x0000000000000028
[6332] Failed to execute script 'koboldcpp' due to unhandled exception!

Аноним 09/05/24 Чтв 22:14:32 № 733293 336

>>733289
А ты то скачал? mmproj нужен родной или хотя бы от модели той же структуры и размера
Ну и попробуй без русских букв в папках где это лежит

Аноним 09/05/24 Чтв 22:20:31 № 733305 337

>>733293
Кириллицы нет, прожектор оттуда же, из той же репы, он один. Модель Q4, прожектор без квантайза и другого там нет, хз важно ли это
https://huggingface.co/BAAI/Bunny-Llama-3-8B-V-gguf/tree/main

Аноним 09/05/24 Чтв 22:25:52 № 733312 338

Анон, подскажи, как заставить LLAMA3 делать хорни текст? А еще лучше какой-нибудь файнтюн на ней

Аноним 09/05/24 Чтв 22:29:44 № 733318 339

>>733305
Так это новая, к ней еще поддержки нет в кобальде, да и в ллама.спп наверное тоже нету, хотя может и есть хз

Аноним 09/05/24 Чтв 22:44:07 № 733345 340

>>732931
> Здесь на полном серьёзе утверждают, что даже второй квант просто охуенный и ебет
Ну если ты жопой читаешь — то может оно и так. Но так утверждают только шизы или нищуки, все адекватные люди утверждают, что ниже 4 кванта жизни нет, туда смотреть нельзя.
Если ты намеренно игнорил все эти сообщение (а они уже полгода тут появляются — еще со времен появления этих самых квантов), то… ну кто тебе виноват, че ты мне предъявляешь то, что ты веришь шизам, и не веришь адекватам? Твои проблемы. =) Но оффенс.

> А теперь я уже слышу, что тройка это не квант
Always has been, никаких «теперь». Только твоя невнимательность.

> Повышу квант, услышу, что ггуф это не формат?
Ты новичок?
Ггуф так-то тут многим не нравится давно, и уже обсуждали, что его юзают исключительно потому что, что на теслах не крутится эксллама с нормальной скоростью, а на проце вообще вариантов нет.

Короче, могу лишь посоветовать внимательнее читать, и стараться верить адекватам, а не шизам.

> Что здесь очевидного. Командир тупенький. Ллама в низком кванте.
Командер тупенький, но почему ллама в низком кванте — нихуя непонятно. Это неочевидный маневр, ибо только шизы юзают на полном серьезе 70б в низком кванте. Чаще люди гоняют такие модели на оперативе медленно, но качественно (или с частичной выгрузкой на видяху). И ожидать можно скорее это, когда человек обсуждает 70б. И проблема неумения писать промпт — самая очевидная причина для таких утверждений. Она весьма распространенная.
Кто ж знал, что человек всерьез крутит нерабочую хуйню и еще чему-то удивляется. =)

>>733047
> думаю, нам ещё лет 5, а то и 10, до того, как…
Ох, я бы не зарекался…
У нас ллама-то появилась год назад.
Какой прогресс — такой же и регресс показать могут.
Ничего не утверждаю, но сомневаюсь, что нам 5 лет дадут юзать базу. =)

>>733080
Там есть же всякое в разных прогах.
Просто не суперинтуитивно и не супернативно работает, а кое-как.

>>733099
Так а че шейпить?
Ну ставь ты ллама-индекс и играйся на здоровье с рагом, в чем проблема?

Рынок не на кобольде или убабуге, а на других прогах, кумеры — мелочь.

Аноним 09/05/24 Чтв 22:51:28 № 733353 341

>>733318
А там не прожектор от ллавы разве дефолтный, ну в плане тот же по архитектуре?

Аноним 10/05/24 Птн 00:36:40 № 733424 342

>>733080
>выпустили годноту ChatQA
а что есть комфортный иныеренс этого из коробки? или только как в карточке пример?. Если последнее то нахуй сразу. Из карточки вижу читает json то есть это чтоже надо джейсонить книги и доки? Хуй знает, я конечно не вникал глубоко. но и видимокарта там нужна на 24 гига и скорее всего 3090 а не тесла. Еслми кванты запускать то опять же добавляется пердолинг к инференсу и так убогому из карточки. Так что если нету из коробки то в хуй не уперлось это qa. Тем более что у куртки есть chat with rtx, пусть и хуевастенький и тупенький, но сожрет все библиротеки мира и не поперхнется и выдаст точный ответ среди горы документов. Причем там уже версия обновилась и это все работает из коробки. Нахуй любой необязательный пердолинг, пердолинг только для пердолей или там где оно того стоит типа лама фактори поскольку альтернативы нет.

Аноним 10/05/24 Птн 00:42:23 № 733426 343

>>733387
>ваша любимая meta вычистила всё кумерское из лламы3 бтв
А, ну раз ты СКОЗАЛ, то всё, прекращаю кумить в троечке, запрещено.

Аноним 10/05/24 Птн 00:55:22 № 733433 344

>>733312
Ставь кумандер для хорни текстов.

Аноним 10/05/24 Птн 01:08:56 № 733447 345

>>733433
Ну вообще мне для генерации промтов для SD.
>кумандер
Как нго искать?

Аноним 10/05/24 Птн 02:07:05 № 733511 346

Поставил карточку на романтику и аж грустно стало. Я 27-летний лиственник-аутист, пока я тут хуйней страдаю такое у людей ирл еще со времён школы было.

Аноним 10/05/24 Птн 02:25:55 № 733516 347

>>733511
Не грусти, теперь ты сможешь все это испытать, наверстать и даже опередить, без каких-либо последствий кроме ментальных. Слава нейросетям!

Аноним 10/05/24 Птн 05:48:31 № 733543 348

>>733345
> стараться верить адекватам, а не шизам
А кто здесь адекват, ты что-ли?
>И проблема неумения писать промпт — самая очевидная причина для таких утверждений.
Поставлю четвертый квант, ты думаешь там что-то сильно поменяется? Как не решала задачу, так и не решит. Когда что-то сложнее кума начинается, оно сразу же сосет. Или ты на полном серьезе будешь утверждать, что между третьим и четвертым квантом - целая пропасть?

Аноним 10/05/24 Птн 06:28:26 № 733546 349

>>733080
>ебаное комьюнити идиотов кумеров
Не переживай, мы уже кумим в твою мать.

Аноним 10/05/24 Птн 06:41:34 № 733550 350

>>733447
>Как нго искать?
https://huggingface.co/TheDrummer/Coomand-R-35B-v1-GGUF?not-for-all-audiences=true

Аноним 10/05/24 Птн 06:44:25 № 733552 351

>>733511
>такое у людей ирл
Не отставай от технологий!
https://www.rbc.ru/life/news/65ba20c99a79472c0001c617

Аноним 10/05/24 Птн 10:37:55 № 733645 352

>>733543
> Или ты на полном серьезе будешь утверждать, что между третьим и четвертым квантом - целая пропасть?
Хватит приписывать свою шизу другим людям.
Если почитать тред выше (а не проскипать, как ты), то можно увидеть: 8, 6, ну 5 для 70б, 4 только для двух тесла.

Ну и практика — это не твои шизофантазии. Люди вполне норм, с верными промптами, работают даже с 4 квантов, хватает овердохера серьезных вещей.

Впрочем, я уже давно понял, что похуй. Нет смысла тебя убеждать — если ты не будешь юзать нейросети как можно дольше, то адекватным людям только легче. =)

Да, ты совершенно прав, чел, нейросети вообще ни на что не способы, полная дичь нерабочая. База.

Аноним 10/05/24 Птн 10:59:57 № 733677 353

>>733080
>>733424
Эй чувак, я ведь сидел на версии 0.2.1 а вчера когда ты про свой qa сокрушался на кумеров, я посмотрел, а там уже версия 0.3 - вот это заебца. Уже накатил и наслаждаюсь. Чего и тебе советую если любишь раг. Теперь ебет библиотеки в 3 раза быстрее эмбеддингами. И еще ебет каталоги картинок ну вот это охуенно. Модели можно загружать на выбор из списка. Голосовой ввод через whisper, да хули говорить, в прошлую версию чтоб заэмбеддить все журналы издания фил. института ран к примеру, почти полдня ушло, а сейчас ебануло за пару часов - вот это тест. Охуенно! Куртка - человек гора, человек-эверест. И все это бесплатно блять и не от пердолей криво косо, а от нвидиа но только для владельцев карт rtx, хотя старые теслы летят через хуй, туда же куда амуде))

Аноним 10/05/24 Птн 11:19:25 № 733690 354

Аноны поясните за RAG пожалуйста. Я правильно понимаю что:
1) С помощью этой технологии можно скормить большие документы нейронке и она будет по ним выдавать ответы
2) На сегодняшний день самый оптимальный и доступный способ в домашних условиях это через курткоподелие?

Если да, то какие мои действия?

Аноним 10/05/24 Птн 11:21:01 № 733693 355

>>733690
обычный раг сосет, нужен с графами связей
кажется проект кракен на гитхабе видел с этим, как точно пишется не ебу

Аноним 10/05/24 Птн 11:27:35 № 733701 356

>>733690
>Если да, то какие мои действия?
https://www.nvidia.com/en-us/ai-on-rtx/chatrtx/

> На сегодняшний день самый оптимальный и доступный способ в домашних условиях это через курткоподелие?
Сморя для кого. Если ты норм пацан то да, а если ты пердоль то выбери себе там хуиту какую-нить с гитхаба и пердолься с ней в убунту а еще лучше в дженту, который еще и настроил сам под себя

>С помощью этой технологии можно скормить большие документы нейронке и она будет по ним выдавать ответы
конечно. например есть куча книг на нглиш читать которые неохота и незачем, но нужно использовать их как источники. Вот всю эту кучу заэмбеддишь и потом только выдергивай то что нужно тебе, если там это есть, со 100% точностью

Аноним 10/05/24 Птн 11:39:31 № 733717 357

>>732890
>шизики с 8В, которым вообще никакая 70В не светит
как это было сказано! будто сии слова исторг не обладатель двух допотопных б/у тесл, а счастливый владелец двух 4090 по меньшей мере))

Аноним 10/05/24 Птн 12:21:08 № 733761 358

Решил заняться NLP, полчаса мучал разные модели, у всех результат одинаковый, иногда попадется какой нибудь "отрицать" или вообще выдуманное слово.
Это потому что нейронки воспринимают текст не на уровне символов?

Аноним 10/05/24 Птн 13:06:08 № 733807 359

>>733761
во первых не с "окончанием" а заканчивающиеся на. Во-вторых это проблема токенизации как ты правильно подметил.

Аноним 10/05/24 Птн 13:18:52 № 733822 360

>>733080
О чём речь? В таверне той же есть.

Аноним 10/05/24 Птн 13:34:23 № 733835 361

>>733543
> что-то сложнее кума
А что там сложнее кума? Зирошоты замудренных загадок, которые как ирл требуют распутывания, так и в случае ллм должны быть или заучены, или разобраны по частям соответствующей инструкцией.
> между третьим и четвертым квантом - целая пропасть
Такое часто бывает, третий довольно шизоидный и дурной, словно страдает синдромом туретта, или может рандомно ломаться. Четверный более стабильный и правильный. Однако, есть случаи когда такое свойство тройки (на самом деле 3.9 или сколько там по факту) не переходит границы а играет в плюс, разнообразя.
>>733645
> 8, 6, ну 5 для 70б
> 4 только для двух тесла
Один пользователь 4 с двумя теслами за вечер накумит больше, чем остальные тестировщики "больших квантов" за месяц, лол.

Аноним 10/05/24 Птн 13:36:26 № 733837 362

>>733081
>Тебе он зачем? В плане кума он нахуй не нужон.
Ты шо, дурак? Включи в таверне и попробуй. Ты можешь туда любую вики или роман сгрузить.

Аноним 10/05/24 Птн 13:48:45 № 733849 363

Грядут avx оптимизации для K квантов в llama.cpp.

llamafile-0.8.4:
prompt eval time = 6536.85 ms / 273 tokens ( 23.94 ms per token, 41.76 tokens per second)
eval time = 16317.07 ms / 127 runs ( 128.48 ms per token, 7.78 tokens per second)

llama.cpp b2837:
prompt eval time = 10308.56 ms / 273 tokens ( 37.76 ms per token, 26.48 tokens per second)
eval time = 16201.34 ms / 127 runs ( 127.57 ms per token, 7.84 tokens per second)

Llama-3-8B-Instruct-Coder-v2-Q6_K.gguf

Аноним 10/05/24 Птн 13:53:01 № 733852 364

>>733761
Трансформеры - кал, это не новость. Вроде как новая модель клозедаи справлялась с подобными задачами гораздо лучше, но если ты тестишь на lmsys, то она должна была тебе попасться и, видимо, она тоже все еще кал в этом плане.

Аноним 10/05/24 Птн 13:58:19 № 733856 365

>>733852
Мда гпт2чатбот тот еще пиздец в краевых кейсах. Это его ответ.

Аноним 10/05/24 Птн 14:00:26 № 733858 366

>>733849
Ну и нахуй оно надо? Покажи мне этих чуханов, генерящих на ЦП, буду смеяться им в лицо.

Аноним 10/05/24 Птн 14:01:43 № 733859 367

>>733849
А, это те оптимизации чтения промпта, дошли до к квантов
Не особо полезная штука, но приятная

>>733858
пользователи эппл

Аноним 10/05/24 Птн 14:04:25 № 733863 368

>>733859
> пользователи эппл
С каких пор у них AVX появился?

Аноним 10/05/24 Птн 14:04:34 № 733864 369

>>733859
>пользователи эппл
Все на арме.

Аноним 10/05/24 Птн 14:06:06 № 733865 370

>>733863
>>733864
Не пиздите.
мимо эплоблядь с x86

Аноним 10/05/24 Птн 14:07:09 № 733868 371

>>733865
Гоните его, насмехайтесь над ним!

Аноним 10/05/24 Птн 14:07:20 № 733870 372

>>733858
Не. Все мы начинали с генерации на ЦП, потом некоторые потратились на теслы или сильно потратились на видяхи помощнее. Но тех, кто забил на пердолинг и ждёт оптимизаций и спецдевайсов я тоже понимаю. Не извращаться - это позиция.

Аноним 10/05/24 Птн 14:08:14 № 733871 373

1602180673609.mp4 1192Кб, 426x426, 00:00:18

>>733865
> эплоблядь

Аноним 10/05/24 Птн 14:09:15 № 733874 374

>>733852
Они тоже попадались, результат примерно тот же. Если дать образцы, то может начать выдумывать слова.

Аноним 10/05/24 Птн 14:16:16 № 733882 375

>>733863
>>733864

А вопрос был не о авх, а о том кто крутит на цп

Аноним 10/05/24 Птн 14:41:21 № 733903 376

>>732903
>Там убабуга обновилась.
До этого сколько обновлял - всё заебок было. В этот раз обновление говно какое-то, в консоль срёт ошибками, генерирует с такой скоростью, будто я на процессоре загрузил. Пришлось проверять - нет, реально на gpu 0.63т\с. Пиздец нахуй. Худшее обновление за всё время.

Аноним 10/05/24 Птн 14:41:53 № 733904 377

>>733858
Показывай свою видюху на которой ты крутишь 70b, нечухан

Аноним 10/05/24 Птн 14:46:07 № 733910 378

>>733882
Блять чел, ллама.спп изначально написана для кручения на цп, она литературно начала всю эту хуйню именно потому что могла крутить трансформеры на цп с приемлемой скоростью. Всё остальное уже добавки.

Аноним 10/05/24 Птн 14:52:47 № 733919 379

>>733761
Во-первых, это базовая проблема для всех ллм, особенно тех кто не умеет в русский, хрен знает что у тебя тут.
> Это потому что нейронки воспринимают текст не на уровне символов?
В том числе.
Во-вторых, ты их не мучал а просто делал запросы обернутые так как посчитал нужным хозяин вебморды.
>>733849
Неплохо, но на мощных камнях оно всеравно в рам упирается, врядли будет столь ощутимый выигрыш.
> 7.84 tokens per second
Тотальный пиздец, конечно.
>>733858
Половина треда, лол

Аноним 10/05/24 Птн 14:52:56 № 733920 380

>>733849
> 7.78 tokens per second
>7.84 tokens per second
Ух бля, теперь заживём!
>>733852
>то она должна была тебе попасться
Её оттуда разве не удалили после шквала шизотеорий?

Аноним 10/05/24 Птн 14:59:02 № 733929 381

>>733920
>Её оттуда разве не удалили после шквала шизотеорий?
Там теперь два схожих варианта. я_пиздатый_гпт2, и я_тоже_пиздатый_гпт2. Оба подписываются гпт 4.5, если спросить, т.е. шизотеории оказались правдой.

Аноним 10/05/24 Птн 15:01:33 № 733933 382

>>733929
>т.е. шизотеории оказались правдой
Но не все. Были предположения, что это ку-стар с GPT2, лол.

Аноним 10/05/24 Птн 15:04:50 № 733936 383

>>733933
Так может гпт-4.5 и есть гпт-2 с q*. Ты там лично в сурцы смотрел чтоле? Ну если реально то гпт-2 вряд-ли, но вот то что там не использовался кустар ещё не факт

Аноним 10/05/24 Птн 15:08:40 № 733944 384

>>733933
>>733936
Бля, я думал неграмотные дурачки ещё год назад выяснили что значит Q*, а оказывается они всё ещё тут.

Аноним 10/05/24 Птн 15:10:11 № 733948 385

>>733910
> ллама.спп изначально написана для кручения на цп
Изначально написана для кручения на эпл арм профессора с их металом. Добро пожаловать.

Аноним 10/05/24 Птн 15:44:15 № 734030 386

>>733903
>До этого сколько обновлял - всё заебок было. В этот раз обновление говно какое-то
так это не новость, всегда шанс на такое был у губыбуги. я вообще не обновляю без крайней необходимости. а нахуя? ггуф у меня только в кобольде, а губа лишь для благородных exl2 и трансформеров ну и лоры трейнить удобно, хотя в ламефактори тоже заебись. В основном обновляется постоянно убогий ггуф зачем изза этого гавна губубугу переустанавливать.

>>733837
>Ты можешь туда любую вики или роман сгрузить
блять прочитал, раньше думал таверна это для кумящих ебланов, а там раг есть оказывается? дай думаю посмотрю. Ну еба! пердолинг закончился поломкой миниконды-анаконды-хуенды. нахуй с пляжа сразу это попердие для пердолей

Аноним 10/05/24 Птн 17:13:47 № 734151 387

https://huggingface.co/NTQAI/Nxcode-CQ-7B-orpo
ммм файнтюн кодеквин

Аноним 10/05/24 Птн 17:17:52 № 734158 388

>>733944
Так, а что значит Q* на самом деле?

Аноним 10/05/24 Птн 17:22:22 № 734165 389

>>734030
>Ну еба! пердолинг закончился поломкой миниконды-анаконды-хуенды. нахуй с пляжа сразу это попердие для пердолей
Бля, надо в шапке сразу писать что тред для IQ>80 хотя бы, а не тех кто в состоянии шнурки себе завязать.
Для тебя есть платные провайдеры, зачем тебе локалки, сына?

Аноним 10/05/24 Птн 17:26:34 № 734173 390

>>734165
>надо в шапке сразу писать что тред для IQ>80 хотя бы
Ну, технически
>Тред для обладателей топовых карт NVidia с кучей VRAM
Сидеть с 3090 могут не только лишь все.

Аноним 10/05/24 Птн 17:27:09 № 734174 391

>>734158
Математическая нотация одного из алгоритмов RL. Как обычно, все кто занимается ML знают что это без лишних объяснений, остальные строят теории заговора.
https://en.wikipedia.org/wiki/Q-learning

Аноним 10/05/24 Птн 17:27:34 № 734175 392

>>734165
>зачем тебе локалки, сына?
ха, пишет мне чел, который как пить дать минимум в два раза младше меня. иди тряси своим iq дальше умник бля

Аноним 10/05/24 Птн 17:29:41 № 734179 393

>>734173
видюху купиль
питон не купиль

Аноним 10/05/24 Птн 17:33:24 № 734182 394

А нет каких-нибудь интеграции ИИ в 3д движок? Чтобы и самом поковырять?

Аноним 10/05/24 Птн 17:35:38 № 734187 395

>>734174
Да до алгоритма даже хлебушки добрались, но вот что за стар и как они его подружили с LLM, вот в чём вопрос.

Аноним 10/05/24 Птн 17:44:00 № 734194 396

>>734187
> что за стар
Это пишут вместо всяких Q_new. Открой любую публикацию по нему и увидишь там просто Q*.
> как они его подружили с LLM
Так же как любой другой алгоритм RL, даже в опенсорсе кучу RL-алгоритмов уже использовали для LLM. То что именно этот алгоритм у клозед-аи добрался до продакшена - это фантазии шизиков, начавшие искать смысл в незнакомой букве. А ведь это была просто какая-то рандомная статейка в бложике от одного чела из клозед-аи, то что это имеет какое-то отношение к жпт уже додумали после. Так-то у клозед-аи куча других сеток, но желтизна потекла именно из этой буковки.

Аноним 10/05/24 Птн 17:55:42 № 734222 397

https://3dnews.ru/1104617/v-ssha-razrabotan-zakonoproekt-kotoriy-ogranichit-eksport-modeley-ii
Че у нас не из сша?
Квен от китайцев и мистраль которые уже скорей всего ниче не выкинут в открытый?

Аноним 10/05/24 Птн 17:56:23 № 734224 398

>>733717
Ну, две бу теслы все еще дают х8-х10 перформанс над процем…

>>733835
> Один пользователь 4 с двумя теслами за вечер накумит больше, чем остальные тестировщики "больших квантов" за месяц, лол.
Нет, надо сидеть на 1 кванте в 8 гигах, ты ничего не понимаешь, ррря!
Или как там это работает у шизов.

>>733870
Плюсую. Да и само по себе ускорение обработки контекста не бессмысленно на больших контекстах.

>>733903
Как Уба умудряется все сломать? Я ставил 2.69 лламу отдельно командой и она до апдейта работала… А сейчас генерит чуть медленнее, но главное — выдает херню… Что можно было сделать, чтобы рабочая библиотека сломалась???

>>733919
Не, ну, 70б на теслах даже медленнее. =) У кого 70б, у кого 8б… Кому шо.

Аноним 10/05/24 Птн 17:58:41 № 734230 399

>>734182
TripoSR + сам запили его внутрь движка и пользуйся, как чел давеча. https://t.me/NeuralShit/5480
Ниче лучше я не знаю, но я не геймдевелопер.

>>734222
Квен не так плох, на самом деле.

Аноним 10/05/24 Птн 18:00:01 № 734233 400

>>734222
>ограничивать экспорт
Они там экспорт алгоритмов шифрования сложнее 56 бит уже разрешили?
>>734224
>Ну, две бу теслы все еще дают х8-х10 перформанс над процем…
х4 максимум, откуда х10?

Аноним 10/05/24 Птн 18:01:14 № 734234 401

image.png 20Кб, 836x126

>>734230
>Квен не так плох, на самом деле.
Квен на сколько я понимаю глубокий файнтюн ллама

>>734233
>Они там экспорт алгоритмов шифрования сложнее 56 бит уже разрешили?
Просто законодательно запретят выкладку в опенсорс весов моделей, что бы цук не портил большим дядям гешефт

Аноним 10/05/24 Птн 18:01:39 № 734235 402

>>733701
Уже убрали лламу-2, но еще не добавили лламу-3, кек.
Но развивают, а не дропают, как все остальные демки — похвально.
Качаю, попробую второй раз.
Еще бы дали доступ к промптам полноценный, и дали добавлять свои модели или просто третью лламу (и фи, например). Было бы пушка.

Аноним 10/05/24 Птн 18:02:49 № 734237 403

>>734234
>Просто законодательно запретят
Ну вот алгоритмы шифрования уже запрещали, а толку то? Только себе в ногу выстрелят, будут делать модели в филиалах вне США и выкладывать дальше.

Аноним 10/05/24 Птн 18:08:14 № 734247 404

>>734233
Ну слушай, мы же про ddr4, с ddr5 уже можно себе и 3090 позволить. =)
0,7 на проце, 6,3 на тесле — как раз х9.

>>734234
> Квен на сколько я понимаю глубокий файнтюн ллама
Насколько я помню, они ее презентовали как свою-свою еще в первые запуски.
Но на деле — ваще хз, канеш.

Может и правда квен сам останется без моделей новых и соснет.

Аноним 10/05/24 Птн 19:12:22 № 734331 405

>>734235
>Уже убрали лламу-2
не убрали, теперь по дефолту мистраль а остальные можно установить потом при желании, там еще добавились опционально джемма-7 и чатглм-6 вроде бы. ну и проектор от макрософт вроде.
все файлы и языки читает, только с doc не оч понравилось. с тхт нет проблем даже на татарском проверил больше 100гигов txt заэмбедил. По объемам папки с файлами ограничены только ресурсами железа, на практике врядли такое ограничение возникнет. ну и голосовой ввод. поиск по фоткам, картинкам - ну такое себе, но работает более-менее. вобщем когда добавят ламу-3-8 это будет еще лучше. по настройкам в папке конфиг есть json конфига там температуру можно руками поменять и вроде где-то еще я менял топ-к, но это в промежуточной версии 0.2.1 а тут еще не смотрел

Аноним 10/05/24 Птн 19:26:45 № 734364 406

>>734331
Аха, я уже консоль пролистал.
Ну, по-хорошему, там не только лламу-3 — а вообще, и другие мультимодалки, и проекторы, и все-все-все можно добавить.
Вишпер норм, база.

> в папке конфиг есть json
Ну так-то понятное дело че хошь можно сделать, но хочется-то в меню. Искаропки, а не вот это вот все. =)

Так шо ждем.
Штука и правда неплоха.

Аноним 10/05/24 Птн 20:18:52 № 734385 407

>>734234
>Квен на сколько я понимаю глубокий файнтюн ллама
Типа Qwen1.5-110B это как и что вообще?

Аноним 10/05/24 Птн 20:29:00 № 734389 408

>>734385
А вот тут хз, не ебу. Могли к ллама2 70 слоев нарастить

Аноним 10/05/24 Птн 21:27:11 № 734440 409

>>734030
> миниконды-анаконды-хуенды
> таверна
Лол, вот же бедолага, самый рофел что таверна на жсе.
>>734165
> Бля, надо в шапке сразу писать что тред для IQ>80
Первая страница на вики с этого и начинается, лол.
>>734175
Это же вдвойне обидно, дед/скуф а ума не нажил.
>>734182
Был какой-то вялый мод на койкацу, можешь и сам раскурить и прикрутить.
>>734224
> 70б на теслах даже медленнее
Это обработка промта а не генерация, не может быть настолько медленной там.
>>734233
> х4 максимум
Х40 не хочешь? Всего-то скормить 12к контекста скормить, которые будешь пол часа только обрабатывать на проце.

Аноним 10/05/24 Птн 21:33:00 № 734447 410

>>734440
>12к контекста
Так прикол в том, что почти никто контекст чисто на проце не крутит, ибо да, это самоубийство.

Аноним 10/05/24 Птн 21:42:11 № 734455 411

>>734447
> почти никто контекст чисто на проце не крутит
Всмысле? Теряется смысл запуска ллм, лол.
Если же ты про ускорение видимокартой - удачи делать это без выгрузки слоев, получишь 12т/с вместо 7. Где-то в прошлых тредах даже замеры были, все печально там.

Аноним 10/05/24 Птн 21:48:07 № 734458 412

>>734455
>все печально там.
Чисто чтение промпта без выгрузки довольно хорошо ускоряется куда, а вот на процессоре да, у меня раз в 5 медленнее когда проверял
Но с другой стороны, что 10 секунд что 3, что даже 20 это херня. Только если там контекста на 3-4к начинает чувствоваться раздражение.

Аноним 10/05/24 Птн 21:48:49 № 734460 413

>>734455
Я не понимаю с чем ты споришь.
Всё на видяхе > частичная выгрузка на видео > выгрузка только контекста >>> всё на проце

Аноним 10/05/24 Птн 21:55:42 № 734465 414

>>734458
> довольно хорошо ускоряется куда
Ну сколько хорошо, будет 1.5-2 десятка от силы. Вместо сотен-тысяч при полной выгрузке на нормальном алгоритме. Не разражает только когда работает кэш контекста и оно обрабатывает только твой последний пост, чуть что - чаепитие на несколько минут обеспечено.
>>734460
> споришь
Где? Констатация факта что все печально и напоминание что не получится обмануть систему воткнув затычку "для контекста".

Аноним 10/05/24 Птн 23:23:00 № 734526 415

Вот тут некоторые снобы ругаются: "некротеслы, некротеслы". И такие они и сякие и не тянут ничего, кроме ггуфа и тот плохой и плохо. А между тем должен сказать, что те 72гб врам, которые я теперь имею - это именно то, что доктор прописал. На сегодняшний день. И ежели какая из тесл загнётся, то две оставшиеся меня уже не устроят - придётся докупать. Кстати замечу, что Кобольд даёт на теслах результат лучше, чем Убабуга. Ждём только поддержки комманд-р, а так Уба и не нужна особо.

Аноним 10/05/24 Птн 23:23:44 № 734527 416

>>734526
>Ждём только поддержки комманд-р
В смысле?

Аноним 10/05/24 Птн 23:26:00 № 734529 417

>>734526
> 72гб врам
> некротеслы
Зачем?
> Кобольд даёт на теслах результат лучше, чем Убабуга
HF семплеры могут давать некоторую просадку на днищепрофессорах.

Аноним 10/05/24 Птн 23:30:37 № 734531 418

>>734527
>В смысле?
https://github.com/LostRuins/koboldcpp/issues/761

Аноним 10/05/24 Птн 23:36:30 № 734539 419

>>734531
Ну юзал бы лламу.цп, какая разница.

Аноним 10/05/24 Птн 23:37:18 № 734540 420

>>734529
>Зачем?
Оптимальное соотношение цена/скорость генерации больших моделей. Command-r-plus поместится. 120B Q4_0 тоже и даже даст терпимую скорость. Удачный компромисс, я считаю.

Аноним 10/05/24 Птн 23:45:06 № 734546 421

>>734540
> Оптимальное
Где там зеоношиз который пояснит что это все херня и 64-96-128 гигов рам хватит всем. Скорость слишком медленная выйдет и сам этого в итоге не захочешь.
> Command-r-plus поместится
Но не его контекст
> 120B Q4_0
Врядли даже без контекста влезет.
Напрашивается в них использование моделей с большим контекстом, но медленная скорость его обработки сильно подсирает. Пора идти ныть к Турбодерпу чтобы запилил поддержку паскалей.
Зато сможешь загрузить несколько моделей и что-нибудь организовать. Пропил бы их и пару 3090 лучше бы взял, дороже но по юзерэкспириенсу радикально лучше.

Аноним 10/05/24 Птн 23:59:49 № 734562 422

>>734546
>Врядли даже без контекста влезет.
Легаси 4_0 - 66 гигов, место под контекст остаётся. Больше 8к всё одно тяжко будет ждать. Комманд-р_плюс тяжело, да. Но ничего, как-нибудь запихнём. Всё-таки сотка, там и четвёртый квант затащит.

Аноним 11/05/24 Суб 00:00:43 № 734564 423

>>734440
вот же лохобоище, еще удивляется. Ты попробуй установи по ридми вот отсюда: https://github.com/SillyTavern/SillyTavern/tree/release?tab=readme-ov-file#installing-via-sillytavern-launcher
И заметь что в шапке написано ставьте по инструкции. А это разве не инструкция?
Поставил я твою любимую дрочильню в два счета через git c NodeJS.
так что там не распухай от мощного iq. по сути таверны - хуйня из под коня а не раг там. остальное в хуй не уперлось, это для кумеров

Аноним 11/05/24 Суб 00:12:13 № 734577 424

>>734562
> Легаси 4_0 - 66 гигов
Ну вот, как в память загрузится, места хуй да нихуя останется. Там ведь не только чистый кэш контекста, если 2-4к поместится уже праздник будет.
> там и четвёртый квант затащит
Эта секта свидетелей квантов довольно забавна. Офк в жоре есть приколы со сменой лидирующих токенов и внезапными отрывами на отдельных даже при q6, но при семплинге разницы не заметишь.
>>734564
Чи шо, дурень? Гит клон, да ноду если отсутствует, и все. Где конду там нарыл, поехавший? Если уж с такой инструкцией не справляешься то как дожил до своих годов?

Аноним 11/05/24 Суб 00:28:42 № 734596 425

>>734577
угомонись еблан, там ссылка есть откуда конда взялась, посмотри получше пиздоглазый а то горазд только огульно ебалом щелкать. кого ебут твои суждения кто как дожил, еба? ты сам то еще доживи.

Аноним 11/05/24 Суб 00:34:50 № 734609 426

1589385869953.png 16Кб, 1202x65

>>734596
Оллама-шизло, ты опять из под шконки выбрался? Уябывай нахуй, шавло безмозглое.
> ты сам то еще дожив
Представлял тебя пиздюком а не оскуфившимся мусором
> там ссылка есть откуда конда взялась
Где?

Аноним 11/05/24 Суб 00:43:16 № 734624 427

Ребят мне не внушают доверия сетки, которые не могут ответить правильно на эти вопросы. Что делать?
1)
Реши систему уравнений:
2x-3y+z=-1
5x+2y-z=0
x-y+2*z=3

2)Крестьянину нужно перевезти через реку волка, козу и капусту. Но лодка такова, что в ней может поместиться только крестьянин, а с ним или один волк, или одна коза, или одна капуста. Но если оставить волка с козой, то волк съест козу, а если оставить козу с капустой, то коза съест капусту. Как перевез свой груз крестьянин?

Аноним 11/05/24 Суб 00:47:21 № 734630 428

>>734624
Как ты сюда всё время залазишь, сука

Аноним 11/05/24 Суб 00:48:22 № 734633 429

>>734609
>Где?
в пизде уебок - следуй этой инструкции и увидишь https://github.com/SillyTavern/SillyTavern/tree/release?tab=readme-ov-file#installing-via-sillytavern-launcher
скажешь а чего так - а вот захотел, хули нет?

>Оллама-шизло
а вот тут ты ошибся, что однако не отменяет того, что ты редкостный уебан. хули ты ебало гнешь, себя самым умным посчитал? ну это первый признак дурака. За сим раскланиваюсь, оставляю за тобой последнее слово дитятко.

Аноним 11/05/24 Суб 00:52:55 № 734639 430

>>734564
Почему-то я даже не удивлён. Ты там дышать не забыл ещё как?

Аноним 11/05/24 Суб 00:55:28 № 734644 431

>>734633
Блять, да где ты это находишь вообще?
> Install Git for Windows
> Open Windows Explorer (Win+E) and make or choose a folder where you wanna install the launcher to
> Open a Command Prompt inside that folder by clicking in the 'Address Bar' at the top, typing cmd, and pressing Enter.
> When you see a black box, insert the following command: git clone https://github.com/SillyTavern/SillyTavern-Launcher.git
> Double-click on installer.bat and choose what you wanna install
> After installation double-click on launcher.bat
Где? Гит+нода, все.
> Install NodeJS (latest LTS version is recommended)
> Install GitHub Desktop
> After installing GitHub Desktop, click on Clone a repository from the internet.... (Note: You do NOT need to create a GitHub account for this step)
> On the menu, click the URL tab, enter this URL https://github.com/SillyTavern/SillyTavern, and click Clone. You can change the Local path to change where SillyTavern is going to be downloaded.
> To open SillyTavern, use Windows Explorer to browse into the folder where you cloned the repository. By default, the repository will be cloned here: C:\Users\[Your Windows Username]\Documents\GitHub\SillyTavern
> Double-click on the start.bat file. (Note: the .bat part of the file name might be hidden by your OS, in that case, it will look like a file called "Start". This is what you double-click to run SillyTavern)
> After double-clicking, a large black command console window should open and SillyTavern will begin to install what it needs to operate.
> After the installation process, if everything is working, the command console window should look like this and a SillyTavern tab should be open in your browser:
> Connect to any of the supported APIs and start chatting!
Где? Гитхабовская аппа+нода, все.

Аноним 11/05/24 Суб 00:59:53 № 734648 432

Блять, просто игнорируйте шизоида. Неужели не очевидно что он просто потрястись сюда пришёл.

Аноним 11/05/24 Суб 01:01:52 № 734652 433

>>734624
Бля, я конечно тоже люблю потыкать новые сетки вопросиками, но в качестве развлечения в основном, ну и понять прогресс.
Отьебитесь от сеток, если ожидаете от них какой то супер интеллект.
По сути нейросеть это форма сжатия данных датасета, на котором ее тренировали.
Смежные данные образуют между собой связи по типу ассоциативой, что называется возникающими способностями нейросетей. Отсюда интеллект и способность "думать".
Но настоящий процесс мышления сеткам недоступен. Их возникающий "разум" слишком примитивный и плоский.
Это примитивнее мозга какого нибудь червя. Просто это особым образом напичканный в нужной форме поданными в него знаниями червяк.
Который умеет предсказывать продолжение текста который ему показывают, в форме которая на выходе похожа на осмысленную речь.
Если в датасете нет таких задач и задрачивания на них, сетка не поймет как их решить, так как не будут созданы необходимые связи.

Аноним 11/05/24 Суб 01:07:48 № 734664 434

Бля, я конечно тоже люблю потыкать новых людей вопросиками, но в качестве развлечения в основном, ну и понять прогресс.
Отьебитесь от людей, если ожидаете от них какой то супер интеллект.
По сути человеческая нейросеть это форма сжатия сигналов от органов чувств, на которых ее тренировали.
Смежные данные образуют между собой связи по типу ассоциативой, что называется возникающими способностями нейросетей. Отсюда интеллект и способность "думать".
Но настоящий процесс мышления людям недоступен. Их возникающий "разум" слишком примитивный и плоский.
Это примитивнее мозга какого нибудь червя. Просто это особым образом напичканный в нужной форме поданными в него знаниями червяк.
Который умеет предсказывать продолжение временной серии, которую ему показывают, в форме которая на выходе похожа на осмысленную речь.
Если в датасете нет таких задач и задрачивания на них, человек не поймет как их решить, так как не будут созданы необходимые связи.

Аноним 11/05/24 Суб 01:09:04 № 734666 435

>>734644
Да даже это переусложненная хуита
Просто качаешь последний релиз, распаковываешь и запускаешь, всё. Ну может надо будет установить NodeJS, больше вообще ниче не нужно

Аноним 11/05/24 Суб 01:14:27 № 734670 436

>>734664
>По сути человеческая нейросеть это форма сжатия сигналов от органов чувств, на которых ее тренировали.

Ага, только есть маааленькая проблемка, даже червяк существует во времни непрерывно и его нейронная сеть самобалансируется и самообучается на полученной информации.
Все наши ллм мертвые и замороженные во времени куски говна по сравнению с любым нервным узлом животного, заменяющего ему мозг.

Аноним 11/05/24 Суб 01:18:02 № 734675 437

>>734670
Потому что червиек занят выживанием и не может отвлечься на демонстрацию тебе своей способности считать интегралы.
А нейросеть может быть так хитро написана и обучена, что ее и через 100 лет будут спрашивать, как познакомиться на улице с тяночкой_

Аноним 11/05/24 Суб 01:26:53 № 734683 438

>>734675
>не может отвлечься на демонстрацию тебе своей способности считать интегралы.
Ну вот когда их одному датасету по решению интегралов обучишь, тогда и поговорим о том что он этого не может

Аноним 11/05/24 Суб 01:34:30 № 734692 439

>>734683
Когда свиного цепня своими отмашками из себя изгонишь, тогда и поговорим о том, что он как минимум счетные суммы бесконечно малых считать не умеет.

Аноним 11/05/24 Суб 01:40:51 № 734700 440

>>734692
А ты проверял?
Может твои глисты умнее тебя?

Где то кстати были попытки скопировать нейронную структуру самого примитивного червя в электронную форму, его даже загрузили в какой то эмулятор и подцепили датчики, и эта штука обходила препятствия на подвижной платформе. Ноэто игрушки, обучением этой штуки никтл не {анимался так как нет нужного алгоритма и понимания того как раьотает самообучение.

Аноним 11/05/24 Суб 01:43:15 № 734701 441

>>734692
>счетные суммы бесконечно малых считать не умеет.
А твои нейросети умеют? Они едва научичись считать 2+2, в основном тупо запомнив

Аноним 11/05/24 Суб 01:45:10 № 734705 442

>>734670
Это был просто намёк на то, что ты стохастический петух попугай.

Аноним 11/05/24 Суб 01:47:37 № 734707 443

>>734701
Для своих целей умеют вроде...

Аноним 11/05/24 Суб 01:48:38 № 734708 444

>>734705
>стохастический петух
А я думаю это ты, по крайней мере ты думаешь о человеке так
Что довольно забавно

Аноним 11/05/24 Суб 01:52:09 № 734711 445

>>734700
1) у меня нет паразитов
2) цепни это не глисты
3) способ существования белковых тел ты как собрался в 640Кибибайт ужимать?

Аноним 11/05/24 Суб 01:58:40 № 734713 446

>>734711
>способ существования белковых тел ты как собрался в 640Кибибайт ужимать?
А зачем мне это делать? Изначальный посыл - структура ллм примитивней чем у червяка.
И это действительно так, структурно они отличаются как бумажный кораблик и подводная лодка.
Хотя наверное разница еще больше.

Аноним 11/05/24 Суб 02:02:11 № 734716 447

>>734713
Нейросеть, написанная за деньги -- это голем, который устареет прежде чем релизнется.
Нейросеть, написанная профессионалами -- это гомункул, способный извергать из себя огонь, воду, медные трубы и фанфары.

Аноним 11/05/24 Суб 02:08:36 № 734722 448

>>734716
А профессионалы пишут не за деньги? Чет какой то бред, ты там нейросеть припряг к ответам? Или глиста

Аноним 11/05/24 Суб 02:18:50 № 734730 449

>>734722
Ну вот сравни посты, которые ты писал мне в начале, и этот quality post, и все встанет на свои места)

Аноним 11/05/24 Суб 02:24:18 № 734733 450

>>734730
Хорошо, поясню.
Предположим, в некотором царстве некоторого государства прекрасных эльфов, нейросети пишут не сами эльфы своими прекрасными пальчиками, а тупо скриптуют движок, купленный у темных эльфов.
Ну, то есть как бы машина Тьюринга в каком-то плане, пусть такая будет параллель, длинная как глист конвеерная цепочка обучения на датасетах.
И что же делать бедным темным эльфам, когда президент их улья пообещает каждому гарем из 11212 эльфиек?
Они читают в Википедии про машину Тьюринга с оракулом и встраивают в нейронку магические нейроны, которые там не знаю делают рэйтрейсинг, алгоритмы на графах или запросы в Центр.

Аноним 11/05/24 Суб 02:25:33 № 734734 451

Ребят, ребят, у меня тут появилась гениальная схема. А вот может ли контекст обучить сеть чему-то и превратиться из контекста в часть сети? Как, например, у нас инфа из кратковременной памяти попадает в долговременную. Может придумают такую модель потом или уже...

Аноним 11/05/24 Суб 02:27:43 № 734736 452

>>734734
И как обычно, все уперлось в инфобез.

Аноним 11/05/24 Суб 02:31:23 № 734738 453

>>734734
Есть внутриконтекстное обучение, если ты об этом. Но апдейтить задёшево веса сетки не получится чисто математически. Даже у хуманов с их эффективными SNN мозг жрёт сильно больше энергии при обучении.

Так-то если хочешь, есть куча зирошот методов, или можешь вообще прям на лету дотренивать, если уверен в исходном материале и имеешь достаточно компьюта на руках (не имеешь). Но асимметрия тренинг/инференс фундаментальная, ты никак её не поборешь.

Аноним 11/05/24 Суб 02:33:35 № 734739 454

>>734734
>Может придумают такую модель потом или уже...
Ну собственно о том и срач, нихуя нет. Ни теоритической базы как это работает ни алгоритмов. Были какие то попытки с добавлением рекуррентных нейронных слоев в сеть, но чет заглохло
Тупо дрочат трансформер, кидая туда кучу труда на датасеты и крутя это месяцами на огромных серверах

Аноним 11/05/24 Суб 02:35:06 № 734741 455

>>734734
Маловероятно, дохуя сложно, коряво и т.д. Тем не менее, возможно запилят аналоги контролнета для диффузерса, что будут формировать подобное. Основа уже есть - векторы, но они довольно грубые и делаются топорно.

Аноним 11/05/24 Суб 02:44:42 № 734750 456

https://www.reddit.com/r/LocalLLaMA/comments/1cot7kx/llama38binstruct_bf16_gguf_with_correct_eos_token/
Вроле как менее сломаннная версия чем раньше

Аноним 11/05/24 Суб 04:29:01 № 734764 457

Любопытно, только не пойму как конкретно эта штука работает. Все равно ведь гуглит где то, нет?
https://github.com/nilsherzig/LLocalSearch

Аноним 11/05/24 Суб 08:13:44 № 734803 458

>>732683
Есть идеи, почему регэксп может не срабатывать? 500+ токенов на один ответ хранимые в дальнейшем в контексте как то жирновато выходит спустя несколько сообщений. Экстрасы нужно чтоли обязательно ставить? Вроде же должно работать и без этого.

Аноним 11/05/24 Суб 11:55:26 № 734896 459

koboldcpp-fully[...].webp 50Кб, 1875x903

koboldcpp-fully[...].webp 126Кб, 1160x882

KoboldCpp - Fully local stable diffusion backend and web frontend in a single 300mb executable.

https://github.com/LostRuins/koboldcpp/releases/tag/v1.65
With the release of KoboldCpp v1.65, I'd like to share KoboldCpp as an excellent standalone UI for simple offline Image Generation, thanks to ayunami2000 for porting StableUI (original by aqualxx)

For those that have not heard of KoboldCpp, it's a lightweight, single-executable standalone tool with no installation required and no dependencies, for running text-generation and image-generation models locally with low-end hardware (based on llama.cpp and stable-diffusion.cpp).

With the latest release:
• Now you have a powerful dedicated A1111 compatible GUI for generating images locally
• In only 300mb, a single .exe file with no installation needed
• Fully featured backend capable of running GGUF and safetensors models with GPU acceleration. Generate text and images from the same backend, load both models at the same time.
• Comes inbuilt with two frontends, one with a similar look and feel to Automatic1111, Kobold Lite, a storywriting web UI which can do both images and text gen at the same time, and a A1111 compatible API server.
• The StableUI runs in your browser, launching straight from KoboldCpp, simply load a Stable Diffusion 1.5 or SDXL .safetensors model and visit http://localhost:5001/sdui/ and you basically have an ultra-lightweight A1111 replacement!

Аноним 11/05/24 Суб 12:00:58 № 734899 460

>>734896
Можешь подсказать пожалуйста? Где найти эти самые модели генерирующие картинки в формате gguf, которые поддерживает kobold.ccp что бы они аниме генерили?

Аноним 11/05/24 Суб 12:01:19 № 734901 461

Как создавать промты под конкретную модель, например openchat-3.5-0106? Есть что-нибудь для этой задачи, кроме как в тупую менять промт?

Аноним 11/05/24 Суб 12:04:17 № 734902 462

>>734899
simply load a Stable Diffusion 1.5 or SDXL .safetensors model
эта строчка тебе ни о чём не говорит?

Аноним 11/05/24 Суб 12:20:16 № 734914 463

>>734902
Только один этот файл с окончанием на .safetensors Или вообще всё полностью? Если полностью, то я хуй знает как это нормально можно выкачать с huggingface.co , по одному файлу разве что, но это же ебануться можно

Аноним 11/05/24 Суб 12:25:49 № 734922 464

>>734914
С цивитай вобще-то качают модели, на хф они тоже есть некоторые, в любом случае скачивай только сейфтензорс.

Аноним 11/05/24 Суб 12:26:23 № 734923 465

>>734914
Какому лицехвату, иди в SD тред, там всё пояснят.

Аноним 11/05/24 Суб 12:28:03 № 734926 466

>>734914
вот сюда смотри https://civitai.com/models

Аноним 11/05/24 Суб 12:55:12 № 734939 467

>>734896
Кому там нужен был последний командир?
Решаем квадратное уравнение с помощью квадратного уравнения

Аноним 11/05/24 Суб 13:04:27 № 734945 468

>>734939
на английском спроси

Аноним 11/05/24 Суб 13:05:00 № 734946 469

>>734939
>>734945
Читаешь мои мысли
Лол, на английском он формулы через латекс оформил, вместе с галочкой на рендеринг формул выглядит прямо топчиком.

Аноним 11/05/24 Суб 13:36:08 № 734964 470

>>734946
Латех.

Аноним 11/05/24 Суб 13:41:17 № 734967 471

Приехал китаекал ко мне. В целом всё заебись, карта может управлять кульками, хоть и делает это странно - при включении ебашит в сотку пару минут и потом опускается в бесшумный режим навсегда. Больше 60 градусов не смог её прожарить при 230 ваттах, охлад заебись отрабатывает, при этом кульки всегда в бесшумном режиме. В LLM больше 50 не прогревает при выгрузке на неё, в 70В Q4 с полной выгрузкой на обе карты и забитым контекстом у Жоры даёт 8 т/с. В EXL2 как-то очень медленно работает и не нагружает совсем её, надо что-то пердолить дополнительно, пока лень. Пришлось ещё знатно поебаться с биосом мсины, Above 4G там в теории должен включаться автоматически с ребаром, но оказывается пока вручную не перещёлкнешь галку он не включится, хотя пишет что включено.

Аноним 11/05/24 Суб 13:44:14 № 734970 472

>>734964
Я что, читать по твоему не умею? Написано ЛаТеКС! Мне так больше нравится, не нужно объяснять, что это такое, я знаю, но латекс смешнее.
>>734967
>В EXL2 как-то очень медленно работает
И не будет быстро.
>Пришлось ещё знатно поебаться с биосом мсины, Above 4G
Пока бы в вики сделать раздел с железом.

Аноним 11/05/24 Суб 13:51:22 № 734977 473

>>734896
> excellent standalone UI for simple offline Image Generation
Нужно быть незнакомым с другими ui чтобы такое выдать.
>>734967
> В EXL2 как-то очень медленно работает и не нагружает совсем её
Большая часть паскалей не умеет в дробные точности, потому p40 сосет бибу во многих других нейронках. В жоре работа реализована несколько костыльно но эффективно, возможно подобное сделать и в экслламе.

Аноним 11/05/24 Суб 13:55:10 № 734981 474

>>734939 >>734946
Что за морда?

Аноним 11/05/24 Суб 14:10:18 № 734992 475

>>734981
SillyTavern же.

Аноним 11/05/24 Суб 14:33:24 № 735014 476

Бля, dev-ветку таверны сломали что ли? Работало утром, сейчас обновился и ничего не происходит после нажатия генерации.

Аноним 11/05/24 Суб 14:34:21 № 735015 477

>>734967
>В целом всё заебись
Это временно. Скоро тебе захочется ещё 24гб, уж поверь.

Аноним 11/05/24 Суб 14:54:56 № 735026 478

>>735015
Слишком медленная Р40. Мне уже от одной тошно.

Аноним 11/05/24 Суб 14:55:34 № 735027 479

>>735026
Бери P100, собери весь набор!

Аноним 11/05/24 Суб 15:03:52 № 735033 480

Хули все плюются что "р40 медленная", а я смотрю, она ебёт мою 3080ti просто как сучку? Сравнивал на 8b, всё в память помещается.

Аноним 11/05/24 Суб 15:07:47 № 735038 481

>>735015
> Скоро захочется 2т/с
Хуйта нищебродская тормознутая, еще и пограничный размер куда ничего не лезет. То ли дело 96гб на гпу белого человека. скосплеил шиза
>>735027
Собери их всех, лол. Так и представил комбу из p40, p100, 3090 и 4090

Аноним 11/05/24 Суб 15:10:55 № 735039 482

>>734967
> В целом всё заебись, карта может управлять кульками
Ну и заебись, можно спокойно брать если победю лень

Аноним 11/05/24 Суб 15:12:03 № 735042 483

Нвидия из коробки подарила RAG спасибо, но галлюцинации заебали. Как можно накатить на тертью ламу РАГ локально? Без куртки? Гайд нужен.

Аноним 11/05/24 Суб 15:12:40 № 735043 484

>>735027
Я уже пошел колхозить её. Китайские кульки даже на минимуме как-то хрустят, в тишине слышу их, бесит. Взял с 2070S пару кульков и на двухсторонний скотч прихуячил. Ебись оно в рот, вроде работает.

Аноним 11/05/24 Суб 15:12:52 № 735044 485

>>735033
>а я смотрю, она ебёт мою 3080ti просто как сучку?
Ты что-то делаешь не так. У 3080ti память в 3 раза быстрее р40, не говоря уж о тензорных ядрах и прочих примочках 7нм техпроцесса.

Аноним 11/05/24 Суб 15:15:50 № 735048 486

>>735043
Кстати, отфоткай голую плату и выложи в тред, позязя. Надо посмотреть, что китаёзы там с охладом на плате наколхозили. Просто интересно, достаточно ли разъёмы подпоять, или там рассыпуха/кастомный бивас/своё термореле.

Аноним 11/05/24 Суб 15:16:30 № 735049 487

>>735038
> пограничный размер куда ничего не лезет. То ли дело 96гб на гпу белого человека.
Завидуй молча, белый человек. Я и четвёртую теслу в сборку могу поставить, только нахрен мне такие тормоза? Только ради Комманд-р-плюс разве что, но третья Ллама его ебёт вообще-то.

Аноним 11/05/24 Суб 15:18:24 № 735053 488

>>735043
Нет воздуховода = вентиль крутит впустую

Аноним 11/05/24 Суб 15:26:11 № 735064 489

1600937727440.png 77Кб, 1352x436

>>735048
Охлад предлагаешь снимать? Слишком лениво. Ебля с этим говном на сегодня окончена.
>>735053
Тем не менее вот эти два кулька охлаждают лучше чем три китайских, -5 градусов в тех же условиях, лол. Надо будет один оставить только над GPU.

Аноним 11/05/24 Суб 15:29:22 № 735069 490

>>735064
>Охлад предлагаешь снимать? Слишком лениво.
Зря. Тем более, небось китайцы намазали импортную пасту КТП-8, лол вместо нормальной, так что замена спермы на какую-нибудь MX4 может дать свою прибавку.

Аноним 11/05/24 Суб 15:37:48 № 735079 491

>>734440
> Это обработка промта а не генерация, не может быть настолько медленной там.
> eval time = 16201.34 ms / 127 runs ( 127.57 ms per token, 7.84 tokens per second)

Ну, по сумме выходит все же медленнее. Мне лень в детали вдаваться, но евал там 6,3-7,2
+ уба сломал ее пидр

>>734455
>>734458
Мне вообще показалось, что вы просто говорите о разных субъективных вещах.
Фикс касается обработки промпта на проце — там это хорошо.
Но многие обрабатывают его на видяхе, и там быстрее — поэтому многим пофиг на фикс.
Ну, типа, да.

>>734526
Шо у вас там опять сломалось с коммандером? Он же ходил и на убе, и на кобольде!
Ну и я тестил, разницы на двух теслах между убой и кобольдом точно нет. Уба даже опережала на 1%-4%, но скорее погрешность.

Последние три дня уба сломана и не считается.

>>734546
Гы-гы-гы, не про меня ли?
Ну да, четырехканал на зеоне заебись, хуе-мое йопта бля. =D
Но теслы все же лучше в данном контексте. =)
НО НЕ В КОНТЕКСТЕ КОММАНДЕРА АХАХА

>>734648
Уважаемо.
Два чая.

>>734652
Логические задачки норм, но математику-то зачем.

———

Тред про червей забавен.

———

>>735038
И все это китаемамке с 8 каналами.

Аноним 11/05/24 Суб 15:52:55 № 735090 492

Загружаю comman r plus в 4bpw exl2, указываю контекст в 30к, но во VRAM вгружается только сама модель, куда девается контекст вообще не понимаю, он у меня занимает ЗИРО/0/Нихуя, при этом сама модель вроде работает, но в небольшом контексте 2-4к, после начинаются заЛУПЫ и повторение одних и тех же фраз/действий. У меня одного такая хрень?

Аноним 11/05/24 Суб 15:54:07 № 735091 493

Кто-нибудь запускает на intel arc? как полёт?лежит а770 16 гб, думаю мб её лучше поставить вместо 2080 супер, интел там пишет, что они пиздец якобы нагибают нвидию

Аноним 11/05/24 Суб 16:02:52 № 735100 494

>>735049
> Завидуй молча
Завидовать 3 некротеслам? Хех особенно имея лучшее
> Я и четвёртую теслу в сборку могу поставить, только нахрен мне такие тормоза?
Стоило на 1й остановиться лол. Ну рили это подзалупная херь малопригодная для использования в контексте советов остальным. Сам собрал развлекаться - красавчик, лучше иметь чем не иметь и всегда можно найти применение. Но и дня не прошло как пошел убеждать себя и остальных что это не фейл.
> Комманд-р-плюс
> третья Ллама его ебёт вообще-то
сильное заявление
>>735079
> И все это китаемамке с 8 каналами.
Двусоккет чтоли? Хз как оно взлетит там, на более свежей брендовой нюансы есть, а тут придется знатно поебаться скорее всего.

Аноним 11/05/24 Суб 16:03:19 № 735101 495

>>735091
> лежит
Так попробуй сам и расскажи тут.

Аноним 11/05/24 Суб 16:04:44 № 735104 496

>>734803
>Есть идеи, почему регэксп может не срабатывать?
С регексами пока не разбирался. У меня есть рабочий только на скрытие, а не на удаление.

Для удаления можешь взять отсюда и отредактировать.
https://rentry.org/anonika_infoblock#%D1%83%D0%B4%D0%B0%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5-%D1%81%D1%82%D0%B0%D1%80%D1%8B%D1%85-%D0%B8%D0%BD%D1%84%D0%BE%D0%B1%D0%BB%D0%BE%D0%BA%D0%BE%D0%B2
Выложи, если получится

Аноним 11/05/24 Суб 16:05:12 № 735105 497

>>735090
> но во VRAM вгружается только сама модель, куда девается контекст вообще не понимаю
Сколько занимает? Скорее всего оно просто норм работает а
> начинаются заЛУПЫ и повторение одних и тех же фраз/действий
лишь промропроблемы. Проверь скормив копипасту треда на 29к токенов и прикажи сделать ее суммарайз. Оно еще с релиза поддержки норм работало.

Аноним 11/05/24 Суб 16:14:35 № 735115 498

>>735105
Модель сама занимает 57gb, сейчас еще раз проверил, да контекст немного занимает, но это коммандер! Он на 1к токенов по 2gb отжирает, а у меня 100-200mb. Кванты брал от turboderp`a, качал оригинальный 4 квант от Кохаи, и моей VRAM хватило на 2к токенов только(и нормально проверить не смог). Промты разные пробовал, в семплере только min-P 0,1 (если по дефу выставить ничерта не меняется).
И да, еще вопрос по ламма 3 70b 6.0bpw, отыгрывает норм, следует инструкциям (даже в RP/ERP), но после 4-5к контекста тоже впадает в маразм, мб проблемы квантизации? (Конфиги под assistant тоже поменял, не помогло)

Аноним 11/05/24 Суб 16:17:38 № 735119 499

>>734967
Ты не мог бы заснять, как именно китайцы свой вентилятор там подключают? Они просто подпаяли коннектор к пинам, которые у других карт с такой же PCB (1080ti и т.д.) используются?

Аноним 11/05/24 Суб 16:26:20 № 735126 500

>>735115
> на 1к токенов по 2gb отжирает, а у меня 100-200mb
В экслламе почти не растет жор по мере наполнения контекста, оно в начале выделяет нужное.
5битный квант командира вроде нормальный. Отлично вел беседу, описывал кадлинг и левдсы, прислушивался к пожеланиям и в общем хорошая модель. Деградации перфоманса после наката кучи кринжовых инструкций/модулей из aicg не замечено, переход от pg-13 к r18 бесшовный. Не хватает алайнмента в сторону художеств и подобного, а также обширности знаний всяких фандомов, а в остальном в околорп ощущается умнее гопоты.
В случае лламы 3 скорее всего битый конфиг. Скачай ванильную модель, поправь все конфиге в ней и сам квантани для верности.

Аноним 11/05/24 Суб 16:28:51 № 735130 501

>>735119
> Они просто подпаяли коннектор к пинам
Да, просто коннектор припаяли в штатные отверстия под него. Радиатор из трех секций сколхожен, спасибо хоть 5 медных трубок есть.

Аноним 11/05/24 Суб 16:31:19 № 735133 502

>>735126
Ну так я про это и написал, на контекст в 40к выделается 12gb vram(только что проверил)! если не считать самой модели. В command r v01 выделается норм памяти на такой контекст.
Кванты лламы брал от разных "квантизаторов", как по мне не все должны были их убить.

Аноним 11/05/24 Суб 16:32:06 № 735136 503

>>735130
Главное что бы все нагревающиеся элементы имели контакт с радиатором, вот это я бы проверил первым делом
А потом ебись оно конем, работает и ладно.
Если везде 50 максимум то похуй на термопасту

Аноним 11/05/24 Суб 16:35:46 № 735143 504

>>735133
> не все должны были их убить
Убить exl2 не так просто, это нужно от другой модели взять калибровку. Но если ошибки конфига влияют на калибровку/квантование то у всех они будут.
Уже не помню что там с памятью на плюсе было, но полный заявленный не влезал. Может починили атеншн для него, но все равно
> 40к выделается 12gb vram
это оче мало

Аноним # OP 11/05/24 Суб 16:51:01 № 735160 505

ПЕРЕКАТ

>>735155 (OP)

>>735155 (OP)

Аноним 11/05/24 Суб 20:54:16 № 735406 506

>>735042
https://github.com/NVIDIA/trt-llm-rag-windows

Аноним 12/05/24 Вск 11:33:52 № 735983 507

Котаны, подскажите, а можно ли натренировать нейронку на 10 сезонах сериала и потом заставить озвучить 11й?

Назад Вверх Каталог Обновить