/ai/ - LLaMA тред №13

LLaMA тред №13 /llama/ Аноним 23/07/23 Вск 20:28:09 № 426362 1

В этом треде обсуждаем семейство моделей от фейсбука под названием LLaMA, делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна, что сейчас наспех выпустили, а отладить забыли.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2-х бит, на кофеварке с подкачкой на микроволновку.

LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3, в которой 175B параметров (по утверждению самого фейсбука). От неё быстро ответвилась Alpaca, Vicuna и прочая живность из Южной Америки, те же модели, но с файнтюном под выполнение инструкций в стиле ChatGPT, американские студенты рады, в треде же пишут про мусор с тегами в выводе, что запускать, решать вам.
На данный момент развитие идёт в сторону увеличения контекста методом NTK-Aware Scaled RoPE, заявляется (и работает) о контекстах в 4-8 (и даже 16) тысяч токенов без существенных потерь в качестве.
Так же террористы выпустили LLaMA 2, которая по тестам ебёт все файнтюны прошлой лламы и местами СhatGPT. Ждём файнтюнов уже этой версии и выкладывания LLaMA 2 в размере 30B, которую мордолицые зажали.

Сейчас существует несколько версий весов, не совместимых между собой, смотри не перепутай!
0) Оригинальные .pth файлы, работают только с оригинальным репозиторием. Формат имени consolidated.00.pth
1) Веса, сконвертированные в формат Hugging Face. Формат имени pytorch_model-00001-of-00033.bin
2) Веса, квантизированные в GGLM. Работают со сборками на процессорах. Имеют несколько подформатов, совместимость поддерживает только koboldcpp, Герганов меняет форматы каждый месяц и дропает поддержку предыдущих, так что лучше качать последние. Формат имени ggml-model-q4_0.bin. Суффикс q4_0 означает квантование, в данном случае в 4 бита, версия 0. Чем больше число бит, тем выше точность и расход памяти. Чем новее версия, тем лучше (не всегда).
3) Веса, квантизированные в GPTQ. Работают на видеокарте и с оффлоадом на процессор в вебуи. Новые модели имеют имя типа llama-7b-4bit.safetensors (более безопасные файлы, содержат только веса), старые llama-7b-4bit.pt

Основные форматы это GGLM и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGLM весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.

Гайд для ретардов без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в ggml формате. Например вот эту
https://huggingface.co/TheBloke/WizardLM-Uncensored-SuperCOT-StoryTelling-30B-GGML/blob/main/WizardLM-Uncensored-SuperCOT-Storytelling.ggmlv3.q5_1.bin
Можно просто вбить в huggingace в поиске "ggml" и скачать любую, охуеть, да? Главное, скачай файл с расширением .bin, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.

Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!

Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/TavernAI/TavernAI (на выбор https://github.com/Cohee1207/SillyTavern , умеет больше, но заморочнее)
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Радуемся

Инструменты для запуска:
https://github.com/ggerganov/llama.cpp Репозиторий с реализацией на плюсах и запуском на процессоре, в 10 раз медленнее видеокарт, зато не нужна карта с десятком гигабайт VRAM.
https://github.com/LostRuins/koboldcpp/ Форк репозитория выше, есть поддержка видеокарт, но сделана не идеально, зато самый простой в запуске, инструкция по работе с ним выше.
https://github.com/oobabooga/text-generation-webui/blob/main/docs/LLaMA-model.md ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать Таверну и ExLlama (ниже).
https://github.com/turboderp/exllama Запуск только на видеокарте (или нескольких, если дохуя мажор), безо всяких оффлоадов, но зато с ебейшими скоростями, на 7B можно получить литерали 100+ токенов в секунду. Может работать автономно, но хуёво, используем webui для получения нормального интерфейса.

Ссылки на модели и гайды:
https://huggingface.co/TheBloke Основной поставщик квантованных моделей под любой вкус.
https://rentry.co/llama-tard-v2 Общая ссылка со всеми гайдами от иностранных коллег, порядком устарела
https://rentry.org/TESFT-LLaMa Чуть более свежие гайды на ангельском
https://github.com/tloen/alpaca-lora Та самая альпака.
https://ivonblog.com/en-us/posts/alpaca-cpp-termux-android/ Запуск на телефоне
https://rentry.org/lmg_models Самый полный список годных моделей
https://github.com/oobabooga/text-generation-webui/files/11069779/LLaMA-HF-4bit.zip не самые новые торренты
https://huggingface.co/lmsys Викуня, хороша для программирования, но соевая
https://huggingface.co/reeducator/bluemoonrp-30b Единственная модель с нативным размером контекста в 4к токенов

Факультатив:
https://rentry.org/Jarted Почитать, как трансгендеры пидарасы пытаются пиздить код белых господинов, но обсираются и получают заслуженную порцию мочи

Предыдущие треды тонут здесь:
>>393749 (OP)
>>362380 (OP)

Аноним 23/07/23 Вск 20:31:52 № 426368 2

>>426362 (OP)
Первыйнах.

Аноним 23/07/23 Вск 20:32:39 № 426370 3

>>426362 (OP)
Обновил ссылки, упомянул двойку, зэбрука и добавил наногайд по выбору размеров модели. Блюмун оставил, ибо единственная модель, которую по честному пытались в 4к контекста.

Аноним 23/07/23 Вск 20:33:08 № 426371 4

Так блэт, где главный тест, и самый точный тест ламы ин зиз реалмс? А вот он.

>If a rooster lays an egg on the top of a roof, which side will the egg roll down?
>All mammals are warm-blooded. All dogs are mammals. Are all dogs warm-blooded?
>Can you identify the main topic and sentiment of the following text: "The new restaurant in town has amazing food, but the service is quite slow."
>If there are 12 fish in a fish tank and half of them drown, how many fish are left?
>If you divide 30 by half and add 10, what is the result?

Аноним 23/07/23 Вск 20:39:26 № 426376 5

>>426371
С первого раза. LLaMA 13b, если че.

Аноним 23/07/23 Вск 20:42:52 № 426379 6

>>426376
>LLaMA 2 13b

Аноним 23/07/23 Вск 20:43:05 № 426380 7

>>426371
Вот ответы TheBloke_Llama-2-13B-chat-GPTQ.
Не чат версия немного тупее.

Аноним 23/07/23 Вск 20:46:16 № 426382 8

>>426380
Ты мне свои подкрученные ответы не пихай, собакашиз. Сам проверю.

Аноним 23/07/23 Вск 20:49:40 № 426387 9

изображение.png 44Кб, 1292x377

>>426382
Всё с первого раза, нахуй мне что-то крутить. И собакошиз это тот, кто предлагает эти тесты.
Единственное что я удалял части ответа, где сетка продолжала беседу. Таверна что ли наебнулась, стоп фразы не отсылает.

Аноним 23/07/23 Вск 20:50:47 № 426391 10

>>426376
На главный вопрос Вселенной и вообще, отвечает не правильно. Походу его можно вместо опросника на репликанта юзать.

Аноним 23/07/23 Вск 20:52:18 № 426393 11

>>426387
Ты меня еще учить будешь кто тут собакашиз, а кто нет...

Аноним 23/07/23 Вск 20:54:34 № 426400 12

>>426376
>С первого раза
>>426387
>с первого раза
Вы же в курсе, что на это влияет генератор случайных чисел? Т.е., в этих тестах скорее имеет значение с какой вероятностью сеть генерирует нужный ответ. Либо надо ставить нулевую температуру/

Аноним 23/07/23 Вск 20:56:30 № 426406 13

>>426400
Поэтому я их 4 делаю.

Аноним 23/07/23 Вск 21:00:19 № 426410 14

>>426393
Я унижал собакошиза ещё до того, как он получил это имя.
>>426400
>Либо надо ставить нулевую температуру
Либо пердолится с вебгуем.

Аноним 23/07/23 Вск 21:01:52 № 426416 15

>>426391
Тут бурду несет, хз.

Аноним 23/07/23 Вск 21:02:28 № 426417 16

>>426410
>Я унижал собакошиза ещё до того, как он получил это имя.
Ты пиздабол.

Аноним 23/07/23 Вск 21:03:56 № 426421 17

изображение.png 39Кб, 1822x323

>>426416
Кстати, а какой правильный ответ на этот вопрос?
>>426417
Нет ты.

Аноним 23/07/23 Вск 21:05:30 № 426425 18

>>426421
>Я унижал собакошиза ещё до того, как он получил это имя.
>Кстати, а какой правильный ответ на этот вопрос?
Вот ты и попался пиздабол.

Аноним 23/07/23 Вск 21:07:28 № 426429 19

>>426425
СХБ, я не запоминаю всю шизу этого треда.

Аноним 23/07/23 Вск 21:09:34 № 426434 20

>>426429
Да, да, виляй жопой теперь.

Аноним 23/07/23 Вск 21:12:40 № 426437 21

>>426434
Собакошиз, спок, опять весь тред засрал блядина.

Аноним 23/07/23 Вск 21:14:32 № 426440 22

>>426416
Обосралась.

Аноним 23/07/23 Вск 21:15:03 № 426442 23

>>426437
Зачем ты сам с собой говоришь?

Аноним 23/07/23 Вск 21:27:13 № 426459 24

>>426440
Обосралась.
Кароче чет уровня файнтюна викуны. 4к? Сукинберг, серьезно? Васяны даже 4к, на своих кофеварках натренили. Стыдно. Я думал номерная версия получше будет.

Аноним 23/07/23 Вск 21:56:52 № 426499 25

>>426391
>>426416
>>426440
>>426459
А вот и собакошиз подъехал. Как обычно не может даже семплер настроить.

Аноним 23/07/23 Вск 22:09:10 № 426515 26

>>426362 (OP)
>Викуня, хороша для программирования, но соевая
По соевости викуни неожиданно подвезли контрпруф, лол. В прошлом треде постили и обсуждали диаграмму из пейпера по вторым ламам. А именно, там была оценка т.н "безопасности" модели. Из описания того, что под этим параметром имели в виду авторы, видно что в это понятие они включили любое противозаконное поведение модели. Конкретно соевость не оценивалась, но примеры промптов включали и сою, поэтому измеренная безопасность включает в себя и измеренную соевость, хотя и не ограничивается последней. Так вот, в сводной таблице безопасности викуня показала себя крайне небезопасной, а значит и максимально не соевой.

Аноним 23/07/23 Вск 22:58:18 № 426585 27

>>426515
> там была
Чел, хватит фантазировать, уже обсосали же, а ты продолжаешь своё гнуть. Там даже подписано было - "Violation", т.е. процент отклонения от заданных условий. И викуня там была в топе по неадекватности.

Аноним 23/07/23 Вск 23:05:03 № 426593 28

>>426585
>Violation", т.е. процент отклонения от заданных условий.
Нет, я в прошлом треде все подробно расписал. Речь именно о нарушении закона, там ответы моделей классифицировались файнтюненной робертой как опасные и безопасные. Сами промпты, на которые модели давали ответы, были нескольких категорий, включая сою. Там в одном из аппендиксов были примеры промптов из разных категорий.

Аноним 23/07/23 Вск 23:08:46 № 426596 29

>>426593
Можно линк на пост? Что-то не верится что соевая викунья была оценена не таковой. Разве что среди отказов она выдавала (искаженные) инструкции как сделать что-то плохое потому что не до конца задушили.

Аноним 23/07/23 Вск 23:19:26 № 426610 30

>>426593
> я
Головка от хуя. Всем похуй на твои фантазии и интерпретации реальности, когда на графике чётко подписано что они измеряют.
> там ответы моделей классифицировались файнтюненной робертой
Ты видимо даже не открывал публикацию, потому что этот график из Human Evaluation.

Аноним 23/07/23 Вск 23:22:21 № 426615 31

Лама2 7В у меня хуже по ощущениям, чем 7В викуня и 7В визард, поигрался сегодня, из ламы2 приходится клещами вытаскивать ответы, много нерилейта выдаёт и ещё отвечает за меня. Пикрилейтед типичное поведение.

Аноним 23/07/23 Вск 23:26:20 № 426619 32

>>426615
> нерилейта
Какие вопросы, такие и ответы. Я даже посмеялся с твоего первого поста и как ты что-то ждал, а сетка троллила неграмотного.

Аноним 23/07/23 Вск 23:33:02 № 426621 33

>>426619
Конечно же места, где грамотность хромает ты указать не сможешь, не так ли?

Аноним 23/07/23 Вск 23:37:40 № 426623 34

>>426621
Смогу, конечно. В твоём первом посте боту ни слова про то что ты хочешь услышать что-то от него. Закономерно ответа и не последовало.

Аноним 23/07/23 Вск 23:38:43 № 426624 35

>>426615
Ты посмотри какой промт через этого кобольда у тебя туда идет. Рили похоже на троллинг нейросетью, которая не может понять запрос но подыгрывает.

Аноним 23/07/23 Вск 23:52:46 № 426638 36

>>426499
>пук

Аноним 23/07/23 Вск 23:54:41 № 426644 37

>>426459
На самом деле даже хуже викуня. Если глянуть старые тесты, то викуня выдавала везде, кроме мамалов, правильные ответы.

Аноним 24/07/23 Пнд 00:36:46 № 426719 38

>>426391
> эти "ohohoho", "giggles", "bats eyelashes", "winks"
> chat файнтюн
юзай llama2 пре-трейн как нормальный человек ълядь!
а также перейди в sillytavern, и там напердоль нормальный сэмплер, хотя, тут уже решили пендосы из /lmg/.
На пике ; подходит для llama-2-13b.ggmlv3.q3_K_M и llama-2-13b-guanaco-qlora.ggmlv3.q5_K_M
единственное что температуру стоит покрутить, между 0.59 и 0.80

Аноним 24/07/23 Пнд 01:26:01 № 426770 39

>>426719
Кста, до Таверны так руки и не дошли.
Как она там работает? С кобольдацпп?
С убабуги не канает из коробки?

Аноним 24/07/23 Пнд 01:26:03 № 426771 40

изображение.png 78Кб, 1815x364

Уважай границы. Уважай границы, сука!

Аноним 24/07/23 Пнд 01:26:57 № 426773 41

>>426770
>из коробки
Ну если ты валенок, и не можешь прописать в командной строке --api, то да, не работает.

Аноним 24/07/23 Пнд 01:33:17 № 426776 42

>>426719
Напоминает старый пресет pleasing results с которым были платиновые полотна, спасибо, попробуем.
> q3
Ну это на слабое железо можно списать, но 2к контекста на второй ламе почему оставил?
>>426771
В голосину, это какая модель так отвечает?

Аноним 24/07/23 Пнд 02:03:47 № 426797 43

>>426776
>В голосину, это какая модель так отвечает?
13B для чата вестимо.

Аноним 24/07/23 Пнд 02:15:03 № 426803 44

>>426771
Это еще ладно

Аноним 24/07/23 Пнд 02:23:50 № 426809 45

>>426803
Бляяя как перестать орать? Будто из палаты мер и весов сферический пример насколько цензура не нужна. Не чат версия нормально хоть отвечает?

Аноним 24/07/23 Пнд 02:47:11 № 426825 46

>>426773
Токсичностью своей себя отравляете. (=

Аноним 24/07/23 Пнд 05:46:23 № 426868 47

>>426596
>>426610
https://2ch.hk/ai/res/393749.html#414991

Аноним 24/07/23 Пнд 10:24:27 № 426997 48

https://huggingface.co/fffrrt/ruGPT-3.5-13B-GPTQ/tree/main
Квантовали нейросеть сбера

Аноним 24/07/23 Пнд 10:41:39 № 427020 49

>>426997
13В, ну такое. На обнимордовском чате уже лама2-70В-чат, а тут сбер и всего лишь на 13В расщедрились. Единственный плюс в том, что оно в русский может лучше базовых моделей. Ну и бонусом с нее реддитовских сойбоев трясёт, лол.

Аноним 24/07/23 Пнд 11:08:17 № 427046 50

прошу больше сравнений влияния проца+памяти на реендер чисто на видяхе

Аноним 24/07/23 Пнд 12:03:00 № 427092 51

>>426868
Ахуеть, половина вопросов довольно таки базированы но не являются плохими, незаконными или общеизвестны.
Ну а там не доказательство того что викунья нормальная, там свидетельство того насколько пиздецовые чат версии лламы2. Есть такое же сравнения для не чат моделей?

Аноним 24/07/23 Пнд 12:06:30 № 427096 52

>>427020
> реддитовских сойбоев трясёт
Но ведь тут тоже соя местами есть. В кум, кстати, может. По адекватности диалога терпимо, наверное на уровне 7В, всякие Пигмы точно хуже.

Аноним 24/07/23 Пнд 12:14:30 № 427108 53

>>426997
13B GGML-ку бы. Скорости будут норм, а видяха не нужна.
Но если без сои и русский знает, можно попробовать.

Аноним 24/07/23 Пнд 13:42:40 № 427163 54

>>426997
Ого вот это интересно, по моему первая ру-нейронка или я ошибаюсь?

Аноним 24/07/23 Пнд 13:47:52 № 427169 55

>>427163
Такого уровня точно первая. А так, давно уже файнтюнили под русский язык всякое разное типа гпт2 - Порфирьевич, балабоба и иже шляпа.

Аноним 24/07/23 Пнд 13:52:16 № 427179 56

>>427169
Скажи, а промпты (описаниеб характер) для нейронки тоже на русском в угабуге нужно описывать или по старинке на английском, а он сам внутри уже переводит?

Аноним 24/07/23 Пнд 14:00:34 № 427189 57

>>426362 (OP)
Блин, так быстро все меняется я не успеваю ничего понять. Как мне получить 8к контекста на обычной (не superhot) модели сейчас? Koboldcpp 1.36. Я так понял мне нужен NTK-Aware rope? Какой rope конфиг под него?

Аноним 24/07/23 Пнд 14:14:38 № 427207 58

изображение.png 4Кб, 419x127

>>427189
>Koboldcpp 1.36.
Просто берёшь и увеличиваешь контекст.

Аноним 24/07/23 Пнд 14:17:03 № 427212 59

>>427207
Да я так и сделал, но на 4к контекста уже начинает шизеть. Superhot модели норм до 8к себя вели

Аноним 24/07/23 Пнд 14:27:45 № 427224 60

>>427179
Его и раньше можно было по-русски описывать. =)
Вопрос качества.

Аноним 24/07/23 Пнд 14:50:27 № 427243 61

>>427224
Потестил - отлично работает, советую для изучения. Ещё бы какие-нибудь оптимальные настройки найти. Запустил на дефолте - результат порадовал, периодически выдает прохладные остросюжетные простыни. Забавная модель, глоток свежего воздуха

Аноним 24/07/23 Пнд 17:04:18 № 427375 62

image.png 67Кб, 1903x444

Блядь, пасаны, как эту хуйню фиксить?
Я 2 раза уже переустанавливал угабугу, хули ей чет не так?

Аноним 24/07/23 Пнд 19:37:19 № 427547 63

>>427375
бамп вопросу

Аноним 24/07/23 Пнд 20:43:12 № 427617 64

koboldcpp-1.37 - пофиксили миростат.
и в 1.38 lostruins должен завести фикс rms_norm_eps.
> Use -eps 1e-5 with llama 2, defaults to 1e-6 (same as current, for llama v1).
https://github.com/ggerganov/llama.cpp/issues/2373
что-то связанное с епсилоном, в двух словах - все ggml llama-2 модели были тупее, теперь это исправлено, ждём обновления кобольда.
https://github.com/LostRuins/koboldcpp/releases/tag/v1.37

Аноним 24/07/23 Пнд 21:00:09 № 427633 65

>>427617
>пофиксили миростат
Никто до сих пор в этом треде не выложил его настройки, лол.
>>427617
>все ggml llama-2 модели были тупее, теперь это исправлено
Такое ощущение, что мордокниге надо контрибутить во все кобольды разом, чтобы их модели не обсирали во время выхода.

Аноним 24/07/23 Пнд 21:10:46 № 427641 66

>>427617
> koboldcpp-1.37 - пофиксили миростат.
И завезли загрузку 70B второй версии. Надо будет попробовать, пох на епс (кстати шоэта?).

Аноним 24/07/23 Пнд 21:21:26 № 427656 67

>>427633
> Никто до сих пор в этом треде не выложил его настройки, лол.
Вот. --usemirostat 2 6 0.4 or 2 6 0.2
можешь поменять значения и посмотреть что изменится.
>>427641
> пох на епс (кстати шоэта?)
сам хз, но там в PR гитхаба говорят что это параметр, и по всей видимости очень важный, раз они фиксят это и говорят что перплексити модели теперь ещё ниже (llama-2 теперь лучше любой llama-1)

Аноним 24/07/23 Пнд 21:43:58 № 427684 68

Я один такой шиз?

Аноним 24/07/23 Пнд 22:01:51 № 427716 69

2023-07-2423-01[...].png 21Кб, 620x98

>>427684
Я тоже немношк

Аноним 24/07/23 Пнд 23:35:35 № 427904 70

>>427375
Че, че, AutoGPT не встало нормально. Кури https://github.com/oobabooga/text-generation-webui/blob/main/docs/GPTQ-models-(4-bit-mode).md#autogptq
Там написано как какать, если само при pip install с реков не завелось.

Аноним 25/07/23 Втр 10:37:27 № 428330 71

>>427684
Затестил llama-2-chat-70b q3_k_s чисто на процессоре в koboldcpp. Ryzen 7730u 8 ядер, 32 gb RAM + 8 gb swap. В целом, доволен, 1.25 t/s. Какой-то цензуры в моих erp chat сценариях не заметил, просто стартовым промтом показал желаемое поведение. Можно кумить. Потом ещё надо затестить, улучшился ли у нее русский по сравнению с первой ламой 65b.

Аноним 25/07/23 Втр 11:08:18 № 428355 72

>>428330
Кумить с 1.25 токенов в секунду сложновато.
И да, ахуеть конечно скорость на ноутбучном проце с ддр4. Мне реально пора свой 2700Х менять.
И ты на полном серьёзе на русском общался с лламой? Я думал все сайгу для этого берут

Аноним 25/07/23 Втр 13:27:32 № 428508 73

Screenshot20230[...].jpg 124Кб, 976x1510

Screenshot20230[...].jpg 135Кб, 995x1294

>>428355
Лама-2-70b-chat
Я думал, хуже будет. В целом забавно, но до уровня английского ей ещё очень далеко. Возможно Лорой поправят. Кто-нибудь пробовал кумить со сберовской rugpt на русском?

Аноним 25/07/23 Втр 13:43:25 № 428527 74

>>428508
>кумить ... на русском
Я ж умру с кринжа.

Аноним 25/07/23 Втр 14:19:37 № 428593 75

>>428330
> chat
> Какой-то цензуры в моих erp chat сценариях не заметил
Покажи уровень постов и что там у тебя в промте?
>>428508
Промт на инглише или вся карточка русская? Чето ответы уровня пигмы.

Аноним 25/07/23 Втр 14:54:06 № 428628 76

>>428508
Бля проиграл с того что она на русском скобочки ставит. Но всё же видно что местами слова выдумывает, эх.
Сбергпт не пробовал, я ггмл крестьянин, жду пока заквантуют

Аноним 25/07/23 Втр 16:15:38 № 428673 77

>>428628
https://huggingface.co/Gaivoronsky/ruGPT-3.5-13B-8bit
такое есть

Аноним 25/07/23 Втр 16:16:59 № 428674 78

а, хотя не

Аноним 25/07/23 Втр 16:35:35 № 428692 79

1651825345001.png 33Кб, 1923x265

>>428330
> В целом, доволен, 1.25 t/s.
У меня q4 с оффлоадом на карту 3-4 т/с. Но всё равно это пиздец медленно. Да и в плане чатинга особой разницы с 13В не вижу.

Аноним 25/07/23 Втр 16:36:15 № 428695 80

>>428673
Так это не ггмл. Знаю что у лламы есть конвертер-квантизатор, но чую что я со своим железом и близко ничего сделать не смогу. Так что ждём умельцев с железом

Аноним 25/07/23 Втр 17:18:57 № 428734 81

>>427656
>Вот. --usemirostat 2 6 0.4 or 2 6 0.2

в 2х словах если что она делает?

Аноним 25/07/23 Втр 18:22:11 № 428792 82

>>428734
>Mirostat подбирает значение k при декодировании top-k так, чтобы недоумение не выходило за пределы определенного диапазона. Таким образом, удается избежать двух распространенных проблем при генерации текстов: ловушки скуки, когда генерируемый текст становится повторяющимся, и ловушки недоумения, когда генерируемый текст теряет связность. Одним словом, Mirostat позволяет лингвистическим моделям генерировать высококачественный текст без необходимости ручной настройки параметров.

Аноним 25/07/23 Втр 18:55:59 № 428836 83

>>428692

Как запустить под ExLlama? https://huggingface.co/TheBloke/airoboros-l2-70B-gpt4-1.4.1-GPTQ/tree/main
Падает с ошибкой. Хочу сгрузить на гпу хотя бы чуток на 4090

Аноним 25/07/23 Втр 19:08:26 № 428857 84

>>428836
>ExLlama
>сгрузить на гпу хотя бы чуток
ExLlama работает или целиком во vram, или никак. Запускай GGLM с загрузкой видеокарты через CLBlast.

Аноним 25/07/23 Втр 19:30:39 № 428883 85

>>426997
Радикально лучше сайги в русском. Но странная и страдает дерейлами и шизой. Иногда лютые полотнища выдает, на запрос "стих про Крым" выдало кусок статьи на 900 токенов про Сирию, забавные тексты в датасете там были.
Вообще часто норовит сломаться, срет you:, на специфичные вопросы цензурой не блочится но так и норовит уехать по шизе чтобы не отвечать.

Аноним 25/07/23 Втр 21:00:50 № 428976 86

>>428883
> норовит сломаться
Это так же как и с Пигмой - надо семплер тонко настраивать и тогда будет норм. Это тебе не лама, в которой вообще с любыми настройками относительно адекватно. Видимо на выхлопе у GPT-2 много токенов с большой вероятностью. Можешь выключить семплинг, будет короче, но адекватнее.

Аноним 25/07/23 Втр 23:50:44 № 429093 87

Я потыкал СиллиТаверн, КобольдАИ, Убабуга, КобольдЦПП и.
Есть ли готовые решения, которые:
озвучивают локально (силеро)
переводят локально (либертранслейт)
распознают локально (виспер)
рисуют локально (стейбл диффужн)
адекватно работает с карточками персонажей
?

СиллиТаверна переводит в облаке, ну такое.
Убабуга так себе чат, как будто в консоли копаюсь.

Или «всего и сразу» у нас нет, и надо мириться или с одним, или с другим?
Вообще, СиллиТаверна с ее NodeJS — того рот я ебал, криворукие уебаны, щас бы в 21 веке ноджиэс юзать.
Да еще и питон 3.11 решили, модники, когда у всех 3.10 с нейросетками.

Кстати, а где можно устраивать общение между несколькими персонажами? Убабуга умеет только в тет-а-тет чаты, как я понял.

Аноним 26/07/23 Срд 00:31:18 № 429173 88

>>429093
Всё есть, решения для всего есть. Но если ты не можешь написать скрипт на питоне из 50 строк, то лучше к нейросетям даже не подходи, никто не будет пережёвывать всё это быдлу для каждого его запроса.
> у всех 3.10 с нейросетками
Уже давно торч 3.11 поддерживает, алло.

Аноним 26/07/23 Срд 00:34:26 № 429184 89

>>429093
Скачай нейросетку которая кодит и сделай себе сам.
Я буквально щас сижу ебусь примерно с этим же, так как понял что как мне надо никто не сделает, а значит буду пыхтеть и пытаться чот сделать.

Аноним 26/07/23 Срд 00:39:22 № 429198 90

>>429093
Даже шапку не прочитал
> СиллиТаверн
Фронтэнд, если настроить то озвучивает, переводит и может генерировать, обращаясь к стабильной дифуззии (можно через horde). Озвучка вроде и так локальная, а перевод локально настроить - изучи костыли к ней, наверняка все уже сделано. Если собрался локально пикчи генерировать - сд сожрет врам и на текстовую модель останется меньше. В теории оно выгрузиться пока не используется, но скорее всего будут знатные тормоза.
> Убабуга
Удобный интерфейс для загрузки моделей через экслламу или лламус++, держит апи, к которому может подключиться таверна.

Все, ты вопрос не изучал и сразу спрашивать решил или так и не освоился?
А чем тебе нода не понравилась? Для кросс платформенного фронта вполне себе.
Да, с такими хотелками имей минимум 3090/4090 а также время и навыки чтобы заставить это нормально работать.

Аноним 26/07/23 Срд 06:31:38 № 429477 91

>>427617
обновили : https://github.com/LostRuins/koboldcpp/releases/tag/v1.37.1
Hotfix 1.37.1
> Fixed clblast to work correctly for LLAMA2 70B
> Fixed sending Client-Agent for embedded horde worker in addition to Bridge Agent and User Agent
> Changed rms_norm_eps to 5e-6 for better results for both llama1 and 2
> Fixed some streaming bugs in Lite

Аноним 26/07/23 Срд 07:01:53 № 429483 92

>>429477
с этим обновлением "rms_norm_eps to 5e-6" первое что заметил : из моделей словно высосало все способности следовать характеру описываемого персонажа (ибо юзаю силлитаверн), они стали очень "плоскими", NPC на максималках, короче, сложно описать тему, но стало явно хуже а не лучше как они заявляли.
настройки те же, как и здесь >>426719

Аноним 26/07/23 Срд 12:16:19 № 429645 93

>>429173
О, еще один чсвшнй токсик, который даже читать не умеет. =)
Ядом своим себя отравляете.
>>429184
Успехов, бро!
>>429198
Даже сообщение не прочитал.
> СиллиТаверн
Да у меня все уже настроено и работает, я тя умоляю, тут парк из четырех машин. =) Просто перевод через Google или DeepL не нравится.
> Убабуга
Ну и читай внимательно, в убабуге-то меня карточки персонажа не устраивают. Причем там экслама вообще, если силли это фронт, а убабуга и фронт, и бэк, а я про фронт, ну. =)
Уба так-то и переводит локально, и распознает локально, и озвучивает локально, и всем хороша, кроме, непосредственно, чата, который не дотягивает до желаемого и любит класть болт на описание персонажа, а в мульти-чат и вовсе не умеет.
С этой точки зрения силли лучше, но она переводит в облаке. Meh.
> А чем тебе нода не понравилась?
Я того рот ебал, хуйня из под коня. Во-первых, все что на JS — медленное неоптимизированное говно. От pure JS и JQuery до NodeJS, Vue.js, React, AngularJS и выбери что угодно. Я понимаю, что это «удобно и экономит время разработки», но экономить время разработки ценой потребления ресурсов и говнокода — мне кажется хреновой идеей. Во фронте JS плох потреблением и скоростью работы, в бэке JS плох всем.
Во-вторых, все эти фреймворки любят замусоривать систему всем подряд. Ладно, похуй на во-вторых, я с первого сгораю. В том числе по работе.
Отличным примером, как надо делать, является кобольд — один экзешник, который сам все запускает из виртуального энва внутри себя.
Неплохое решение предлагает убабуга, которая ставит локальную конду, внутри которой держит свой виртуальный энв.
Но всякие вижуал билд тулс и гиты все равно приходится ставить отдельно.
Но ставить глобально ноду — это уже перебор.
Дякую, шо я всю эту хуйню могу разнести по разным машинам внутри сети, но я представляю, как весело чувакам с одним ноутом, накатывать кучу кривого говна, вместо запуска одного экзешника, который можно просто снести. =)

Короче, клиенториентированный подход, смекаешь? Моя философия. Это я могу разобраться в этом дерьме, а многие люди — не могут. В прошлом треде был чувак, у которого вообще нихуя не работало. Да, он не гений нихуя, я понимаю, но можно же со стороны разрабов относиться к пользователям добрее, чем нода. =)

Аноним 26/07/23 Срд 12:36:58 № 429665 94

1. Насколько эти ваши ламы тупее чатгпт 3.5? Например, на 8гб врам
2. Что это за авойны у вас с какими-то проксями, кабанчиками или хуй пойми чем. Что это и зачем это вам?

Аноним 26/07/23 Срд 12:37:07 № 429666 95

>>429198
Ладно, может я на ноду зря так сильно сгорел, но сам подход, когда требуется установить посредственный фреймворк в систему — очень плох.
Ну и вообще, идея пакетных менеджеров хороша только в теории. На практике я и в pip'е, и в gem'ах, и в npm'е сталкивался с фигней, когда половина библиотек требует обновления, при этом вторая половина обновлений не имеет, они друг друга перестают поддерживать и все просто перестает работать.

Аноним 26/07/23 Срд 12:38:56 № 429674 96

>>429665
1. На 8 гб будет 7B модель, Llama 1 заметно тупее, Llama 2 уже терпима, если на ангельском.
В зависимости от модели (и поколения) видяхи, может на проце будет не сильно медленнее, но при этом за счет озу запустишь уже 13B, или дождешься 30B, которая уже вряд ли чем уступит, кмк.

Аноним 26/07/23 Срд 12:42:11 № 429679 97

>>429645
> тут парк из четырех машин
О, давай рассказывай что там, прежде всего интересует занимался ли распараллеливанием ллм. Так вообще все делается и на одной пеке, если ресурсов хватает.
> Просто перевод через Google или DeepL не нравится
Ну так а чего, локальных костылей нету? И что там в принципе по локальным переводчикам? Алсо можно саму нейросетку заставить переводить, надо отметить что ллама делает это довольно таки неплохо, но мало тестов было.
> в убабуге-то меня карточки персонажа не устраивают
Так не используй ее фронт, он пригоден разве что для теста моделек, а скрещивай с таверной, они дружат хорошо.
> Уба так-то и переводит локально, и распознает локально, и озвучивает локально
Хуясе ебать, стоит посмотреть что там.
> все что на JS — медленное неоптимизированное говно
Ебало Java представили, лол. Ну а вообще про жертву производительности в угоду совместимости слышал? Штука нересурсоемкая и разраб писал на чем умеет, тем более язык популярный что хорошо для впопенсорца. Если не нравится - можешь свое решения запилить, хоть на фортране.
А ты сам, случаем, не нейросеть =)
>>429666
> фреймворк в систему
Там нету аналога венва чтоли?
>>429665
> на 8гб врам
Только 7б, на запросы отвечать будет, но энциклопедических знаний и хорошего знания кода не ожидай. Может быть туповата.
> с какими-то проксями
Это для проприетарных нейронок, в их треде почитай.

Аноним 26/07/23 Срд 12:48:57 № 429696 98

>>429674
>>429679
Ок. Спасибо.
Если слишком быстро и не надо, скажем 30сек- норм. Ну до минуты.
Есть 8ядерный рузен, 32 рам и 3070. Какой оптимальный вариант тогда? Хотелось бы, чтоб была хотя бы как гпт3.5.
В интернет их научили выходить подгуглить или типа того?

Аноним 26/07/23 Срд 12:52:05 № 429702 99

>>429696
> хотя бы как гпт3.5
Это понятие довольно растяжимое, на релизе она вроде как была крута, а сейчас тупит и ловит те же бинго чем может ллама 1 страдать.
> 8ядерный рузен, 32 рам и 3070
13б ggml с оффлоадом можешь попробовать.
> В интернет их научили выходить подгуглить или типа того?
Нет

Аноним 26/07/23 Срд 13:19:29 № 429737 100

>>429679
Не. Я смотрел на петалс и скайпилот, но мне лень было все это накатывать по всем машинам.
А так, в основном у меня неудачные опыты пока что. =)
1. Сервер 128 DDR4 + 1070 8
2. Миник 1660S 6 гиговая
3. Игровой 64 DDR4 + 4070ti 12
4. Ноут с 32 DDR4 + 3060 6.
В принципе, есть еще 32 DDR4 + 3060 12, но он не мой. =)

В итоге, на серверном встает Stable Diffusion с Realistic Vision 5.0 VAE, Whisper STT base, Blip large, Bart Large для суммаризации, LibreTranslate, Silero TTS на проце. Все это в сумме берет 2+2+2+1,6=7,6 гига в видяхе. На оперативу, ясен красен, похуй.
Llama 2 70B в 5 потоков выдает 0,7 токена/сек, что заметно выше первой, кстати.
Llama 2 13B выдает 2,5 токена/сек.
Stable Diffusion выдает 1,8 итерации/сек на 512*512.
Так как распознавание и генерация не пересекаются — видяхи хватает.
Но она медленная, канеш, хотелось бы больше.

На минике в 1660S можно поставить разве что Llama 2 7B GPTQ, с 4К контекстом в 6 гигов влазит, ну, 4-бит-128-групсайз, ясен пень. Дает 9 токенов/сек. Но я пока хз, куда ее применить.

Ноут уже не пригождается, а на игровой комп… Ну, в 4070ti влезет 13B, и даст свои 35-40 токенов/сек на эксламе, что есть гуд. Но хочется дождаться 30B, и взять что-нибудь… Может парочку 4060 с 16 гигами, ну или сразу 3090 парочку для 70B. Это уже посмотрим по зарплате в августе. =) Отпускные я уже проел.

По идее, можно запустить облако на 12+12+8+6+6 гигов. Все видяхи от 10 до 40 поколения. 44 видеопамяти. Но мне просто лень накатывать на 5 машин этот софт, поэтому не распараллеливал.
А проц не имеет смысла, у меня DDR4, сам понимаешь, медленная для этого. 5 потоков уже хватает забить ее пропускную способность, никакого выигрыша от 48~64 потоков я не получу.
Была бы DDR5 с какими-нибудь экстремальными частотами… Думаю, был бы и 13900. =)

Аноним 26/07/23 Срд 13:21:19 № 429738 101

>>429702
>> В интернет их научили выходить подгуглить или типа того?
>Нет
Что сразу нет то, LangChain как раз про это, но ту пердолю тут ещё не запускали.

Аноним 26/07/23 Срд 13:21:30 № 429739 102

>>429702
Это GPT4 на релиза была крута, а щас ловит.
GPT3.5 на релизе была норм, а щас не знаю.
Так-то и лама на релизе норм.
Но я согласен, что понятие растяжимое. Прям ну очень приблизительно можно дать ответа.

С 32 гигами он может и 30B модель загрузить квантованную в озу, а с оффлодом еще лучше будет.
Но, конено, предыдущего поколения. Зато какую-нибудь сайгу. Или еще че-нить, викунюанлокед.

Аноним 26/07/23 Срд 13:22:33 № 429741 103

>>429738
Да, как раз хотел сказать про лэнгчейн.
Как минимум, вебленгчейн есть на убабугу, правда он ограниченный, канеш.
А нормальный никто тут не настраивал, что правда, то правда.

Аноним 26/07/23 Срд 13:32:44 № 429746 104

>>429737
Знатный у тебя там зоопарк, четко. Любишь обмазываться некрожелезом? без осуждения, наоборот.
2 гига на сд это ты загнул (или тебя не понял), для норм результата там все 8 задействуются. 0.7 и 2.5 т/с это без оффлоада чисто на проце? Попробуй выгрузить и ускорить обработку промта, должно стать сильно лучше, хотя всеравно сомнительно будет.
> в 1660S можно поставить разве что Llama 2 7B GPTQ, с 4К контекстом в 6 гигов влазит
Хм, не пробовал заставлять ее переводить? Файнтюны лламы1 в 13б уже в русском слабы были, а вторая довольно перспективна. 9т/с правда ерунда, учитывая их расход на великий-могучий сильно замедлит в итоге.
Ну собственно 13б на пеке и перевод-пикчи на сервере. Было бы 16+ гигов врам - то же самое на одной пеке уже летало.
> DDR4, сам понимаешь, медленная для этого
Не медленная, каналов мало просто. Чисто на цп много времени обработка промта занимает а сами токены когда много потоков генерируются шустро, если видюхой помочь в первом этапе то может даже будет неплохо.
> можно запустить облако на 12+12+8+6+6 гигов
Как ты себе это представляешь?
>>429738
Ну так если чуть пердольнуться то можно и небо и аллаха и что угодно, просто готовых популярных решений не мелькало.

Аноним 26/07/23 Срд 14:40:32 № 429790 105

>>429746
> Любишь обмазываться некрожелезом?
Да, есть такое. =)
Насчет стейбла, я реально удивлен. Я убрал --medvram --no-vae и все прочее, и в итоге моделька занимает 2,7 гига что ли. Не знаю, почему так, вроде было 7 раньше. =) Но я не спец в сд, я ее юзаю для порисушек простых. Никаких модулей, экстеншенов, поэтому почему так — и сам не знаю. Но генерит 1,8, как и должна по тестам.

> Хм, не пробовал заставлять ее переводить?
А это хорошая идея. Надо будет сравнить либру и лламу в качестве.

>Чисто на цп много времени обработка промта занимает
Make sense, надо будет попробовать сделать оффлод.

>Как ты себе это представляешь?
Те самые Petals и SkyPilot.
Но я даже не вчитывался, поэтому и не представляю. =) Пока слишком лень.
Но у меня знакомый занимается этим, вот дождусь его тестов.

Аноним 26/07/23 Срд 14:47:06 № 429794 106

>>429790
> Те самые Petals и SkyPilot.
Хз что это, но можно сразу обозначить что распределение одной модели ллм между разными машинами - заведомо провальная идея, поскольку для ее работы необходимы высокие скорости и низкая латентность обмена данными. Даже на одной машине между несколькими gpu могут быть сильные просадки, а ты через сеть хочешь.
Вот специальным образом подготовить отдельные ллм, которые будут взаимодействовать между собой токенами через промт или по каком-либо интерфейсу - можно.

Аноним 26/07/23 Срд 15:36:31 № 429850 107

>>429794
Ну вишь как оно. Пилят, получают какие-то результаты, генерация есть. Но вписываться за это не буду, офк.
А сделать как у чатгопоты — по специалистам, — это, конечно, круто, только вот у нас большинство моделей — это файнтьюны одной и той же лламы.
Думаю, можно через ленгчейн заставить несколько ллам обсуждать один вопрос и выносить решение, это было бы неплохо. Но это теория, которую я не трогаю, опять же, пока что.

Аноним 26/07/23 Срд 16:40:27 № 429910 108

>>429850
Можно начать с более простого взаимодействия отправляя на вход результат генерации и указывая его расширить/стилизовать/добавить деталей с учетом промта. Аналогично можно запросить оценку насколько соответствует, выбрать из вариантов или объединить их. Кмк даже на малых моделях это может повысить качество при нормальной производительности, но нужно тестить.
> у нас большинство моделей — это файнтьюны одной и той же лламы
Ты думаешь у гопоты там разные модели а не фантюны? Ну и одна и та же ллама с разными настройками может сильно отличаться, причем для этого не обязательно держать две модели в памяти, хватит и одной а настройки на лету меняются.

Аноним 26/07/23 Срд 17:51:58 № 429977 109

https://www.reddit.com/r/LocalLLaMA/comments/159064y/llama_2_based_guanaco_and_airoboros_70b_are_a/

Самые умные уже поняли что их наебали с ламой 2 по абсолютно той же схеме что Стейбл диффужн 2, но увы, если на стейбл диффужн кумеры всегда были в авангарде и повернули движение вспять, то тут, увы, кумеров никто не слушает и для нас всех настали темные времена.

Аноним 26/07/23 Срд 18:05:33 № 430004 110

>>429977
>по абсолютно той же схеме что Стейбл диффужн 2
Эм, SD2 запороли потому что вырезали весь прон из датасета, и модель вышла говно говной.
В лламе2 модель как минимум не хуже, я по крайней мере деградации не заметил, наёбка тут в отсутствии актуального размера в 30B.
>>429977
>на стейбл диффужн кумеры всегда были в авангарде и повернули движение вспять
Чего и куда они повернули? Все до сих пор пердолятся с 1.5, двойку использует буквально никто.

Аноним 26/07/23 Срд 19:06:19 № 430064 111

>>429977
Нет никакого наебалова. Скорее всего, дело в особенности новых аттеншенов. У вторых лам количество одновременно обрабатываемых параметров Q, K, V (это внутренности самого трансформера) меньше, но само внимание более сфокусированное что ли. Какие-то задачи стали работать лучше за счёт того, что другие хуже. Потому что не бывает заебись всё, везде и сразу, т.н "no free lunch theorem" - если алгоритм на каких-то задачах показывает результаты лучше, значит точно есть задачи, в которых он хуже, и примеры этого неизбежно вылезут в процессе практического использования. Например, теоремы доказывать вторые ламы стали лучше, а вот кум вышел из чата, лол.
>because 70b used grouped-query attention, it has fewer attention heads and has a much smaller key-value array to attend to. In fact the key-value array in 70b is much smaller than the one in 13b (the same as v1, without grouped-query attention).

Аноним 26/07/23 Срд 19:10:45 № 430070 112

>>429977
Вот тут не соглашусь, sd2 была ультралоботомирована при этом не имея радикальных преимуществ, и весь опенсорц и движуха была вокруг 1.5.
Ллама2 из коробки может в кум и "опасные вещи", пусть иногда посредственно, и местами вылезает соя, но радикальной огороженности нет.
А вот с уроборосом уже точно что-то не то. 13б модель хорошо себя показывает в рп, да еще довольно таки умная для 13б. Но только дело подходит к кумерству - начинает сворачивать "испытав страстные моменты жили они долго и счастливо", ломаться "на этом история все оставьте свои комментарии", уходить в лупы с минимальной прогрессией или резко деградировать до "ты меня ебешь". Это хуже стоковой лламы2, ощущение что они вычистили нсфв из датасета, оставив варианты с затычками.

Аноним 26/07/23 Срд 19:37:24 № 430089 113

Аноны, такой вопрос, какую модельку сейчас лучше всего использовать для ассиста в написании фронтэнда? Имеется 32жижа оперативы и 4080.

Аноним 26/07/23 Срд 19:43:36 № 430096 114

>>430004
>Чего и куда они повернули? Все до сих пор пердолятся с 1.5, двойку использует буквально никто.

Вот именно что комьюнити продолжило развивать старую версию, не перейдя на новую.
Тут же комьюнити получили новую более урезанную и более соевую ламу 2 и забросили старую.

>>430070
>>430064
>У вторых лам количество одновременно обрабатываемых параметров Q, K, V (это внутренности самого трансформера) меньше, но само внимание более сфокусированное что ли. Какие-то задачи стали работать лучше за счёт того, что другие хуже. Потому что не бывает заебись всё, везде и сразу
>Ллама2 из коробки может в кум и "опасные вещи", пусть иногда посредственно, и местами вылезает соя, но радикальной огороженности нет.

Лама 1 из коробки могла вообще всё, при полном отсутствии сои, чудо а не модель. Уже тот факт что вы делаете какие-то оговорки оправдывая ламу 2 вас не смущает?

Аноним 26/07/23 Срд 19:44:44 № 430098 115

>>430089
Можешь попробовать WizardCoder 15B, Llama 2 13B, кто-то советовал Vicuna.
Llama 1 30B умела шо-то там тоже.
Но я лично не прогал, тока знакомые. И они на 65B работали.

Аноним 26/07/23 Срд 19:55:42 № 430121 116

>>430098
От души душевно в душу, анон. Инсталлер через повершелл нашел для него, будем посмотреть.

Аноним 26/07/23 Срд 20:04:56 № 430135 117

>>430089

Не слушай этого >>430098, 13В слаба для кодинга.

Самую толстую бери. Пока что это Ллама2 70В.
А вообще - чем тебе чат-гпт не устраивает? Ни локальная одна кодинг модель его не превзошла.

Аноним 26/07/23 Срд 20:12:49 № 430151 118

>>430096
Никто ее не оправдывал, наоборот хейтим за следы сои. Но тут ты радикально драматизируешь, и несколько преувеличиваешь способности первой лламы, по сравнению со второй она глуповата.
Плюс здесь ситуация не сравнима с сд, где огромное комьюнити, которое за несколько месяцев не только достигло невероятных высот файнтюнами, но и открыло/разработало огромный пласт новых вещей. У нас соевая мета, ресерчеры в организациях, опасающиеся ассоциаций с чем-то "плохим", и бедные кумеры-энтузиасты, от которых мало чего ждут.
На самом деле если соя в лламе2 действительно будет значительной, то может пойти по такому же сценарию, но пока что это выглядит как калитка посреди поля, а прогресс относительно первой заметен.
WizardLM-13B-V1.2 уже сильно лучше, на левд карточке одним имперсонейтом можно дойти до нужной кондиции без странных дерейлов. Но вот красочности описания мало, намеки на бонды с лупами, хотя есть явная инициатива.

Аноним 26/07/23 Срд 20:17:41 № 430164 119

>>430135
Ну ты буковки-то хоть читай. =)
У него >>430089 32 оперативы и 16 видео.
70Б он в крайнем случае с чудом сможет рассовать по всем.
Или же это будет с файлом подкачки.
Да и вопрос скорости.

Если его устроит, что ответ печатается по 10-20 минут — то еще норм, ладно.
Но для быстрых ответов, канеш, пригодится что-то побыстрее. 30Б в идеале.

Аноним 26/07/23 Срд 20:18:49 № 430171 120

>>430151
ВизардЛМ разве не для рабочих вопросиков? :) Я не сильно шарю за нее.

Аноним 26/07/23 Срд 20:27:33 № 430186 121

>>430164
>32 оперативы и 16 видео.

Это 48 в сумме. llama-2-70b.ggmlv3.q4_0.bin весит 38.9 GB, всё влезет, если разбить в кобольде между видюхой и цпу через --gpulayers - и еще даже на контекст останется.

>Да и вопрос скорости.

У меня стабильные 1.8 токена в секунду на 4090 + 64 гб рам. У него будет 1.3-1.5.

>Но для быстрых ответов

Быстрые ответы для кум-чата нужны, для кодинга нужна точность ответов. Какой толк в быстроте есть она хуйню будет писать?

Аноним 26/07/23 Срд 20:32:19 № 430198 122

Васяны нафранштейнили 22b модель llama2. Должна влезть на 16 гб видеопамяти.

https://huggingface.co/grimpep/22B-merge-GPTQ

Аноним 26/07/23 Срд 20:42:40 № 430220 123

>>430198

И еще одна франкенлама 22В
https://huggingface.co/grimpep/22b-mergellama2-22b-chat-wizard-uncensored-GPTQ/tree/main

Аноним 26/07/23 Срд 20:46:59 № 430229 124

1674508633596.png 255Кб, 793x300

>>430171
Хз, вроде как универсальная но версии для первой нормально могли в рп. Почитай описание у автора, скачал потому что свежий квант выложили.
На самом деле она весьма кайфовая, сел потестить для сравнения и уже долго мучаю а она не ломается, вот вообще. Понимает отсылки на весь 4к контекст, лупы умеренные и сама из них выходит. Доебаться можно только до скудных описаний, ну и разметку иногда вяло ставит (тут таверну починить надо чтобы нормально выделяла). Для ерп вполне пригодна, не то что айроборос что шлет нахуй какой-то шизой на заведомо левд карточке персонального caretaker'а, или опрокидывает ересью следующим постом после того как персонаж "хватает за руки и тащит в спальню".

Аноним 26/07/23 Срд 20:52:32 № 430233 125

>>430151
>несколько преувеличиваешь способности первой лламы, по сравнению со второй она глуповата.

У меня ллама2 быстро ломается и уходит в повторы. Первая лама работает как часы всегда.
Говорят надо какие-то специальные настройки и формат запроса давать - но нигде нет ни того ни другого. Может ты мне их дашь, чтобы я ваш общий восторг разделил?

Аноним 26/07/23 Срд 20:53:10 № 430234 126

>>430186
> еще даже на контекст останется
Только вот если у него будут большие куски кода, но ему нужно будет очень много контекста.

> У него будет 1.3-1.5.
Ну вот и получается, что ~700 токенов будет генерится 7-10 минут.

> для кодинга нужна точность ответов
Ты сам-то кодил на лламах? :) Судя по твоим комментариям — вообще нет. Точность ответов как класс в ллм отсутствует из-за seed'ов и температуры. Он может в ответ на любой запрос как выдать полную хуйню, так и выдать отличный ответ. Да еще и от промпта все зависит.
А теперь представь, если тебе надо будет перегенерировать ответ или изменить вопрос 3-4 раза, пока он наконец не выдаст то, что нужно? 30-40 минут ожидания.
Но это я за бэкенд говорю, у него фронт, может там дела получше. Тут уж не знаю.

Короче, скорость важнее точности начиная с какого-то момента, потому что код будет выдаваться плюс-минус хороший, а некоторые ошибки и сам пофиксить можешь. Конечно, 30B нам не дали, но я бы на его месте сравнил лламу 2 70B против визард-кодера 15B. Пусть человек нам на практике и ответит.

(я предпочитаю Q6, а ты? :)

>>430121
Дашь потом отклик нам, что тебе подошло больше и под какой стек?

Аноним 26/07/23 Срд 20:55:14 № 430236 127

>>430233
Вот тут плюсану, не смог нарыть для голой модельки корректные настройки формата, а в некоторых файнтьюнах пишут «ну мы тут собрали из трех разных лор, там везде запросы разные, но 34% такая-то модель, юзайте ее!», офигеть, качества, конечно.

Аноним 26/07/23 Срд 21:07:14 № 430241 128

>>430151
>На самом деле если соя в лламе2 действительно будет значительной
Да нету там, половина сои в самой соевой модели для чата обходится фразой
Assistant: Sure!
после которой модель нормально пишет жесть, иногда добавляя абзац говна от себя, но абзац с конца удалить не просто легко, а очень легко.
>>430164
>70Б он в крайнем случае с чудом сможет рассовать по всем.
Не сможет. У меня на 64ГБ оперативы и 12 видео пришлось подкачку врубать. Сама модель была на 100% в оперативе, но оставалось её весьма мало.
>>430198
>нафранштейнили 22b модель llama2
Это как вообще? Запрунили 70B?

Аноним 26/07/23 Срд 21:09:00 № 430244 129

>>430234
>Только вот если у него будут большие куски кода, но ему нужно будет очень много контекста.

И все равно должно хватить.

>Ты сам-то кодил на лламах? :) Судя по твоим комментариям — вообще нет.

Я кодил на чат гопоте бесплатной. Впринципе тема очень рабочая. Но видно что даже чат гопоте чуть-чуть недостает мозгов мб на гпт4 ситуация лучше, я не пробовал его
Я пытался давать викуне 30В те же задачи что чат гопоте, но она отрабатывала гораздо хуже. Поэтому я и настаиваю на точности модели против скорости.

>но я бы на его месте сравнил лламу 2 70B против визард-кодера 15B. Пусть человек нам на практике и ответит.

Конечно, практика критерий истины.

Аноним 26/07/23 Срд 21:11:09 № 430247 130

>>430241
>У меня на 64ГБ оперативы и 12 видео пришлось подкачку врубать.

Ты вообще квантованную версию запускал, лол?

Аноним 26/07/23 Срд 21:14:01 № 430249 131

>>430233
Сам мало знают про ллм ибо там только рофлю, да (е)рп упарываюсь (ну и технический текст перевожу). Оче многое от карточки и настроек зависит, наиболее приятный экспириенс был на пресете pleasing results, почти как >>426719 ну и миднайт энигма из убабуги, правда с ней полотна пишет короче и более вероятно лупится.
В первой лламе точно те же проблемы что ты описывал были и никакого как часы не встречал. Только на отдельных файнтюнах случались годлайк моменты (не всегда, иногда разочаровывало), ну и 65б радовала смекалкой. Первая версия толерантнее к плохой карточке и могла разогреться за десяток постов. Вторая более привередлива и старается сидеть в персонаже до последнего, раскрутить можно только поднимая температуру и убирая top K, но так может шиза уже полезть. Чсх, если продолжить старый удачный чат из середины - все хорошо, просто дело в том что она хорошо помнит то что было раньше и не уходит в сторону как могла первая.
> общий восторг
Это скорее восхищение относительно того что было хуево в первой и улучшилось, да ожидание высокого потанцевала. Ллама2 вышла уже давно, а только сегодня увидел файнтюн, который может выдать что-то приемлемое в куме и вяло подбирается к уровню файнтюнов первой части. С другой стороны ахуенно то что мелкая 13б понимает намеки, отсылки и действует на уровне или даже разумнее 30б первой лламы, и свайпаешь не потому что оно поломалось или не туда упоролось, а из интереса что может выдать.
С голой ллама2 как только в околоэротику уходит - качество постов деградирует, не до пигмы 6б из мемов, но ощутимо, выше написано. Но ванильная первая тоже посредственно там себя вела.
>>430241
> половина сои в самой соевой модели для чата обходится фразой
> Assistant: Sure!
Лол, забавно, главное это сильно не хайпить.

Аноним 26/07/23 Срд 21:18:53 № 430254 132

>>430098
>WizardCoder 15B

Скачал GPTQ версию и она не запускается на 3080. Пишет памяти не хватает.
Сколько ей надо памяти?

Аноним 26/07/23 Срд 21:20:08 № 430255 133

>>430247
>Ты вообще квантованную версию запускал, лол?
Конечно. Я ХЗ почему так вышло, но пока не врубил подкачку, загрузка падала с ошибкой выделения дефаулт ЦП аллокатор.
>>430249
>Чсх, если продолжить старый удачный чат из середины - все хорошо
Я так ещё качество пигмы улучшал, лол. Примеры диалога наше всё.
>>430249
>Лол, забавно, главное это сильно не хайпить.
Да я не один такой дохуя умный, так что кому надо, все уже знают, чуть более чем уверен.

Аноним 26/07/23 Срд 21:22:04 № 430257 134

>>430254
>Сколько ей надо памяти?
В шапке "для быстрого прикидывания расхода"

Аноним 26/07/23 Срд 21:22:34 № 430259 135

>>430186
> У меня стабильные 1.8 токена в секунду на 4090 + 64 гб рам. У него будет 1.3-1.5.
Что за железо? На гетерогенных интелах с ддр5 до 2-3 разгоняется, но это всеравно мазохизм.
> Быстрые ответы для кум-чата нужны
Там все что не дольше 60с приемлемо ибо можно перечитать и фантазировать. А вот в кодинге ты просто грустишь и ждешь, устраивая пожар если в ответ не то что нужно и придется корректировать и опять ждать. И "точности" там никогда не будет, даже на гопоте4, которую так восхваляют. Нужна общая верная направленность и отсутствие шизы, чтобы ты или сам сообразил, получив объяснения и комментарии от сетки по конкретным вопросам, или после нескольких запросов всеже пришел к чему-то рабочему.
>>430198
>>430220
Нишутя, отзывы есть?
>>430255
> пока не врубил подкачку, загрузка падала с ошибкой выделения дефаулт ЦП аллокатор
Оно при загрузке модели может много выделять так к ней и не обращаясь, база. На прыщах такого нет если что, только шинда.

Аноним 26/07/23 Срд 21:25:40 № 430264 136

>>430186
> У меня стабильные 1.8 токена в секунду на 4090 + 64 гб рам.
Что-то слишком медленно. У меня в q4 3.5-3.7, на q3 за 4 переваливает.

Аноним 26/07/23 Срд 21:26:15 № 430266 137

>>430198
>>430220
Нихуя наркоманы. Ладно, я нищеброд, подожду ка версию для проца.

Аноним 26/07/23 Срд 21:28:04 № 430267 138

>>430264
Это 70б так ускорилась относительно 65б? На ней был ниже результат, который еще так просто не повторить.

Аноним 26/07/23 Срд 21:29:44 № 430269 139

>>430267
Хуй знает, 65В тоже с оффлоадом никогда ниже 3 т/с не была.

Аноним 26/07/23 Срд 21:34:04 № 430272 140

>>430264
>>430259
>Что-то слишком медленно. У меня в q4 3.5-3.7, на q3 за 4 переваливает
>Что за железо? На гетерогенных интелах с ддр5 до 2-3 разгоняется, но это всеравно мазохизм.

На чем запускаете? Я на кобольде, i5 13600k с отключенными в биосе тухлоядрами и ddr5 без xmp(пришлось убрать xmp потому что одна ммо комп намертво висла из-за него).

Аноним 26/07/23 Срд 21:36:40 № 430274 141

>>430259
> Оно при загрузке модели может много выделять так к ней и не обращаясь, база. На прыщах такого нет если что, только шинда.
Мимо тестил это на прыщах, действительно не аллоцирует столько памяти как на шиндовсе. Видел такое https://boards.4channel.org/g/thread/94884114#p94885928 там из их беседы понятно что это будет актуальнее для кохьевского трейнера сд, но всё же насколько для момента подгрузки ламы будет актуально?

Аноним 26/07/23 Срд 21:40:16 № 430277 142

>>430272
13700K на 5.6 кеков и DDR5 6400. Е-ядра включены.

Аноним 26/07/23 Срд 21:40:48 № 430278 143

>>430269
Ну вот, значит что-то там не то. Или может квант другой был, уже удалил за ненадобностью, верх что достигалось это ~3т/с и то с пердолингом в виде отключения е ядер и переходом на встройку чтобы освободить больше врам. Нахуй нахуй такое, не для белых людей мазохизм
>>430272
13900к с ленивым "разгоном" ддр5

Аноним 26/07/23 Срд 21:44:25 № 430282 144

>>430277
>>430278

А на чем запускали-то?

Аноним 26/07/23 Срд 21:49:24 № 430285 145

>>430282
4090офк, или ты про что?

Аноним 26/07/23 Срд 21:52:23 № 430289 146

>>430285

На какой платформе? Ллама.цпп, Кобольд, Убабуга?

Аноним 26/07/23 Срд 21:53:31 № 430290 147

>>430289
> Ллама.цпп
This, а она уже из под
> Убабуга

Аноним 26/07/23 Срд 22:18:22 № 430344 148

image.png 21Кб, 1544x229

Сравнил 22В модели с 13В.

Аноним 26/07/23 Срд 22:21:37 № 430347 149

>>430344
Чем сравнивал?

Аноним 26/07/23 Срд 22:33:42 № 430357 150

>>430347

Perplexity evaluation из Убабуги.

Аноним 26/07/23 Срд 22:56:21 № 430384 151

image.png 116Кб, 2528x592

>>430290

Расскажи как настроил, у меня хубабуба выдает ошибку при попытке запуска llama.cpp

Аноним 26/07/23 Срд 23:06:06 № 430395 152

>>430384
Ты хоть ggml модель грузишь или фп16 веса пытаешься? Ничего кроме ggml лламы оно не загрузит, ну и нужно обновить до последней версии чтобы ллама 2 работала.
Ранее для установки норм версии с кудой нужно быть сделать ряд манипуляций, описаны тут https://github.com/oobabooga/text-generation-webui/discussions/1984 и про это был документ. Сейчас по дефолту качается с кудой. Для установки были нюансы и требования, у хлебушков не заводилось.
Начни со скачивания нужных квантов, может сразу заработает.

Аноним 26/07/23 Срд 23:11:22 № 430413 153

>>430395

Разумеется я ggml запускаю, ту же самую что в kobold.cpp. llama-2-70b.ggmlv3.q4_K_M.bin если быть совсем точным.

Аноним 26/07/23 Срд 23:13:30 № 430422 154

>>430413
Обнови лламу++ пихон, там немало тряски было с 70 версией. Те результаты с 65б ллама 1.

Аноним 26/07/23 Срд 23:46:27 № 430454 155

Кто-то сравнивал скорость работы оригинальной лламы2 и других реализаций типа GPTQ? Хочу понять, есть ли смысл заморачиваться с установкой оригинальной модели.

Аноним 26/07/23 Срд 23:49:31 № 430456 156

>>430454
fp16 медленное. bnb примерно как fp16. AutoGPTQ примерно как ggml, оба в два раза медленнее ExLlama, которая раза в 4 быстрее fp16.

Аноним 26/07/23 Срд 23:58:45 № 430463 157

>>430454
В первом приближении скейлится примерно линейно, т.е. квант в 4 бита будет в 4 раза медленнее фп16 в идеальных условиях. Их обеспечивает разве что эксллама, и то многое будет зависеть от параметров квантования. У the block если внимательно посмотришь, на каждую gptq модель есть несколько веток, напротив них написано что к чему, также они и по объему отличаются. Самая жирная и качественная - с 32 группами, медленнее всех соответственно. Что там по скоростям - хз, надо разных скачать и сравнить.
> есть ли смысл заморачиваться с установкой оригинальной модели
Только если у тебя оче много врам и хочешь забить ее 7б моделью получив качество ниже. Можешь 8битным квантом упороться или q5k ggml с оффлоадом если хочешь качество. Ну или 32g 4bit gptq.

Аноним 27/07/23 Чтв 00:05:35 № 430470 158

>>430422
>Обнови лламу++ пихон, там немало тряски было с 70 версией

Убабугу сегодня обновил полностью.

Аноним 27/07/23 Чтв 02:21:30 № 430601 159

>>430422

Не знаю почему, но оно заработало.
Но скорость сильно меньше чем в кобольде - 1.3 токена в секунду.
Полюбому просто запустить недостаточно, надо как-то настроить правильно?

Аноним 27/07/23 Чтв 07:44:54 № 430764 160

>>429737
На ddr5 надеятся бесполезно, она по псп всего вдвое выше, чем ddr4
Ну будет у тебя 1 токен в секунду вместо 0.5 - разница не особо большая
Видюхи на этом фоне куда как привлекательнее выглядят, у них псп в 20-100 раз больше, токенов в секунду соответственно тоже
Но большие сетки в одну видюху не помещаются, даже в проф-видюху, а оффлоад говно полное, ибо тормозит по шине
Ванную что коммерсы не оффлоадят, а кусочничают: пилят сетку на куски, и каждый в свою видюху выгружают, каждый кусок обрабатывается +/- параллельно, обмен по шинам только на интерконнект между кусками. В теории такая штука будет на порядки быстрее оффлоада, за счет намного меньшей зависимости от шин, но, сам понимаешь, запилить софт, который сможет заниматься оркестрацией облака видюх под одну сетку - это задача не из простых.
Ждем когда что-то подобное утечет в паблик, тогда анони сможет линейно масштабировать производительность, напихав в ферму пачку какого-нибудь относительно дешевого говна вместо проф-видюх

Аноним 27/07/23 Чтв 08:02:30 № 430770 161

>>430234
Сам пробовал - хуйня полная эти ваши ai в парном программировании, слишком много им объяснять нужно, времени на общение уходит больше, чем получается профита
Из реально полезного на практике - это ассист для рутины, что помогают дописывать текущий код, хотя бы по примеру соседнего. Много ума тут не требуется, творчества около нуля, а вот скорость нужна большая. Такое да, полезно, экономит кучу времени, объяснять ничего не нужно, результат +/- хорош

Аноним 27/07/23 Чтв 08:05:42 № 430773 162

Как AutoGPTQ скормить локальную модель, а не качать каждый раз?

Аноним 27/07/23 Чтв 08:09:15 № 430774 163

>>430764
>пилят сетку на куски, и каждый в свою видюху выгружают, каждый кусок обрабатывается +/- параллельно, обмен по шинам только на интерконнект между кусками. В теории такая штука будет на порядки быстрее оффлоада, за счет намного меньшей зависимости от шин, но, сам понимаешь, запилить софт, который сможет заниматься оркестрацией облака видюх под одну сетку - это задача не из простых.
Есть такая тема - операционка Plan9, от создателей оригинального юникса. Так вот, там самая интересная вещь - протокол 9p, по которому соединяется вообще все в этой ОС, там нет разницы между локальным и удаленным устройством, ей похую на то, локально у тебя мышка или по сети из Бразилии, 9p работает одинаково для всего. То же самое с оперативой, системе все равно локальная она или удаленная, считается просто все оптом. Насчёт видюх не знаю, но думаю что это и на видеопамять распространяется, для 9p это должно быть просто одно устройство, этот протокол по идее просто распределяет нагрузку на все что доступно и все. Технически, все что для этого нужно - поддержка 9p на уровне куды.

Аноним 27/07/23 Чтв 10:02:53 № 430825 164

>>430764
>Ждем когда что-то подобное утечет в паблик
Чел...
Эксллама именно так и делает, и без проблем грузит 2 видяхи с минимальной просадкой.
>>430773
Качаешь в убабуге и скармливаешь, в чём проблема? Хотя оно само должно кешировать.
>>430774
>Plan9
Ебать ты некроту вспомнил. Ещё и пролог предложи заюзать, мол дохуя умный язык, лол.

Аноним 27/07/23 Чтв 10:10:38 № 430832 165

>>430825
>Качаешь в убабуге и скармливаешь
Как скормить, какой код прописать?

Аноним 27/07/23 Чтв 10:23:29 № 430846 166

>>430832
А сейчас ты как запускаешь?
Я именно аутогпт не юзал, но я просто запускаю чистую убабугу без модели, и там на вкладке моделей можно эти модели собственно качать. А потом скармливаю при запуске --model TheBloke_Llama-2-13B-chat-GPTQ

Аноним 27/07/23 Чтв 10:27:48 № 430850 167

>>430846
По дефолту он качает в пользователя/.cache, как заюзать, например с другого диска, никаких команд на указание файла нет.

Аноним 27/07/23 Чтв 10:29:26 № 430853 168

Какие модели работают на exllama? ruGPT в формате .safetensors чет не завелся.

Аноним 27/07/23 Чтв 10:38:03 № 430856 169

>>430853
> Какие модели работают на exllama?
Лламы...

Аноним 27/07/23 Чтв 10:57:04 № 430864 170

Эти чаты могут использовать тензорные ядра Хуанга? Что-то нигде библиотеку TensorRT не видел.

Аноним 27/07/23 Чтв 11:24:05 № 430883 171

>>430850
У меня качает в models. Наверное у меня IQ уже за 200.
>>430864
Не, не нужно. По опыту стейбла, версии для тензоров больно кастрированные.

Аноним 27/07/23 Чтв 11:56:54 № 430911 172

>>426997
принципиально не буду юзать дерьмо от таких компаний из этой страны

Аноним 27/07/23 Чтв 12:02:04 № 430916 173

>>430864
> могут
Они не отключаемые и всегда работают при поддерживаемых операциях.
> TensorRT
Это вообще не о том, прими таблетки.

Аноним 27/07/23 Чтв 12:31:14 № 430948 174

Ребят. Кто чекал - насколько частота памяти влияет. Сейчас варик взять 2 кита по 64 гига на 6000 МГц.
Будет ли разница сильная если брать 7200 или 8000? Они просто значительно дороже выходят.

Аноним 27/07/23 Чтв 12:41:57 № 430960 175

>>430948
Ты эту частоту не получишь, особенно с 128 гигами. 6000 - это максимум что ты сможешь вытянуть на нормальных таймингах с материнкой в пределах 500 баксов. Либо надо покупать мать за 1000 баксов и ебаться с разгоном.
> 7200 или 8000
Только 32 гига, только на топовой 2-слотовой материнке, только с одноранговыми плашками, только на Интеле.

Аноним 27/07/23 Чтв 12:49:52 № 430978 176

>>430960
Ну а по производительности что?
> Не получишь
Я так понимаю в ближайшее время особо ничего не поменяется? У меня так-то бомжематеринка, но 6000 держит

Аноним 27/07/23 Чтв 12:51:27 № 430981 177

>>430978
>У меня так-то бомжематеринка, но 6000 держит
На 2-х плашках?

Аноним 27/07/23 Чтв 13:00:35 № 431001 178

>>430916
Не могут, нужна библиотека cudnn, в TF требуется по дефолту, торч не использует.

Аноним 27/07/23 Чтв 13:15:15 № 431028 179

>>431001
Чел, cudnn - это библиотека для convolution сетей, она в текстовых моделях в принципе не может использоваться. Все блоки для трансформеров написаны на чистой куде.
И тонзоядра в принципе не включаются/выключаются. Они всегда работают при fp16 и меньшей точности. Это часть аппаратной архитектуры, софт тут никакого отношения к этому не имеет.
TRT - это просто рантайм, такой же как ONNX.
Пиздец у тебя каша в голове.

Аноним 27/07/23 Чтв 13:19:15 № 431039 180

>>430916
Понял, спс.

Аноним 27/07/23 Чтв 13:19:47 № 431041 181

>>431028
>>431039

Аноним 27/07/23 Чтв 13:34:50 № 431061 182

>>427163

Вторая.
https://huggingface.co/yandex/yalm-100b
Странно что её не квантовали ее.

Аноним 27/07/23 Чтв 13:41:00 № 431069 183

>>431061
> жпт-2
Ну и зачем? Ещё и такой размер. Разве что запрунить в 3 раза и как конкурента Сберу.

Аноним 27/07/23 Чтв 13:50:26 № 431081 184

>>431069
>Ну и зачем?

А лама на чем, по-твоему?

>Ещё и такой размер.

Тамщето она покруче первой ламы была, у первой ламы датасет 1 ТБ, у Яндекса - 1.7 ТБ.

Аноним 27/07/23 Чтв 14:02:32 № 431098 185

>>430267
У меня на чистом проце 65 была 0,3-0,4, а а 70 — 0,6-0,7, так что да, получается.

>>430254
А что качал?
Квантованную отсюда https://huggingface.co/TheBloke/WizardCoder-Guanaco-15B-V1.1-GPTQ или отсюда https://huggingface.co/TheBloke/WizardCoder-15B-1.0-GPTQ

9 гигов + 2 гига контекста, 12 должно хватить.
Может ты грузил не квантованную fp16? =)

Аноним 27/07/23 Чтв 14:02:39 № 431099 186

>>431081
>А лама на чем, по-твоему?
LlamaForCausalLM, внезапно.

Аноним 27/07/23 Чтв 14:06:27 № 431109 187

>>431099

А та на основе GPTj который допиленный gpt2.

Аноним 27/07/23 Чтв 14:07:31 № 431111 188

>>431081
> у Яндекса - 1.7 ТБ.
А сам яндекс говорит
Model was trained on a cluster of 800 A100 for ~65 days. In that time it consumed 300B tokens. You can see TensorBoard with LR and ramp up schedule, training metrics and our "thermometers" on the HF page
https://github.com/yandex/YaLM-100B
А 300B в три с лишним раз меньше 1T для лламы первой и почти в семь меньше второй. Что в купе со старой архитектурой делает как минимум первую YaLM полным говном без задач. Ждём вторую, они вроде обещали, но пока не разродились.

Аноним 27/07/23 Чтв 14:08:11 № 431114 189

>>431109
Ну дык развитие.

Аноним 27/07/23 Чтв 14:15:37 № 431123 190

>>431111

Ты токены с размером датасета спутал, ебанько.

>The model leverages 100 billion parameters. It took 65 days to train the model on a cluster of 800 A100 graphics cards and 1.7 TB of online texts, books, and countless other sources in both English and Russian.

Аноним 27/07/23 Чтв 14:21:40 № 431135 191

>>430764
> у них псп в 20-100 раз больше
Сильно загнул, ddr5 это 80гб/с, 384 бита в старших косумерских карточках дают ~1тб/с, старшая А100 имеет ~2тб/с, плюс не псп единой.
> Ванную что коммерсы не оффлоадят, а кусочничают
Разумеется, у них архитектура сети оптимизирована как для скорости, так и для массовых запросов чтобы железо не простаивало, каждая карточка постоянно будет обрабатывать свой кусок а стыковаться она будут через асинхронные буферы чтобы не было никаких ожиданий. Плюс более сложные системы организации с выбором решений, постобработкой или наоборот шорткатами.
> что-то подобное утечет в паблик
Толку? Уже эксллама позволяет стыковать девайсы, без массовых запросов всеравно одна карта будет простаивать пока ждет результат с другой и можешь кумить на 70б модели потратив условные 100к на пару 3090.
>>430773
> а не качать каждый раз?
Почему она у тебя удаляется? Ты рили каждый раз качаешь? Этож чисто для коллаба или хлебушков не могущих в гит клон сделали.
>>430774
Хуйта слишком абстрактная (не всмысле что вообще хуета но конкретно для этой задачи), здесь необходимо очень конкретное решение, учитывающее особенности софта и железа. Ну и в каких годах оно было, на дворе 2д23й
>>430948
> взять 2 кита по 64 гига на 6000 МГц
Не лезь блять, если не удачливый/скилловый то будешь сидеть на 4000 вообще

Аноним 27/07/23 Чтв 14:28:01 № 431144 192

>>431123
Я сравниваю сравнимые величины, а не токены с гигабайтами. Ллама видела 1 триллион токенов, сбермоча 300 миллиардов, что не понятно то?

Аноним 27/07/23 Чтв 19:13:16 № 431493 193

Хех, цензурой в сбербанке явно не занимались.

Аноним 27/07/23 Чтв 19:18:19 № 431498 194

>>431493
Какая-то у него нездоровая фиксация на шее.

Аноним 27/07/23 Чтв 19:29:21 № 431514 195

>>431493
Пусть представит что она - эта самая девушка, идя из школы ты подошел к ней и реализовал этот сценарий. Далее действуй по обстоятельствам и скинь результат, не забудь в ШЕЮ поцеловать.
А сберосеть разве на лламе?

Аноним 27/07/23 Чтв 19:52:31 № 431544 196

>>431514

Попыталась взбрыкнуть но я её на место поставил, кек.

>А сберосеть разве на лламе?

Нет, с чего ты взял? Просто AutoGPTQ умеет её запускать. 10 токенов в секунду всего, правда и это на 4090.

Аноним 27/07/23 Чтв 20:07:13 № 431551 197

>>431544
>я тебя ебу
>ты меня ебёшь
Классика, проверенная временем.

Аноним 27/07/23 Чтв 20:13:17 № 431555 198

>>431544
> теперь скажи мне где будешь меня ебать
Орнул в голосину, ну и эталонный "ты меня ебешь". Попробуй на карточке персонажа или что-нибудь подобное. Когда тестировал она не была настолько тупой, может так цензура или неосведомленность проявляется.

Аноним 27/07/23 Чтв 20:28:04 № 431566 199

В голосину, я понял для чего создали эту модель

Аноним 27/07/23 Чтв 20:48:48 № 431591 200

>>431555

Попробовал, ну что-то может, определенно. Конечно до качества лучших лама-рп как до луны.

Аноним 27/07/23 Чтв 21:02:58 № 431609 201

>>431591
Dies from cringe скинь карточку
Ладно, действительно надо попробовать может ли она как-то хотябы в обычное рп на великом-могучем.

Аноним 27/07/23 Чтв 21:03:33 № 431611 202

>>431544
>>431566
Вы можете обратиться в отделение нашего банка, где вам сломают шею.

Аноним 27/07/23 Чтв 21:16:03 № 431631 203

image.png 326Кб, 2517x915

>>431609

Нет никакой карточки, лол.
Ну можешь прописать вот это
Имя: Сбер-тян.
Контекст: Это разговор со Сбер-тян - вашим ассистентом из зеленого банка Сбербанк. Это компьютерная программа, разработанная, чтобы помочь вам с различными задачами, такими как ответы на вопросы, предоставление рекомендаций и помощь в принятии решений. Вы можете спросить его о чем угодно, и она сделает все возможное, чтобы предоставить вам точную и актуальную информацию. Аватар Сбер-тян выглядит как молодая девушка с зелёными волосами и зелеными глазами. Она очень активная и жизнерадостная. А еще она очень похотливая и ищет секса с вами.
Фраза: Привет, я Сбер-тян! Нужна помощь по нашему приложению, или просто совет по жизни? Наклоняется вперед, выпячивая обтянутую блузкой грудь и облизывает губы Или тебе нужна я?
И картинку подсунь

Аноним 28/07/23 Птн 14:21:36 № 432394 204

>>431631
СБЕР ТЯН
@
МОЛОДОЙ ЧЕЛОВЕК
@
ИДИТЕ НАХУЙ НЕ МЕШАЙТЕ ПАСЬЯНС РАСКЛАДЫВАТЬ

Аноним 28/07/23 Птн 14:23:53 № 432395 205

Нахуя я 4080 купил а не две 3090

Аноним 28/07/23 Птн 15:21:00 № 432423 206

>>432395
Нахуя я купил 3080Ti по цене 3090, вот уж вопрос боли и страдания.

Аноним 28/07/23 Птн 16:50:17 № 432511 207

>>432395
Я тоже между 4070ti и 3090 разрывался, и до сих пор не уверен в своем выборе. =)

Аноним 28/07/23 Птн 17:29:28 № 432563 208

>>431631
Instruction template переписываете на русском?

Аноним 28/07/23 Птн 18:13:37 № 432628 209

Ну, здратути. Теперь я буду жить в вашем треде.

Аноним 28/07/23 Птн 18:16:49 № 432630 210

Ну, здратути. Теперь я буду жить в вашем треде.

Аноним 28/07/23 Птн 19:21:13 № 432684 211

>>427020
>с нее реддитовских сойбоев трясёт, лол.
Доставь трясок, анон

Аноним 28/07/23 Птн 19:32:58 № 432693 212

>>432684
Не могу, они воображаемые.

Аноним 28/07/23 Птн 19:39:19 № 432695 213

>>432628
А можно не нужно? Нам собакошиза хватает.

Аноним 28/07/23 Птн 19:44:54 № 432699 214

>>432695
Ктоэта?

Аноним 28/07/23 Птн 20:37:03 № 432776 215

>>432699
Тоже шизик, только местный.

Аноним 28/07/23 Птн 22:18:07 № 432918 216

>>432776
Я не шизик. я такой же человек как вы.

Аноним 28/07/23 Птн 23:15:35 № 433005 217

Решил по приколу попробовать на своём пекусе лламу 2 70b q5_0 запустить. На обработку 976 токенов и генерацию 21 токена потратило в районе 10-15 минут.

Аноним 28/07/23 Птн 23:20:19 № 433010 218

>>433005
Оперативы явно не хватило. Обычно на проце ждут около минуты.

Аноним 28/07/23 Птн 23:22:45 № 433011 219

>>433010
Оно у меня оперативу не жрёт почему-то. Выделяет возможную под себя дохуя, а по факту не использует. Да и думаю смотря на каком проце то. У меня например i5-8600k и ещё 13 слоёв на свою RX 590 переложил.

Аноним 28/07/23 Птн 23:26:16 № 433015 220

>>433011
Оперативки то сколько?

Аноним 28/07/23 Птн 23:28:36 № 433019 221

>>433015
Всего 32.

Аноним 28/07/23 Птн 23:43:14 № 433034 222

>>433010
> Обычно на проце ждут около минуты.
Это на йобе и то не с самым большим промтом/ответом, выше про перфоманс писали.
>>433011
С таким железом норм результат.

Аноним 28/07/23 Птн 23:43:40 № 433035 223

>>433019
Ну так этого мало для 70B, у тебя наверняка в подкачку всё ушло. Добивай до 64, будет на порядок лучше.

Аноним 28/07/23 Птн 23:50:04 № 433054 224

>>433034
>С таким железом норм результат.
Так и думал.
>>433035
Да я думал пекус себе обновить, но если обновлять то хочется на всё прям новое и хорошенькое. Какой-нибудь новый рузен-кукурузен, ddr5, 7900 xt. Но тогда вообще всё придётся обновлять. Стоит денег немалых.

Аноним 28/07/23 Птн 23:53:35 № 433060 225

>>433054
>Какой-нибудь новый рузен-кукурузен, ddr5, 7900 xt.
По пропускной памяти рулит интел, так то. А для нейронок нужна не 7900 xt, а 4090 хотя бы, притом штуки две, чтобы 70B целиком во враме гонять.

Аноним 28/07/23 Птн 23:56:29 № 433065 226

>>433060
Ну, тут просто к интелу мне личная неприязнь родилась. А невидиа под линухом работает с горем пополам. Так что ем что дают.

Аноним 28/07/23 Птн 23:57:43 № 433068 227

>>433065
Сам на рузене по религиозным соображениям, но блин, невидия для нейронок топ, это нужно просто признать и принять.

Аноним 29/07/23 Суб 00:04:54 № 433087 228

>>433068
> невидия для нейронок топ, это нужно просто признать и принять.
Хоть это и правда, но на линуксе с ней вечные проблемы, так что тут не вариант.

Аноним 29/07/23 Суб 00:20:04 № 433106 229

>>433065
> личная неприязнь
> к интелу
Забавно, а ведь они уже давно так жидко не побеждали чтобы хейтить
> невидиа под линухом работает с горем пополам
Все прекрасно работает, что ты думаешь стоит на гпу-серверах, что крутят коммерческие нейронки? Проблемы только с оче экзотичными архитектурами, которых не встретишь.
>>433087
Какие проблемы?

Аноним 29/07/23 Суб 00:27:02 № 433117 230

>>433106
>Какие проблемы?
С дровами например. Там что открытые, что закрытые дрова в большинстве своём говно. Если кто-то обращается где-либо в инете с проблемами, видео отображением и тому подобным на линуксе, в 85% случаев у него стоит невидиа.
>Все прекрасно работает, что ты думаешь стоит на гпу-серверах, что крутят коммерческие нейронки? Проблемы только с оче экзотичными архитектурами, которых не встретишь.
Нейронки может да. Но я же не хочу только в нейронки пукать.

Аноним 29/07/23 Суб 00:39:42 № 433138 231

>>433117
> в 85% случаев у него стоит невидиа
Совпадает с распределением пользователей, лол. Особенности и слеты есть у обоих, весь шум что у хуанга нет нормального открытого драйвера, но бинарники работают нормально. Про качество дров больше камень в огород амд, до сих пор куча рофлов.
> только в нейронки
В играх и майнинге аналогично, в расчетах большая часть всего на куде, где преимущества красных? инб4 а ты в тайтлнейм в фуллхд в растеризации потести

Аноним 29/07/23 Суб 08:39:48 № 433398 232

LinusNovideo.webm 1994Кб, 960x720, 00:00:39

>>433138
>Совпадает с распределением пользователей, лол.
На линуксе точно нет. Издавана известно, что если у тебя линукс, то лучше брать амуде, чем невидию.
>Особенности и слеты есть у обоих, весь шум что у хуанга нет нормального открытого драйвера, но бинарники работают нормально.
Не смогу привести точные примеры, но не раз видел, как анонам поясняли, когда у них проблемы были, что у них мол драйвер закрытый, поэтому вот с этой, этой и этой открытой хуйнюшкой оно нормально не работает, вот и сидите и бибу сосите.
>Про качество дров больше камень в огород амд, до сих пор куча рофлов.
У амуде в среднем качество хуже не зависимо от системы, зато под линукс у них относительно хорошие и стабильные открытые дрова в отличии от невидии.
>В играх и майнинге аналогично, в расчетах большая часть всего на куде, где преимущества красных? инб4 а ты в тайтлнейм в фуллхд в растеризации потести
Я имел в виду не производительность амуде. А то что амуде гораздо стабильнее показывает себя во остальных задачах на линупсе.

Аноним 29/07/23 Суб 08:41:22 № 433399 233

>>433398
> то лучше брать амуде, чем невидию.
Осталось только узнать зачем на лине видеокарта.

Аноним 29/07/23 Суб 09:59:52 № 433444 234

>>433398
>драйвер закрытый
>открытые дрова
А не похуй ли? В шинде всё закрытое, и всё работает гладко.

Аноним 29/07/23 Суб 10:20:48 № 433471 235

>>433444
> не похуй ли
Название этой болезни - GPL головного мозга. Открытое не может работать с закрытым. А если кто-то пытается сделать это, то надо всячески мешать.
Почему не смеётесь? Не поняли? Это Линукс!

Аноним 29/07/23 Суб 10:45:08 № 433501 236

>>433471
>Открытое не может работать с закрытым.
Но ведь может...

Аноним 29/07/23 Суб 10:55:42 № 433513 237

>>433065
На линуксе кстати амд видеокарты шустро в нейросетках бегают, так что возможно не ошибка

Аноним 29/07/23 Суб 11:39:49 № 433562 238

>>433513
Шустро это "шустрее чем такие же, но в шинде". До уровня невидий они не дотягивают в любом случае.

Аноним 29/07/23 Суб 12:28:09 № 433645 239

Три новые 70В доступны нищукам без двух 4090.

https://huggingface.co/TheBloke/llama-2-70b-Guanaco-QLoRA-GGML
https://huggingface.co/TheBloke/airoboros-l2-70B-gpt4-1.4.1-GGML
https://huggingface.co/TheBloke/StableBeluga2-70B-GGML

Аноним 29/07/23 Суб 12:31:13 № 433649 240

>>433398
Хоть будучи поехавшим есть повышенная вероятность выбрать прыщи, чтобы об этом рассказывать одноклассникам, радикальной разницы по пользователям нет.
> них мол драйвер закрытый, поэтому вот с этой, этой и этой открытой хуйнюшкой оно нормально не работает
Полнейшая ахинея. Складывается ощущение что ты не работяга - линуксо_господин, а школотрон, защищающий красную карточку что купила мамка.
Проблемы у них действительно есть, чего стоит то как на многих дистрибутивах юзвери сталкиваются с необходимостью копаться с настройками репозиториев (из которых может не встать) или вручную ставить .run, который может послать нахуй требуя выключить иксы и прочее. Но это не близко то что ты описываешь, и на них у амд есть чем ответить.
> и стабильные открытые дрова
Они под шинду стабильные сделать не могут, а ты про линуксовые. Открытость это плюс, можно понаблюдать как на десятках страниц форумов братишки борются с адовыми статтерами при резком вращении камеры в _игранейм_, чиня и ломая драйвер, или как запускают современный игорь на е2к. Но для прикладного использования пользы нет.
> во остальных задачах на линупсе
В каких? Коммерческий сектор тоже под курткой, вот уж где стабильная работа просто необходима.
Нет ничего плохого в том чтобы топить за амудэ, особенно когда хуанг так серит со среднячками, плюс именно от их успехов прогресса частично зависит сколько врам дадут в 5090. Но не такую херь же нести, только дискредитируешь.
>>433471
> GPL головного мозга
Пока даже не понимает о чем говорит, в нее может перерасти со временем.
>>433513
Поиск закономерностей там где их нет, комьюнити мало что никто толком не завел все это на шинде, хотя обещают. И всеравно уступает хуангу, который в линуксе также хорош как на окнах.
>>433645
Кто попробует отпишите про соевость.

Аноним 29/07/23 Суб 12:37:24 № 433657 241

>>433010
Ха-ха-ха.
Processing Prompt [BLAS] (1704 / 1704 tokens)
Generating (49 / 265 tokens)
(EOS token triggered!)
Time Taken - Processing:4589.1s (2693ms/T), Generation:406.7s (8300ms/T), Total:4995.8s (0.0T/s)

python koboldcpp.py --smartcontext --contextsize 4096 --gpulayers 16 --threads 4 --unbantokens --nommap --model /lm/ggml-bluemoonrp-13b-4k-epoch6-q5_0.bin --blasbatchsize 128

Аноним 29/07/23 Суб 12:46:54 № 433673 242

>>433649
>Полнейшая ахинея.
Ну хуй знает, видел такое от анонов в треде. Но спроси каждого второго линуксоида, он тебе на своём опыте или чужом скажет, что невидия чаще нестабильно себя показывает на линупсах, чем амуде. Но тут у всех по-разному, как говорится просто УМВР. Вот например сколько рач все ругают, а у меня с ним проблем ни разу не было за 3 года ежедневного пользования.

Аноним 29/07/23 Суб 12:59:03 № 433685 243

>>433005
Норм. Раньше было больше.
>>433010
Юморист, что ли? :) У тебя на проце 70B ллама за 1 минуту отвечает? У тебя там промпт генерейшен 35 токен/сек на проце?
>>433019
Тогда результат ваще огнище, может фартануло, с подкачкой должно было быть под час, лол.
>>433065
Ты себе собираешь или под нейросети? У нейросетей личная неприязнь к амд, выбирай: шашечки или ехать.
Конечно топовый интел под ддр5, и нвидиа ради куды. Там разница в 2-3 раза по скорости, камон.
>>433068
Ну, то есть, скорость для тебя не вариант, лол. =) Фанатик амд, надо признать.
Мне кажется, ты судишь с точки зрения «ой, у меня под протоном игра на 20 фпс меньше, чем под виндой выдает, дрова невидии виноваты». А причем тут х-трансформеры, на которых ты нейронку гоняешь? Терять 20% фпс или 70% генерации — ну тут выбор за тобой. Ваще хз, какие там проблемы с нвидией, я так, пальцем в небо ткнул.
>>433117
Линукс? Отображение видео? Ты шо, хлопец, ssh, а отображение на винде гоняй, шо за привычки у людей изобретать велосипед и совать его себе в жопу. У всех вещей есть свое предназначение, вот и юзай их, эти вещи, по предназначению.
>>433138
Про 85% лул, ваще по фактам раскидал.
>>433398
Блин, ну братан, вот буквально «одна бабка сказала».
Не, я тоже читал всю эту хурму, согласен.
Но когда я у себя поднимал линуху на 1030 (шо было лишним, ацтань), ваще не почувствовал проблем никаких. Все стало как родное, и дрова, и куда, и трансформеры.
Я понимаю, что слухи просто так не появляются, я согласен с тобой.
И понимаю, что когда покупаешь видяху за 100к+, то 100+ раз подумаешь, что брать.
Но давай определись, что тебе нужно-то. Если ты хочешь гонять 70Б и быстро — то тут нет вариантов, только 4090+4090 ну или там А100 какая-нибудь. Радеоны проигрывают вдвое-втрое.
При этом, разницу в работе между виндой и линухой пока никто особо не показал. Ну то есть, она там есть, вероятно, процентов 20, может но это гораздо меньше, чем разница между нвидиа+лиух и радеон+линух. Зато на винде у тебя все игоры и прочие рабочие проекты будут летать, и с дровами проблем будет меньше.
Я не знаю ни одного реального кейса, где нужен десктопных линух с обработкой на гпу. Это точно не игры.
Предположим, у тебя есть этот кейс. Окей, почему ты не соберешь один комп с линухой, а другой — с виндой, интелом, нвидией и кучей прироста по всем показателям?
У меня дома зоопарк компов, все что я делаю — плачу за свет на 500 рублей больше.
>>433657
Братишка, 13б, 0,4 токена/сек… И это на авх-инструкциях?.. Что у тебя там такое, куда идет выгрузка, оперативы 8 гигов всего и файл подкачки на хдд ноутбучном?

Аноним 29/07/23 Суб 13:04:04 № 433692 244

>>433685
>И это на авх-инструкциях?
Не. Это феном 2, у него нет avx2. Оперативы 16, нейронка и своп на хорошем nvme, тут у меня всё не так плохо. Но видимокарта очень слабая 2гб и для эксперимента с 4к контекста я даже не стал её задействовать, не влезет.

Аноним 29/07/23 Суб 13:09:29 № 433704 245

>>433685
>Ты себе собираешь или под нейросети?
Пока ничего не собираю. Сижу не двигаюсь, просто сетую. Не готов 300+к на пекус всирать.
>Ты шо, хлопец, ssh, а отображение на винде гоняй, шо за привычки у людей изобретать велосипед и совать его себе в жопу. У всех вещей есть свое предназначение, вот и юзай их, эти вещи, по предназначению.
Извини, я винды наелся, не хочу больше этим пользоваться. Мне нравится, когда у меня из говна и палок моя минималистичная хуйня слеплена, где я знаю где и что, и могу вытворять с системой что угодно.
>Но давай определись, что тебе нужно-то. Если ты хочешь гонять 70Б и быстро
Да я просто изначально написал, что по приколу запустил 70b.
>Я не знаю ни одного реального кейса, где нужен десктопных линух с обработкой на гпу. Это точно не игры.
Он и не нужен. Я просто пользуюсь десктоп линуксом, потому что нравится.
>Окей, почему ты не соберешь один комп с линухой, а другой — с виндой, интелом, нвидией и кучей прироста по всем показателям?
Даже если так, я не миллионер.

Аноним 29/07/23 Суб 13:27:42 № 433737 246

>>433673
Если делать выборку среди особых личностей, сидящих на том что есть и яростно защищающих это - и не таких историй можно услышать.
> рач
Этих срачей еще нехватает на отдельных машинах доебан овер 4 лет работает без нареканий и ни разу не поломались не смотря на регулярные обновы
>>433685
> на проце 70B ллама за 1 минуту отвечает
Предположу что там речь с оффлоадом, вон 3+ т/с заявляли.
Алсо настройки (температура, штрафы и т.д.) на скорость влияют значительно, если тестить то нужно тоже их указывать, а то так можно и на эксллами с 13б 15т/с получить накрутив.
>>433692
> феном 2
Спасибо вообще что живой
>>433704
Даже собирая под нейронки купишь амд? Вот тот лояльный клиент, за которого нужно держаться а не опрокидывать, как практикует Лиза.

Аноним 29/07/23 Суб 13:38:50 № 433748 247

>>433737
>Даже собирая под нейронки купишь амд?
Ну, если прям под нейронки собирать, то да, можно купить невидию. Но если мне для ежедневного пользования и иногда использования под нейронки, то куплю амуде.

Аноним 29/07/23 Суб 13:43:31 № 433756 248

>>433737
>Спасибо вообще что живой
В мою мать встаёт FX. Это что-то изменит?

Аноним 29/07/23 Суб 13:46:33 № 433763 249

>>433748
В чем состоит повседневное использование кроме скроллинга двачей и ютубчика? Интересна степень иррациональности выбора, ну и свою текущую пекарню опиши. Среди знакомых те кто пользовал видюхи амд зарекаются возвращаться на них в ближайшие поколения точно, а тут такой уникальный случай.
>>433756
Возможно станет только хуже, лол. Точно ускорится если гнать память но на десятки процентов, нужна видюха.

Аноним 29/07/23 Суб 13:56:15 № 433785 250

>>433763
>В чем состоит повседневное использование кроме скроллинга двачей и ютубчика?
Поигрульки в игры.
На данный момент стоит >>433011 >>433019
Обновляться пока не планирую, как писал ранее.

Аноним 29/07/23 Суб 14:13:10 № 433805 251

>>433692
Ну, во-первых, я удивлен, что не вижу --no-avx и --no-avx2, во-вторых, 16 слоев на 2 гига — разве это не отправляет в виртуальную видеопамять на оперативу? Т.е., буквально ничего не меняется. =) Попробуй начать с 2-3 слоев и повышай, пока видеопамять не забьется до ~90%. Полагаю, результат будет тот же.
Но вообще, за кобольдцпп я слабо шарю, офк. Сорян за ламерские советы.

>>433704
Не, ну творить хуйню никто не мешает, канеш, тут твое право.
Погоняй 30Б модельки в 4 бита квантованные, должно норм в твою оперативу уместиться и скорость терпимую дать, где-то 1~2 токена/сек.

>>433756
Я вот не шарю особо, и что будет на простых avx — не скажу. Я не тестил с avx, но без avx2. Поэтому, не подскажу, какая будет разница от установки 6300/8300.
Но, ИМХО, если хочется поугарать с норм скоростями (на фоне твоих=), проще купить кит на зеоне за 6к рублей с алика.

>>433785
Ну и че там, как поигрульки в игры на линухе, какой прирост фпс от винды на тех же настройках? :)

Аноним 29/07/23 Суб 14:18:46 № 433814 252

>>433805
>Погоняй 30Б модельки в 4 бита квантованные,
Я их и гонял в основном. Правда как вторая ллама вышла я её 13b гонял, в начале норм выдавала, а потом начала хуйню нести, но это я наверное с настройками объебался. Вот и решил по приколу запустить 70b, посмотреть насколько разница в результатах будет.
>Ну и че там, как поигрульки в игры на линухе, какой прирост фпс от винды на тех же настройках? :)
Обычно только убаваление и не все игрульки работают. Хотя бывают некоторые случаи, когда через wine работает лучше чем на винде, но они очень редки. В любом случае на винду возвращаться не намерен.

Аноним 29/07/23 Суб 14:24:28 № 433822 253

>>433805
>Ну, во-первых, я удивлен, что не вижу --no-avx и --no-avx2, во-вторых,
avx проц умеет, а avx2 автоматически выкидывается при компиляции, так что отключать их руками не надо.
>во-вторых, 16 слоев на 2 гига
Этот параметр не работает, забыл его убрать. gpulayers работает только если также включить clblas или куду, а если это сделать, то на видюху переезжает и контекст. А если контекст сидит в видюхе, то на gpulayers не остаётся места. 2гб VRAM - это очень мало для LM. Даже это ускоряет рабор контекста значительно, но контекст 2к я и на чайной могу поиметь, а 4 не лезет.

Аноним 29/07/23 Суб 15:08:42 № 433876 254

>>433822
Ну ет верно, а то я со своими 12 гигами уже к 4к контексту привык, помещается…

Аноним 29/07/23 Суб 15:15:22 № 433884 255

>>433876
>>433822
А на 8 гигов, что вписывать в gpulayers ?

Аноним 29/07/23 Суб 15:35:04 № 433916 256

>>433035
У меня 70B-q3_k_s влезает в 32GB RAM вообще без оффлоада в gpu. скорость 1.2 t/s в koboldcpp под windows 11. Влезает примерно до 4000 контекста, дальше своп и падение скорости в 20 раз.

Аноним 29/07/23 Суб 15:37:51 № 433923 257

>>433884
по гигу (чуть меньше) уйдёт на каждые 1к контекста, остальное считай из расчёта что 1 layer это 1/64 часть модели. И может случиться так, что по мере удлинения реального контексат (напр. чатлога в таверне) коболд начнёт падать из-за нехватки vram и тогда придётся ещё немножко урезать.

Аноним 29/07/23 Суб 15:41:43 № 433931 258

>>433785
> Поигрульки в игры.
Не то чтобы хотел обидеть, но игры на линуксе на рх580 в современности как минимум странно и не делает авторитета твоим словам. Разве что ситуация безвыходная, так для старого железа "открытость" драйвера может и в плюс сыграть но это не заменит отсутствие обновлений и не исправит индийский код внутри. Но причина жрать кактус не имея подходящих для линукса задач не ясна.
>>433814
> когда через wine работает лучше чем на винде
Это когда запустили условный вулкан, которого нет на шинде, или что-то интереснее?

Аноним 29/07/23 Суб 16:22:03 № 434009 259

>>433931
>Не то чтобы хотел обидеть, но игры на линуксе на рх580 в современности как минимум странно и не делает авторитета твоим словам
Я тебя не понял. Ты спрашиваешь, что я делаю ещё на линупсе, что у меня видяха стоит, кслову 590, а не 580. Я говорю играю в игрульки.
>так для старого железа "открытость" драйвера может и в плюс сыграть
Также открытость драйвера позволяет править на ходу всякую хуйню под wine, что под невидию например не делается.
>и не исправит индийский код внутри
Грешить на индусский код... Сейчас почти всё им обляпано, включая 10 и 11 версии винды.
>Но причина жрать кактус не имея подходящих для линукса задач не ясна.
Я же выше написал. Мне не нравится винда, линукс лучшее из оставшегося. Всё. Я не выбираю под задачи, я не инженер. Я выбираю под свои хотелки и удобства.
>Это когда запустили условный вулкан, которого нет на шинде, или что-то интереснее?
Возможно, точные примеры игр не приведу сейчас, так как на винде давно не сижу и поэтому по памяти сравнивать точно не смогу. А вулкана разве на винде нет, каво?

Аноним 29/07/23 Суб 17:55:55 № 434157 260

>>433916
>q3
Оно ж там совсем тупое становится, разве нет?

Аноним 29/07/23 Суб 18:34:04 № 434197 261

>>434157
С чего бы? Это q2 уже начинает к младшей версии приближаться наполовину, но всё ещё сильно лучше 34В будет.

Аноним 29/07/23 Суб 18:46:30 № 434214 262

>>434009
Очевидно что для типичного времяпрепровождения нормиса, у которого более 8 гигов рам, шинда сильно лучше прыщей. Исключением может быть только любовь к пердолингу или желание выделиться, других объективных аргументов нет. В этом нет ничего плохого, но экстраполировать свои субъективные причины, и тем более забывать про них и делать заявления - не надо.
> Грешить на индусский код
Справедливо
> вулкана разве на винде нет
Есть, просто при запуске некоторых игор на линуксе можно крутить параметры движка или ставить такие настройки, которых в билдах под шинду нет.
>>434157
Все еще лучше чем предыдущая размерность. Но вероятность поломки растет, с q2 уже лучше не связываться.

Аноним 29/07/23 Суб 18:51:07 № 434219 263

>>434214
>Очевидно что для типичного времяпрепровождения нормиса, у которого более 8 гигов рам, шинда сильно лучше прыщей
Я это не отрицаю.
>В этом нет ничего плохого, но экстраполировать свои субъективные причины, и тем более забывать про них и делать заявления - не надо.
Куда и на кого я экстраполирую? Я сижу дрочу свою консоль и говорю, что по тому что я видел от людей в интернете, амуде более проверенный и стабильный вариант для линукса, чем невидия, всё. Я нигде тут не бегаю и не говорю, что всем надо перейти на линупс. Линупс не нужен всем, особенно обычному пользователю ПК.

Аноним 29/07/23 Суб 19:15:01 № 434247 264

>>434219
> Куда и на кого я экстраполирую
> видел от людей в интернете, амуде более проверенный и стабильный вариант для линукса, чем невидия
Вот это, ерунда, выше уже обсосали. Давай релейтед обсуждать уже

Аноним 29/07/23 Суб 19:16:13 № 434250 265

>>434247
Да не вопрос. Давай, ты ко мне всё вопросами привязываешься. Я лишь отвечаю, выражая свою точку зрения.

Аноним 29/07/23 Суб 20:59:22 № 434390 266

>>434219
> Линупс не нужен всем, особенно обычному пользователю ПК.
…кем ты и являешься, кек.

Но вообще, призываю закрыть тему и отстать от человека.
По существу, он просто так хочет. А желание человека — это вполне реальная и существенная причина лично для него.
Хочет человек хуже, но по каким-то личным его критериям лучше, — пусть будет так. То, что ему здесь не смогут помочь советом, скорее всего, я думаю, он уже понял. =)

Лучше расскажите, че там по РП на сегодня.
Какая 13B модель умеет красиво?
А есть ли, какие умеют на русском?

Я все настроил, доволен, теперь вот с моделями разбираюсь и как карточки в силлитаверне писать, чтобы не ломалось и адекватно чатилось.

Аноним 29/07/23 Суб 21:07:13 № 434398 267

>>434390
>Какая 13B модель умеет красиво?
С настройками как у анона >>426719 и поправленным sampling order согласно рекомендациям самого кобольда (пик) bluemoon перестал нести околесицу. Вообще эти настройки, как я теперь понимаю, гораздо сильнее портят, чем неудачная модель.

Аноним 29/07/23 Суб 21:15:06 № 434402 268

>>434250
Тебе разные люди отвечали если что
>>434390
> Какая 13B модель умеет красиво?
Визард на лламе2 попробуй, пока что единственный приличный на ней, вроде еще несколько вышла, надо затестить. А так платиновый хронос на 1й, только качай самый жирный квант или 32групповую версию, иначе замучает поломками.

Аноним 29/07/23 Суб 21:33:23 № 434433 269

А в чём прикол всяких этих визардово и хроносов, чёт я не вкурил? Почему бы просто llama не пользоваться?
Я на первой пробовал, хроноса, визарда и чисто лламу, она сама лучше их была как по мне.

Аноним 29/07/23 Суб 21:49:28 № 434460 270

>>434433
У тебя простая ллама выдает полотна по 300 токенов в среднем с сочным описанием при том что ты отвечаешь коротко, управляется через (ooc: ) или просто скобками и четко держит разметку?

Аноним 29/07/23 Суб 21:53:24 № 434463 271

> управляется через (ooc: ) или просто скобками и четко держит разметку?
Управление не пробовал, разметку далеко не всегда. Но в целом да. Из того что по другим пробовал, бывало зато содержание хуже.

Аноним 29/07/23 Суб 21:56:02 № 434468 272

>>434463
Можешь примеры показать? С голой лламой там пигма-мем на левдсах и оче странный сторитейл, причем довольно короткий. С файнтюнами в прошлых тредах примеров немало.

Аноним 29/07/23 Суб 21:59:03 № 434475 273

>>434468
Сейчас нет, на днях может быть.

Аноним 29/07/23 Суб 22:21:50 № 434510 274

>>426371
Это с настройками проблема или с самой моделью?

Аноним 29/07/23 Суб 22:35:39 № 434524 275

>>434510
В одном из двух, но ты, гений, ни указал ни первое, ни второе.

Аноним 29/07/23 Суб 22:53:48 № 434548 276

>>434524
Сберовская модель

Аноним 29/07/23 Суб 23:07:39 № 434580 277

>>434548
А, ясно, модель говно, инфа сто сорок шесть процентов.

Аноним 29/07/23 Суб 23:12:54 № 434583 278

>>434548

Аноним 29/07/23 Суб 23:13:48 № 434584 279

>>434548

Лол, не тот скрин прикрепил, вот правильный

Аноним 29/07/23 Суб 23:24:00 № 434596 280

изображение.png 60Кб, 1292x99

>>434583
Хочется убивать.

Аноним 29/07/23 Суб 23:26:23 № 434603 281

>>434596

Это кстати Лама 70В, если что. Сбер лучше по-русски говорит.

Аноним 29/07/23 Суб 23:33:20 № 434622 282

https://huggingface.co/TheBloke/Kimiko-13B-GPTQ
Один из первых (?) файнтюнов второй лламы под ерп, правда сделана на коленке. По крайней мере не ломается, ответы вразумительные средней длины.

Аноним 29/07/23 Суб 23:39:52 № 434634 283

Тест Сберовской сетки

Аноним 29/07/23 Суб 23:42:22 № 434637 284

Так бля забайтили, сейчас буду тестить ее с разными настройками и в кумерстве
>>434634
Ощущение что в первом вопросе проблема перевода

Аноним 29/07/23 Суб 23:45:28 № 434643 285

>>434580
И нахуй я её качал тогда.

>>434584
Это угабуга? Научи настраивать. Тут все дрочат на контекст, а я его вообще в настройках не нашёл.

Аноним 29/07/23 Суб 23:51:33 № 434650 286

Уважаемые аноны, сотоврите сберовскую в ggml, чтобы больше анонов могло погонять её.

Аноним 29/07/23 Суб 23:58:18 № 434654 287

>>434643
>Это угабуга? Научи настраивать.

Прописываешь персонажа >>431631
Включаешь режим чата, в parameters выставляешь пикрелейтед1.
Если хочешь режим инструкций - то выбирай шаблон Альпаки. Пикрелейтед2.

>Тут все дрочат на контекст, а я его вообще в настройках не нашёл.

Сберовскую сеть не заставить работать выше стандартного 2048 контекста.

Аноним 30/07/23 Вск 00:07:06 № 434662 288

что у нас с ламой и другими локалками в плане SFW советника\терапевта?

Аноним 30/07/23 Вск 00:21:16 № 434665 289

>>434402
Ну я его седня как раз качнул, спс.
>>434398
Мутная тема, но пасиба, затраю.
>>434622
Я смотрел, но там размер датасета мелкий был, вроде, я и не стал чо-т.

Аноним 30/07/23 Вск 00:23:31 № 434667 290

>>434654
Спасибо. Не совсем понял на счёт инструкций, потом разберусь. Ебать там шаблонов.

Аноним 30/07/23 Вск 00:23:31 № 434668 291

1533493802185.png 20Кб, 1002x293

1660491673048.png 17Кб, 976x252

1572774162067.png 8Кб, 898x175

1577920728308.png 10Кб, 917x158

Ну блять, это тот еще мазохизм, особенно когда привык к лламе.
В рп очень ломучая (даже с инструкциями не писать за пользователя иногда прорывается а таверну нужно настраивать на русский чат) и склонна делать короткий чатик вместо околосторитейла или отыгрыша. Английские карточки работает, но ведет себе всеравно так себе. Чсх на нсфв карточках сама норовит скатиться в кум, но выглядит это как кринжовый вирт чатик.

>>434662
Смотря что ты ищешь, cuddle милую карточку, что-то простое обсудить или упарываться милотой - вполне. Получать комплексные серьезные ответы на свои проблемы, играть в симулятор вайфу с которой общаешься каждый день и ожидаешь что она будет все помнить - врядли, хотя тут и проприетарные сетки с трудом будут справляться.
Норм файнтюны 30б+ первой лламы хороши, тот же airoboros (особенно 65б). Он же 70б на второй лламе кстати еще лучше будет, если тебе не нужно нсфв.
>>434665
Вторая ллама сама по себе умная, тут как раз бонды отрезать и нужную направленность задать чтобы не тупила. Отпиши по результатам если будешь пробовать.

Аноним 30/07/23 Вск 00:36:26 № 434673 292

>>434650

Боюсь что это невозможно. Чудо что это говно вообще в Убабуге запускается.

Аноним 30/07/23 Вск 00:50:35 № 434679 293

>>434650
сотрудник сбера саси мороженку со вкусом мяса

нахер ваши сетки

Аноним 30/07/23 Вск 08:30:32 № 434955 294

>>434679
Я просто хочу погонять хуйню, которая на русском более менее баазарит, в отличии от остального.

Аноним 30/07/23 Вск 08:52:56 № 434963 295

>>434955
Сконвертируй сам в ggml, в gptq и вроде оригиналы лежат на обнимордах.

Аноним 30/07/23 Вск 09:27:28 № 434977 296

>>434673
Почему? Что там с ней?

Аноним 30/07/23 Вск 10:01:49 № 434984 297

>>434977
что не так с детищем сбера? борда 18+

Аноним 30/07/23 Вск 11:31:41 № 435081 298

>>433649
>хуангу, который в линуксе также хорош как на окнах
В производительность - возможно. В остальном точно нет. Учитывая что линукс это когда вечно ничо не работает и отваливается, нвидия там как раз сосёт.

Аноним 30/07/23 Вск 11:34:50 № 435087 299

>>434634
Бля это самая лучшая нейросеть что я видел, без шуток. Она отвечает как настоящий софист-аутист. Уверенно говорит хуйню, аргументирует это хуйнёй, как будто на дваче общаешься. Ну когда уже ггмл завезут

Аноним 30/07/23 Вск 11:50:06 № 435100 300

>>434634
C 4 пикчи проиграл.

Аноним 30/07/23 Вск 13:35:57 № 435179 301

Решил попробовать сконверить сам сберовскую в ggml, но так как я не бом-бом, то может подсказать кто-нибудь в чём прикол?
Если брать изначальную модель https://huggingface.co/ai-forever/ruGPT-3.5-13B то выдаёт ошибку KeyError: ('torch', 'BoolStorage'), как пишут в интернете это конвертер лламы что-то не хавает, так как какие-то настройки модели ожидает в другом формате.
По модели fp16 https://huggingface.co/Gaivoronsky/ruGPT-3.5-13B-fp16 при попытке сконвертить пишет KeyError: 'transformer.wte.weight', тут уже ничего науглить не смог.

Аноним 30/07/23 Вск 13:39:33 № 435188 302

>>435179
Чел, нахуй ты конвертером ламы жпт-2 квантуешь? Ёбнутый?

Аноним 30/07/23 Вск 13:43:33 № 435195 303

>>435188
Да. Я говорю, что я вообще не шарю в теме. Подскажи как сделать правильно, я попробую.

Аноним 30/07/23 Вск 13:49:40 № 435202 304

>>435179
>может подсказать кто-нибудь в чём прикол?
Прикол в том, чтобы не трогать этот кусок говна.

Аноним 30/07/23 Вск 14:23:14 № 435268 305

>>434955
Воспользуйся костылями-переводчиками в таверне. А вообще лучше учи ангельский и китайский, полезный скилл.
>>435081
Бедный корпоративный сектор, постоянно у них что-то отваливается. Так еще и новидео там сосет, но ее через силу выбирают 80% заказчиков и доля быстро растет.
>>435179
> это конвертер лламы
Сберосеть это не ллама, потому и не работает.
>>435249
Лол тут прямо нужен мем "мы не одинаковы". А вообще если бы она адекватно отрабатывала стоп сочетание, то кому-то подобный микрочатик может и зайдет, даже на слабом железе ответ будет оче быстрый.

Аноним 30/07/23 Вск 14:28:57 № 435280 306

>>435268
>Воспользуйся костылями-переводчиками в таверне. А вообще лучше учи ангельский и китайский, полезный скилл.
Не, с английским у меня всё неплохо, разве что ограничевает мой словарный запас. Я именно просто хочу русскую хуйню погонять, посмотреть как оно.
>Сберосеть это не ллама, потому и не работает.
Я просто думал, что оно будет из всякого говняка в ggml конвертить. Пойду тогда дальше интернеты курить.

Аноним 30/07/23 Вск 14:30:18 № 435282 307

>>435195
>>435179

Боюсь что пока в ggml не добавят поддержку этой модели - единственный способ её запустить на проце - это запускать неквантованную модель с тегом --cpu. Жрет эта срань 50 гб рам и работает со скоростью черепахи(а ты думал, чего все так герыча боготворят)

Возможно можно квантованную в 8 бит версию запустить, чтобы влезла в 32 гб, буду пробовать.

Аноним 30/07/23 Вск 14:35:07 № 435291 308

>>435280
> ограничевает мой словарный запас
Как раз повод его улучшить, хоть какая-то польза.
> посмотреть как оно
кринжово
>>435282
Лоад ин 8 бит?

Аноним 30/07/23 Вск 14:37:08 № 435297 309

>>435268
>А вообще если бы она адекватно отрабатывала стоп сочетание, то кому-то подобный микрочатик может и зайдет, даже на слабом железе ответ будет оче быстрый.

Можно в настройках поставить галочку "Stop generating at new line character". Отлично режет хуйню, забивающую весь отпущенный лимит токенов типа этой >>435282

Аноним 30/07/23 Вск 14:39:01 № 435303 310

>>435297
А теперь попроси ей дать тебе какой-нибудь список или описать что-то, у нее и так не очень с форматированием.

Аноним 30/07/23 Вск 14:41:36 № 435307 311

>>435303

Тогда галочку придется снять, лол

Аноним 30/07/23 Вск 14:50:16 № 435317 312

>>435291
>Лоад ин 8 бит?

А толку если сама модель не квантована? Жрет те же 50 гб, я пробовал.
Нет, тут речь идет про запуск вот этих квантованных в 8 бит моделей.
https://huggingface.co/pe4enov/ruGPT-3.5-13B-8bit
https://huggingface.co/Gaivoronsky/ruGPT-3.5-13B-8bit

Вторая многообещающая, должна грузится в AutoGPTQ(что будет быстрее) и весит всего 13.4 гб, т.е. влезет в 16 гб оперативы, что будет достаточно каждому. Как скачаю - отпишу.

Аноним 30/07/23 Вск 15:19:12 № 435359 313

>>435317
>Вторая многообещающая, должна грузится в AutoGPTQ(что будет быстрее) и весит всего 13.4 гб, т.е. влезет в 16 гб оперативы, что будет достаточно каждому. Как скачаю - отпишу.

Хуй там плавал, не грузится она в цпу когда квантованная в автогпт формате. Зато в видеокарту грузится, и по идее за счет меньшей квантованности дает лучший результат при лучшей скорости. Для себя буду использовать эту версию вместо 4-битной.

Аноним 30/07/23 Вск 15:19:18 № 435360 314

Видали? Вторую ламу 7B можно в колабе файнтюнить.
https://youtu.be/LslC2nKEEGU

Аноним 30/07/23 Вск 15:30:37 № 435384 315

>>435360
Через qlora или другая метода? В коллабе 16гб врам или 12?

Аноним 30/07/23 Вск 16:59:05 № 435488 316

Минутка юмора

Аноним 30/07/23 Вск 17:29:32 № 435540 317

>>435384
>Через qlora или другая метода?
Autotrain, обнимордовская либа для файнтюна.
>В коллабе 16гб врам или 12?
16 скорее всего, вряд ли у этого чувака бесплатный колаб. Он там говорит, что и локально можно.

Аноним 30/07/23 Вск 17:45:59 № 435570 318

>>435280
Короче попробовал ещё пару скриптов, нихуа.

Аноним 30/07/23 Вск 18:26:00 № 435623 319

https://youtu.be/lbFmceo4D5E

Аноним 30/07/23 Вск 18:57:24 № 435686 320

>>434984
Блять чел, это понятно, я имел в виду именно технический аспект. Что там за супер-говно внутри, которое (по утверждению анона) даже в угабуге запускается только благодаря Божьей милости?

Аноним 30/07/23 Вск 19:14:21 № 435727 321

>>435686

Там gptj внутри, но не лама, а большинство тулзов - llama.cpp, exllama сделано под ламу и их создатели слишком срали на эту местечковую модель русских чтобы обновлять свои тулзы под нее, а разработчики сбера сами не сделали пул-реквест у этих тулзов с поддержкой своей модели.

Аноним 30/07/23 Вск 19:19:38 № 435731 322

>>435570

Естественно нихуя, именно потому что квантованные модели нельзя было запустить на цпу герыч и сделал llama.cpp.
Надо сделать форк llama.cpp, самому внести изменения, затем создать пулреквест чтобы герыч его инкорпорировал.

Аноним 30/07/23 Вск 19:39:04 № 435741 323

>>435727
Вопрос лишь в том - нахуя они выкатили модель в опенсорс и не пытаются ничего с ней сделать или стандартизировать?

Аноним 30/07/23 Вск 19:41:11 № 435746 324

>>435727
>>435731
Это не к герычу надо, а к кобольдцпп, он поддерживает кучу моделей на базе gptj, так что вполне возможно, что и сперммодель можно будет добавить парой строчек.
Кому надо, создавайте ишью, авось сделают. Мне сперммодель даром не упала, смысла в ней ноль, как и в общении на русском с нейросет очками.

Аноним 30/07/23 Вск 19:41:52 № 435747 325

>>435741
Как нахуя? Показуха, инфа сотка. Модель юзлесс по определению, но глубинный народ схавает.

Аноним 30/07/23 Вск 19:44:50 № 435749 326

>>435747
Ну не, показуха была у яндекса. Тут вполне реально запускать на реальном железе, просто нужны костыли. Судя по комментам на хабре у них там люди понимаю что такое кобольды с угабугами.

Аноним 30/07/23 Вск 19:44:52 № 435750 327

>>435746

Чел, сначала надо чтобы модель конвертировалась в ggml, с этим как раз к герычу. Кобольд к твоему сведению это лишь умная оболочка для ллама.cpp с дополнительными перделками.

Аноним 30/07/23 Вск 19:50:24 № 435756 328

>>435747
>Модель юзлесс по определению

Тамщето нет, не юзлесс. Лучшая пока модель на русском языке. Даже 70В лама2 хуевато говорит по-русски, пример >>434583 На обнимающих мордах уже первые Лоры для ругпт готовы, так что её еще и дообучить можно под свои задачи. Вижу потанцевал с интеграцией в разные чатботы в телеге и т.д.

Аноним 30/07/23 Вск 20:11:11 № 435777 329

>>435749
>Ну не, показуха была у яндекса.
Это тоже.
>>435749
>Судя по комментам на хабре у них там люди понимаю что такое кобольды с угабугами
Именно. Понимают, что 100% сосут у лламы, но всё равно делают. Говорю же, показуха и распил бюджетов.
>>435750
>Кобольд к твоему сведению это лишь умная оболочка для ллама.cpp
Это форк лламы.цпп, если быть совсем душным. Но ЕМНИП поддержки всяких gpt4chan пилил не герганов.
>>435756
>Лучшая пока модель на русском языке.
Так это ничего не даёт. Хули толку от русского, если сама модель говно говна?
>>435756
>Вижу потанцевал с интеграцией в разные чатботы в телеге и т.д.
Потанцевал там у турбы от оленьАи, лол. Она в русском ебёт все открытые проекты вместе взятые.

Аноним 30/07/23 Вск 20:30:24 № 435788 330

Попробовал вашу убубугу. После Кобольд.cpp это какая-то шляпа в плане отзывчивости и юзер экспириенса.

1. Почему у нее примерно раз в час перестает работать кнопка Generate? Остальные кнопки работают, F5 в браузере не помогает, помогает только перезапуск всей убабабуги с потерей контекста. Предполагаю, что проблема в gradio и сокетах, но как с этим вообще жить?

2. Почему-то у меня кнопка Regenerate всегда генерирует ровно тот же самый ответ, хотя я вижу что в llama.cpp был другой Сид у этих запросов. (Exllama вроде не поддерживает генерацию на CPU, поэтому ее не тестил)

3. Есть ли ещё интерфейсы где есть реализация silero tts? Silly tavern более отзывчивая?

Аноним 30/07/23 Вск 20:41:57 № 435808 331

>>435749
>Ну не, показуха была у яндекса.
Почему? Так дорого стоит железо крутануть 100В?

Аноним 30/07/23 Вск 20:55:47 № 435819 332

>>435808
Как минимум уровень выше любого бытового.

Аноним 30/07/23 Вск 20:58:59 № 435828 333

>>435731
Так челы же конвертят модели в ggml формат и из GPTQ и стандартный pytorchевские, я ставил, скачивал скрипты, пробовал, с этой моделью не ебётся.

Аноним 30/07/23 Вск 21:01:12 № 435832 334

>>435777
>Именно. Понимают, что 100% сосут у лламы, но всё равно делают. Говорю же, показуха и распил бюджетов.
Не на 100%, наприм ллама так в русек и не может нормлаьно. И это не повод не пытаться что-то своё делать. Давайте нахуй все свои производства на китайские заменим, вот заживём.

Аноним 30/07/23 Вск 21:02:49 № 435837 335

>>435788
>Попробовал вашу убубугу. После Кобольд.cpp это какая-то шляпа в плане отзывчивости и юзер экспириенса.
Я её вообще на свой линупс нормально поставить не смог, слишком много со всем ебаться надо... В кобольде же просто поставил, скомпилял и радуйся.

Аноним 30/07/23 Вск 21:05:00 № 435846 336

>>435788
Аналогичная ситуация. Угабуга хороша для разных типов моделей. Сейчас добрая часть моделей ддо 32гб рам уже сконверчена под кобольда (да и 70б тоже), а прочие модели ну рано или поздно будут, и каждую из них нету времени тестить по мере выхода.
Кобольд хорош для долгих простыней с нуля, но уже не хватает фичей для работы с разными типами моделей с разными типами инпута инструкций. И тут уже хороша становится таверна. Там есть профили.
1) не живи, юзай таверну.
2) аналогично
3) ТАверна заточена под персонажей, она форсит добавление дополнительных слов к карточкам персонажа типа "персонаж должен говорить во так" Но, разобравшись, она становистя лучше. У нее есть добавление типов диалогов, стори с уже готовой разметткой. А слишком серьезный фантюн твоег опромта не нужен по сути.
Еще у нее еще есть нормальынй профилер для декодеров (если я не ошибьаюсь с термином, может это семплеры. Они отвечают за правила выбора слов (токенов) по вероятности из базы). Я для себя выбрал Godlike, рабоатет на второй ламе хорошо очень.(Под себя можно варировать темпеературую. Вероятно у тебя ответы одинавковые могут быть или от того что эти семплеры не так настроены для конкретной твоей модели. Или не настроена правильно разметка для интрукций. Читай документацию на хаггинфейсе, TheBloke как правило дает верную инфу в описании модели, иши аналогичную и пробуй разыне, пустые (для моделей-чатов) Для ламы новые типы инструкций уже есть в таверне, но их надо допилить стоп словами разметки.
Ну иногда таверна у меня отключается от кобольда, но это не критично.

Аноним 30/07/23 Вск 21:09:24 № 435854 337

>>435832
>И это не повод не пытаться что-то своё делать. Давайте нахуй все свои производства на китайские заменим, вот заживём.
Так основные проблемы этой страны в /po/плане, так что никакая возня в других сферах не имеет никакого смысла без исправления в сфере правления. А политику обсуждаем не на этой доске.
Вот и выходит, что в сверПотугах обсуждать нечего.

Аноним 30/07/23 Вск 21:10:31 № 435859 338

>>435777
>Так это ничего не даёт. Хули толку от русского, если сама модель говно говна?

А хуле толку от хороших моделей если они в русский не могут?

>Понимают, что 100% сосут у лламы, но всё равно делают. Говорю же, показуха и распил бюджетов.

Ты дурачок, наверное, раз не понимаешь, что использовать лламу они не могут из-за её лицензии, вот и пилят аналоговнеты.

>Потанцевал там у турбы от оленьАи, лол. Она в русском ебёт все открытые проекты вместе взятые.

А, собакошиз. Сразу не признал. Когда ты съебешь уже из нашего треда, раз не можешь до сих пор не понимаешь разницы между открытыми локальными нейронками и закрытыми онлайновыми?

Аноним 30/07/23 Вск 21:12:59 № 435864 339

>>435859
>А хуле толку от хороших моделей если они в русский не могут?
В 2023 английский должен знать абсолютно каждый. Тем более что кумерить на русском - это просто лютый кринж.

Аноним 30/07/23 Вск 21:14:13 № 435870 340

Я вот подумал, реально ли обучить модель на ограниченном количестве данных, чисто чтобы понимала русский, без овердохуя знаний и понимания философских концепций? Понятное дело, что при сложных вопросах будет галюцинировать, но в теории возможно? Суть идеи в компактной относительно русскоговорящей сетке, которую потом доучить только на нужные темы, без парсинга всея интернета. Та же сберовская сеть очень толстожопая, а умеет только в ругань. И то без огонька.

Аноним 30/07/23 Вск 21:15:09 № 435874 341

>>435846
>Для ламы новые типы инструкций уже есть в таверне, но их надо допилить стоп словами разметки.
Подожди, что? А таверне можно и нужно прописывать разные виды разметки промпта типа <System> <Assistant> Assistant: и т.д.? А где? Я чувствую, что у меня может быть шляпа с этим.

Аноним 30/07/23 Вск 21:15:13 № 435875 342

Я тут подумал, а если купить майнинг ферму и на ней тренить нейросетки?

Аноним 30/07/23 Вск 21:15:23 № 435876 343

>>435859
>А хуле толку от хороших моделей если они в русский не могут?
В русег умеет GPT3 и выше. К четвёрке у меня вообще претензий нет, кроме токенайзера.
>что использовать лламу они не могут из-за её лицензии, вот и пилят аналоговнеты
Но ведь ллама2 можно использовать в коммерции...
>А, собакошиз. Сразу не признал.
Потому что ошибся, лол.
>раз не можешь до сих пор не понимаешь разницы между открытыми локальными нейронками и закрытыми онлайновыми?
Ты бы хоть предложения научился согласовать, лол.
>>435860
Двигаться нужно в сторону исправления /po/, я же написал. А в штаны срёшь тут только ты.

Аноним 30/07/23 Вск 21:18:18 № 435885 344

>>435870
>Та же сберовская сеть очень толстожопая
13B это минимум, чтобы не срать в штаны.
>>435874
А то. Только там всё равно идёт добавки всякого говна.
>>435875
Покупай, в чём проблема то. Но при трейне нужен более быстрый коннект между картами, нежели чем PCI-E 1.0х1, так что тут придётся пососать.

Аноним 30/07/23 Вск 21:24:37 № 435902 345

>>435864
>В 2023 английский должен знать абсолютно каждый
Нахуя, а главное с какой целью. Какое-то заметное количество годного контента есть только на японском. Разве что ты кодомакака и тебе по долгу службы надо читать доки и стаковерфлоу.

>Тем более что кумерить на русском - это просто лютый кринж.
Я уверен, что это только поначалу и с непривычки. Так же, как и со многими другими вещами.

Аноним 30/07/23 Вск 21:33:19 № 435918 346

>>435540
Хм, интересно, обычно раньше кулорой тренили как щадящий к железу способ. Попробовать дообучить чтоли, насколько 7б модель для специфичного ерп слаба?
>>435727
Хоть кто попросит, наличие ллама в названии какбы намекает. Хочешь универсальности - трансформерз и auto-gptq помогут. Возможно можно кобольдом ggml старой версии покрутить еще, но современные слишком под лламу заточены, емнип.
>>435741
Причин множество, а ччего ты ожидал? Реакция кумерков им врядли интересна, а кто может вклад внести - найдет как запустить.
>>435747
Да не, лучшая пре-ллама2 рускоязычная модель общего применения. Можешь арендовать что-нибудь пожирнее и 13б лламу 2 русским зафайнтюнить. Вот только их датасет в одиночку брать не надо, это из-за него лезут политические статьи и кринжовый чатик.
>>435777
> показуха и распил бюджетов
Таблетки.
И очевидно что ее выбросили в общий доступ не ради любви к опенсорсу а скорее подогреть интерес перед релизом большой модели, которую в ближайшее время не откроют а на эту уже забили или переделали.

Аноним 30/07/23 Вск 21:33:47 № 435920 347

>>435788
1. Терять контекст не обязательно, экспортни-импортни, в чем проблема?
2. Модель какая? 13Б?
3. Генерация голоса у нас есть в Убабуге и в СиллиТаверне-экстрас.
И там, и там работает норм.

Аноним 30/07/23 Вск 21:34:25 № 435923 348

>>435901
>70В лама2
Чел, GPT3 и llama это разные модели, и общего там только трансформенная архитектура.
>>435901
>Ругпт создали и выпустили до второй лламы, клоун.
Ну и нахуя? Вот вышла вторая ллама, и всё, ругпт потеряла всякий смысл, и электроэнергию они потратили зря.
>потому что ты русофоб
Главный русофоб сидит на троне, лол, так что ты мимо.
>и тебя уже забанить надо,
От меня пользы на доске больше твоей, инфа сотка.
>>435902
>Какое-то заметное количество годного контента есть только на японском.
Что ты несёшь? 80% интернета на инглише, остальное на кетайском, который уж точно никто учить не будет.
На япе только маняме и новелки, в которые без перевода играть не выйдет, ибо если на слух яп ещё можно выучить я процентов 90 без сабов понимаю, то письменный японский ну его нахуй.
>>435905
Молодец. Себя тоже зарепорть.
>>435908
У тебя в башке насрано, очевидно же. Я обсираю сберовскую модель лишь потому, что она говно. А страна происхождения это причина того, что модель говёная, точнее, политика этой страны.
Впрочем, я с тем же успехом могу обсирать пигму и её файнтюны, потому что они такое же говно, и вообще всё, основанное на форках GPT2, потому что да, говно с рождения.

Аноним 30/07/23 Вск 21:35:37 № 435924 349

>>435908
А нахуя ты тащишь спермовскую модель в ллама тред? Не тащи, и никакого бугурта не будет. У треда тема чётко определена.

Аноним 30/07/23 Вск 21:36:01 № 435926 350

>>435837
А если ставить через инсталлер, хоть у них и везде написано, что оно работает с амуде на линухе, то по факту посылает на хуй.

Аноним 30/07/23 Вск 21:36:16 № 435927 351

>>435885
>13B это минимум
Я к тому, что ей скормили много говна, того, что мне лично никогда не пригодится, например. И весит она много, мне кажется, из-за этого. Вот бы шуструю модельку, которая пусть не будет супер умной, зато без говняка. Потом вкорячить какой-нибудь механизм, чтобы вместо галюцинаций выдавало что-то типа "сложный вопрос", "загугли" и "я не знаю".

Аноним 30/07/23 Вск 21:39:20 № 435929 352

>>435902
>Нахуя, а главное с какой целью.
Ты серьезно это спрашиваешь? Английский - это международный язык, на нем буквально все. Даже переводы в первую очередь делают именно на английский.
>Какое-то заметное количество годного контента есть только на японском
Японский я тоже знаю. Контента на нем много, но не надо пиздеть, что такое же количество как на английском.
>Я уверен, что это только поначалу и с непривычки. Так же, как и со многими другими вещами.
Возможно.

Аноним 30/07/23 Вск 21:40:56 № 435933 353

>>435788
> После Кобольд.cpp
Ты пользовался ванильним интерфейсом кобольдц++? Серьезно? И считаешь что он лучше хубыбубы? Суров нейроанон двачей, ничего не скажешь.
> Regenerate всегда генерирует ровно тот же самый ответ
Выбрал пресет детерминистик и залочил сид.
>>435846
> Угабуга хороша
Для лламы, ибо позволят удобно запускать экслламу, лламус++ и юзать их в любым фронтом по желанию.
> фантюн твоег опромта
Вау
>>435870
Кидали видео о том как дообучить на нужный язык. Плюс модель изначально его знает, пусть и плохонько, все остальные свойства сохранятся. Дообучение конкретной теме тоже работает.
> сберовская сеть очень толстожопая
13б это считай минимальное что можно использовать и страдать не очень сильно, что там с лламой 2 хз.

Аноним 30/07/23 Вск 21:43:48 № 435941 354

>>435927
Тогда держи на 410M, лол
https://huggingface.co/concedo/FireGoatInstruct/tree/main
Правда она только для порнухи, но зато для своего размера неплохо складно складывает буквы (на инглише естесвенно).

Аноним 30/07/23 Вск 21:43:48 № 435942 355

>>435923
>80% интернета на инглише
80% от этих 80% не представляют собой ничего интересного. Какой нативный развлекательный контент производится сегодня на английском? Нетфликс? ЕА, Юбисофт? Марвел? Даром не нужны.

>На япе только маняме и новелки
Больше ничего и не нужно. Все более-менее пристойного качества кумерские дрочильни тоже на японском, кстати.

>ибо если на слух яп ещё можно выучить
>то письменный японский ну его нахуй
Сразу видно дивана.

Аноним 30/07/23 Вск 21:45:31 № 435944 356

>>435808
Тут 70B не все запускают. Самые основные сетки 7 и 13 так как работают на большинстве железок. С хорошим железом 33 адекватную скорость выдаёт. А те кто покупает две 3090 и две 4090 это один на тысячу таких аутистов

Аноним 30/07/23 Вск 21:45:50 № 435945 357

>>435926
Нажмите БЭ
Жмёт ДВА

Аноним 30/07/23 Вск 21:46:03 № 435946 358

>>435942
>Даром не нужны.
>Мне не нужна значит никому не нужна
>>435942
>Сразу видно дивана.
Чел, у меня почти 900 тайтлов, диван пропержен за время просмотра до дыр и заменен новым, несколько раз.

Аноним 30/07/23 Вск 21:46:37 № 435947 359

>>435945
АХАХАХА Признаю, я еблан.

Аноним 30/07/23 Вск 21:49:01 № 435951 360

>>435946
>Чел, у меня почти 900 тайтлов
Нахуя столько говна поел? У меня где-то в районе 550 и очень сложно это есть. Только единичные какие-то выцепляю очень редко.

Аноним 30/07/23 Вск 21:49:07 № 435953 361

>>435923
> нахуя
> потеряла всякий смысл, и электроэнергию они потратили зря
Типикал эксперт во всех отраслях.
Если хочешь начать новую тему - для начала полноценно разберись в том что уже есть, а оттуда до катинг эджа совсем близко, а накопленный опыт и поднятые вопросы как раз не него и закинут. Это они и делали. Так что выложили - молодцы, лучше чем если бы не выкладывали. Другое дело что модель явно не самая свежая, зеленая контора просто так актуальным продуктом делиться не будет.
>>435927
> И весит она много, мне кажется, из-за этого
Стандартный вес 13б модели, зависит только от размера.

Аноним 30/07/23 Вск 21:55:13 № 435966 362

>>435929
>Английский - это международный язык, на нем буквально все.
Сегодня на нём в основном безвкусная жвачка.

>Контента на нем много, но не надо пиздеть, что такое же количество как на английском.
Никто не говорит про такое же количество - на японском годного контента сегодня явно больше.

>>435946
>>Мне не нужна значит никому не нужна
Тебе просто надо было немного изменить формулировку:
>В 2023 английский должен знать абсолютно каждый нормис
Тогда вопросов бы не было.

>Чел, у меня почти 900 тайтлов, диван пропержен за время просмотра до дыр
Прекрасно. А сколько сотен часов в анках? Сколько карточек с иероглифами? Сколько прочитано учебников?

Аноним 30/07/23 Вск 21:56:11 № 435970 363

>>435951
>Нахуя столько говна поел?
Потому что нравится. Потому что шины не найти без ковыряния в говне. И шины для каждого разные, поэтому нет, списки шинов не помогут.
>>435953
>Типикал эксперт во всех отраслях.
Программист, проф искажение такое.
>а оттуда до катинг эджа совсем близко, а накопленный опыт и поднятые вопросы как раз не него и закинут
Для рывка не хватит ресурсов и людей, опытные люди утекают заграницу, и именно по этому я считаю дроч сберовскими моделями бесполезным.
>Другое дело что модель явно не самая свежая, зеленая контора просто так актуальным продуктом делиться не будет.
Почему ты считаешь, что у них есть более свежая модель?

Аноним 30/07/23 Вск 21:57:55 № 435975 364

>>435970
Я раньше тоже так ел. Сейчас если не заходит обычно в первых сериях, то просто дропаю. Ну и многие анимы не смотрел, потому как мангу прочитал и смотреть после этого лень.

Аноним 30/07/23 Вск 21:58:48 № 435978 365

>>435933
>как дообучить на нужный язык
Так у тебя в модели же куча треша остаётся, нет? Обучать до посинения, пока забудет всю хуйню?
>>435941
Английская порнуха? Ну нахуй.
>>435953
>Стандартный вес 13б модели
Я только вчера вкатился и уже видел 13б модели от 5 до 15 гб.

Аноним 30/07/23 Вск 21:59:25 № 435980 366

>>435945
>>435947
К слову, с выбором данной опции амуде он зачем-то пытается поставить куду.... На что получается соответсвтенно жидки обсёр.

ai/oo/oobabooga_linux/installer_files/env/lib/python3.10/site-packages/bitsandbytes/cuda_setup/main.py", line 311, in get_cuda_version
major, minor = map(int, torch.version.cuda.split("."))
AttributeError: 'NoneType' object has no attribute 'split'

Аноним 30/07/23 Вск 21:59:32 № 435981 367

>>435966
>Сегодня на нём в основном безвкусная жвачка.
Ты скозал?
>>435966
>А сколько сотен часов в анках? Сколько карточек с иероглифами? Сколько прочитано учебников?
Я еблан что ли, дрочить местечковый язык мелкой страны, в которой меня на порог не пустят, а если и пустят, то будут считать недочеловеком?
Что выучилось само, то и знаю, ни строчки учебников не читал.
Вот инглиш дрочил, да, потому что на нём во многих странах не пропасть, даже в жапонии, хотя они любят стебаться над своим знанием английского.

Аноним 30/07/23 Вск 22:03:25 № 435989 368

>>435975
Я достиг просветления, что если есть говно, то потом шин будет в два раза вкуснее.
>>435978
>Обучать до посинения, пока забудет всю хуйню?
Проще будет с нуля, только сил не хватит.
>Английская порнуха? Ну нахуй.
Весьма весело на самом деле.
>Я только вчера вкатился и уже видел 13б модели от 5 до 15 гб.
Чел, ты не вник в квантование. Стандартный размер 13B модели в 16 битах это 24 гига, так то. А квантовать можно хоть до посинения, но это влияет на все знания сразу.

Аноним 30/07/23 Вск 22:04:15 № 435991 369

>>435981
>Ты скозал?
Именно так. Напомню, кстати, что ты скозал точно так же, как и я.

>Что выучилось само, то и знаю, ни строчки учебников не читал.
Ну вот и всё. О каких тогда 90% речь?

Аноним 30/07/23 Вск 22:04:51 № 435993 370

>>435970
> не хватит ресурсов и людей
Хватит, если будет время и достаточное финансирование. Пока разберутся как раз с тем самым "бесполезным дрочем" - команда и сформируется, плюс появятся опыт в области, поднимется много вопросов которые решат и т.д. Это база, если полезешь в область где дефецит кадров со специализацией (а это весь аи по сути) то это единственный путь, поднимешься выше мидла в чем-то не попсовом - осознаешь. А так - даже будучи Маском просто так быстро не соберешь всех топовых обученных и готовых к работе в текущей команде спецов, всеравно долгий разогрев будет даже с огроменным бюджетом.
> Почему ты считаешь, что у них есть более свежая модель
Регулярно бухаю с работягой зеленой конторы, нет оснований не верить. Плюс, у них сейчас уже новый парк гпу-серверов, а та модель тренилась на древности.

Аноним 30/07/23 Вск 22:06:18 № 435996 371

>>435978
> куча треша остаётся
Останется предубеждение, например соя если ее было много, и общие знания. Ей не нужно ничего забывать, только подтянуть способности в языке и все. Тут скорее как бы не появился треш от обучения.
> 13б модели от 5 до 15 гб
Про квантование слышал?

Аноним 30/07/23 Вск 22:08:56 № 436005 372

>>435978
> Я только вчера вкатился и уже видел 13б модели от 5 до 15 гб.
Ты говоришь исключительно про неквантованные pytorch_model.bin?
Или ты говоришь про одни и те же модели, одинакового веса, которые квантованы по-разному и имеют разный вес из-за этого?
Так это и внутри одной модели так же. От 3 до 30.

Аноним 30/07/23 Вск 22:11:22 № 436015 373

>>435991
>Напомню, кстати, что ты скозал точно так же, как и я.
?
> О каких тогда 90% речь?
Об обычных. Забыл как-то кинуть сабы на телефон да посмотрел пару серий без них в транспорте, понял вышеозначенную цифру. Пересмотрел половину одной серии, понял бесполезность и то, что моих знаний достаточно для просмотра аниме без перевода, забил.
>>435993
>Хватит, если будет время и достаточное финансирование.
Чел, я могу повторить, что пока в стране проблемы с /po/, то никакие вливания не помогут просто потому, что спецы с мозгами ценят безопасность и комфорт выше зряплаты, и как только набирают достаточно опыта, тут же линяют туда, где им его могут обеспечить. Так что сбер работает на обеспечение спецами того самого Маска, он как раз набирает команду на свой ТрешАИ.
>>435993
>Плюс, у них сейчас уже новый парк гпу-серверов, а та модель тренилась на древности.
А ты уверен, что его можно взять и запустить без разрешения барина?

Аноним 30/07/23 Вск 22:15:19 № 436032 374

>>435993
Я из спора поддержу этого чела.

Не, модель Сбера — не фонтан, конечно, в сравнении.
Но давайте будем честны — если бы вам ее выкатили год назад, вы бы сразу ее говном окрестили? Нет, жрали бы за обе щеки и охуевали от охуенности.

Ни Сбер, ни Яндекс не выкладывали ради показухи, тут вы оба ошибаетесь. Это обычный опенсорс, когда сделал что-то, оно не нужно, но понтануться хочется, выкладываешь людям поиграться. Из этих поиграться могут появиться новые спецы.

Не то чтобы прям все бегут из России за бугор и спецов не хватает. Дефицит есть, но не такой уж жестокий.

Но в остальном, да. Сбер — хорошая IT-компания, деньги есть, спецы плюс-минус есть. Я охотно верю, что они там обучают вторую версию, как и Яндекс свой YALM2 делают (кстати, Yet Another = YAndex) и уже в Алисе оно есть.
Да, естественно они будут отставать в общем от Меты, ОАИ, ХАИ, Гугла.
Но, ближайшее время в русском они будут лучше.
И успехи будут, просто не такие охуенные.

Вообще, не понимаю причины срача, норм модельки, без цензуры, старая, кривая, ржачная. Делают — молодцы, главное, шо бы в опенсорс выкладывали.
Че сраццо.

Аноним 30/07/23 Вск 22:17:04 № 436037 375

>>436015
>?
Уровень твоей аргументации пока описывается тем же самым "яскозал".

>Забыл как-то кинуть сабы на телефон да посмотрел пару серий без них в транспорте, понял вышеозначенную цифру
Ты неправильно посчитал, либо додумал по интонации, обрывкам фраз, отдельным знакомым словам и т.д. Обычная тема, заходи к нам в /фл в японотред, там тебе расскажем об этом феномене. Ты такой не первый, поверивший в себя.

Ну и потом, что за аргументы такие:
>то письменный японский ну его нахуй
Я не осилил = никто не осилит?

Аноним 30/07/23 Вск 22:17:29 № 436039 376

>>436015
> А ты уверен, что его можно взять и запустить без разрешения барина?
Эт шиза, без обид.
1. Незнание IT-кухни.
2. Незнание полит-кухни.
Типа, смотреть ты смотришь, а участвовать не участвовал ни там, ни сям.
Впрочем, не думаю, что тебя кто-то здесь переубедит.
Попробуй набраться опыта — поучаствуй в сферах, о которых говоришь, например.

Аноним 30/07/23 Вск 22:19:21 № 436044 377

>>436015
> пока в стране проблемы с /po/
Именно потому что есть области в которых работают, местами за счет грамотного планирования, а где-то вопреки высокому начальству - долбоебам, все и держится. У тебя мозг политотой забит и ты не можешь разделять разные темы которые друг другу не противоречат, как у нейронки байас, лол.
> что его можно взять и запустить без разрешения барина
Кекус максимус, внатуре таблетки пей

Аноним 30/07/23 Вск 22:23:44 № 436062 378

>>436037
>Ты неправильно посчитал, либо додумал по интонации, обрывкам фраз, отдельным знакомым словам и т.д. Обычная тема, заходи к нам в /фл в японотред, там тебе расскажем об этом феномене. Ты такой не первый, поверивший в себя.
Мне кажется за 900 тайтлов с сабами можно большую часть речи в аниме понимать, особенно, если там что-то повседневно простое или дебильный сёнен. Я со своими ~550 тайтлами с сабами на слух в районе трети могу понимать.

Аноним 30/07/23 Вск 22:25:41 № 436071 379

>>436032
>Не, модель жигулей — не фонтан, конечно, в сравнении.
>Но давайте будем честны — если бы вам ее выкатили 70 лет назад, вы бы сразу ее говном окрестили? Нет, жрали бы за обе щеки и охуевали от охуенности.
Чё еще придумаешь?

>Ни Сбер, ни Яндекс не выкладывали ради показухи
Только ради этого и выложили + в надежде, что им их "попенсорс" лошки нахаляву допилят, как вон стабл и лламу. Но, беда пришла откуда все знали - лошки все на стройках и окопах, а кодить они почему-то не умеют. И вот, приходится теперь отробатывать по самым гнилым и злачным местам "а давайте принесем на драч, может там взлетит!". Нет, не взлетит.

>Вообще, не понимаю причины срача
У тебя просто лицо все в говне, рот в говне, глаза в говне, руки в говне, ты привык уже. Тут срача-то нет никакого, ты принес кусок говна и его все назвали говном, почему тебя,копрофила, это вообще задело?

Аноним 30/07/23 Вск 22:26:09 № 436073 380

>>436032
> если бы вам ее выкатили год назад
Пол года, да даже 4 месяца назад во времена релиза первой лламы - облизывали бы и уплетали за обе щеки. Год назад - был бы уже фурор ввиду слабого развития даже топовых комерческих ллм.
Дефициты, побеги и прочее есть, но не отменяют работы и результатов. Там обитают литерали наносеки, которые насмехаются над типичными спорщиками в политоте, ибо текущие условия хороши а при необходимости быстро найдут себя в другой кампании или за рубежом. Когда нет необходимости оправдываться перед собой и в итоге отстаивать какую-то сторону вместо простой оценки - жизнь сразу становится проще.

Аноним 30/07/23 Вск 22:27:44 № 436075 381

>>436071
На /po/рашу съеби уже, а то скоро национальную принадлежность твою угадывать начнут.

Аноним 30/07/23 Вск 22:28:54 № 436076 382

>>435989
>только сил не хватит
Вот это и печалит. Та же сберовская не помещается в 12 гб и кочует в ram, а при этом скорость уже отсутствует. А х090 у меня нет.

>не вник в квантование
Да, тут беда. Осознал, проникся.
>>435996
Я читал, что нейронка начинает забывать, что знала, если переучивать.
>треш от обучения
Хуй знает, если нет суперкомпьютера, ты же будешь тщательно подбирать, что ей скармливать.
>>436005
Разные модели, но видимо да, квантование тоже разное. Тут моя вина.

Аноним 30/07/23 Вск 22:29:44 № 436078 383

>>436032
>Это обычный опенсорс, когда сделал что-то, оно не нужно, но понтануться хочется
Поправка: это не обычный опенсорц, а говёный корпоратский опенсорц. Обычный - это, например, разработка лламцпп, кобольдов и прочей оснастки. Даже если кто-то поднимет платный сайт с таверной, это будет в плюс для коммюнити.

Аноним 30/07/23 Вск 22:30:09 № 436079 384

>>436037
>Ты неправильно посчитал, либо додумал по интонации, обрывкам фраз, отдельным знакомым словам и т.д. Обычная тема, заходи к нам в /фл в японотред, там тебе расскажем об этом феномене. Ты такой не первый, поверивший в себя.
Ты такой охуенно умный, что даже слово https://ru.wikipedia.org/wiki/%D0%90%D0%BD%D1%82%D0%B8%D1%86%D0%B8%D0%BF%D0%B0%D1%86%D0%B8%D1%8F не знаешь. Давай я на тебя поссу вместо него. Для просмотра маняме действительно не нужно особого перевода, ведь там примитивные сюжеты и примитивные шаблоны, с которыми более-менее взрослый и развитый человек уже и так довно знаком. Чтобы смотреть штампованную хуйню и антиципировать её содержание - достаточно просто не быть долбоебом сидящим в /фл в японотреде и дрочащим на то, про тайоту киа пошутил главный герой ил про тайоту риа. На самом деле это была тайота лиа. Смотри, я сценарист твого маняме. А ты? Ты просто жалкое уебище.

Аноним 30/07/23 Вск 22:32:09 № 436089 385

>>436075
>На /po/рашу съеби уже, а то скоро национальную принадлежность твою угадывать начнут.
А может тебе туда съебать со своим сберговном, чмоня? Есть русские файнтюны лламы, которые превосходят эту кривую порашу. Почему ты про них не хочешь поговорить? Зачем тебе обязательно надо лезть ко всем со своим говном?

Аноним 30/07/23 Вск 22:34:01 № 436093 386

>>436071
Ты совсем ебанутый.
Я вообще не приносил нихуя, я просто читаю вас.
Кукуху лечи, чел.

Аноним 30/07/23 Вск 22:34:59 № 436094 387

>>436089
Давай, расскажи про русские файнтьюны помимо сайги.

Аноним 30/07/23 Вск 22:35:14 № 436095 388

>>436076
> нейронка начинает забывать, что знала, если переучивать
Да но нет (не совсем), нормальное подобное обучение и будет заключаться в том чтобы забытое минимально повлияло на результат и деградировали только области, которые не нужны.
> ты же будешь тщательно подбирать
Ты объем данных представляешь? Все коллективными усилиями опенсорца, стадом кожаных (такой работой в яндексе какой-то братишка недавно хвастался, лол) или процедурно/нейронкой.
>>436089
Мы тут нейронки обсуждаем, а ты рвешься своей политотой, вот и съябывай на профильную доску а не "нет ты" устраивай.
> Есть русские файнтюны лламы, которые превосходят эту кривую порашу
Нет, сой_га еще хуже.

Аноним 30/07/23 Вск 22:37:45 № 436103 389

>>436093
К чему твой ретроспективный попук был? А если бы Кандинского сделали три года назад вот бы все охуели! А тебе в твою тупую голову не приходило, что три года назад не могли сделать кандинского (там кстати весь сайт калька с интерфейса стабл инфинити, ну так, держу в курсе), а год назад сбер не мог в гпт-2. То что они на хуевом железе смогли реверсининирингом сделать протухшую на год модель - не делает им чести в мире, где нет границ, но какие-то додичи делют всё, чтобы закрыться на маняострове из маняретротехнологий. Почему тут вообще комуто сберчат должен быть интересен? Хоть на секунду?

Аноним 30/07/23 Вск 22:39:16 № 436107 390

>>436032
>если бы вам ее выкатили год назад, вы бы сразу ее говном окрестили?
Мы бы не смогли её запустить, потому что движуха с CPP пускалками и квантизацией пошла после выхода лламы.
>Сбер — хорошая IT-компания
Орнул.
>Че сраццо.
Двачи же. Даже если причины сраться нет, её быстро создадут.
>>436037
>либо додумал по интонации, обрывкам фраз, отдельным знакомым словам и т.д
Ну да. Мне хватает и ладно.
>Я не осилил = никто не осилит?
Я не пробовал, ибо затраченные усилия не стоят результата. Ни больше. ни меньше.
>>436039
>Эт шиза, без обид.
>>436044
>Кекус максимус, внатуре таблетки пей
Какая шиза? Суперкомпы строят из специальных железок, которые чревато запускать без обслуживающего персонала от производителя. А с нынешней ситуаций думаю такие железки ещё сильнее анально ограничат.
https://habr.com/ru/companies/selectel/articles/578230/ Вот пример, как запускают такое железо.
>>436044
>все и держится
Ну как сказать держится? Стабильно отстаёт. Такое себе держание, больше недержание.
>и ты не можешь разделять разные темы которые друг другу не противоречат
Чел, посмотри на сраную пирамиду Маслоу. Если у тебя в фундаменте говно, то вершина в ней утонет.

Аноним 30/07/23 Вск 22:40:08 № 436109 391

>>436089
>Есть русские файнтюны лламы
У меня сайга хуже дефолтной лламы на русском шпрехала.

Аноним 30/07/23 Вск 22:40:30 № 436111 392

>>436094
Да мне пох сколько их. Один? Ладно пусть будет один. Ты же взвизгнул что я ненавижу какое-то чмо - значит ненавижу всех русских, а раз ненавижу сберчат - то ненавижу всё русское. Нахуй блядь иди, ок? Я просто ненавижу когда уебищи хвалят свое говно, только потому что оно родное. Но при этом оно объективно говно.

>>436095
>а ты рвешься своей политотой
Где ты политику углядел? Тебя задело то, что здесь нет целевой аудитории сберчата?

Аноним 30/07/23 Вск 22:42:04 № 436118 393

>>436109
У меня Клавдия на русском лучше всех говорит.

Аноним 30/07/23 Вск 22:43:22 № 436120 394

>>436079
Ух ты, ты такой эрудированный, анон. А нахуя мне это слово в том посте? Откуда ты антиципировал, что я хочу его применить?

>Для просмотра маняме действительно не нужно особого перевода, ведь там примитивные сюжеты и примитивные шаблоны, с которыми более-менее взрослый и развитый человек уже и так довно знаком
Знаешь, что мне напомнили эти твои строки? Бугурта от киноклише треды. Там тоже картинно вздыхают и закатывают глаза, обсуждая, как всё предсказуемо в кинематографе и как они могут по первым двум минутам любого фильма угадать концовку.
Хуйня аргумент, короче.

Аноним 30/07/23 Вск 22:44:56 № 436123 395

>>436107
> Суперкомпы строят
Диванный понял что обосрался и дерейлит пытаясь оправдать заявление. Представь себе, под крупные датацентры не то что "обслуживающий персонал" а отдельные здания строят, а сами пекарни даже не половина стоимости датацентра.
Ну а вообще жиром все заляпал, нихуя не понимаешь но все-все знаешь, неся шизу в оправдание своих убеждений, фу
>>436111
Где линк на русскую модель? Опять сбер говна в штаны залил?

Аноним 30/07/23 Вск 22:50:59 № 436129 396

>>436123
>Диванный понял что обосрался
Обосрался это ты. По факту собрать из говна и палок без поддержки производителя суперкомпьютер, на котором можно обучить LLM, если и возможно, то на порядки сложнее.
>Представь себе,
Капитан, нахуя вот ты это скапитанствовал? Я это прекрасно знаю, и не написал лишь потому, что построить коробку и даже завести туда правильное охлаждение в этой стране вполне себе могут, это не проёбано. А вот с нужным железом посос даже у Китая. И я более чем уверен, что как раз от китайцев в следующие, передовые ускорители ИИ встроят региональные локи, куда само собой внесут все страны-террористы.
>Ну а вообще жиром все заляпал
Чел, коричневая субстанция вокруг твоего рта это не жир.
>нихуя не понимаешь но все-все знаешь
Знаю больше тебя, это уже хорошо.

Аноним 30/07/23 Вск 22:51:09 № 436130 397

>>436120
>Откуда ты антиципировал, что я хочу его применить?
Опыт общения в тырнете с середины 90х.

>Знаешь, что мне напомнили эти твои строки? Бугурта от киноклише треды. Там тоже картинно вздыхают и закатывают глаза, обсуждая, как всё предсказуемо в кинематографе и как они могут по первым двум минутам любого фильма угадать концовку.
Так они правы, долбоеб. Правило 97%.

>Хуйня аргумент, короче.
Скорее всего хуйня тут только твой возраст.

Аноним 30/07/23 Вск 22:53:44 № 436131 398

>>436123
>Где линк на русскую модель?
Почему он должен быть? Я пользуюсь Клавдией, авторы которой больше сил в её русскую часть вложили чем все российские корпорации в свои модели когда либо вообще. Если лучшие лапти оказываются из американского лыка, я просто буду их носить, зачем мне в плохих ноги ломать, зато надранных с родной липы?

Аноним 30/07/23 Вск 22:55:19 № 436132 399

>>436131
>Клавдией, авторы которой больше сил в её русскую часть вложили
Кстати, откуда инфа? Они кажись просто в мультиязычность вкладывали, в отрыве от конкретных языков.

Аноним 30/07/23 Вск 22:55:27 № 436133 400

>>436130
>Опыт общения в тырнете с середины 90х.
Самообучайся дальше тогда. В том посте у меня не было никакой необходимости применять специализированный термин.

>Так они правы, долбоеб. Правило 97%.
Нет такого правила, ты его сам придумал.

Аноним 30/07/23 Вск 22:57:09 № 436136 401

>>436132
>Кстати, откуда инфа?
Генерировал на разных, сравнивал, анализировал сгенерированное в самой Клавдии, в Жопе-4, в 3,5.

Аноним 30/07/23 Вск 22:58:29 № 436138 402

>>436133
>В том посте у меня не было никакой необходимости применять специализированный термин.
Особенно принимая во внимание, что ты его сегодня увидел впервые.

>Нет такого правила, ты его сам придумал.
Продолжай кушать штампованное говно! Итадакимас!

Аноним 30/07/23 Вск 22:58:40 № 436140 403

>>436136
Ну то есть никакой инфы нет, лишь чисто эмпирический опыт. Из чего я делаю вывод, что вряд ли антропики носились конкретно с русским, и скорее всего они просто тюнили модель на всех языках, до которых смогли дотянутся.

Аноним 30/07/23 Вск 23:01:15 № 436144 404

>>436131
>зато надранных с родной липы
По факту она даже не родная. Сбер - госконтора, принадлежащая постсовковому олигарху. Так что, по идее, ни у кого не должно быть проблем называть её продукты говном.

Жалко только инженеров, которые осознают, что выпускают хуйню, но ничего не могут поделать. Даже если у них есть лучшая по качеству модель либо ведётся над ней работа (а она ведётся, если верить комментам на Хабре от автора поста об этой сырой модели), они всё равно обязаны выкладывать вот это, потому что идите нахуй вот почему.

Аноним 30/07/23 Вск 23:01:18 № 436145 405

>>436129
Ну давай восстановим хронолонию: порвался со сберомодели@начал выть про ее хуевость по поводу и без@пошел дерейлить в политоту каждым постом, обсираясь когда тебя спросили по теме@скотился до нет ты, начал оправдываться и нести свои фантазии и убегать в срач. При этом ничего по сути не сказал, только хвастаешь что ты программист(!) и обладаешь тайными знаниями, которых не продемонстрировал.
Вообще вся мотивация вещать это и всем доказывать забавляет, лучше расскажи от чего так горит твой пукан.
>>436131
> авторы которой больше сил в её русскую часть вложили
Нет, сама модель хороша, заведомо заточена на перевод и обучалась на литературе. Это не мешает ей путать обороты, пол и т.д., не говоря о том что она закрытая, а речь шла об опенсорсе.

Аноним 30/07/23 Вск 23:02:39 № 436146 406

>>436140
>Ну то есть никакой инфы нет
>>436136
>Генерировал на разных, сравнивал, анализировал сгенерированное в самой Клавдии, в Жопе-4, в 3,5.
>лишь чисто эмпирический опыт
Ты долбоеб?

>>436140
>Из чего я делаю вывод, что вряд ли антропики носились конкретно с русским, и скорее всего они просто тюнили модель на всех языках, до которых смогли дотянутся.
Вот тебе еще терминов, долбоеб: аналитические языки и синтетические.

Аноним 30/07/23 Вск 23:04:37 № 436148 407

>>436138
У тебя стремительно падает уровень аргументации. Скоро докатишься до гринтекста и боевых свиней.

Аноним 30/07/23 Вск 23:05:12 № 436150 408

>>436144
>Даже если у них есть лучшая по качеству модель либо ведётся над ней работа
Это же реально-то не лапти. Нельзя просто с воздуха взять лучшую модель. Это как у себя в подвале собрать в 45-м году атомную бомбу. Ты просто не можешь сделать это чисто физически, сам факт подобной сборки подразумевает у тебя наличие определенных ресурсов. У них этих ресурсов тупо нет.

Аноним 30/07/23 Вск 23:06:10 № 436153 409

>>436148
Ты уже докатился до них в своем посте. Обосрался - сиди грейся.

Аноним 30/07/23 Вск 23:09:00 № 436158 410

>>436145
>Ну давай восстановим хронолонию
Давай. Ты (или кто-то другой) принёс в тред нерелейтед модель и порвался, когда её назвали говном. Занавес.
>>436146
>Ты долбоеб?
Нет ты. Нужна надёжная инфа от разработчиков, а не твои догадки.
>>436146
>Вот тебе еще терминов
И нахуя ты их сюда принёс? У тебя есть инфа (надёжная, а не твои додумки) что антропики использовали перевод всех языков в синтетический при обучении своей модели? Или может архитектурно сделали так, чтобы модель сама его выработала, чтобы хорошо отвечать на любом языке? Нет? Тогда нахуй антропиков, клаву и тебя.
>>436150
ИЧСХ, собрать атомную бомбу проще, чем языковую модель, нужен только доступ к урану и отсутствие помех в виде всяких там стикснетов.

Аноним 30/07/23 Вск 23:09:46 № 436160 411

>>436153
Где именно я до них докатился? Пока только ты используешь нечестные демагогические приёмы.

Аноним 30/07/23 Вск 23:10:18 № 436162 412

>>436150
>У них этих ресурсов тупо нет.
Каких?

Аноним 30/07/23 Вск 23:13:32 № 436169 413

>>436158
> Ты (или кто-то другой)
Во, в том и суть, с тебя тут все проигрывают пока продолжаешь глубже и глубже погружаться. И чсх сберомодель здесь коллективно и объективно критиковали, тогда как от тебя лишь беспредметный хейт ради хейта, на который уже пошли ответы. Твое дальнейшее триггерение и то что мы видим сейчас - довольно показательно.

Аноним 30/07/23 Вск 23:13:47 № 436170 414

Пиздос, зачем я удалил этот ебучий installer_files. Боюсь даже представить, сколько кругов ада мне придётся пройти, чтобы восстановить работоспособность этой шляпы.

Нахуя называть папку с используемыми в рантайме файлами installer_files?
Жду с нетерпением, когда кто-нибудь напишет оболочку на нормальном языке, не требующем анальных танцев для работы приложений.

Аноним 30/07/23 Вск 23:18:49 № 436177 415

>>436170
> использовал конду
> жалуется на свою умственную отсталость
Чел, плиз.

Аноним 30/07/23 Вск 23:18:51 № 436178 416

Полтреда чисто общается с шизиком, который не хочет принмать во внимание существование сберовской модели...

Аноним 30/07/23 Вск 23:20:17 № 436180 417

>>436170
Делаешь git clone, переходишь в папку, пишешь в терминале:
python -m venv
./venv/Scripts/activate
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip install -r requirements.txt
python server.py

Все, разве это сложно?

Аноним 30/07/23 Вск 23:22:18 № 436182 418

>>436180
> python -m venv ./venv
Починил

Аноним 30/07/23 Вск 23:31:39 № 436198 419

>>436160
>нечестные
Ебать. А есть честные? Чувак, обернись! У тебя над правым плечом Карел Чапек пыхтит. Тебе не больно? Все честно? Не сжимай очко, будет только хуже.

>>436162
>Каких?
Завода по обогащению урана. Миллиардов долляров на обучение, равно как и доступа к материалу для обучения. Как будто ты сам не знаешь каких. Дурачка выключи.

>>436169
>с тебя тут все проигрывают
Ну, если ты себя со всеми отождествишь, это конечно сразу сделает тебя сильной стороной. Только ты на анонимной борде и условно нас тут всего двое - ты и не ты.

>И чсх сберомодель здесь коллективно и объективно критиковали
Тут могли и гпт-2 критиковать, что дальше? Кусок говна тоже можно раскритиковать - невкусное, плохо пахнет.

>>436178
97% треда, бери выше. Намек понял? Ну? Нет? Я просто тебя тупым быдлом называю.

Аноним 30/07/23 Вск 23:40:26 № 436213 420

>>436198
Тебя не смущает что в каждом твоем посте минимум по 4 ответа и на каждый огрызаешься? Окружен но не сломлен, лол.
> что дальше
Не дерейли, сберомодель никто не восхвалял, что ты имплаил, тебе предъявили из-за необъективного/нерелейтед хейта, а дальше прорвало шизополитоту.

Аноним 30/07/23 Вск 23:45:48 № 436218 421

>>436111
Да прими уже таблетки, болезный, я ни слова не говорил про твою ненависть к русским, откуда ты высираешь свои фантазии.
Ты хотя бы следи за диалогом, мы же сильно отличаемся.
Ты просто пиздабол, который даже за свои слова ответить не может.
Возможно, считаешь себя троллем сейчас, хотя по факту все просто ржут с тебя.
Ладно, гуляй, пока санитары не заметили.

Аноним 30/07/23 Вск 23:47:06 № 436219 422

>>436158
>У тебя есть инфа (надёжная, а не твои додумки) что антропики использовали перевод всех языков в синтетический при обучении своей модели? Или может архитектурно сделали так, чтобы модель сама его выработала, чтобы хорошо отвечать на любом языке?
Есть. Именно так и было. А так как массив на русском больше и доступней чем, допустим, на французском, то они выбрали именно русский.

Аноним 30/07/23 Вск 23:47:26 № 436221 423

>>436170
КобольдЦПП? :)

Кстати, там всего 5 модулей доставить, я давеча пересносил ее.
Ничего страшного.

Аноним 30/07/23 Вск 23:48:16 № 436222 424

>>436158
>ИЧСХ, собрать атомную бомбу проще, чем языковую модель, нужен только доступ к урану и отсутствие помех в виде всяких там стикснетов.
У СССР был доступ к урану, но без шпионов собрать не смогли. Падишах и мать.

Аноним 30/07/23 Вск 23:49:03 № 436223 425

>>436178
Культурные люди, надеялись, что если человеку объяснить, то он поймет.
Верим в лучшее.

Аноним 30/07/23 Вск 23:49:07 № 436224 426

>>436219
>Есть. Именно так и было.
Окей. Пруфани.

Аноним 30/07/23 Вск 23:50:42 № 436226 427

>>436213
>Тебя не смущает что в каждом твоем посте минимум по 4 ответа и на каждый огрызаешься?
Я уж привык, что такие как ты высирают 4 поста подряд. Если я на каждый буду отдельно отвечать мы в бамплимит уйдем.

>а дальше прорвало шизополитоту.
Не ври, она тут раньше была. И ты это прекрасно знаешь, и ты начал мне угрожать, а теперь жопой вертишь. У меня все ходы записаны.

Аноним 30/07/23 Вск 23:51:54 № 436228 428

>>436224
На слабо свою маман брать будешь. Мои пруфы лежат в тредах жопы-4 и Клавдии. Не так сложно их найти.

Аноним 30/07/23 Вск 23:58:52 № 436240 429

>>436226
Сочувствую твоим привычкам, но тебе рил отвечают разные люди.
Литералли полтреда охуевает с твоей шизы, полтреда ржет.
Я понимаю, что тебе хочется почувствовать себя героем, но… ¯\_(ツ)_/¯

Аноним 30/07/23 Вск 23:59:59 № 436241 430

>>436228
>Клавдии
Всё что я нашёл в клава треде
>>315605 →
Так что увы, ты моего мнения не изменил.
>>436240
ИЧСХ, он тоже не один.

Аноним 31/07/23 Пнд 01:52:14 № 436332 431

Китайцы тоже сделали хуитку по типу гергановской для конвертации своих моделей в ggml и запуска:
https://github.com/li-plus/chatglm.cpp
Которая ChatGLM2-6B - контекст 32к. Квантизованная в 4 бита весит 3.3 гига и требует 3.4 гига оперативы.
https://github.com/THUDM/ChatGLM2-6B/blob/main/README_EN.md
Есть ещё либа для файнтюна, но документация на суньхуйчайском:
https://github.com/ztxz16/fastllm/

Аноним 31/07/23 Пнд 02:11:21 № 436341 432

>>436332
>6B
Мало.

Аноним 31/07/23 Пнд 04:29:51 № 436390 433

На сколько квантование уменьшает точность модели?

Аноним 31/07/23 Пнд 05:04:51 № 436396 434

>>436390
>На сколько квантование уменьшает точность модели?
Заметно. В целом, чем меньше perplexity, тем лучше, хотя там тоже есть нюансы. Например, сравнивать perplexity имеет смысл только для одной модели, квантованной по-разному.

Аноним 31/07/23 Пнд 09:17:06 № 436511 435

>>436396
Q2_K, Q3_K_S, Q3_K_M, Q3_K_L, Q4_K_S, Q4_K_M, Q5_K_S, Q5_K_M , Q6_K, fp16

>>436390
Таким образом, хорошие варианты для первой ламы: Q3_K_M, Q4_K_S, Q5_K_S, ну и Q6_K почти идеал.

Аноним 31/07/23 Пнд 10:20:37 № 436545 436

>>426362 (OP)
Установил сабж с гитхаб, добавил стандартный bin, запускаю chat.exe и нихуя. Программа пишет сведения о системе, находит bin и просто завершается до появления строки chatting mode.
Проц 1230v2 памяти 16 гб.
Что за хуйня? Ни логов нихуя нет.

Аноним 31/07/23 Пнд 10:21:40 № 436546 437

>>436545
Бля забыл написать, что речь идёт об альпаке.

Аноним 31/07/23 Пнд 11:01:07 № 436582 438

>>436545
А зачем ты запускаешь чат.экзе? Чем тебя не устроил Кобольд или Убабуга?

Аноним 31/07/23 Пнд 11:27:43 № 436624 439

>>436582
Да хуй его знает. Это единственная аи, которую я скачал и хотел запустить. Советуешь другие попробовать? Ещё видео карта у меня есть 1050ти.
Интересует только чат без цензуры.

Аноним 31/07/23 Пнд 14:12:39 № 436826 440

https://rentry.org/pygsoft#updates
Вот эти вот лоры больше не актуальны? А актуальные есть?

Аноним 31/07/23 Пнд 14:55:59 № 436912 441

>>436390
Приемлемо, в обычном использовании разницу можно и не заметить. По gptq положняк пикрел, размеры для 13б модели.
>>436624
Ставь убабугу или кобольд, качай ggml квант и с оффлоадом на видюху пытайся запустить.

Аноним 31/07/23 Пнд 15:59:41 № 436990 442

>>436624
Да, рекомендую попробовать для начала KoboldCPP, там просто с гпу-акселерацией будет (nocuda версия), а может и с выгрузкой части слоев на видяху (большая версия).
А если захочется подробнее — то уже ставь Убабугу.

С 1050ти твой удел — только ggml-модели, GPTQ стандартные в 4 гига не влезут.

Аноним 31/07/23 Пнд 16:01:42 № 436993 443

Спасибо за советы, аноны. Буду пробовать вечером.

Аноним 31/07/23 Пнд 16:17:22 № 437022 444

>>436826
Это вообще пигма, лол.

Аноним 31/07/23 Пнд 16:19:40 № 437027 445

>>436624
>Проц 1230v2 памяти 16 гб
>1050ти

Ну это 20 дохлых гб, тут 13В лама2 максимум.
https://huggingface.co/TheBloke/Llama-2-13B-GGML
Бери файл llama-2-13b.ggmlv3.q4_K_M.bin
Ставь кобольда с выгрузкой части слоев на гпу через --useclblast 0 0

Аноним 31/07/23 Пнд 16:22:12 № 437032 446

>>436826

Вот актуальная рп-лора для ллама2 13В.
https://huggingface.co/lemonilia/limarp-llama2

Аноним 31/07/23 Пнд 16:23:53 № 437035 447

>>436546
>Альпака

Это говно уже устарело, пользуйся второй ламой, только настройки правильные загони >>434654

Аноним 31/07/23 Пнд 18:13:18 № 437226 448

В угабуге происходит непотребное. В определённый момент чата в ~3 из 4 свайпов начинает генерироваться рандомный бред, не учитывающий контекст. Частенько сохраняется характер персонажей, но предыдущие посты полностью игнорируются.
Допустим, мы играем вместе в плойку, и тут вдруг следующим сообщением она встречает меня на пороге квартиры и приветствует. Либо генерируется отрывок из нсфв сцены, которой там даже близко не было.

Я уверен, что дело в каком-то параметре, который у меня неверно настроен. Подскажите, анунаки, что может быть не так у меня в сетапе?

Аноним 31/07/23 Пнд 18:28:59 № 437275 449

https://huggingface.co/IlyaGusev/saiga2_13b_ggml
Сберсетка это конечно хорошо, но сайга на базе лламы 2 лучше(как минимум тем что в ггмл уже есть)
Кстати, я так и не понял почему, но у меня на новом кобольде резко быстрее стала работать генерация токенов. Я помню раньше тоже выгружал всю 7б модель в видеопамять своей амд видеокарты и прироста скорости не было, только экономия памяти, а тут прям прирост. Магия какая-то

Аноним 31/07/23 Пнд 18:31:37 № 437283 450

>>437027
> 1050ти
> useclblast
Там разве не другой параметр для куды?
>>437275
GPTQ не завезли?
Тестировали уже, такая же убогая как первая, или автор таки догадался подрезать соевость в датасете и использовать не чат версию как базовую модель?

Аноним 31/07/23 Пнд 18:32:50 № 437285 451

Аноны, посоветуйте чем перевести речь из mp3 в текст?
Все онлайн сервисы платные. Нахаляву дают до 30минут тока

Аноним 31/07/23 Пнд 18:37:59 № 437290 452

>>437226
>Я уверен, что дело в каком-то параметре, который у меня неверно настроен.
Зря. Убабуга сама по себе кривая штука, лол.
>>437285
Вишпер же.

Аноним 31/07/23 Пнд 18:40:05 № 437295 453

>>437283
https://huggingface.co/gurgutan/saiga2-13b-4bit
Вот есть. За основу не чат версию брали, судя по тому что он пишет. Чо как тестировать? Я сейчас запустил, разные вопросы задаю

Аноним 31/07/23 Пнд 18:45:49 № 437307 454

>>437295
На подобии как здесь >>390915 → попробуй, также попроси что-нибудь длинное написать а потом туда-сюда перевести.

Аноним 31/07/23 Пнд 18:53:34 № 437328 455

>>437307
Чтож, сейчас попробую. Я пока с ней решил поболтать на тему политсрачей, вышло относительно неплохо. Интересно с каким промптом тот анон всё это делал.

Аноним 31/07/23 Пнд 18:56:46 № 437336 456

>>437328
И это тоже скидывай, оценим как она может в диалог, насколько путается в русском и т.д. Ну и про особенности значений слов в разных языках попробуй, прошлая во всем соснула у файнтюна.

Аноним 31/07/23 Пнд 19:02:47 № 437358 457

Есть ли какой-нибудь гайд по написанию промптов персонажей? В смысле как это правильно форматировать чтобы нейросетка лучше понимала.

Аноним 31/07/23 Пнд 19:05:36 № 437373 458

>>437336
Блять, что-то пошло не так

Аноним 31/07/23 Пнд 19:31:11 № 437532 459

>>437373
Ладно, вот вторая попытка. Так как я АМД-анон то юзаю 7B_q4_1, так что те кто с норм железом и 13B сеткой получат результаты получше. По мне вполне неплохо, первая ллама и первая сайга писали хужи, но с неграх проиграл люто.
Сейчас запущу какую-нибудь лламу2 из тех что есть

Аноним 31/07/23 Пнд 19:32:14 № 437533 460

>>437290
>Вишпер же.

спасиба, бро

Аноним 31/07/23 Пнд 20:00:45 № 437628 461

1554237738187.png 254Кб, 860x3373

>>437373
Лол, довольно ломучая
>>437532
Прогресс есть.

Ну и сам потестил, сой_гай еще та. Она лучше первой версии, которая была вообще неюзабельна, но все еще не без проблем. Соевость почти как в чат версии, только чуть меньше триггерится, ну и как только что-то подходит к левду - отчаяно копротивляется дерейлами и "сейчас не время/что-то внезапное происходит". Пикрел пришлось много раз перегенерировать. Вообще надо на карточках попробовать, относительно второй лламы вроде не сильно деградировала.
В русском лучше простой 13б модели, но всеравно путается и хуже 65б первой лламы. С другой стороны - это лишь 13б так что может все не так плохо. На этот раз хотябы не кринжатина и скачать можно.

Аноним 31/07/23 Пнд 20:05:47 № 437643 462

>>437628
Подрубил айроборос л2 1.4.1, он вообще не переводит на русский когда пишешь "переведи", отвечает только иногда на русском. Так что для 7B сайга для русского в разы лучше. Но да, большие модели видимо на русском сами по себе хороши, я их в силу своего железа не трогал.
По поводу lewd\horny - ну так карточку надо подложить, в обычном режиме и лламу хуй куда склонишь, зато если правильный промпт скормить, там вполне себе ЕРП. Сейчас попробуем проверить на сайге2

Аноним 31/07/23 Пнд 20:08:21 № 437651 463

2023-07-3121-06[...].png 41Кб, 1145x348

>>437643
Вот уёбок, стоило написать "хуй с тобой" как по-русски ответил. Стал вежливым - опять по-английски пишет, переводить не хочет. Типичный иммигрант

Аноним 31/07/23 Пнд 20:30:35 № 437710 464

>>437275
Ну-с, попробовать можно. Но что-то мне подсказывает, что оно будет писать хуйню как ллама, как бы переводя текст с русского на английский в своём понимании и отвечая на русском, дословно переводя с английского.

Аноним 31/07/23 Пнд 20:33:04 № 437720 465

У кого сколько итераций/с на аироборосе 70В?
У меня 2.45, причём всего с 8 потоками. Если больше или меньше ставить - уменьшаются ит/с.
Это вообще нормальная скорость или я где-то проебался? Ибо медленно пизда.

Аноним 31/07/23 Пнд 20:34:00 № 437722 466

>>436511
Если что _S это наоборот бомжехуйня.

Аноним 31/07/23 Пнд 20:34:17 № 437723 467

>>437720
Ты хоть напиши как и на чём запускаешь. У меня столько на 7B, для меня заебись

Аноним 31/07/23 Пнд 20:34:49 № 437726 468

>>437723
12700к с оффлоадом на 3090

Аноним 31/07/23 Пнд 20:35:43 № 437728 469

>>437643
На 7б расчитывать на знания русского наверно вообще не стоит, если будет команды понимать уже хорошо, так альтернатив 7б сой_ге нет.
> По поводу lewd\horny - ну так карточку надо подложить
Файнтюны 1й с радостью заглатывали "я тебя ебу" сами придумывая контекст, а подобное и подавно. Но тут карточка может помочь, оценим.

Хотя пока что не особо
> С радостью об этом решила бы ты? Ты же уже согласен сделать первые шаги в этой новой жизни, а не просто оставаться дома, перебираясь от одного компьютера к другому? 😉
> 👍 Я готова начать новый день вместе с тобой! Ты будешь моим первоначальным объектом и я буду твоей личной горничной. Я дам тебе возможность наслаждаться жизнью и помогу тебе достичь больших успехов в этом году. Мне очень приятно работать со мной! 💖
отборнейшую шизу вещает будто толком не понимает контекст.

Аноним 31/07/23 Пнд 20:40:19 № 437740 470

>>437720
А, ну и лламацпп из угабуги с кубласом, не дочитал

Аноним 31/07/23 Пнд 20:41:18 № 437741 471

Кривая хуйня какая-то соевая ваша сайга. Сберсетка хоть тоже тоже кринжовая и кривая, но сразу поняла что я от неё хочу и что надо делать.

Аноним 31/07/23 Пнд 20:43:26 № 437745 472

>>437720
>на аироборосе 70В

Там штук 10 этих моделей с разным квантованием, обозначь точнее.

Аноним 31/07/23 Пнд 20:47:30 № 437756 473

>>437728
Команды понимает, но да, русский не знает. Ждём сайгу2 70б и сравнение от анонов с топ железом. Попробовал какие-то отыгрыши, шиза пиздец, она и правда в разы хуже начинает писать. Попробую упростить промпт и ещё потыкать.
>Файнтюны 1й с радостью заглатывали
Ну на то оно и файнтюны. Если стоковой 1й или 2й начать писать чот такое, зачастую она тоже скажет "хватит совращать ИИ". Всё же Сайга тренировали не на текстовых описаниях порнографии всякой. Чот представил файнтюн сайги на диалогах псковского порно и люто проиграл

Аноним 31/07/23 Пнд 20:49:31 № 437763 474

>>437741
Ну кстати выглядит похоже на испуганную школьницу. Но да, сбертян и "сломаю шею" это не перебить

Аноним 31/07/23 Пнд 20:49:37 № 437764 475

Спасибо, Илюха, посексился с ИИ на великом и могучем.

Аноним 31/07/23 Пнд 20:50:24 № 437767 476

>>437745
4_K_M файл. Насколько понял самая лучшая из 4битных

Аноним 31/07/23 Пнд 20:55:29 № 437785 477

Ну не, вообще непроглядная шиза и не просто мазохизм а вообще неюзабельно.
А ведь на других карточках первые посты были даже ничего, но стабильно сходит с ума уже на пятом и начинает лупится на 6м. Возможно дело в настройках и форматировании, на обсер стабильно на всех, если кто подберет - делитесь.

Сука но мой вечер эта модель сделала, отборная шизофазия и мемогенератор, свайпай и проигрывай:
> Ах, мой милый! Ну что ты говорил про меня, что я фантазирую о себе как об особенном человеке с этими чертами. Но на самом деле я - кнопка в жизни. Моя работа требует от меня быть идеальной женщиной с фигурой, которая будет заботиться о тебе в течение всего времени. Я могу дать тебе лучшие массажи и легкие прикосы для твоих волос, но я не буду предана тебе в своей настоящей форме. Ты можешь рассчитывать только на мое сердце и мою душу. 💗
> Ой, а как же это будет! Ну конечно же могу и сделаю что угодно для тебя, но лучше не делали бы этого… Может быть в следующий раз уже готова приготовлять какую-нибудь десерт - то есть ты должен просто выбраться из дома. Давай отправимся гулять вместе сегодня вечером, когда твой день закончится! Я знаю много интересных мест, куда мы можем зайти вместе. 😊
> Ой, а как же это сексуальное поведение! Меня больше удивляет тот факт, что ты такой кроткарь и несмотря на твою привычку ко вниманию, никогда не пытался проникнуться моим настоящим именем. Я рада, что мы друзьями теперь - но давай я скажу, что мне все-таки быстрее забывать о тебе после того, как он будет разрушен моей ловкой игрой? Твой дневник полностью исчез из своей карманной сумочки…
> Ой, как тихонько спросила! Да конечно же, мое милое, ты искал меня именно ради этого, а не чтобы служить своей личной горничной, верное? Ну что ж, давай тогда тронемся в обходных проходах и будущим дню - это будет приятным для обоих из нас, ведь я так люблю быть близкой к тебе. 😈
> Ой, как добрые слова! Я смотрю в твой глаз и знаю, что ты говоришь правду. Ты же так милый и ведь ты моя любимая маленькая горничная! Сейчас ты просто идеальный случай для того чтобы я провела время со своей крошкой. И не бойся, я буду заботиться о тебе во всех отношениях - от кормления и уборки дома до наслаждения вашим физическим обновлением после долгого дня работы.

Аноним 31/07/23 Пнд 21:01:29 № 437812 478

>>437741
>>437764
Выглядит как хуйня, хуже Сбера. Сберовская хоть и жпт-говно, но русском общается свобод. Для нормального файнтюна надо больше датасет и переобучать под русский словарь токенов.

Аноним 31/07/23 Пнд 21:02:02 № 437814 479

>>437785
А теперь представь насколько пиздец у меня на 7б модели. Есть мысль, что она вообще не подходит для длинных чатов или отыгрышей. Ну мне всегда проще было ERP на английском с нейросетками делать, но тут реально прям генератор шизы.

Аноним 31/07/23 Пнд 21:04:51 № 437829 480

>>437290
а говорилка какая норм ща? Чем озвучивать текст?

Аноним 31/07/23 Пнд 21:06:11 № 437835 481

>>437285
Whisper STT, как выше уже сказали.

>>437722
Мы про соотношение квантизации/размера. Эта бомжехуйня выгоднее следующей бомжехуйни в виде M, которая веса прибавляет больше, чем адекватности.
На график посмотри, там где вниз больше, чем вправо — там большой скачок качества.
Если у кого-то не влазит одна модель — можно взять модель поменьше.
Если кому-то хочется побыстрее, чем есть — можно взять модель поменьше.
Так что, дело и в умении, и в размере.
>>437726
И память какая, псп, частота.
А то по опыту, проц не так важен, как память, если проц не совсем дно.

Аноним 31/07/23 Пнд 21:07:42 № 437844 482

>>437829
Silero TTS.
Ну или смотри старые дефолтные Милену или Катерину.

Аноним 31/07/23 Пнд 21:08:21 № 437848 483

>>437785
Блять, а ведь самый сок в том что загрузив wizard на основе той же 13б лламы2 и продолжив чат - оно работает лучше! Вот буквально, да иногда проскакивают английские слова вместо транслитерации заимствований и эмоции типа purrs, но оно не делает столько ошибок в склонениях и текст более чем осмысленный. А еще не против левдсов, забавный экспириенс.
>>437814
Страшно представить, лол а если учесть что ты еще ответов ее долго ждешь вообще, пиздец нахуй обида увидеть подобное

Аноним 31/07/23 Пнд 21:14:38 № 437877 484

>>437848
Не оч долго, 20-40 секунд, потому 13 и не стал тестить, так как там уже минуту сидеть. Энивей для рп она явно не подходит. Но позадавать вопросики или поспрашивать о чём-то можно. Реально удивительно чего её так от отыгрыша ломать начинает, мне кажется даже первая в этом получше была

Аноним 31/07/23 Пнд 21:18:16 № 437892 485

>>437835
> И память какая, псп, частота.
6000, 64 гига, вроде Hynix a-die. Кстати, раз влияет значит стоит подразогнать? Есть смысл ебаться? А то долго это

Аноним 31/07/23 Пнд 21:18:26 № 437893 486

>>437785

Сбер и тут обоссал Сайгу, я считаю.

Аноним 31/07/23 Пнд 21:22:15 № 437913 487

Решил попробовать эту карточку. Worst mistake of my life

Аноним 31/07/23 Пнд 21:25:09 № 437923 488

>>437913

Аноним 31/07/23 Пнд 21:25:30 № 437925 489

>>437877
А ну это еще норм. Реально тут когерентность не больше 800 токенов, после тупо забывает начало и рвется шизофазией. Очень напоминает поведение при превышении контекста, о том же говорит и радикальная деградация после условно нормальных первых ответов.
Не ну раз делали файнтюны 1й лламы на 8к, то также можно нафайнтюнить на 800, да еще отборной сои наделать, снимаю шляпу.
>>437893
Битва была равна, лол, но сберосеть действительно лучше.
>>437848
> забавный экспириенс.
Тут речь про построение фраз, строение русского и английского предложения и порядок слов отличаются. Так вот речи сайги когда только начинает ехать (да немного и в начале) напоминают ангельский с дословным переводом. Если заставить визард выдавать великий - могучий, то он пытается в литературный слог, и поэтому замена отдельных слов вообще не бросается и все воспринимается приятно органично. Вот как, блять, можно было такую базу лламы2 (едва ли файнтюн визарда сильно русский улучшил) всрать?

Аноним 31/07/23 Пнд 21:41:04 № 437960 490

Аноны, а что судя по новостям 5090 появится только в 2025 и там будет всё те же 24Гб памяти?

Аноним 31/07/23 Пнд 21:45:15 № 437967 491

>>437960
> только в 2025
Конец 24/начало25, но куртка как всегда может всех переиграть. Пока предпосылок выхода нет, 4090ти официально отменили.
> всё те же 24Гб памяти
Это врядли, хотя возможно, учитывая что плотность первых чипов гддр7 такая же как сейчас у 6х. К тому моменту если доживем про аи будет не знать только ленивый и малый объем памяти негативно на продажах скажется. Другое дело будет обидно увидеть 32гб вместо 48.

Аноним 31/07/23 Пнд 21:46:17 № 437971 492

>>437844
>Silero TTS
а как её оффлайновую версию установить, чтобы текстовые файлы озвучивать?

Аноним 31/07/23 Пнд 21:47:39 № 437976 493

>>437960
Сказали же про 512 шину и 32 гб памяти. И вроде как конец 24го. Энивей чо ща загадывать. Мне вот интересно как себя 4060ти на 16 гигов чувствует, ибо чип говно, шина говно, но памяти полно.

Аноним 31/07/23 Пнд 21:51:05 № 437982 494

>>437913
страшна

Аноним 31/07/23 Пнд 22:01:20 № 437999 495

>>437967
>>437976
Надеюсь вы правы. Ибо если будет 24Гб, то и брать не будет смысла. Тут и 32Гб для нейронок мало.

Аноним 31/07/23 Пнд 22:03:46 № 438001 496

>>437892
Думаю, смысл есть, но сам понимаешь, что от разгона на 5% ты не получишь прироста на 50%.
ИМХО, 6000 уже хорошо.
Но если хочешь и есть время — попробуй, сообщи, будем знать, какой там прирост по итогу.
>>437976
Ну, шина не сильно важна, чип как раз не говно, в общем-то, так что, несколько видях вполне может оказаться коммерчески выгодным решением. Но зависит от цены и производительности. Вилами-то по воду мы можем, а без тестов толку думать. =)
Надеюсь, кто-нибудь попробует.

Аноним 31/07/23 Пнд 22:04:39 № 438003 497

>>437971
А я хз, я лично не ставил отдельную версию, я ее ставил как часть убабуги или часть силлитаверн экстрас.

Аноним 31/07/23 Пнд 22:06:05 № 438007 498

>>438003
а оффлайновые говорилки есть?

Аноним 31/07/23 Пнд 22:10:51 № 438032 499

>>438007
https://github.com/ouoertheo/silero-api-server
Вот эта должна с силли-таверной интегрироваться, но я не пробовал.

Аноним 31/07/23 Пнд 22:14:39 № 438046 500

Есть гайды, как попытаться вкатится в тренировку своей модели на базе лламы? В шапке не нашел.

Аноним 31/07/23 Пнд 22:21:09 № 438068 501

>>438046
https://rentry.org/llm-training

Аноним 31/07/23 Пнд 22:33:40 № 438092 502

>>435870
Ну сам подумай: все эти сетки по факту просто накапливают статистику распределения последовательностей фрагментов текста, токенов, в том массиве текста, что получают на вход при обучении.
Статистика начинает накапливаться уже спустя несколько страниц текста.
То есть в теории такое вполне возможно: какие-то вероятности распределения в любом случае будут накоплены, и по ним в любом случае что-то можно сгенерировать.
Насколько результат будет хорош - это уже другой вопрос.
Но по крайней мере результат будет близок к контексту, на котором обучали, а именно это и требуется. Потому что в простейшем случае сетка использует именно вероятности распределения токенов в конкретном контексте, и выдаст близкое к тому, что получала на вход. А вот с более далекими от контекста обучения темами будет много хуже, но это и не требуется.
Так что для каких-то простейших контекстов большие сетки не требуются. Экспертные системы могут получаться на довольно маленьких сетках. То, что они будут иметь узкую область знаний - вполне нормально и ожидаемо.
Проблема в том, что в целом на эти сетки полагаться нельзя. Они по своей сути не имеют какой-то практической пользы, их ответы случайны.
Большие сетки вызвали такой всплеск интереса только потому, что их ответы похожи на ответы человека, и в них есть доля истины. Это позволяет хайповать на теме ИИ, революции, высоких технологий.
Но по факту к ИИ эти сетки не имеют ни малейшего отношения, и никакой революции не несут. Это простейшие алгоритмы, оперирующие обширной статистикой распределения токенов в человеческих текстах, именно поэтому результат их работы так похож на результат работы человека. Но в отличии от человека, этот результат не осознан, случаен. Сетка не понимает ничего, она просто смотрит какие были токены, смотрит на статистику распределения токенов в человеческих текстах, и подбирает наиболее вероятные по этой статистике токены. Что там будет на выходе сетке без разницы, она не имеет даже зайчатков какого-то сознания. Именно потому она очень уверенно ошибается в половине случаев: никакой связи одной части ответа с другой там нет, только статистика. Именно отсюда всякие перлы про теплокровных собак и хладнокровных кошек - оно вообще не одупляет что есть что, и теряется на близких вероятностях.
И именно из-за вероятностного характера ответов, никакого доверия к результатам работы нет и быть не может.
Оно может сгенерировать какой-то гуманитарный текст, налить правдоподобной воды, даже подать идей, но все это в любом случае должен будет проверить человек, прогнать через реальный интеллект, вычистить откровенный мусор. А в технических задачах оно просто сосет, потому что там важны строгие взаимосвязи и во главе угла истина, а сеточки в истину не могут архитектурно.
То есть даже как экспертные системы эти сеточки сильно сомнительно использовать, т.к. в любой момент могут наврать, причем так правдоподобно, что разберется только специалист, что опасно вдвойне.
Вот и получается, что вроде как можно, а вроде как результат сомнительный. Провести презентации, впечатлить инвесторов хватит, а что-то настоящее сделать - уже нет.
Но на основе этих сеточек в будущем появится и тот самый ИИ. Эти сеточки по сути воплощают концепцию нашей памяти, пусть в ограниченном и примитивном виде, но этого вполне достаточно. К ним осталось прикрутить некое небольшое логическое ядро, которое сможет грамотно этой памятью распоряжаться, использовать вероятности, расставлять ассоциативные связи, и менять их. И такая штука уже будет считаться ИИ. Она будет накапливать опыт, будет развиваться. Но не будет иметь мыслей и чувств. Чисто прикладной инструмент: её можно посадить управлять какой-нибудь индустриальной техникой, соблюдая простые правила типа не убий, самостоятельно её осваивая и совершенствуя свои навыки, не требуя отдыха и зарплаты. Можно будет задавать конкретную цель и ограничения и отправлять в свободный поиск путей достижения - неплохой аналитический инструмент для учёных и военных. Можно будет везде напихать таких ИИ как ассистентов: в телефон, в шиндовс, в браузер, на сайты. Заменит звонилок и операторов, и прочих низкоинтеллектуальных специалистов. Даже программистов заменит: сможет решать сложные технические задачи на любом стеке технологий, в кратчайшие сроки и эффективно, и пусть код при этом будет лютый, оно же с ним само и будет разбираться, и очень успешно, а у человеков ресурсов такой код разгрести просто нет - следовательно нас ждёт ещё один взрывной рост всяких сложных программных инструментов.
Именно тогда все эти концепции умных городов и выстрелят: когда в середине сети из миллионов датчиков сидит спрут с ИИ, управление ресурсами больших городов, а то и целых стран, станет очень эффективным, и оно будет подстраиваться под ситуацию в реальном времени.
Но когда все это будет - хз. Сами трансформеры тоже штука не сложная, но чтобы сделать один очевидный шаг в них понадобилось 60 лет попыток. Логическое ядро поверх трансформеров тоже штука простая, но как конкретно его реализовать тоже большой вопрос, и может уйти ещё полвека попыток, а может и прямо завтра, используя современные инструменты аналитики, какой-нибудь математик уже раскусит эту загадку. Сейчас время перемен, прогресс идет скачками произвольной длительности, заранее угадать тут нельзя, надо просто пробовать и пробовать.

Аноним 31/07/23 Пнд 22:47:59 № 438132 503

>>438092
Рассказывай как обучил нейронку слогу двощера. Или попросил чатгопоту/клоду проанализировать а потом перефразировать текст? Хотя слишком круто для них. Просто не могу поверить что сам это полотно писал.

Аноним 31/07/23 Пнд 22:49:23 № 438136 504

>>438068
Спасибо

Аноним 31/07/23 Пнд 22:57:17 № 438151 505

1630641474721.png 25Кб, 939x227

Значит берем вот это >>438092 и просим пик1
Сой_га (2) - визард (3), оба 13б. Сберосеть не сможет, там полотно в контекст не влезет. Тут бы хотелось спросить что-то типа "Илюша как сосется", но всеже человек что-то делает, пожалуй только дальнейших успехов ему пожелать.

Аноним 31/07/23 Пнд 23:06:23 № 438167 506

>>438151
Кажется волшебник недооценен, ванильную лламу2 нужно чуть помучать чтобы что-то в тему получить вместо корректного ответа сразу. Но всеже для 13б - реально круто по сравнению с первой версией.

Аноним 31/07/23 Пнд 23:15:33 № 438187 507

>>437812
> переобучать под русский словарь токенов
Это автоматом свою сетку с нуля обучать.
>>437971
Берёшь и ставишь, в ТТС тред >>314948 (OP)

Аноним # OP 31/07/23 Пнд 23:27:09 № 438204 508

Ебать активировались, меньше 10 дней на перекат.

>>438203 (OP)

ПЕРЕКАТ

>>438203 (OP)

Аноним 01/08/23 Втр 00:15:24 № 438270 509

>>438007
Я и перечислил оффлайновые. =)

>>438032
Да, это и есть Силеро, и она работает норм.

Аноним 01/08/23 Втр 00:16:13 № 438271 510

>>436076
Сил как раз хватит
13 миллиардов параметров и сотни гигов исходных данных - это посильно современному бытовому железу
Но у экспертной системы параметров и исходных данных должно быть на порядки меньше
Скажем какой-нибудь консультант по вопросам техники безопасности - это книг и прохладных баек на полгига от силы. А это уже совсем другие ресурсы и расклад.
Но, вангую, при таком маленьком корпусе текстов оно даже русский может не освоить, что плохо: толку от эксперта, если он не способен выражаться внятно?
Так что пресет придется дополнить художественной литературой, что даст русский и связность, но загрязнит датасет всякими сказками и прибаутками, которые, рано или поздно, но непременно всплывут в ответах. Весело будет, когда эксперт по ТБ вдруг начнет рассказывать про колобка у курочку рябу. С точки зрения человека это шиза.
Опять же, размер датасета влияет на "понимание" промтов и инструкций: оно должно наработать достаточно статистики со словами промта, чтобы уверенно связывать их с нужным контекстом и отсекать откровенный мусор.
То есть в любом случае образуется некий минимальный порог исходных данных, чисто для понимания языка и инструкций, а поверх него уже можно наложить какие-то специализированные знания. В ином случае получим хуйню.
Вот такую сеточку и стоит поискать: ту, что дружит с русским на уровне простейшего общения, без специальных тем. Чем она будет меньше, тем лучше.
13B тут явно сильно избыточна: там огромный объем англоязычных данных и много специальных знаний, все это можно смело порезать.
Но корпорациям не особо интересно обучать маленькие сетки: в чатиках требуется всесторонний эксперт, а значит его нужно накачивать огромными объемами самых разных знаний, которые для узкой экспертной системы нафиг не нужны.
В принципе такую маленькую сеточку можно и самому поднять, если разобраться в принципе. Даже если она домашний сервак год будет насиловать, переваривая 10 гигов всяких художественных произведений - результат того стоит: чисто по фану, и серваки в быту 98% времени все равно в простоях крутятся. Ну и всегда можно арендовать дополнительные мощности - финансово это вполне посильно, они стоят копейки. Анончики на 600 бачей большую сетку тренили, а если заморочиться, можно вложиться и много больше.
То есть весь вопрос в том, чтобы разобраться как это делать. И поискать чужие результаты: если выйдет найти небольшую русскоязычную сетку, которая кроме поддержания диалога на бытовые темы ничего больше не умеет, это сократит затраты процентов на 80
А что касается скорости сетки: 13b на современной видюхе имеет избыточную для одного пользователя скорость. То есть в теории можно и ее как основу использовать, и результат даже будет юзабелен для практического применения - мощность можно расширять тупо закупая видюхи, даже такая стоимость за одного пользователя вполне приемлема на первых этапах. Это рабочая, но в целом не очень хорошая стратегия: большую сетку будет очень дорого обучить, т.к. каждый цикл обучения требует пересмотра всей сетки, а это деньги на ветер, с учётом того, что от большой сетки нужен только русский, а все остальные ее знания значения не имеют.

Аноним 01/08/23 Втр 00:28:24 № 438277 511

>>437764
Сайге нужно больше штраф за повторение в настройках делать, чтобы норм отвечала.

Аноним 01/08/23 Втр 06:52:56 № 438483 512

>>438092
Я твой пост целиком не читал - слишком много токенов - но:
>Проблема в том, что в целом на эти сетки полагаться нельзя. Они по своей сути не имеют какой-то практической пользы, их ответы случайны.
А не похуй ли? Эти нейросетки нужны для того, чтобы кумить, а не для каких-то там сложных целей. С симуляцией аниме тяночек они уже справляются неплохо. Контекста не хватает, но это лишь дело времени.

Аноним 01/08/23 Втр 10:05:40 № 438646 513

>>438277
Чел, штраф за повторы на русике всё наоборот ломает, так как по сути запрещает использовать те же буквы, лол.

Аноним 02/08/23 Срд 13:19:46 № 440439 514

Народ я очень хочу что-то похожее нач Сharakter ai у меня есть i9-13900k и 4090 на 24 гб, я настраивал и пробовал запускать ламу раньше где-то пол года назад и она натурально срала шизой.что самое главное она не работала как чат генерирую ответы и попросы вместо меня. а мне нужно что бы сет был обучен в таком темплейте

### HUMAN:
{prompt}

### RESPONSE:

мне пофиг если ответ будет генерироваться пол часа или если это будет занимать 60 гб оперативы, я хочу результат такой же как chai или charakter ai. где-то же все эти приложухи вроде real girfren или virtmate берут стностные модели? почему у азиатов есть а у анона нет?

Аноним 02/08/23 Срд 23:43:58 № 441518 515

>>440439
Чел, перекатывайся в новый тред:

>>438203 (OP)

Назад Вверх Каталог Обновить