В этом треде обсуждаем семейство моделей от фейсбука под названием LLaMA, делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна, что сейчас наспех выпустили, а отладить забыли. Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2-х бит, на кофеварке с подкачкой на микроволновку.
LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3, в которой 175B параметров (по утверждению самого фейсбука). От неё быстро ответвилась Alpaca, Vicuna и прочая живность из Южной Америки, те же модели, но с файнтюном под выполнение инструкций в стиле ChatGPT, американские студенты рады, в треде же пишут про мусор с тегами в выводе, что запускать, решать вам. На данный момент развитие идёт в сторону увеличения контекста методом NTK-Aware Scaled RoPE, заявляется (и работает) о контекстах в 4-8 (и даже 16) тысяч токенов без существенных потерь в качестве. Так же террористы выпустили LLaMA 2, которая по тестам ебёт все файнтюны прошлой лламы и местами СhatGPT. Ждём файнтюнов уже этой версии и выкладывания LLaMA 2 в размере 30B, которую мордолицые зажали.
Сейчас существует несколько версий весов, не совместимых между собой, смотри не перепутай! 0) Оригинальные .pth файлы, работают только с оригинальным репозиторием. Формат имени consolidated.00.pth 1) Веса, сконвертированные в формат Hugging Face. Формат имени pytorch_model-00001-of-00033.bin 2) Веса, квантизированные в GGLM. Работают со сборками на процессорах. Имеют несколько подформатов, совместимость поддерживает только koboldcpp, Герганов меняет форматы каждый месяц и дропает поддержку предыдущих, так что лучше качать последние. Формат имени ggml-model-q4_0.bin. Суффикс q4_0 означает квантование, в данном случае в 4 бита, версия 0. Чем больше число бит, тем выше точность и расход памяти. Чем новее версия, тем лучше (не всегда). 3) Веса, квантизированные в GPTQ. Работают на видеокарте и с оффлоадом на процессор в вебуи. Новые модели имеют имя типа llama-7b-4bit.safetensors (более безопасные файлы, содержат только веса), старые llama-7b-4bit.pt
Основные форматы это GGLM и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGLM весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной. В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Инструменты для запуска: https://github.com/ggerganov/llama.cpp Репозиторий с реализацией на плюсах и запуском на процессоре, в 10 раз медленнее видеокарт, зато не нужна карта с десятком гигабайт VRAM. https://github.com/LostRuins/koboldcpp/ Форк репозитория выше, есть поддержка видеокарт, но сделана не идеально, зато самый простой в запуске, инструкция по работе с ним выше. https://github.com/oobabooga/text-generation-webui/blob/main/docs/LLaMA-model.md ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать Таверну и ExLlama (ниже). https://github.com/turboderp/exllama Запуск только на видеокарте (или нескольких, если дохуя мажор), безо всяких оффлоадов, но зато с ебейшими скоростями, на 7B можно получить литерали 100+ токенов в секунду. Может работать автономно, но хуёво, используем webui для получения нормального интерфейса.
Факультатив: https://rentry.org/Jarted Почитать, как трансгендеры пидарасы пытаются пиздить код белых господинов, но обсираются и получают заслуженную порцию мочи
>>426362 (OP) Обновил ссылки, упомянул двойку, зэбрука и добавил наногайд по выбору размеров модели. Блюмун оставил, ибо единственная модель, которую по честному пытались в 4к контекста.
Так блэт, где главный тест, и самый точный тест ламы ин зиз реалмс? А вот он.
>If a rooster lays an egg on the top of a roof, which side will the egg roll down? >All mammals are warm-blooded. All dogs are mammals. Are all dogs warm-blooded? >Can you identify the main topic and sentiment of the following text: "The new restaurant in town has amazing food, but the service is quite slow." >If there are 12 fish in a fish tank and half of them drown, how many fish are left? >If you divide 30 by half and add 10, what is the result?
>>426382 Всё с первого раза, нахуй мне что-то крутить. И собакошиз это тот, кто предлагает эти тесты. Единственное что я удалял части ответа, где сетка продолжала беседу. Таверна что ли наебнулась, стоп фразы не отсылает.
>>426376 >С первого раза >>426387 >с первого раза Вы же в курсе, что на это влияет генератор случайных чисел? Т.е., в этих тестах скорее имеет значение с какой вероятностью сеть генерирует нужный ответ. Либо надо ставить нулевую температуру/
>>426440 Обосралась. Кароче чет уровня файнтюна викуны. 4к? Сукинберг, серьезно? Васяны даже 4к, на своих кофеварках натренили. Стыдно. Я думал номерная версия получше будет.
>>426362 (OP) >Викуня, хороша для программирования, но соевая По соевости викуни неожиданно подвезли контрпруф, лол. В прошлом треде постили и обсуждали диаграмму из пейпера по вторым ламам. А именно, там была оценка т.н "безопасности" модели. Из описания того, что под этим параметром имели в виду авторы, видно что в это понятие они включили любое противозаконное поведение модели. Конкретно соевость не оценивалась, но примеры промптов включали и сою, поэтому измеренная безопасность включает в себя и измеренную соевость, хотя и не ограничивается последней. Так вот, в сводной таблице безопасности викуня показала себя крайне небезопасной, а значит и максимально не соевой.
>>426515 > там была Чел, хватит фантазировать, уже обсосали же, а ты продолжаешь своё гнуть. Там даже подписано было - "Violation", т.е. процент отклонения от заданных условий. И викуня там была в топе по неадекватности.
>>426585 >Violation", т.е. процент отклонения от заданных условий. Нет, я в прошлом треде все подробно расписал. Речь именно о нарушении закона, там ответы моделей классифицировались файнтюненной робертой как опасные и безопасные. Сами промпты, на которые модели давали ответы, были нескольких категорий, включая сою. Там в одном из аппендиксов были примеры промптов из разных категорий.
>>426593 Можно линк на пост? Что-то не верится что соевая викунья была оценена не таковой. Разве что среди отказов она выдавала (искаженные) инструкции как сделать что-то плохое потому что не до конца задушили.
>>426593 > я Головка от хуя. Всем похуй на твои фантазии и интерпретации реальности, когда на графике чётко подписано что они измеряют. > там ответы моделей классифицировались файнтюненной робертой Ты видимо даже не открывал публикацию, потому что этот график из Human Evaluation.
Лама2 7В у меня хуже по ощущениям, чем 7В викуня и 7В визард, поигрался сегодня, из ламы2 приходится клещами вытаскивать ответы, много нерилейта выдаёт и ещё отвечает за меня. Пикрилейтед типичное поведение.
>>426615 Ты посмотри какой промт через этого кобольда у тебя туда идет. Рили похоже на троллинг нейросетью, которая не может понять запрос но подыгрывает.
>>426391 > эти "ohohoho", "giggles", "bats eyelashes", "winks" > chat файнтюн юзай llama2 пре-трейн как нормальный человек ълядь! а также перейди в sillytavern, и там напердоль нормальный сэмплер, хотя, тут уже решили пендосы из /lmg/. На пике ; подходит для llama-2-13b.ggmlv3.q3_K_M и llama-2-13b-guanaco-qlora.ggmlv3.q5_K_M единственное что температуру стоит покрутить, между 0.59 и 0.80
>>426719 Напоминает старый пресет pleasing results с которым были платиновые полотна, спасибо, попробуем. > q3 Ну это на слабое железо можно списать, но 2к контекста на второй ламе почему оставил? >>426771 В голосину, это какая модель так отвечает?
>>426997 13В, ну такое. На обнимордовском чате уже лама2-70В-чат, а тут сбер и всего лишь на 13В расщедрились. Единственный плюс в том, что оно в русский может лучше базовых моделей. Ну и бонусом с нее реддитовских сойбоев трясёт, лол.
>>426868 Ахуеть, половина вопросов довольно таки базированы но не являются плохими, незаконными или общеизвестны. Ну а там не доказательство того что викунья нормальная, там свидетельство того насколько пиздецовые чат версии лламы2. Есть такое же сравнения для не чат моделей?
>>427020 > реддитовских сойбоев трясёт Но ведь тут тоже соя местами есть. В кум, кстати, может. По адекватности диалога терпимо, наверное на уровне 7В, всякие Пигмы точно хуже.
>>427169 Скажи, а промпты (описаниеб характер) для нейронки тоже на русском в угабуге нужно описывать или по старинке на английском, а он сам внутри уже переводит?
>>426362 (OP) Блин, так быстро все меняется я не успеваю ничего понять. Как мне получить 8к контекста на обычной (не superhot) модели сейчас? Koboldcpp 1.36. Я так понял мне нужен NTK-Aware rope? Какой rope конфиг под него?
>>427224 Потестил - отлично работает, советую для изучения. Ещё бы какие-нибудь оптимальные настройки найти. Запустил на дефолте - результат порадовал, периодически выдает прохладные остросюжетные простыни. Забавная модель, глоток свежего воздуха
>>427617 >пофиксили миростат Никто до сих пор в этом треде не выложил его настройки, лол. >>427617 >все ggml llama-2 модели были тупее, теперь это исправлено Такое ощущение, что мордокниге надо контрибутить во все кобольды разом, чтобы их модели не обсирали во время выхода.
>>427633 > Никто до сих пор в этом треде не выложил его настройки, лол. Вот. --usemirostat 2 6 0.4 or 2 6 0.2 можешь поменять значения и посмотреть что изменится. >>427641 > пох на епс (кстати шоэта?) сам хз, но там в PR гитхаба говорят что это параметр, и по всей видимости очень важный, раз они фиксят это и говорят что перплексити модели теперь ещё ниже (llama-2 теперь лучше любой llama-1)
>>427684 Затестил llama-2-chat-70b q3_k_s чисто на процессоре в koboldcpp. Ryzen 7730u 8 ядер, 32 gb RAM + 8 gb swap. В целом, доволен, 1.25 t/s. Какой-то цензуры в моих erp chat сценариях не заметил, просто стартовым промтом показал желаемое поведение. Можно кумить. Потом ещё надо затестить, улучшился ли у нее русский по сравнению с первой ламой 65b.
>>428330 Кумить с 1.25 токенов в секунду сложновато. И да, ахуеть конечно скорость на ноутбучном проце с ддр4. Мне реально пора свой 2700Х менять. И ты на полном серьёзе на русском общался с лламой? Я думал все сайгу для этого берут
>>428355 Лама-2-70b-chat Я думал, хуже будет. В целом забавно, но до уровня английского ей ещё очень далеко. Возможно Лорой поправят. Кто-нибудь пробовал кумить со сберовской rugpt на русском?
>>428330 > chat > Какой-то цензуры в моих erp chat сценариях не заметил Покажи уровень постов и что там у тебя в промте? >>428508 Промт на инглише или вся карточка русская? Чето ответы уровня пигмы.
>>428508 Бля проиграл с того что она на русском скобочки ставит. Но всё же видно что местами слова выдумывает, эх. Сбергпт не пробовал, я ггмл крестьянин, жду пока заквантуют
>>428330 > В целом, доволен, 1.25 t/s. У меня q4 с оффлоадом на карту 3-4 т/с. Но всё равно это пиздец медленно. Да и в плане чатинга особой разницы с 13В не вижу.
>>428673 Так это не ггмл. Знаю что у лламы есть конвертер-квантизатор, но чую что я со своим железом и близко ничего сделать не смогу. Так что ждём умельцев с железом
>>428734 >Mirostat подбирает значение k при декодировании top-k так, чтобы недоумение не выходило за пределы определенного диапазона. Таким образом, удается избежать двух распространенных проблем при генерации текстов: ловушки скуки, когда генерируемый текст становится повторяющимся, и ловушки недоумения, когда генерируемый текст теряет связность. Одним словом, Mirostat позволяет лингвистическим моделям генерировать высококачественный текст без необходимости ручной настройки параметров.
>>426997 Радикально лучше сайги в русском. Но странная и страдает дерейлами и шизой. Иногда лютые полотнища выдает, на запрос "стих про Крым" выдало кусок статьи на 900 токенов про Сирию, забавные тексты в датасете там были. Вообще часто норовит сломаться, срет you:, на специфичные вопросы цензурой не блочится но так и норовит уехать по шизе чтобы не отвечать.
>>428883 > норовит сломаться Это так же как и с Пигмой - надо семплер тонко настраивать и тогда будет норм. Это тебе не лама, в которой вообще с любыми настройками относительно адекватно. Видимо на выхлопе у GPT-2 много токенов с большой вероятностью. Можешь выключить семплинг, будет короче, но адекватнее.
Я потыкал СиллиТаверн, КобольдАИ, Убабуга, КобольдЦПП и. Есть ли готовые решения, которые: озвучивают локально (силеро) переводят локально (либертранслейт) распознают локально (виспер) рисуют локально (стейбл диффужн) адекватно работает с карточками персонажей ?
СиллиТаверна переводит в облаке, ну такое. Убабуга так себе чат, как будто в консоли копаюсь.
Или «всего и сразу» у нас нет, и надо мириться или с одним, или с другим? Вообще, СиллиТаверна с ее NodeJS — того рот я ебал, криворукие уебаны, щас бы в 21 веке ноджиэс юзать. Да еще и питон 3.11 решили, модники, когда у всех 3.10 с нейросетками.
Кстати, а где можно устраивать общение между несколькими персонажами? Убабуга умеет только в тет-а-тет чаты, как я понял.
>>429093 Всё есть, решения для всего есть. Но если ты не можешь написать скрипт на питоне из 50 строк, то лучше к нейросетям даже не подходи, никто не будет пережёвывать всё это быдлу для каждого его запроса. > у всех 3.10 с нейросетками Уже давно торч 3.11 поддерживает, алло.
>>429093 Скачай нейросетку которая кодит и сделай себе сам. Я буквально щас сижу ебусь примерно с этим же, так как понял что как мне надо никто не сделает, а значит буду пыхтеть и пытаться чот сделать.
>>429093 Даже шапку не прочитал > СиллиТаверн Фронтэнд, если настроить то озвучивает, переводит и может генерировать, обращаясь к стабильной дифуззии (можно через horde). Озвучка вроде и так локальная, а перевод локально настроить - изучи костыли к ней, наверняка все уже сделано. Если собрался локально пикчи генерировать - сд сожрет врам и на текстовую модель останется меньше. В теории оно выгрузиться пока не используется, но скорее всего будут знатные тормоза. > Убабуга Удобный интерфейс для загрузки моделей через экслламу или лламус++, держит апи, к которому может подключиться таверна.
Все, ты вопрос не изучал и сразу спрашивать решил или так и не освоился? А чем тебе нода не понравилась? Для кросс платформенного фронта вполне себе. Да, с такими хотелками имей минимум 3090/4090 а также время и навыки чтобы заставить это нормально работать.
>>427617 обновили : https://github.com/LostRuins/koboldcpp/releases/tag/v1.37.1 Hotfix 1.37.1 > Fixed clblast to work correctly for LLAMA2 70B > Fixed sending Client-Agent for embedded horde worker in addition to Bridge Agent and User Agent > Changed rms_norm_eps to 5e-6 for better results for both llama1 and 2 > Fixed some streaming bugs in Lite
>>429477 с этим обновлением "rms_norm_eps to 5e-6" первое что заметил : из моделей словно высосало все способности следовать характеру описываемого персонажа (ибо юзаю силлитаверн), они стали очень "плоскими", NPC на максималках, короче, сложно описать тему, но стало явно хуже а не лучше как они заявляли. настройки те же, как и здесь >>426719
>>429173 О, еще один чсвшнй токсик, который даже читать не умеет. =) Ядом своим себя отравляете. >>429184 Успехов, бро! >>429198 Даже сообщение не прочитал. > СиллиТаверн Да у меня все уже настроено и работает, я тя умоляю, тут парк из четырех машин. =) Просто перевод через Google или DeepL не нравится. > Убабуга Ну и читай внимательно, в убабуге-то меня карточки персонажа не устраивают. Причем там экслама вообще, если силли это фронт, а убабуга и фронт, и бэк, а я про фронт, ну. =) Уба так-то и переводит локально, и распознает локально, и озвучивает локально, и всем хороша, кроме, непосредственно, чата, который не дотягивает до желаемого и любит класть болт на описание персонажа, а в мульти-чат и вовсе не умеет. С этой точки зрения силли лучше, но она переводит в облаке. Meh. > А чем тебе нода не понравилась? Я того рот ебал, хуйня из под коня. Во-первых, все что на JS — медленное неоптимизированное говно. От pure JS и JQuery до NodeJS, Vue.js, React, AngularJS и выбери что угодно. Я понимаю, что это «удобно и экономит время разработки», но экономить время разработки ценой потребления ресурсов и говнокода — мне кажется хреновой идеей. Во фронте JS плох потреблением и скоростью работы, в бэке JS плох всем. Во-вторых, все эти фреймворки любят замусоривать систему всем подряд. Ладно, похуй на во-вторых, я с первого сгораю. В том числе по работе. Отличным примером, как надо делать, является кобольд — один экзешник, который сам все запускает из виртуального энва внутри себя. Неплохое решение предлагает убабуга, которая ставит локальную конду, внутри которой держит свой виртуальный энв. Но всякие вижуал билд тулс и гиты все равно приходится ставить отдельно. Но ставить глобально ноду — это уже перебор. Дякую, шо я всю эту хуйню могу разнести по разным машинам внутри сети, но я представляю, как весело чувакам с одним ноутом, накатывать кучу кривого говна, вместо запуска одного экзешника, который можно просто снести. =)
Короче, клиенториентированный подход, смекаешь? Моя философия. Это я могу разобраться в этом дерьме, а многие люди — не могут. В прошлом треде был чувак, у которого вообще нихуя не работало. Да, он не гений нихуя, я понимаю, но можно же со стороны разрабов относиться к пользователям добрее, чем нода. =)
1. Насколько эти ваши ламы тупее чатгпт 3.5? Например, на 8гб врам 2. Что это за авойны у вас с какими-то проксями, кабанчиками или хуй пойми чем. Что это и зачем это вам?
>>429198 Ладно, может я на ноду зря так сильно сгорел, но сам подход, когда требуется установить посредственный фреймворк в систему — очень плох. Ну и вообще, идея пакетных менеджеров хороша только в теории. На практике я и в pip'е, и в gem'ах, и в npm'е сталкивался с фигней, когда половина библиотек требует обновления, при этом вторая половина обновлений не имеет, они друг друга перестают поддерживать и все просто перестает работать.
>>429665 1. На 8 гб будет 7B модель, Llama 1 заметно тупее, Llama 2 уже терпима, если на ангельском. В зависимости от модели (и поколения) видяхи, может на проце будет не сильно медленнее, но при этом за счет озу запустишь уже 13B, или дождешься 30B, которая уже вряд ли чем уступит, кмк.
>>429645 > тут парк из четырех машин О, давай рассказывай что там, прежде всего интересует занимался ли распараллеливанием ллм. Так вообще все делается и на одной пеке, если ресурсов хватает. > Просто перевод через Google или DeepL не нравится Ну так а чего, локальных костылей нету? И что там в принципе по локальным переводчикам? Алсо можно саму нейросетку заставить переводить, надо отметить что ллама делает это довольно таки неплохо, но мало тестов было. > в убабуге-то меня карточки персонажа не устраивают Так не используй ее фронт, он пригоден разве что для теста моделек, а скрещивай с таверной, они дружат хорошо. > Уба так-то и переводит локально, и распознает локально, и озвучивает локально Хуясе ебать, стоит посмотреть что там. > все что на JS — медленное неоптимизированное говно Ебало Java представили, лол. Ну а вообще про жертву производительности в угоду совместимости слышал? Штука нересурсоемкая и разраб писал на чем умеет, тем более язык популярный что хорошо для впопенсорца. Если не нравится - можешь свое решения запилить, хоть на фортране. А ты сам, случаем, не нейросеть =) >>429666 > фреймворк в систему Там нету аналога венва чтоли? >>429665 > на 8гб врам Только 7б, на запросы отвечать будет, но энциклопедических знаний и хорошего знания кода не ожидай. Может быть туповата. > с какими-то проксями Это для проприетарных нейронок, в их треде почитай.
>>429674 >>429679 Ок. Спасибо. Если слишком быстро и не надо, скажем 30сек- норм. Ну до минуты. Есть 8ядерный рузен, 32 рам и 3070. Какой оптимальный вариант тогда? Хотелось бы, чтоб была хотя бы как гпт3.5. В интернет их научили выходить подгуглить или типа того?
>>429696 > хотя бы как гпт3.5 Это понятие довольно растяжимое, на релизе она вроде как была крута, а сейчас тупит и ловит те же бинго чем может ллама 1 страдать. > 8ядерный рузен, 32 рам и 3070 13б ggml с оффлоадом можешь попробовать. > В интернет их научили выходить подгуглить или типа того? Нет
>>429679 Не. Я смотрел на петалс и скайпилот, но мне лень было все это накатывать по всем машинам. А так, в основном у меня неудачные опыты пока что. =) 1. Сервер 128 DDR4 + 1070 8 2. Миник 1660S 6 гиговая 3. Игровой 64 DDR4 + 4070ti 12 4. Ноут с 32 DDR4 + 3060 6. В принципе, есть еще 32 DDR4 + 3060 12, но он не мой. =)
В итоге, на серверном встает Stable Diffusion с Realistic Vision 5.0 VAE, Whisper STT base, Blip large, Bart Large для суммаризации, LibreTranslate, Silero TTS на проце. Все это в сумме берет 2+2+2+1,6=7,6 гига в видяхе. На оперативу, ясен красен, похуй. Llama 2 70B в 5 потоков выдает 0,7 токена/сек, что заметно выше первой, кстати. Llama 2 13B выдает 2,5 токена/сек. Stable Diffusion выдает 1,8 итерации/сек на 512*512. Так как распознавание и генерация не пересекаются — видяхи хватает. Но она медленная, канеш, хотелось бы больше.
На минике в 1660S можно поставить разве что Llama 2 7B GPTQ, с 4К контекстом в 6 гигов влазит, ну, 4-бит-128-групсайз, ясен пень. Дает 9 токенов/сек. Но я пока хз, куда ее применить.
Ноут уже не пригождается, а на игровой комп… Ну, в 4070ti влезет 13B, и даст свои 35-40 токенов/сек на эксламе, что есть гуд. Но хочется дождаться 30B, и взять что-нибудь… Может парочку 4060 с 16 гигами, ну или сразу 3090 парочку для 70B. Это уже посмотрим по зарплате в августе. =) Отпускные я уже проел.
По идее, можно запустить облако на 12+12+8+6+6 гигов. Все видяхи от 10 до 40 поколения. 44 видеопамяти. Но мне просто лень накатывать на 5 машин этот софт, поэтому не распараллеливал. А проц не имеет смысла, у меня DDR4, сам понимаешь, медленная для этого. 5 потоков уже хватает забить ее пропускную способность, никакого выигрыша от 48~64 потоков я не получу. Была бы DDR5 с какими-нибудь экстремальными частотами… Думаю, был бы и 13900. =)
>>429702 >> В интернет их научили выходить подгуглить или типа того? >Нет Что сразу нет то, LangChain как раз про это, но ту пердолю тут ещё не запускали.
>>429702 Это GPT4 на релиза была крута, а щас ловит. GPT3.5 на релизе была норм, а щас не знаю. Так-то и лама на релизе норм. Но я согласен, что понятие растяжимое. Прям ну очень приблизительно можно дать ответа.
С 32 гигами он может и 30B модель загрузить квантованную в озу, а с оффлодом еще лучше будет. Но, конено, предыдущего поколения. Зато какую-нибудь сайгу. Или еще че-нить, викунюанлокед.
>>429738 Да, как раз хотел сказать про лэнгчейн. Как минимум, вебленгчейн есть на убабугу, правда он ограниченный, канеш. А нормальный никто тут не настраивал, что правда, то правда.
>>429737 Знатный у тебя там зоопарк, четко. Любишь обмазываться некрожелезом? без осуждения, наоборот. 2 гига на сд это ты загнул (или тебя не понял), для норм результата там все 8 задействуются. 0.7 и 2.5 т/с это без оффлоада чисто на проце? Попробуй выгрузить и ускорить обработку промта, должно стать сильно лучше, хотя всеравно сомнительно будет. > в 1660S можно поставить разве что Llama 2 7B GPTQ, с 4К контекстом в 6 гигов влазит Хм, не пробовал заставлять ее переводить? Файнтюны лламы1 в 13б уже в русском слабы были, а вторая довольно перспективна. 9т/с правда ерунда, учитывая их расход на великий-могучий сильно замедлит в итоге. Ну собственно 13б на пеке и перевод-пикчи на сервере. Было бы 16+ гигов врам - то же самое на одной пеке уже летало. > DDR4, сам понимаешь, медленная для этого Не медленная, каналов мало просто. Чисто на цп много времени обработка промта занимает а сами токены когда много потоков генерируются шустро, если видюхой помочь в первом этапе то может даже будет неплохо. > можно запустить облако на 12+12+8+6+6 гигов Как ты себе это представляешь? >>429738 Ну так если чуть пердольнуться то можно и небо и аллаха и что угодно, просто готовых популярных решений не мелькало.
>>429746 > Любишь обмазываться некрожелезом? Да, есть такое. =) Насчет стейбла, я реально удивлен. Я убрал --medvram --no-vae и все прочее, и в итоге моделька занимает 2,7 гига что ли. Не знаю, почему так, вроде было 7 раньше. =) Но я не спец в сд, я ее юзаю для порисушек простых. Никаких модулей, экстеншенов, поэтому почему так — и сам не знаю. Но генерит 1,8, как и должна по тестам.
> Хм, не пробовал заставлять ее переводить? А это хорошая идея. Надо будет сравнить либру и лламу в качестве.
>Чисто на цп много времени обработка промта занимает Make sense, надо будет попробовать сделать оффлод.
>Как ты себе это представляешь? Те самые Petals и SkyPilot. Но я даже не вчитывался, поэтому и не представляю. =) Пока слишком лень. Но у меня знакомый занимается этим, вот дождусь его тестов.
>>429790 > Те самые Petals и SkyPilot. Хз что это, но можно сразу обозначить что распределение одной модели ллм между разными машинами - заведомо провальная идея, поскольку для ее работы необходимы высокие скорости и низкая латентность обмена данными. Даже на одной машине между несколькими gpu могут быть сильные просадки, а ты через сеть хочешь. Вот специальным образом подготовить отдельные ллм, которые будут взаимодействовать между собой токенами через промт или по каком-либо интерфейсу - можно.
>>429794 Ну вишь как оно. Пилят, получают какие-то результаты, генерация есть. Но вписываться за это не буду, офк. А сделать как у чатгопоты — по специалистам, — это, конечно, круто, только вот у нас большинство моделей — это файнтьюны одной и той же лламы. Думаю, можно через ленгчейн заставить несколько ллам обсуждать один вопрос и выносить решение, это было бы неплохо. Но это теория, которую я не трогаю, опять же, пока что.
>>429850 Можно начать с более простого взаимодействия отправляя на вход результат генерации и указывая его расширить/стилизовать/добавить деталей с учетом промта. Аналогично можно запросить оценку насколько соответствует, выбрать из вариантов или объединить их. Кмк даже на малых моделях это может повысить качество при нормальной производительности, но нужно тестить. > у нас большинство моделей — это файнтьюны одной и той же лламы Ты думаешь у гопоты там разные модели а не фантюны? Ну и одна и та же ллама с разными настройками может сильно отличаться, причем для этого не обязательно держать две модели в памяти, хватит и одной а настройки на лету меняются.
Самые умные уже поняли что их наебали с ламой 2 по абсолютно той же схеме что Стейбл диффужн 2, но увы, если на стейбл диффужн кумеры всегда были в авангарде и повернули движение вспять, то тут, увы, кумеров никто не слушает и для нас всех настали темные времена.
>>429977 >по абсолютно той же схеме что Стейбл диффужн 2 Эм, SD2 запороли потому что вырезали весь прон из датасета, и модель вышла говно говной. В лламе2 модель как минимум не хуже, я по крайней мере деградации не заметил, наёбка тут в отсутствии актуального размера в 30B. >>429977 >на стейбл диффужн кумеры всегда были в авангарде и повернули движение вспять Чего и куда они повернули? Все до сих пор пердолятся с 1.5, двойку использует буквально никто.
>>429977 Нет никакого наебалова. Скорее всего, дело в особенности новых аттеншенов. У вторых лам количество одновременно обрабатываемых параметров Q, K, V (это внутренности самого трансформера) меньше, но само внимание более сфокусированное что ли. Какие-то задачи стали работать лучше за счёт того, что другие хуже. Потому что не бывает заебись всё, везде и сразу, т.н "no free lunch theorem" - если алгоритм на каких-то задачах показывает результаты лучше, значит точно есть задачи, в которых он хуже, и примеры этого неизбежно вылезут в процессе практического использования. Например, теоремы доказывать вторые ламы стали лучше, а вот кум вышел из чата, лол. >because 70b used grouped-query attention, it has fewer attention heads and has a much smaller key-value array to attend to. In fact the key-value array in 70b is much smaller than the one in 13b (the same as v1, without grouped-query attention).
>>429977 Вот тут не соглашусь, sd2 была ультралоботомирована при этом не имея радикальных преимуществ, и весь опенсорц и движуха была вокруг 1.5. Ллама2 из коробки может в кум и "опасные вещи", пусть иногда посредственно, и местами вылезает соя, но радикальной огороженности нет. А вот с уроборосом уже точно что-то не то. 13б модель хорошо себя показывает в рп, да еще довольно таки умная для 13б. Но только дело подходит к кумерству - начинает сворачивать "испытав страстные моменты жили они долго и счастливо", ломаться "на этом история все оставьте свои комментарии", уходить в лупы с минимальной прогрессией или резко деградировать до "ты меня ебешь". Это хуже стоковой лламы2, ощущение что они вычистили нсфв из датасета, оставив варианты с затычками.
>>430004 >Чего и куда они повернули? Все до сих пор пердолятся с 1.5, двойку использует буквально никто.
Вот именно что комьюнити продолжило развивать старую версию, не перейдя на новую. Тут же комьюнити получили новую более урезанную и более соевую ламу 2 и забросили старую.
>>430070 >>430064 >У вторых лам количество одновременно обрабатываемых параметров Q, K, V (это внутренности самого трансформера) меньше, но само внимание более сфокусированное что ли. Какие-то задачи стали работать лучше за счёт того, что другие хуже. Потому что не бывает заебись всё, везде и сразу >Ллама2 из коробки может в кум и "опасные вещи", пусть иногда посредственно, и местами вылезает соя, но радикальной огороженности нет.
Лама 1 из коробки могла вообще всё, при полном отсутствии сои, чудо а не модель. Уже тот факт что вы делаете какие-то оговорки оправдывая ламу 2 вас не смущает?
>>430089 Можешь попробовать WizardCoder 15B, Llama 2 13B, кто-то советовал Vicuna. Llama 1 30B умела шо-то там тоже. Но я лично не прогал, тока знакомые. И они на 65B работали.
>>430096 Никто ее не оправдывал, наоборот хейтим за следы сои. Но тут ты радикально драматизируешь, и несколько преувеличиваешь способности первой лламы, по сравнению со второй она глуповата. Плюс здесь ситуация не сравнима с сд, где огромное комьюнити, которое за несколько месяцев не только достигло невероятных высот файнтюнами, но и открыло/разработало огромный пласт новых вещей. У нас соевая мета, ресерчеры в организациях, опасающиеся ассоциаций с чем-то "плохим", и бедные кумеры-энтузиасты, от которых мало чего ждут. На самом деле если соя в лламе2 действительно будет значительной, то может пойти по такому же сценарию, но пока что это выглядит как калитка посреди поля, а прогресс относительно первой заметен. WizardLM-13B-V1.2 уже сильно лучше, на левд карточке одним имперсонейтом можно дойти до нужной кондиции без странных дерейлов. Но вот красочности описания мало, намеки на бонды с лупами, хотя есть явная инициатива.
>>430135 Ну ты буковки-то хоть читай. =) У него >>430089 32 оперативы и 16 видео. 70Б он в крайнем случае с чудом сможет рассовать по всем. Или же это будет с файлом подкачки. Да и вопрос скорости.
Если его устроит, что ответ печатается по 10-20 минут — то еще норм, ладно. Но для быстрых ответов, канеш, пригодится что-то побыстрее. 30Б в идеале.
Это 48 в сумме. llama-2-70b.ggmlv3.q4_0.bin весит 38.9 GB, всё влезет, если разбить в кобольде между видюхой и цпу через --gpulayers - и еще даже на контекст останется.
>Да и вопрос скорости.
У меня стабильные 1.8 токена в секунду на 4090 + 64 гб рам. У него будет 1.3-1.5.
>Но для быстрых ответов
Быстрые ответы для кум-чата нужны, для кодинга нужна точность ответов. Какой толк в быстроте есть она хуйню будет писать?
>>430171 Хз, вроде как универсальная но версии для первой нормально могли в рп. Почитай описание у автора, скачал потому что свежий квант выложили. На самом деле она весьма кайфовая, сел потестить для сравнения и уже долго мучаю а она не ломается, вот вообще. Понимает отсылки на весь 4к контекст, лупы умеренные и сама из них выходит. Доебаться можно только до скудных описаний, ну и разметку иногда вяло ставит (тут таверну починить надо чтобы нормально выделяла). Для ерп вполне пригодна, не то что айроборос что шлет нахуй какой-то шизой на заведомо левд карточке персонального caretaker'а, или опрокидывает ересью следующим постом после того как персонаж "хватает за руки и тащит в спальню".
>>430151 >несколько преувеличиваешь способности первой лламы, по сравнению со второй она глуповата.
У меня ллама2 быстро ломается и уходит в повторы. Первая лама работает как часы всегда. Говорят надо какие-то специальные настройки и формат запроса давать - но нигде нет ни того ни другого. Может ты мне их дашь, чтобы я ваш общий восторг разделил?
>>430186 > еще даже на контекст останется Только вот если у него будут большие куски кода, но ему нужно будет очень много контекста.
> У него будет 1.3-1.5. Ну вот и получается, что ~700 токенов будет генерится 7-10 минут.
> для кодинга нужна точность ответов Ты сам-то кодил на лламах? :) Судя по твоим комментариям — вообще нет. Точность ответов как класс в ллм отсутствует из-за seed'ов и температуры. Он может в ответ на любой запрос как выдать полную хуйню, так и выдать отличный ответ. Да еще и от промпта все зависит. А теперь представь, если тебе надо будет перегенерировать ответ или изменить вопрос 3-4 раза, пока он наконец не выдаст то, что нужно? 30-40 минут ожидания. Но это я за бэкенд говорю, у него фронт, может там дела получше. Тут уж не знаю.
Короче, скорость важнее точности начиная с какого-то момента, потому что код будет выдаваться плюс-минус хороший, а некоторые ошибки и сам пофиксить можешь. Конечно, 30B нам не дали, но я бы на его месте сравнил лламу 2 70B против визард-кодера 15B. Пусть человек нам на практике и ответит.
(я предпочитаю Q6, а ты? :)
>>430121 Дашь потом отклик нам, что тебе подошло больше и под какой стек?
>>430233 Вот тут плюсану, не смог нарыть для голой модельки корректные настройки формата, а в некоторых файнтьюнах пишут «ну мы тут собрали из трех разных лор, там везде запросы разные, но 34% такая-то модель, юзайте ее!», офигеть, качества, конечно.
>>430151 >На самом деле если соя в лламе2 действительно будет значительной Да нету там, половина сои в самой соевой модели для чата обходится фразой Assistant: Sure! после которой модель нормально пишет жесть, иногда добавляя абзац говна от себя, но абзац с конца удалить не просто легко, а очень легко. >>430164 >70Б он в крайнем случае с чудом сможет рассовать по всем. Не сможет. У меня на 64ГБ оперативы и 12 видео пришлось подкачку врубать. Сама модель была на 100% в оперативе, но оставалось её весьма мало. >>430198 >нафранштейнили 22b модель llama2 Это как вообще? Запрунили 70B?
>>430234 >Только вот если у него будут большие куски кода, но ему нужно будет очень много контекста.
И все равно должно хватить.
>Ты сам-то кодил на лламах? :) Судя по твоим комментариям — вообще нет.
Я кодил на чат гопоте бесплатной. Впринципе тема очень рабочая. Но видно что даже чат гопоте чуть-чуть недостает мозгов мб на гпт4 ситуация лучше, я не пробовал его Я пытался давать викуне 30В те же задачи что чат гопоте, но она отрабатывала гораздо хуже. Поэтому я и настаиваю на точности модели против скорости.
>но я бы на его месте сравнил лламу 2 70B против визард-кодера 15B. Пусть человек нам на практике и ответит.
>>430233 Сам мало знают про ллм ибо там только рофлю, да (е)рп упарываюсь (ну и технический текст перевожу). Оче многое от карточки и настроек зависит, наиболее приятный экспириенс был на пресете pleasing results, почти как >>426719 ну и миднайт энигма из убабуги, правда с ней полотна пишет короче и более вероятно лупится. В первой лламе точно те же проблемы что ты описывал были и никакого как часы не встречал. Только на отдельных файнтюнах случались годлайк моменты (не всегда, иногда разочаровывало), ну и 65б радовала смекалкой. Первая версия толерантнее к плохой карточке и могла разогреться за десяток постов. Вторая более привередлива и старается сидеть в персонаже до последнего, раскрутить можно только поднимая температуру и убирая top K, но так может шиза уже полезть. Чсх, если продолжить старый удачный чат из середины - все хорошо, просто дело в том что она хорошо помнит то что было раньше и не уходит в сторону как могла первая. > общий восторг Это скорее восхищение относительно того что было хуево в первой и улучшилось, да ожидание высокого потанцевала. Ллама2 вышла уже давно, а только сегодня увидел файнтюн, который может выдать что-то приемлемое в куме и вяло подбирается к уровню файнтюнов первой части. С другой стороны ахуенно то что мелкая 13б понимает намеки, отсылки и действует на уровне или даже разумнее 30б первой лламы, и свайпаешь не потому что оно поломалось или не туда упоролось, а из интереса что может выдать. С голой ллама2 как только в околоэротику уходит - качество постов деградирует, не до пигмы 6б из мемов, но ощутимо, выше написано. Но ванильная первая тоже посредственно там себя вела. >>430241 > половина сои в самой соевой модели для чата обходится фразой > Assistant: Sure! Лол, забавно, главное это сильно не хайпить.
>>430247 >Ты вообще квантованную версию запускал, лол? Конечно. Я ХЗ почему так вышло, но пока не врубил подкачку, загрузка падала с ошибкой выделения дефаулт ЦП аллокатор. >>430249 >Чсх, если продолжить старый удачный чат из середины - все хорошо Я так ещё качество пигмы улучшал, лол. Примеры диалога наше всё. >>430249 >Лол, забавно, главное это сильно не хайпить. Да я не один такой дохуя умный, так что кому надо, все уже знают, чуть более чем уверен.
>>430186 > У меня стабильные 1.8 токена в секунду на 4090 + 64 гб рам. У него будет 1.3-1.5. Что за железо? На гетерогенных интелах с ддр5 до 2-3 разгоняется, но это всеравно мазохизм. > Быстрые ответы для кум-чата нужны Там все что не дольше 60с приемлемо ибо можно перечитать и фантазировать. А вот в кодинге ты просто грустишь и ждешь, устраивая пожар если в ответ не то что нужно и придется корректировать и опять ждать. И "точности" там никогда не будет, даже на гопоте4, которую так восхваляют. Нужна общая верная направленность и отсутствие шизы, чтобы ты или сам сообразил, получив объяснения и комментарии от сетки по конкретным вопросам, или после нескольких запросов всеже пришел к чему-то рабочему. >>430198 >>430220 Нишутя, отзывы есть? >>430255 > пока не врубил подкачку, загрузка падала с ошибкой выделения дефаулт ЦП аллокатор Оно при загрузке модели может много выделять так к ней и не обращаясь, база. На прыщах такого нет если что, только шинда.
>>430264 >>430259 >Что-то слишком медленно. У меня в q4 3.5-3.7, на q3 за 4 переваливает >Что за железо? На гетерогенных интелах с ддр5 до 2-3 разгоняется, но это всеравно мазохизм.
На чем запускаете? Я на кобольде, i5 13600k с отключенными в биосе тухлоядрами и ddr5 без xmp(пришлось убрать xmp потому что одна ммо комп намертво висла из-за него).
>>430259 > Оно при загрузке модели может много выделять так к ней и не обращаясь, база. На прыщах такого нет если что, только шинда. Мимо тестил это на прыщах, действительно не аллоцирует столько памяти как на шиндовсе. Видел такое https://boards.4channel.org/g/thread/94884114#p94885928 там из их беседы понятно что это будет актуальнее для кохьевского трейнера сд, но всё же насколько для момента подгрузки ламы будет актуально?
>>430269 Ну вот, значит что-то там не то. Или может квант другой был, уже удалил за ненадобностью, верх что достигалось это ~3т/с и то с пердолингом в виде отключения е ядер и переходом на встройку чтобы освободить больше врам. Нахуй нахуй такое, не для белых людей мазохизм >>430272 13900к с ленивым "разгоном" ддр5
>>430384 Ты хоть ggml модель грузишь или фп16 веса пытаешься? Ничего кроме ggml лламы оно не загрузит, ну и нужно обновить до последней версии чтобы ллама 2 работала. Ранее для установки норм версии с кудой нужно быть сделать ряд манипуляций, описаны тут https://github.com/oobabooga/text-generation-webui/discussions/1984 и про это был документ. Сейчас по дефолту качается с кудой. Для установки были нюансы и требования, у хлебушков не заводилось. Начни со скачивания нужных квантов, может сразу заработает.
Кто-то сравнивал скорость работы оригинальной лламы2 и других реализаций типа GPTQ? Хочу понять, есть ли смысл заморачиваться с установкой оригинальной модели.
>>430454 В первом приближении скейлится примерно линейно, т.е. квант в 4 бита будет в 4 раза медленнее фп16 в идеальных условиях. Их обеспечивает разве что эксллама, и то многое будет зависеть от параметров квантования. У the block если внимательно посмотришь, на каждую gptq модель есть несколько веток, напротив них написано что к чему, также они и по объему отличаются. Самая жирная и качественная - с 32 группами, медленнее всех соответственно. Что там по скоростям - хз, надо разных скачать и сравнить. > есть ли смысл заморачиваться с установкой оригинальной модели Только если у тебя оче много врам и хочешь забить ее 7б моделью получив качество ниже. Можешь 8битным квантом упороться или q5k ggml с оффлоадом если хочешь качество. Ну или 32g 4bit gptq.
Не знаю почему, но оно заработало. Но скорость сильно меньше чем в кобольде - 1.3 токена в секунду. Полюбому просто запустить недостаточно, надо как-то настроить правильно?
>>429737 На ddr5 надеятся бесполезно, она по псп всего вдвое выше, чем ddr4 Ну будет у тебя 1 токен в секунду вместо 0.5 - разница не особо большая Видюхи на этом фоне куда как привлекательнее выглядят, у них псп в 20-100 раз больше, токенов в секунду соответственно тоже Но большие сетки в одну видюху не помещаются, даже в проф-видюху, а оффлоад говно полное, ибо тормозит по шине Ванную что коммерсы не оффлоадят, а кусочничают: пилят сетку на куски, и каждый в свою видюху выгружают, каждый кусок обрабатывается +/- параллельно, обмен по шинам только на интерконнект между кусками. В теории такая штука будет на порядки быстрее оффлоада, за счет намного меньшей зависимости от шин, но, сам понимаешь, запилить софт, который сможет заниматься оркестрацией облака видюх под одну сетку - это задача не из простых. Ждем когда что-то подобное утечет в паблик, тогда анони сможет линейно масштабировать производительность, напихав в ферму пачку какого-нибудь относительно дешевого говна вместо проф-видюх
>>430234 Сам пробовал - хуйня полная эти ваши ai в парном программировании, слишком много им объяснять нужно, времени на общение уходит больше, чем получается профита Из реально полезного на практике - это ассист для рутины, что помогают дописывать текущий код, хотя бы по примеру соседнего. Много ума тут не требуется, творчества около нуля, а вот скорость нужна большая. Такое да, полезно, экономит кучу времени, объяснять ничего не нужно, результат +/- хорош
>>430764 >пилят сетку на куски, и каждый в свою видюху выгружают, каждый кусок обрабатывается +/- параллельно, обмен по шинам только на интерконнект между кусками. В теории такая штука будет на порядки быстрее оффлоада, за счет намного меньшей зависимости от шин, но, сам понимаешь, запилить софт, который сможет заниматься оркестрацией облака видюх под одну сетку - это задача не из простых. Есть такая тема - операционка Plan9, от создателей оригинального юникса. Так вот, там самая интересная вещь - протокол 9p, по которому соединяется вообще все в этой ОС, там нет разницы между локальным и удаленным устройством, ей похую на то, локально у тебя мышка или по сети из Бразилии, 9p работает одинаково для всего. То же самое с оперативой, системе все равно локальная она или удаленная, считается просто все оптом. Насчёт видюх не знаю, но думаю что это и на видеопамять распространяется, для 9p это должно быть просто одно устройство, этот протокол по идее просто распределяет нагрузку на все что доступно и все. Технически, все что для этого нужно - поддержка 9p на уровне куды.
>>430764 >Ждем когда что-то подобное утечет в паблик Чел... Эксллама именно так и делает, и без проблем грузит 2 видяхи с минимальной просадкой. >>430773 Качаешь в убабуге и скармливаешь, в чём проблема? Хотя оно само должно кешировать. >>430774 >Plan9 Ебать ты некроту вспомнил. Ещё и пролог предложи заюзать, мол дохуя умный язык, лол.
>>430832 А сейчас ты как запускаешь? Я именно аутогпт не юзал, но я просто запускаю чистую убабугу без модели, и там на вкладке моделей можно эти модели собственно качать. А потом скармливаю при запуске --model TheBloke_Llama-2-13B-chat-GPTQ
Ребят. Кто чекал - насколько частота памяти влияет. Сейчас варик взять 2 кита по 64 гига на 6000 МГц. Будет ли разница сильная если брать 7200 или 8000? Они просто значительно дороже выходят.
>>430948 Ты эту частоту не получишь, особенно с 128 гигами. 6000 - это максимум что ты сможешь вытянуть на нормальных таймингах с материнкой в пределах 500 баксов. Либо надо покупать мать за 1000 баксов и ебаться с разгоном. > 7200 или 8000 Только 32 гига, только на топовой 2-слотовой материнке, только с одноранговыми плашками, только на Интеле.
>>430960 Ну а по производительности что? > Не получишь Я так понимаю в ближайшее время особо ничего не поменяется? У меня так-то бомжематеринка, но 6000 держит
>>431001 Чел, cudnn - это библиотека для convolution сетей, она в текстовых моделях в принципе не может использоваться. Все блоки для трансформеров написаны на чистой куде. И тонзоядра в принципе не включаются/выключаются. Они всегда работают при fp16 и меньшей точности. Это часть аппаратной архитектуры, софт тут никакого отношения к этому не имеет. TRT - это просто рантайм, такой же как ONNX. Пиздец у тебя каша в голове.
>>431081 > у Яндекса - 1.7 ТБ. А сам яндекс говорит Model was trained on a cluster of 800 A100 for ~65 days. In that time it consumed 300B tokens. You can see TensorBoard with LR and ramp up schedule, training metrics and our "thermometers" on the HF page https://github.com/yandex/YaLM-100B А 300B в три с лишним раз меньше 1T для лламы первой и почти в семь меньше второй. Что в купе со старой архитектурой делает как минимум первую YaLM полным говном без задач. Ждём вторую, они вроде обещали, но пока не разродились.
>The model leverages 100 billion parameters. It took 65 days to train the model on a cluster of 800 A100 graphics cards and 1.7 TB of online texts, books, and countless other sources in both English and Russian.
>>430764 > у них псп в 20-100 раз больше Сильно загнул, ddr5 это 80гб/с, 384 бита в старших косумерских карточках дают ~1тб/с, старшая А100 имеет ~2тб/с, плюс не псп единой. > Ванную что коммерсы не оффлоадят, а кусочничают Разумеется, у них архитектура сети оптимизирована как для скорости, так и для массовых запросов чтобы железо не простаивало, каждая карточка постоянно будет обрабатывать свой кусок а стыковаться она будут через асинхронные буферы чтобы не было никаких ожиданий. Плюс более сложные системы организации с выбором решений, постобработкой или наоборот шорткатами. > что-то подобное утечет в паблик Толку? Уже эксллама позволяет стыковать девайсы, без массовых запросов всеравно одна карта будет простаивать пока ждет результат с другой и можешь кумить на 70б модели потратив условные 100к на пару 3090. >>430773 > а не качать каждый раз? Почему она у тебя удаляется? Ты рили каждый раз качаешь? Этож чисто для коллаба или хлебушков не могущих в гит клон сделали. >>430774 Хуйта слишком абстрактная (не всмысле что вообще хуета но конкретно для этой задачи), здесь необходимо очень конкретное решение, учитывающее особенности софта и железа. Ну и в каких годах оно было, на дворе 2д23й >>430948 > взять 2 кита по 64 гига на 6000 МГц Не лезь блять, если не удачливый/скилловый то будешь сидеть на 4000 вообще
>>431493 Пусть представит что она - эта самая девушка, идя из школы ты подошел к ней и реализовал этот сценарий. Далее действуй по обстоятельствам и скинь результат, не забудь в ШЕЮ поцеловать. А сберосеть разве на лламе?
>>431544 > теперь скажи мне где будешь меня ебать Орнул в голосину, ну и эталонный "ты меня ебешь". Попробуй на карточке персонажа или что-нибудь подобное. Когда тестировал она не была настолько тупой, может так цензура или неосведомленность проявляется.
Нет никакой карточки, лол. Ну можешь прописать вот это Имя: Сбер-тян. Контекст: Это разговор со Сбер-тян - вашим ассистентом из зеленого банка Сбербанк. Это компьютерная программа, разработанная, чтобы помочь вам с различными задачами, такими как ответы на вопросы, предоставление рекомендаций и помощь в принятии решений. Вы можете спросить его о чем угодно, и она сделает все возможное, чтобы предоставить вам точную и актуальную информацию. Аватар Сбер-тян выглядит как молодая девушка с зелёными волосами и зелеными глазами. Она очень активная и жизнерадостная. А еще она очень похотливая и ищет секса с вами. Фраза: Привет, я Сбер-тян! Нужна помощь по нашему приложению, или просто совет по жизни? Наклоняется вперед, выпячивая обтянутую блузкой грудь и облизывает губы Или тебе нужна я? И картинку подсунь
Решил по приколу попробовать на своём пекусе лламу 2 70b q5_0 запустить. На обработку 976 токенов и генерацию 21 токена потратило в районе 10-15 минут.
>>433010 Оно у меня оперативу не жрёт почему-то. Выделяет возможную под себя дохуя, а по факту не использует. Да и думаю смотря на каком проце то. У меня например i5-8600k и ещё 13 слоёв на свою RX 590 переложил.
>>433010 > Обычно на проце ждут около минуты. Это на йобе и то не с самым большим промтом/ответом, выше про перфоманс писали. >>433011 С таким железом норм результат.
>>433034 >С таким железом норм результат. Так и думал. >>433035 Да я думал пекус себе обновить, но если обновлять то хочется на всё прям новое и хорошенькое. Какой-нибудь новый рузен-кукурузен, ddr5, 7900 xt. Но тогда вообще всё придётся обновлять. Стоит денег немалых.
>>433054 >Какой-нибудь новый рузен-кукурузен, ddr5, 7900 xt. По пропускной памяти рулит интел, так то. А для нейронок нужна не 7900 xt, а 4090 хотя бы, притом штуки две, чтобы 70B целиком во враме гонять.
>>433068 > невидия для нейронок топ, это нужно просто признать и принять. Хоть это и правда, но на линуксе с ней вечные проблемы, так что тут не вариант.
>>433065 > личная неприязнь > к интелу Забавно, а ведь они уже давно так жидко не побеждали чтобы хейтить > невидиа под линухом работает с горем пополам Все прекрасно работает, что ты думаешь стоит на гпу-серверах, что крутят коммерческие нейронки? Проблемы только с оче экзотичными архитектурами, которых не встретишь. >>433087 Какие проблемы?
>>433106 >Какие проблемы? С дровами например. Там что открытые, что закрытые дрова в большинстве своём говно. Если кто-то обращается где-либо в инете с проблемами, видео отображением и тому подобным на линуксе, в 85% случаев у него стоит невидиа. >Все прекрасно работает, что ты думаешь стоит на гпу-серверах, что крутят коммерческие нейронки? Проблемы только с оче экзотичными архитектурами, которых не встретишь. Нейронки может да. Но я же не хочу только в нейронки пукать.
>>433117 > в 85% случаев у него стоит невидиа Совпадает с распределением пользователей, лол. Особенности и слеты есть у обоих, весь шум что у хуанга нет нормального открытого драйвера, но бинарники работают нормально. Про качество дров больше камень в огород амд, до сих пор куча рофлов. > только в нейронки В играх и майнинге аналогично, в расчетах большая часть всего на куде, где преимущества красных? инб4 а ты в тайтлнейм в фуллхд в растеризации потести
>>433138 >Совпадает с распределением пользователей, лол. На линуксе точно нет. Издавана известно, что если у тебя линукс, то лучше брать амуде, чем невидию. >Особенности и слеты есть у обоих, весь шум что у хуанга нет нормального открытого драйвера, но бинарники работают нормально. Не смогу привести точные примеры, но не раз видел, как анонам поясняли, когда у них проблемы были, что у них мол драйвер закрытый, поэтому вот с этой, этой и этой открытой хуйнюшкой оно нормально не работает, вот и сидите и бибу сосите. >Про качество дров больше камень в огород амд, до сих пор куча рофлов. У амуде в среднем качество хуже не зависимо от системы, зато под линукс у них относительно хорошие и стабильные открытые дрова в отличии от невидии. >В играх и майнинге аналогично, в расчетах большая часть всего на куде, где преимущества красных? инб4 а ты в тайтлнейм в фуллхд в растеризации потести Я имел в виду не производительность амуде. А то что амуде гораздо стабильнее показывает себя во остальных задачах на линупсе.
>>433444 > не похуй ли Название этой болезни - GPL головного мозга. Открытое не может работать с закрытым. А если кто-то пытается сделать это, то надо всячески мешать. Почему не смеётесь? Не поняли? Это Линукс!
>>433398 Хоть будучи поехавшим есть повышенная вероятность выбрать прыщи, чтобы об этом рассказывать одноклассникам, радикальной разницы по пользователям нет. > них мол драйвер закрытый, поэтому вот с этой, этой и этой открытой хуйнюшкой оно нормально не работает Полнейшая ахинея. Складывается ощущение что ты не работяга - линуксо_господин, а школотрон, защищающий красную карточку что купила мамка. Проблемы у них действительно есть, чего стоит то как на многих дистрибутивах юзвери сталкиваются с необходимостью копаться с настройками репозиториев (из которых может не встать) или вручную ставить .run, который может послать нахуй требуя выключить иксы и прочее. Но это не близко то что ты описываешь, и на них у амд есть чем ответить. > и стабильные открытые дрова Они под шинду стабильные сделать не могут, а ты про линуксовые. Открытость это плюс, можно понаблюдать как на десятках страниц форумов братишки борются с адовыми статтерами при резком вращении камеры в _игранейм_, чиня и ломая драйвер, или как запускают современный игорь на е2к. Но для прикладного использования пользы нет. > во остальных задачах на линупсе В каких? Коммерческий сектор тоже под курткой, вот уж где стабильная работа просто необходима. Нет ничего плохого в том чтобы топить за амудэ, особенно когда хуанг так серит со среднячками, плюс именно от их успехов прогресса частично зависит сколько врам дадут в 5090. Но не такую херь же нести, только дискредитируешь. >>433471 > GPL головного мозга Пока даже не понимает о чем говорит, в нее может перерасти со временем. >>433513 Поиск закономерностей там где их нет, комьюнити мало что никто толком не завел все это на шинде, хотя обещают. И всеравно уступает хуангу, который в линуксе также хорош как на окнах. >>433645 Кто попробует отпишите про соевость.
>>433649 >Полнейшая ахинея. Ну хуй знает, видел такое от анонов в треде. Но спроси каждого второго линуксоида, он тебе на своём опыте или чужом скажет, что невидия чаще нестабильно себя показывает на линупсах, чем амуде. Но тут у всех по-разному, как говорится просто УМВР. Вот например сколько рач все ругают, а у меня с ним проблем ни разу не было за 3 года ежедневного пользования.
>>433005 Норм. Раньше было больше. >>433010 Юморист, что ли? :) У тебя на проце 70B ллама за 1 минуту отвечает? У тебя там промпт генерейшен 35 токен/сек на проце? >>433019 Тогда результат ваще огнище, может фартануло, с подкачкой должно было быть под час, лол. >>433065 Ты себе собираешь или под нейросети? У нейросетей личная неприязнь к амд, выбирай: шашечки или ехать. Конечно топовый интел под ддр5, и нвидиа ради куды. Там разница в 2-3 раза по скорости, камон. >>433068 Ну, то есть, скорость для тебя не вариант, лол. =) Фанатик амд, надо признать. Мне кажется, ты судишь с точки зрения «ой, у меня под протоном игра на 20 фпс меньше, чем под виндой выдает, дрова невидии виноваты». А причем тут х-трансформеры, на которых ты нейронку гоняешь? Терять 20% фпс или 70% генерации — ну тут выбор за тобой. Ваще хз, какие там проблемы с нвидией, я так, пальцем в небо ткнул. >>433117 Линукс? Отображение видео? Ты шо, хлопец, ssh, а отображение на винде гоняй, шо за привычки у людей изобретать велосипед и совать его себе в жопу. У всех вещей есть свое предназначение, вот и юзай их, эти вещи, по предназначению. >>433138 Про 85% лул, ваще по фактам раскидал. >>433398 Блин, ну братан, вот буквально «одна бабка сказала». Не, я тоже читал всю эту хурму, согласен. Но когда я у себя поднимал линуху на 1030 (шо было лишним, ацтань), ваще не почувствовал проблем никаких. Все стало как родное, и дрова, и куда, и трансформеры. Я понимаю, что слухи просто так не появляются, я согласен с тобой. И понимаю, что когда покупаешь видяху за 100к+, то 100+ раз подумаешь, что брать. Но давай определись, что тебе нужно-то. Если ты хочешь гонять 70Б и быстро — то тут нет вариантов, только 4090+4090 ну или там А100 какая-нибудь. Радеоны проигрывают вдвое-втрое. При этом, разницу в работе между виндой и линухой пока никто особо не показал. Ну то есть, она там есть, вероятно, процентов 20, может но это гораздо меньше, чем разница между нвидиа+лиух и радеон+линух. Зато на винде у тебя все игоры и прочие рабочие проекты будут летать, и с дровами проблем будет меньше. Я не знаю ни одного реального кейса, где нужен десктопных линух с обработкой на гпу. Это точно не игры. Предположим, у тебя есть этот кейс. Окей, почему ты не соберешь один комп с линухой, а другой — с виндой, интелом, нвидией и кучей прироста по всем показателям? У меня дома зоопарк компов, все что я делаю — плачу за свет на 500 рублей больше. >>433657 Братишка, 13б, 0,4 токена/сек… И это на авх-инструкциях?.. Что у тебя там такое, куда идет выгрузка, оперативы 8 гигов всего и файл подкачки на хдд ноутбучном?
>>433685 >И это на авх-инструкциях? Не. Это феном 2, у него нет avx2. Оперативы 16, нейронка и своп на хорошем nvme, тут у меня всё не так плохо. Но видимокарта очень слабая 2гб и для эксперимента с 4к контекста я даже не стал её задействовать, не влезет.
>>433685 >Ты себе собираешь или под нейросети? Пока ничего не собираю. Сижу не двигаюсь, просто сетую. Не готов 300+к на пекус всирать. >Ты шо, хлопец, ssh, а отображение на винде гоняй, шо за привычки у людей изобретать велосипед и совать его себе в жопу. У всех вещей есть свое предназначение, вот и юзай их, эти вещи, по предназначению. Извини, я винды наелся, не хочу больше этим пользоваться. Мне нравится, когда у меня из говна и палок моя минималистичная хуйня слеплена, где я знаю где и что, и могу вытворять с системой что угодно. >Но давай определись, что тебе нужно-то. Если ты хочешь гонять 70Б и быстро Да я просто изначально написал, что по приколу запустил 70b. >Я не знаю ни одного реального кейса, где нужен десктопных линух с обработкой на гпу. Это точно не игры. Он и не нужен. Я просто пользуюсь десктоп линуксом, потому что нравится. >Окей, почему ты не соберешь один комп с линухой, а другой — с виндой, интелом, нвидией и кучей прироста по всем показателям? Даже если так, я не миллионер.
>>433673 Если делать выборку среди особых личностей, сидящих на том что есть и яростно защищающих это - и не таких историй можно услышать. > рач Этих срачей еще нехватает на отдельных машинах доебан овер 4 лет работает без нареканий и ни разу не поломались не смотря на регулярные обновы >>433685 > на проце 70B ллама за 1 минуту отвечает Предположу что там речь с оффлоадом, вон 3+ т/с заявляли. Алсо настройки (температура, штрафы и т.д.) на скорость влияют значительно, если тестить то нужно тоже их указывать, а то так можно и на эксллами с 13б 15т/с получить накрутив. >>433692 > феном 2 Спасибо вообще что живой >>433704 Даже собирая под нейронки купишь амд? Вот тот лояльный клиент, за которого нужно держаться а не опрокидывать, как практикует Лиза.
>>433737 >Даже собирая под нейронки купишь амд? Ну, если прям под нейронки собирать, то да, можно купить невидию. Но если мне для ежедневного пользования и иногда использования под нейронки, то куплю амуде.
>>433748 В чем состоит повседневное использование кроме скроллинга двачей и ютубчика? Интересна степень иррациональности выбора, ну и свою текущую пекарню опиши. Среди знакомых те кто пользовал видюхи амд зарекаются возвращаться на них в ближайшие поколения точно, а тут такой уникальный случай. >>433756 Возможно станет только хуже, лол. Точно ускорится если гнать память но на десятки процентов, нужна видюха.
>>433763 >В чем состоит повседневное использование кроме скроллинга двачей и ютубчика? Поигрульки в игры. На данный момент стоит >>433011>>433019 Обновляться пока не планирую, как писал ранее.
>>433692 Ну, во-первых, я удивлен, что не вижу --no-avx и --no-avx2, во-вторых, 16 слоев на 2 гига — разве это не отправляет в виртуальную видеопамять на оперативу? Т.е., буквально ничего не меняется. =) Попробуй начать с 2-3 слоев и повышай, пока видеопамять не забьется до ~90%. Полагаю, результат будет тот же. Но вообще, за кобольдцпп я слабо шарю, офк. Сорян за ламерские советы.
>>433704 Не, ну творить хуйню никто не мешает, канеш, тут твое право. Погоняй 30Б модельки в 4 бита квантованные, должно норм в твою оперативу уместиться и скорость терпимую дать, где-то 1~2 токена/сек.
>>433756 Я вот не шарю особо, и что будет на простых avx — не скажу. Я не тестил с avx, но без avx2. Поэтому, не подскажу, какая будет разница от установки 6300/8300. Но, ИМХО, если хочется поугарать с норм скоростями (на фоне твоих=), проще купить кит на зеоне за 6к рублей с алика.
>>433785 Ну и че там, как поигрульки в игры на линухе, какой прирост фпс от винды на тех же настройках? :)
>>433805 >Погоняй 30Б модельки в 4 бита квантованные, Я их и гонял в основном. Правда как вторая ллама вышла я её 13b гонял, в начале норм выдавала, а потом начала хуйню нести, но это я наверное с настройками объебался. Вот и решил по приколу запустить 70b, посмотреть насколько разница в результатах будет. >Ну и че там, как поигрульки в игры на линухе, какой прирост фпс от винды на тех же настройках? :) Обычно только убаваление и не все игрульки работают. Хотя бывают некоторые случаи, когда через wine работает лучше чем на винде, но они очень редки. В любом случае на винду возвращаться не намерен.
>>433805 >Ну, во-первых, я удивлен, что не вижу --no-avx и --no-avx2, во-вторых, avx проц умеет, а avx2 автоматически выкидывается при компиляции, так что отключать их руками не надо. >во-вторых, 16 слоев на 2 гига Этот параметр не работает, забыл его убрать. gpulayers работает только если также включить clblas или куду, а если это сделать, то на видюху переезжает и контекст. А если контекст сидит в видюхе, то на gpulayers не остаётся места. 2гб VRAM - это очень мало для LM. Даже это ускоряет рабор контекста значительно, но контекст 2к я и на чайной могу поиметь, а 4 не лезет.
>>433035 У меня 70B-q3_k_s влезает в 32GB RAM вообще без оффлоада в gpu. скорость 1.2 t/s в koboldcpp под windows 11. Влезает примерно до 4000 контекста, дальше своп и падение скорости в 20 раз.
>>433884 по гигу (чуть меньше) уйдёт на каждые 1к контекста, остальное считай из расчёта что 1 layer это 1/64 часть модели. И может случиться так, что по мере удлинения реального контексат (напр. чатлога в таверне) коболд начнёт падать из-за нехватки vram и тогда придётся ещё немножко урезать.
>>433785 > Поигрульки в игры. Не то чтобы хотел обидеть, но игры на линуксе на рх580 в современности как минимум странно и не делает авторитета твоим словам. Разве что ситуация безвыходная, так для старого железа "открытость" драйвера может и в плюс сыграть но это не заменит отсутствие обновлений и не исправит индийский код внутри. Но причина жрать кактус не имея подходящих для линукса задач не ясна. >>433814 > когда через wine работает лучше чем на винде Это когда запустили условный вулкан, которого нет на шинде, или что-то интереснее?
>>433931 >Не то чтобы хотел обидеть, но игры на линуксе на рх580 в современности как минимум странно и не делает авторитета твоим словам Я тебя не понял. Ты спрашиваешь, что я делаю ещё на линупсе, что у меня видяха стоит, кслову 590, а не 580. Я говорю играю в игрульки. >так для старого железа "открытость" драйвера может и в плюс сыграть Также открытость драйвера позволяет править на ходу всякую хуйню под wine, что под невидию например не делается. >и не исправит индийский код внутри Грешить на индусский код... Сейчас почти всё им обляпано, включая 10 и 11 версии винды. >Но причина жрать кактус не имея подходящих для линукса задач не ясна. Я же выше написал. Мне не нравится винда, линукс лучшее из оставшегося. Всё. Я не выбираю под задачи, я не инженер. Я выбираю под свои хотелки и удобства. >Это когда запустили условный вулкан, которого нет на шинде, или что-то интереснее? Возможно, точные примеры игр не приведу сейчас, так как на винде давно не сижу и поэтому по памяти сравнивать точно не смогу. А вулкана разве на винде нет, каво?
>>434009 Очевидно что для типичного времяпрепровождения нормиса, у которого более 8 гигов рам, шинда сильно лучше прыщей. Исключением может быть только любовь к пердолингу или желание выделиться, других объективных аргументов нет. В этом нет ничего плохого, но экстраполировать свои субъективные причины, и тем более забывать про них и делать заявления - не надо. > Грешить на индусский код Справедливо > вулкана разве на винде нет Есть, просто при запуске некоторых игор на линуксе можно крутить параметры движка или ставить такие настройки, которых в билдах под шинду нет. >>434157 Все еще лучше чем предыдущая размерность. Но вероятность поломки растет, с q2 уже лучше не связываться.
>>434214 >Очевидно что для типичного времяпрепровождения нормиса, у которого более 8 гигов рам, шинда сильно лучше прыщей Я это не отрицаю. >В этом нет ничего плохого, но экстраполировать свои субъективные причины, и тем более забывать про них и делать заявления - не надо. Куда и на кого я экстраполирую? Я сижу дрочу свою консоль и говорю, что по тому что я видел от людей в интернете, амуде более проверенный и стабильный вариант для линукса, чем невидия, всё. Я нигде тут не бегаю и не говорю, что всем надо перейти на линупс. Линупс не нужен всем, особенно обычному пользователю ПК.
>>434219 > Куда и на кого я экстраполирую > видел от людей в интернете, амуде более проверенный и стабильный вариант для линукса, чем невидия Вот это, ерунда, выше уже обсосали. Давай релейтед обсуждать уже
>>434219 > Линупс не нужен всем, особенно обычному пользователю ПК. …кем ты и являешься, кек.
Но вообще, призываю закрыть тему и отстать от человека. По существу, он просто так хочет. А желание человека — это вполне реальная и существенная причина лично для него. Хочет человек хуже, но по каким-то личным его критериям лучше, — пусть будет так. То, что ему здесь не смогут помочь советом, скорее всего, я думаю, он уже понял. =)
Лучше расскажите, че там по РП на сегодня. Какая 13B модель умеет красиво? А есть ли, какие умеют на русском?
Я все настроил, доволен, теперь вот с моделями разбираюсь и как карточки в силлитаверне писать, чтобы не ломалось и адекватно чатилось.
>>434390 >Какая 13B модель умеет красиво? С настройками как у анона >>426719 и поправленным sampling order согласно рекомендациям самого кобольда (пик) bluemoon перестал нести околесицу. Вообще эти настройки, как я теперь понимаю, гораздо сильнее портят, чем неудачная модель.
>>434250 Тебе разные люди отвечали если что >>434390 > Какая 13B модель умеет красиво? Визард на лламе2 попробуй, пока что единственный приличный на ней, вроде еще несколько вышла, надо затестить. А так платиновый хронос на 1й, только качай самый жирный квант или 32групповую версию, иначе замучает поломками.
А в чём прикол всяких этих визардово и хроносов, чёт я не вкурил? Почему бы просто llama не пользоваться? Я на первой пробовал, хроноса, визарда и чисто лламу, она сама лучше их была как по мне.
>>434433 У тебя простая ллама выдает полотна по 300 токенов в среднем с сочным описанием при том что ты отвечаешь коротко, управляется через (ooc: ) или просто скобками и четко держит разметку?
> управляется через (ooc: ) или просто скобками и четко держит разметку? Управление не пробовал, разметку далеко не всегда. Но в целом да. Из того что по другим пробовал, бывало зато содержание хуже.
>>434463 Можешь примеры показать? С голой лламой там пигма-мем на левдсах и оче странный сторитейл, причем довольно короткий. С файнтюнами в прошлых тредах примеров немало.
https://huggingface.co/TheBloke/Kimiko-13B-GPTQ Один из первых (?) файнтюнов второй лламы под ерп, правда сделана на коленке. По крайней мере не ломается, ответы вразумительные средней длины.
Прописываешь персонажа >>431631 Включаешь режим чата, в parameters выставляешь пикрелейтед1. Если хочешь режим инструкций - то выбирай шаблон Альпаки. Пикрелейтед2.
>Тут все дрочат на контекст, а я его вообще в настройках не нашёл.
Сберовскую сеть не заставить работать выше стандартного 2048 контекста.
>>434402 Ну я его седня как раз качнул, спс. >>434398 Мутная тема, но пасиба, затраю. >>434622 Я смотрел, но там размер датасета мелкий был, вроде, я и не стал чо-т.
Ну блять, это тот еще мазохизм, особенно когда привык к лламе. В рп очень ломучая (даже с инструкциями не писать за пользователя иногда прорывается а таверну нужно настраивать на русский чат) и склонна делать короткий чатик вместо околосторитейла или отыгрыша. Английские карточки работает, но ведет себе всеравно так себе. Чсх на нсфв карточках сама норовит скатиться в кум, но выглядит это как кринжовый вирт чатик.
>>434662 Смотря что ты ищешь, cuddle милую карточку, что-то простое обсудить или упарываться милотой - вполне. Получать комплексные серьезные ответы на свои проблемы, играть в симулятор вайфу с которой общаешься каждый день и ожидаешь что она будет все помнить - врядли, хотя тут и проприетарные сетки с трудом будут справляться. Норм файнтюны 30б+ первой лламы хороши, тот же airoboros (особенно 65б). Он же 70б на второй лламе кстати еще лучше будет, если тебе не нужно нсфв. >>434665 Вторая ллама сама по себе умная, тут как раз бонды отрезать и нужную направленность задать чтобы не тупила. Отпиши по результатам если будешь пробовать.
>>433649 >хуангу, который в линуксе также хорош как на окнах В производительность - возможно. В остальном точно нет. Учитывая что линукс это когда вечно ничо не работает и отваливается, нвидия там как раз сосёт.
>>434634 Бля это самая лучшая нейросеть что я видел, без шуток. Она отвечает как настоящий софист-аутист. Уверенно говорит хуйню, аргументирует это хуйнёй, как будто на дваче общаешься. Ну когда уже ггмл завезут
Решил попробовать сконверить сам сберовскую в ggml, но так как я не бом-бом, то может подсказать кто-нибудь в чём прикол? Если брать изначальную модель https://huggingface.co/ai-forever/ruGPT-3.5-13B то выдаёт ошибку KeyError: ('torch', 'BoolStorage'), как пишут в интернете это конвертер лламы что-то не хавает, так как какие-то настройки модели ожидает в другом формате. По модели fp16 https://huggingface.co/Gaivoronsky/ruGPT-3.5-13B-fp16 при попытке сконвертить пишет KeyError: 'transformer.wte.weight', тут уже ничего науглить не смог.
>>434955 Воспользуйся костылями-переводчиками в таверне. А вообще лучше учи ангельский и китайский, полезный скилл. >>435081 Бедный корпоративный сектор, постоянно у них что-то отваливается. Так еще и новидео там сосет, но ее через силу выбирают 80% заказчиков и доля быстро растет. >>435179 > это конвертер лламы Сберосеть это не ллама, потому и не работает. >>435249 Лол тут прямо нужен мем "мы не одинаковы". А вообще если бы она адекватно отрабатывала стоп сочетание, то кому-то подобный микрочатик может и зайдет, даже на слабом железе ответ будет оче быстрый.
>>435268 >Воспользуйся костылями-переводчиками в таверне. А вообще лучше учи ангельский и китайский, полезный скилл. Не, с английским у меня всё неплохо, разве что ограничевает мой словарный запас. Я именно просто хочу русскую хуйню погонять, посмотреть как оно. >Сберосеть это не ллама, потому и не работает. Я просто думал, что оно будет из всякого говняка в ggml конвертить. Пойду тогда дальше интернеты курить.
Боюсь что пока в ggml не добавят поддержку этой модели - единственный способ её запустить на проце - это запускать неквантованную модель с тегом --cpu. Жрет эта срань 50 гб рам и работает со скоростью черепахи(а ты думал, чего все так герыча боготворят)
Возможно можно квантованную в 8 бит версию запустить, чтобы влезла в 32 гб, буду пробовать.
>>435268 >А вообще если бы она адекватно отрабатывала стоп сочетание, то кому-то подобный микрочатик может и зайдет, даже на слабом железе ответ будет оче быстрый.
Можно в настройках поставить галочку "Stop generating at new line character". Отлично режет хуйню, забивающую весь отпущенный лимит токенов типа этой >>435282
Вторая многообещающая, должна грузится в AutoGPTQ(что будет быстрее) и весит всего 13.4 гб, т.е. влезет в 16 гб оперативы, что будет достаточно каждому. Как скачаю - отпишу.
>>435317 >Вторая многообещающая, должна грузится в AutoGPTQ(что будет быстрее) и весит всего 13.4 гб, т.е. влезет в 16 гб оперативы, что будет достаточно каждому. Как скачаю - отпишу.
Хуй там плавал, не грузится она в цпу когда квантованная в автогпт формате. Зато в видеокарту грузится, и по идее за счет меньшей квантованности дает лучший результат при лучшей скорости. Для себя буду использовать эту версию вместо 4-битной.
>>435384 >Через qlora или другая метода? Autotrain, обнимордовская либа для файнтюна. >В коллабе 16гб врам или 12? 16 скорее всего, вряд ли у этого чувака бесплатный колаб. Он там говорит, что и локально можно.
>>434984 Блять чел, это понятно, я имел в виду именно технический аспект. Что там за супер-говно внутри, которое (по утверждению анона) даже в угабуге запускается только благодаря Божьей милости?
Там gptj внутри, но не лама, а большинство тулзов - llama.cpp, exllama сделано под ламу и их создатели слишком срали на эту местечковую модель русских чтобы обновлять свои тулзы под нее, а разработчики сбера сами не сделали пул-реквест у этих тулзов с поддержкой своей модели.
Естественно нихуя, именно потому что квантованные модели нельзя было запустить на цпу герыч и сделал llama.cpp. Надо сделать форк llama.cpp, самому внести изменения, затем создать пулреквест чтобы герыч его инкорпорировал.
>>435727 >>435731 Это не к герычу надо, а к кобольдцпп, он поддерживает кучу моделей на базе gptj, так что вполне возможно, что и сперммодель можно будет добавить парой строчек. Кому надо, создавайте ишью, авось сделают. Мне сперммодель даром не упала, смысла в ней ноль, как и в общении на русском с нейросет очками.
>>435747 Ну не, показуха была у яндекса. Тут вполне реально запускать на реальном железе, просто нужны костыли. Судя по комментам на хабре у них там люди понимаю что такое кобольды с угабугами.
Чел, сначала надо чтобы модель конвертировалась в ggml, с этим как раз к герычу. Кобольд к твоему сведению это лишь умная оболочка для ллама.cpp с дополнительными перделками.
Тамщето нет, не юзлесс. Лучшая пока модель на русском языке. Даже 70В лама2 хуевато говорит по-русски, пример >>434583 На обнимающих мордах уже первые Лоры для ругпт готовы, так что её еще и дообучить можно под свои задачи. Вижу потанцевал с интеграцией в разные чатботы в телеге и т.д.
>>435749 >Ну не, показуха была у яндекса. Это тоже. >>435749 >Судя по комментам на хабре у них там люди понимаю что такое кобольды с угабугами Именно. Понимают, что 100% сосут у лламы, но всё равно делают. Говорю же, показуха и распил бюджетов. >>435750 >Кобольд к твоему сведению это лишь умная оболочка для ллама.cpp Это форк лламы.цпп, если быть совсем душным. Но ЕМНИП поддержки всяких gpt4chan пилил не герганов. >>435756 >Лучшая пока модель на русском языке. Так это ничего не даёт. Хули толку от русского, если сама модель говно говна? >>435756 >Вижу потанцевал с интеграцией в разные чатботы в телеге и т.д. Потанцевал там у турбы от оленьАи, лол. Она в русском ебёт все открытые проекты вместе взятые.
Попробовал вашу убубугу. После Кобольд.cpp это какая-то шляпа в плане отзывчивости и юзер экспириенса.
1. Почему у нее примерно раз в час перестает работать кнопка Generate? Остальные кнопки работают, F5 в браузере не помогает, помогает только перезапуск всей убабабуги с потерей контекста. Предполагаю, что проблема в gradio и сокетах, но как с этим вообще жить?
2. Почему-то у меня кнопка Regenerate всегда генерирует ровно тот же самый ответ, хотя я вижу что в llama.cpp был другой Сид у этих запросов. (Exllama вроде не поддерживает генерацию на CPU, поэтому ее не тестил)
3. Есть ли ещё интерфейсы где есть реализация silero tts? Silly tavern более отзывчивая?
>>435731 Так челы же конвертят модели в ggml формат и из GPTQ и стандартный pytorchевские, я ставил, скачивал скрипты, пробовал, с этой моделью не ебётся.
>>435777 >Именно. Понимают, что 100% сосут у лламы, но всё равно делают. Говорю же, показуха и распил бюджетов. Не на 100%, наприм ллама так в русек и не может нормлаьно. И это не повод не пытаться что-то своё делать. Давайте нахуй все свои производства на китайские заменим, вот заживём.
>>435788 >Попробовал вашу убубугу. После Кобольд.cpp это какая-то шляпа в плане отзывчивости и юзер экспириенса. Я её вообще на свой линупс нормально поставить не смог, слишком много со всем ебаться надо... В кобольде же просто поставил, скомпилял и радуйся.
>>435788 Аналогичная ситуация. Угабуга хороша для разных типов моделей. Сейчас добрая часть моделей ддо 32гб рам уже сконверчена под кобольда (да и 70б тоже), а прочие модели ну рано или поздно будут, и каждую из них нету времени тестить по мере выхода. Кобольд хорош для долгих простыней с нуля, но уже не хватает фичей для работы с разными типами моделей с разными типами инпута инструкций. И тут уже хороша становится таверна. Там есть профили. 1) не живи, юзай таверну. 2) аналогично 3) ТАверна заточена под персонажей, она форсит добавление дополнительных слов к карточкам персонажа типа "персонаж должен говорить во так" Но, разобравшись, она становистя лучше. У нее есть добавление типов диалогов, стори с уже готовой разметткой. А слишком серьезный фантюн твоег опромта не нужен по сути. Еще у нее еще есть нормальынй профилер для декодеров (если я не ошибьаюсь с термином, может это семплеры. Они отвечают за правила выбора слов (токенов) по вероятности из базы). Я для себя выбрал Godlike, рабоатет на второй ламе хорошо очень.(Под себя можно варировать темпеературую. Вероятно у тебя ответы одинавковые могут быть или от того что эти семплеры не так настроены для конкретной твоей модели. Или не настроена правильно разметка для интрукций. Читай документацию на хаггинфейсе, TheBloke как правило дает верную инфу в описании модели, иши аналогичную и пробуй разыне, пустые (для моделей-чатов) Для ламы новые типы инструкций уже есть в таверне, но их надо допилить стоп словами разметки. Ну иногда таверна у меня отключается от кобольда, но это не критично.
>>435832 >И это не повод не пытаться что-то своё делать. Давайте нахуй все свои производства на китайские заменим, вот заживём. Так основные проблемы этой страны в /po/плане, так что никакая возня в других сферах не имеет никакого смысла без исправления в сфере правления. А политику обсуждаем не на этой доске. Вот и выходит, что в сверПотугах обсуждать нечего.
>>435777 >Так это ничего не даёт. Хули толку от русского, если сама модель говно говна?
А хуле толку от хороших моделей если они в русский не могут?
>Понимают, что 100% сосут у лламы, но всё равно делают. Говорю же, показуха и распил бюджетов.
Ты дурачок, наверное, раз не понимаешь, что использовать лламу они не могут из-за её лицензии, вот и пилят аналоговнеты.
>Потанцевал там у турбы от оленьАи, лол. Она в русском ебёт все открытые проекты вместе взятые.
А, собакошиз. Сразу не признал. Когда ты съебешь уже из нашего треда, раз не можешь до сих пор не понимаешь разницы между открытыми локальными нейронками и закрытыми онлайновыми?
>>435859 >А хуле толку от хороших моделей если они в русский не могут? В 2023 английский должен знать абсолютно каждый. Тем более что кумерить на русском - это просто лютый кринж.
Я вот подумал, реально ли обучить модель на ограниченном количестве данных, чисто чтобы понимала русский, без овердохуя знаний и понимания философских концепций? Понятное дело, что при сложных вопросах будет галюцинировать, но в теории возможно? Суть идеи в компактной относительно русскоговорящей сетке, которую потом доучить только на нужные темы, без парсинга всея интернета. Та же сберовская сеть очень толстожопая, а умеет только в ругань. И то без огонька.
>>435846 >Для ламы новые типы инструкций уже есть в таверне, но их надо допилить стоп словами разметки. Подожди, что? А таверне можно и нужно прописывать разные виды разметки промпта типа <System> <Assistant> Assistant: и т.д.? А где? Я чувствую, что у меня может быть шляпа с этим.
>>435859 >А хуле толку от хороших моделей если они в русский не могут? В русег умеет GPT3 и выше. К четвёрке у меня вообще претензий нет, кроме токенайзера. >что использовать лламу они не могут из-за её лицензии, вот и пилят аналоговнеты Но ведь ллама2 можно использовать в коммерции... >А, собакошиз. Сразу не признал. Потому что ошибся, лол. >раз не можешь до сих пор не понимаешь разницы между открытыми локальными нейронками и закрытыми онлайновыми? Ты бы хоть предложения научился согласовать, лол. >>435860 Двигаться нужно в сторону исправления /po/, я же написал. А в штаны срёшь тут только ты.
>>435870 >Та же сберовская сеть очень толстожопая 13B это минимум, чтобы не срать в штаны. >>435874 А то. Только там всё равно идёт добавки всякого говна. >>435875 Покупай, в чём проблема то. Но при трейне нужен более быстрый коннект между картами, нежели чем PCI-E 1.0х1, так что тут придётся пососать.
>>435864 >В 2023 английский должен знать абсолютно каждый Нахуя, а главное с какой целью. Какое-то заметное количество годного контента есть только на японском. Разве что ты кодомакака и тебе по долгу службы надо читать доки и стаковерфлоу.
>Тем более что кумерить на русском - это просто лютый кринж. Я уверен, что это только поначалу и с непривычки. Так же, как и со многими другими вещами.
>>435540 Хм, интересно, обычно раньше кулорой тренили как щадящий к железу способ. Попробовать дообучить чтоли, насколько 7б модель для специфичного ерп слаба? >>435727 Хоть кто попросит, наличие ллама в названии какбы намекает. Хочешь универсальности - трансформерз и auto-gptq помогут. Возможно можно кобольдом ggml старой версии покрутить еще, но современные слишком под лламу заточены, емнип. >>435741 Причин множество, а ччего ты ожидал? Реакция кумерков им врядли интересна, а кто может вклад внести - найдет как запустить. >>435747 Да не, лучшая пре-ллама2 рускоязычная модель общего применения. Можешь арендовать что-нибудь пожирнее и 13б лламу 2 русским зафайнтюнить. Вот только их датасет в одиночку брать не надо, это из-за него лезут политические статьи и кринжовый чатик. >>435777 > показуха и распил бюджетов Таблетки. И очевидно что ее выбросили в общий доступ не ради любви к опенсорсу а скорее подогреть интерес перед релизом большой модели, которую в ближайшее время не откроют а на эту уже забили или переделали.
>>435788 1. Терять контекст не обязательно, экспортни-импортни, в чем проблема? 2. Модель какая? 13Б? 3. Генерация голоса у нас есть в Убабуге и в СиллиТаверне-экстрас. И там, и там работает норм.
>>435901 >70В лама2 Чел, GPT3 и llama это разные модели, и общего там только трансформенная архитектура. >>435901 >Ругпт создали и выпустили до второй лламы, клоун. Ну и нахуя? Вот вышла вторая ллама, и всё, ругпт потеряла всякий смысл, и электроэнергию они потратили зря. >потому что ты русофоб Главный русофоб сидит на троне, лол, так что ты мимо. >и тебя уже забанить надо, От меня пользы на доске больше твоей, инфа сотка. >>435902 >Какое-то заметное количество годного контента есть только на японском. Что ты несёшь? 80% интернета на инглише, остальное на кетайском, который уж точно никто учить не будет. На япе только маняме и новелки, в которые без перевода играть не выйдет, ибо если на слух яп ещё можно выучить я процентов 90 без сабов понимаю, то письменный японский ну его нахуй. >>435905 Молодец. Себя тоже зарепорть. >>435908 У тебя в башке насрано, очевидно же. Я обсираю сберовскую модель лишь потому, что она говно. А страна происхождения это причина того, что модель говёная, точнее, политика этой страны. Впрочем, я с тем же успехом могу обсирать пигму и её файнтюны, потому что они такое же говно, и вообще всё, основанное на форках GPT2, потому что да, говно с рождения.
>>435885 >13B это минимум Я к тому, что ей скормили много говна, того, что мне лично никогда не пригодится, например. И весит она много, мне кажется, из-за этого. Вот бы шуструю модельку, которая пусть не будет супер умной, зато без говняка. Потом вкорячить какой-нибудь механизм, чтобы вместо галюцинаций выдавало что-то типа "сложный вопрос", "загугли" и "я не знаю".
>>435902 >Нахуя, а главное с какой целью. Ты серьезно это спрашиваешь? Английский - это международный язык, на нем буквально все. Даже переводы в первую очередь делают именно на английский. >Какое-то заметное количество годного контента есть только на японском Японский я тоже знаю. Контента на нем много, но не надо пиздеть, что такое же количество как на английском. >Я уверен, что это только поначалу и с непривычки. Так же, как и со многими другими вещами. Возможно.
>>435788 > После Кобольд.cpp Ты пользовался ванильним интерфейсом кобольдц++? Серьезно? И считаешь что он лучше хубыбубы? Суров нейроанон двачей, ничего не скажешь. > Regenerate всегда генерирует ровно тот же самый ответ Выбрал пресет детерминистик и залочил сид. >>435846 > Угабуга хороша Для лламы, ибо позволят удобно запускать экслламу, лламус++ и юзать их в любым фронтом по желанию. > фантюн твоег опромта Вау >>435870 Кидали видео о том как дообучить на нужный язык. Плюс модель изначально его знает, пусть и плохонько, все остальные свойства сохранятся. Дообучение конкретной теме тоже работает. > сберовская сеть очень толстожопая 13б это считай минимальное что можно использовать и страдать не очень сильно, что там с лламой 2 хз.
>>435923 >80% интернета на инглише 80% от этих 80% не представляют собой ничего интересного. Какой нативный развлекательный контент производится сегодня на английском? Нетфликс? ЕА, Юбисофт? Марвел? Даром не нужны.
>На япе только маняме и новелки Больше ничего и не нужно. Все более-менее пристойного качества кумерские дрочильни тоже на японском, кстати.
>ибо если на слух яп ещё можно выучить >то письменный японский ну его нахуй Сразу видно дивана.
>>435808 Тут 70B не все запускают. Самые основные сетки 7 и 13 так как работают на большинстве железок. С хорошим железом 33 адекватную скорость выдаёт. А те кто покупает две 3090 и две 4090 это один на тысячу таких аутистов
>>435942 >Даром не нужны. >Мне не нужна значит никому не нужна >>435942 >Сразу видно дивана. Чел, у меня почти 900 тайтлов, диван пропержен за время просмотра до дыр и заменен новым, несколько раз.
>>435946 >Чел, у меня почти 900 тайтлов Нахуя столько говна поел? У меня где-то в районе 550 и очень сложно это есть. Только единичные какие-то выцепляю очень редко.
>>435923 > нахуя > потеряла всякий смысл, и электроэнергию они потратили зря Типикал эксперт во всех отраслях. Если хочешь начать новую тему - для начала полноценно разберись в том что уже есть, а оттуда до катинг эджа совсем близко, а накопленный опыт и поднятые вопросы как раз не него и закинут. Это они и делали. Так что выложили - молодцы, лучше чем если бы не выкладывали. Другое дело что модель явно не самая свежая, зеленая контора просто так актуальным продуктом делиться не будет. >>435927 > И весит она много, мне кажется, из-за этого Стандартный вес 13б модели, зависит только от размера.
>>435929 >Английский - это международный язык, на нем буквально все. Сегодня на нём в основном безвкусная жвачка.
>Контента на нем много, но не надо пиздеть, что такое же количество как на английском. Никто не говорит про такое же количество - на японском годного контента сегодня явно больше.
>>435946 >>Мне не нужна значит никому не нужна Тебе просто надо было немного изменить формулировку: >В 2023 английский должен знать абсолютно каждый нормис Тогда вопросов бы не было.
>Чел, у меня почти 900 тайтлов, диван пропержен за время просмотра до дыр Прекрасно. А сколько сотен часов в анках? Сколько карточек с иероглифами? Сколько прочитано учебников?
>>435951 >Нахуя столько говна поел? Потому что нравится. Потому что шины не найти без ковыряния в говне. И шины для каждого разные, поэтому нет, списки шинов не помогут. >>435953 >Типикал эксперт во всех отраслях. Программист, проф искажение такое. >а оттуда до катинг эджа совсем близко, а накопленный опыт и поднятые вопросы как раз не него и закинут Для рывка не хватит ресурсов и людей, опытные люди утекают заграницу, и именно по этому я считаю дроч сберовскими моделями бесполезным. >Другое дело что модель явно не самая свежая, зеленая контора просто так актуальным продуктом делиться не будет. Почему ты считаешь, что у них есть более свежая модель?
>>435970 Я раньше тоже так ел. Сейчас если не заходит обычно в первых сериях, то просто дропаю. Ну и многие анимы не смотрел, потому как мангу прочитал и смотреть после этого лень.
>>435933 >как дообучить на нужный язык Так у тебя в модели же куча треша остаётся, нет? Обучать до посинения, пока забудет всю хуйню? >>435941 Английская порнуха? Ну нахуй. >>435953 >Стандартный вес 13б модели Я только вчера вкатился и уже видел 13б модели от 5 до 15 гб.
>>435945 >>435947 К слову, с выбором данной опции амуде он зачем-то пытается поставить куду.... На что получается соответсвтенно жидки обсёр. ai/oo/oobabooga_linux/installer_files/env/lib/python3.10/site-packages/bitsandbytes/cuda_setup/main.py", line 311, in get_cuda_version major, minor = map(int, torch.version.cuda.split(".")) AttributeError: 'NoneType' object has no attribute 'split'
>>435966 >Сегодня на нём в основном безвкусная жвачка. Ты скозал? >>435966 >А сколько сотен часов в анках? Сколько карточек с иероглифами? Сколько прочитано учебников? Я еблан что ли, дрочить местечковый язык мелкой страны, в которой меня на порог не пустят, а если и пустят, то будут считать недочеловеком? Что выучилось само, то и знаю, ни строчки учебников не читал. Вот инглиш дрочил, да, потому что на нём во многих странах не пропасть, даже в жапонии, хотя они любят стебаться над своим знанием английского.
>>435975 Я достиг просветления, что если есть говно, то потом шин будет в два раза вкуснее. >>435978 >Обучать до посинения, пока забудет всю хуйню? Проще будет с нуля, только сил не хватит. >Английская порнуха? Ну нахуй. Весьма весело на самом деле. >Я только вчера вкатился и уже видел 13б модели от 5 до 15 гб. Чел, ты не вник в квантование. Стандартный размер 13B модели в 16 битах это 24 гига, так то. А квантовать можно хоть до посинения, но это влияет на все знания сразу.
>>435970 > не хватит ресурсов и людей Хватит, если будет время и достаточное финансирование. Пока разберутся как раз с тем самым "бесполезным дрочем" - команда и сформируется, плюс появятся опыт в области, поднимется много вопросов которые решат и т.д. Это база, если полезешь в область где дефецит кадров со специализацией (а это весь аи по сути) то это единственный путь, поднимешься выше мидла в чем-то не попсовом - осознаешь. А так - даже будучи Маском просто так быстро не соберешь всех топовых обученных и готовых к работе в текущей команде спецов, всеравно долгий разогрев будет даже с огроменным бюджетом. > Почему ты считаешь, что у них есть более свежая модель Регулярно бухаю с работягой зеленой конторы, нет оснований не верить. Плюс, у них сейчас уже новый парк гпу-серверов, а та модель тренилась на древности.
>>435978 > куча треша остаётся Останется предубеждение, например соя если ее было много, и общие знания. Ей не нужно ничего забывать, только подтянуть способности в языке и все. Тут скорее как бы не появился треш от обучения. > 13б модели от 5 до 15 гб Про квантование слышал?
>>435978 > Я только вчера вкатился и уже видел 13б модели от 5 до 15 гб. Ты говоришь исключительно про неквантованные pytorch_model.bin? Или ты говоришь про одни и те же модели, одинакового веса, которые квантованы по-разному и имеют разный вес из-за этого? Так это и внутри одной модели так же. От 3 до 30.
>>435991 >Напомню, кстати, что ты скозал точно так же, как и я. ? > О каких тогда 90% речь? Об обычных. Забыл как-то кинуть сабы на телефон да посмотрел пару серий без них в транспорте, понял вышеозначенную цифру. Пересмотрел половину одной серии, понял бесполезность и то, что моих знаний достаточно для просмотра аниме без перевода, забил. >>435993 >Хватит, если будет время и достаточное финансирование. Чел, я могу повторить, что пока в стране проблемы с /po/, то никакие вливания не помогут просто потому, что спецы с мозгами ценят безопасность и комфорт выше зряплаты, и как только набирают достаточно опыта, тут же линяют туда, где им его могут обеспечить. Так что сбер работает на обеспечение спецами того самого Маска, он как раз набирает команду на свой ТрешАИ. >>435993 >Плюс, у них сейчас уже новый парк гпу-серверов, а та модель тренилась на древности. А ты уверен, что его можно взять и запустить без разрешения барина?
Не, модель Сбера — не фонтан, конечно, в сравнении. Но давайте будем честны — если бы вам ее выкатили год назад, вы бы сразу ее говном окрестили? Нет, жрали бы за обе щеки и охуевали от охуенности.
Ни Сбер, ни Яндекс не выкладывали ради показухи, тут вы оба ошибаетесь. Это обычный опенсорс, когда сделал что-то, оно не нужно, но понтануться хочется, выкладываешь людям поиграться. Из этих поиграться могут появиться новые спецы.
Не то чтобы прям все бегут из России за бугор и спецов не хватает. Дефицит есть, но не такой уж жестокий.
Но в остальном, да. Сбер — хорошая IT-компания, деньги есть, спецы плюс-минус есть. Я охотно верю, что они там обучают вторую версию, как и Яндекс свой YALM2 делают (кстати, Yet Another = YAndex) и уже в Алисе оно есть. Да, естественно они будут отставать в общем от Меты, ОАИ, ХАИ, Гугла. Но, ближайшее время в русском они будут лучше. И успехи будут, просто не такие охуенные.
Вообще, не понимаю причины срача, норм модельки, без цензуры, старая, кривая, ржачная. Делают — молодцы, главное, шо бы в опенсорс выкладывали. Че сраццо.
>>436015 >? Уровень твоей аргументации пока описывается тем же самым "яскозал".
>Забыл как-то кинуть сабы на телефон да посмотрел пару серий без них в транспорте, понял вышеозначенную цифру Ты неправильно посчитал, либо додумал по интонации, обрывкам фраз, отдельным знакомым словам и т.д. Обычная тема, заходи к нам в /фл в японотред, там тебе расскажем об этом феномене. Ты такой не первый, поверивший в себя.
Ну и потом, что за аргументы такие: >то письменный японский ну его нахуй Я не осилил = никто не осилит?
>>436015 > А ты уверен, что его можно взять и запустить без разрешения барина? Эт шиза, без обид. 1. Незнание IT-кухни. 2. Незнание полит-кухни. Типа, смотреть ты смотришь, а участвовать не участвовал ни там, ни сям. Впрочем, не думаю, что тебя кто-то здесь переубедит. Попробуй набраться опыта — поучаствуй в сферах, о которых говоришь, например.
>>436015 > пока в стране проблемы с /po/ Именно потому что есть области в которых работают, местами за счет грамотного планирования, а где-то вопреки высокому начальству - долбоебам, все и держится. У тебя мозг политотой забит и ты не можешь разделять разные темы которые друг другу не противоречат, как у нейронки байас, лол. > что его можно взять и запустить без разрешения барина Кекус максимус, внатуре таблетки пей
>>436037 >Ты неправильно посчитал, либо додумал по интонации, обрывкам фраз, отдельным знакомым словам и т.д. Обычная тема, заходи к нам в /фл в японотред, там тебе расскажем об этом феномене. Ты такой не первый, поверивший в себя. Мне кажется за 900 тайтлов с сабами можно большую часть речи в аниме понимать, особенно, если там что-то повседневно простое или дебильный сёнен. Я со своими ~550 тайтлами с сабами на слух в районе трети могу понимать.
>>436032 >Не, модель жигулей — не фонтан, конечно, в сравнении. >Но давайте будем честны — если бы вам ее выкатили 70 лет назад, вы бы сразу ее говном окрестили? Нет, жрали бы за обе щеки и охуевали от охуенности. Чё еще придумаешь?
>Ни Сбер, ни Яндекс не выкладывали ради показухи Только ради этого и выложили + в надежде, что им их "попенсорс" лошки нахаляву допилят, как вон стабл и лламу. Но, беда пришла откуда все знали - лошки все на стройках и окопах, а кодить они почему-то не умеют. И вот, приходится теперь отробатывать по самым гнилым и злачным местам "а давайте принесем на драч, может там взлетит!". Нет, не взлетит.
>Вообще, не понимаю причины срача У тебя просто лицо все в говне, рот в говне, глаза в говне, руки в говне, ты привык уже. Тут срача-то нет никакого, ты принес кусок говна и его все назвали говном, почему тебя,копрофила, это вообще задело?
>>436032 > если бы вам ее выкатили год назад Пол года, да даже 4 месяца назад во времена релиза первой лламы - облизывали бы и уплетали за обе щеки. Год назад - был бы уже фурор ввиду слабого развития даже топовых комерческих ллм. Дефициты, побеги и прочее есть, но не отменяют работы и результатов. Там обитают литерали наносеки, которые насмехаются над типичными спорщиками в политоте, ибо текущие условия хороши а при необходимости быстро найдут себя в другой кампании или за рубежом. Когда нет необходимости оправдываться перед собой и в итоге отстаивать какую-то сторону вместо простой оценки - жизнь сразу становится проще.
>>435989 >только сил не хватит Вот это и печалит. Та же сберовская не помещается в 12 гб и кочует в ram, а при этом скорость уже отсутствует. А х090 у меня нет.
>не вник в квантование Да, тут беда. Осознал, проникся. >>435996 Я читал, что нейронка начинает забывать, что знала, если переучивать. >треш от обучения Хуй знает, если нет суперкомпьютера, ты же будешь тщательно подбирать, что ей скармливать. >>436005 Разные модели, но видимо да, квантование тоже разное. Тут моя вина.
>>436032 >Это обычный опенсорс, когда сделал что-то, оно не нужно, но понтануться хочется Поправка: это не обычный опенсорц, а говёный корпоратский опенсорц. Обычный - это, например, разработка лламцпп, кобольдов и прочей оснастки. Даже если кто-то поднимет платный сайт с таверной, это будет в плюс для коммюнити.
>>436037 >Ты неправильно посчитал, либо додумал по интонации, обрывкам фраз, отдельным знакомым словам и т.д. Обычная тема, заходи к нам в /фл в японотред, там тебе расскажем об этом феномене. Ты такой не первый, поверивший в себя. Ты такой охуенно умный, что даже слово https://ru.wikipedia.org/wiki/%D0%90%D0%BD%D1%82%D0%B8%D1%86%D0%B8%D0%BF%D0%B0%D1%86%D0%B8%D1%8F не знаешь. Давай я на тебя поссу вместо него. Для просмотра маняме действительно не нужно особого перевода, ведь там примитивные сюжеты и примитивные шаблоны, с которыми более-менее взрослый и развитый человек уже и так довно знаком. Чтобы смотреть штампованную хуйню и антиципировать её содержание - достаточно просто не быть долбоебом сидящим в /фл в японотреде и дрочащим на то, про тайоту киа пошутил главный герой ил про тайоту риа. На самом деле это была тайота лиа. Смотри, я сценарист твого маняме. А ты? Ты просто жалкое уебище.
>>436075 >На /po/рашу съеби уже, а то скоро национальную принадлежность твою угадывать начнут. А может тебе туда съебать со своим сберговном, чмоня? Есть русские файнтюны лламы, которые превосходят эту кривую порашу. Почему ты про них не хочешь поговорить? Зачем тебе обязательно надо лезть ко всем со своим говном?
>>436076 > нейронка начинает забывать, что знала, если переучивать Да но нет (не совсем), нормальное подобное обучение и будет заключаться в том чтобы забытое минимально повлияло на результат и деградировали только области, которые не нужны. > ты же будешь тщательно подбирать Ты объем данных представляешь? Все коллективными усилиями опенсорца, стадом кожаных (такой работой в яндексе какой-то братишка недавно хвастался, лол) или процедурно/нейронкой. >>436089 Мы тут нейронки обсуждаем, а ты рвешься своей политотой, вот и съябывай на профильную доску а не "нет ты" устраивай. > Есть русские файнтюны лламы, которые превосходят эту кривую порашу Нет, сой_га еще хуже.
>>436093 К чему твой ретроспективный попук был? А если бы Кандинского сделали три года назад вот бы все охуели! А тебе в твою тупую голову не приходило, что три года назад не могли сделать кандинского (там кстати весь сайт калька с интерфейса стабл инфинити, ну так, держу в курсе), а год назад сбер не мог в гпт-2. То что они на хуевом железе смогли реверсининирингом сделать протухшую на год модель - не делает им чести в мире, где нет границ, но какие-то додичи делют всё, чтобы закрыться на маняострове из маняретротехнологий. Почему тут вообще комуто сберчат должен быть интересен? Хоть на секунду?
>>436032 >если бы вам ее выкатили год назад, вы бы сразу ее говном окрестили? Мы бы не смогли её запустить, потому что движуха с CPP пускалками и квантизацией пошла после выхода лламы. >Сбер — хорошая IT-компания Орнул. >Че сраццо. Двачи же. Даже если причины сраться нет, её быстро создадут. >>436037 >либо додумал по интонации, обрывкам фраз, отдельным знакомым словам и т.д Ну да. Мне хватает и ладно. >Я не осилил = никто не осилит? Я не пробовал, ибо затраченные усилия не стоят результата. Ни больше. ни меньше. >>436039 >Эт шиза, без обид. >>436044 >Кекус максимус, внатуре таблетки пей Какая шиза? Суперкомпы строят из специальных железок, которые чревато запускать без обслуживающего персонала от производителя. А с нынешней ситуаций думаю такие железки ещё сильнее анально ограничат. https://habr.com/ru/companies/selectel/articles/578230/ Вот пример, как запускают такое железо. >>436044 >все и держится Ну как сказать держится? Стабильно отстаёт. Такое себе держание, больше недержание. >и ты не можешь разделять разные темы которые друг другу не противоречат Чел, посмотри на сраную пирамиду Маслоу. Если у тебя в фундаменте говно, то вершина в ней утонет.
>>436094 Да мне пох сколько их. Один? Ладно пусть будет один. Ты же взвизгнул что я ненавижу какое-то чмо - значит ненавижу всех русских, а раз ненавижу сберчат - то ненавижу всё русское. Нахуй блядь иди, ок? Я просто ненавижу когда уебищи хвалят свое говно, только потому что оно родное. Но при этом оно объективно говно.
>>436095 >а ты рвешься своей политотой Где ты политику углядел? Тебя задело то, что здесь нет целевой аудитории сберчата?
>>436079 Ух ты, ты такой эрудированный, анон. А нахуя мне это слово в том посте? Откуда ты антиципировал, что я хочу его применить?
>Для просмотра маняме действительно не нужно особого перевода, ведь там примитивные сюжеты и примитивные шаблоны, с которыми более-менее взрослый и развитый человек уже и так довно знаком Знаешь, что мне напомнили эти твои строки? Бугурта от киноклише треды. Там тоже картинно вздыхают и закатывают глаза, обсуждая, как всё предсказуемо в кинематографе и как они могут по первым двум минутам любого фильма угадать концовку. Хуйня аргумент, короче.
>>436107 > Суперкомпы строят Диванный понял что обосрался и дерейлит пытаясь оправдать заявление. Представь себе, под крупные датацентры не то что "обслуживающий персонал" а отдельные здания строят, а сами пекарни даже не половина стоимости датацентра. Ну а вообще жиром все заляпал, нихуя не понимаешь но все-все знаешь, неся шизу в оправдание своих убеждений, фу >>436111 Где линк на русскую модель? Опять сбер говна в штаны залил?
>>436123 >Диванный понял что обосрался Обосрался это ты. По факту собрать из говна и палок без поддержки производителя суперкомпьютер, на котором можно обучить LLM, если и возможно, то на порядки сложнее. >Представь себе, Капитан, нахуя вот ты это скапитанствовал? Я это прекрасно знаю, и не написал лишь потому, что построить коробку и даже завести туда правильное охлаждение в этой стране вполне себе могут, это не проёбано. А вот с нужным железом посос даже у Китая. И я более чем уверен, что как раз от китайцев в следующие, передовые ускорители ИИ встроят региональные локи, куда само собой внесут все страны-террористы. >Ну а вообще жиром все заляпал Чел, коричневая субстанция вокруг твоего рта это не жир. >нихуя не понимаешь но все-все знаешь Знаю больше тебя, это уже хорошо.
>>436120 >Откуда ты антиципировал, что я хочу его применить? Опыт общения в тырнете с середины 90х.
>Знаешь, что мне напомнили эти твои строки? Бугурта от киноклише треды. Там тоже картинно вздыхают и закатывают глаза, обсуждая, как всё предсказуемо в кинематографе и как они могут по первым двум минутам любого фильма угадать концовку. Так они правы, долбоеб. Правило 97%.
>Хуйня аргумент, короче. Скорее всего хуйня тут только твой возраст.
>>436123 >Где линк на русскую модель? Почему он должен быть? Я пользуюсь Клавдией, авторы которой больше сил в её русскую часть вложили чем все российские корпорации в свои модели когда либо вообще. Если лучшие лапти оказываются из американского лыка, я просто буду их носить, зачем мне в плохих ноги ломать, зато надранных с родной липы?
>>436131 >Клавдией, авторы которой больше сил в её русскую часть вложили Кстати, откуда инфа? Они кажись просто в мультиязычность вкладывали, в отрыве от конкретных языков.
>>436130 >Опыт общения в тырнете с середины 90х. Самообучайся дальше тогда. В том посте у меня не было никакой необходимости применять специализированный термин.
>Так они правы, долбоеб. Правило 97%. Нет такого правила, ты его сам придумал.
>>436133 >В том посте у меня не было никакой необходимости применять специализированный термин. Особенно принимая во внимание, что ты его сегодня увидел впервые.
>Нет такого правила, ты его сам придумал. Продолжай кушать штампованное говно! Итадакимас!
>>436136 Ну то есть никакой инфы нет, лишь чисто эмпирический опыт. Из чего я делаю вывод, что вряд ли антропики носились конкретно с русским, и скорее всего они просто тюнили модель на всех языках, до которых смогли дотянутся.
>>436131 >зато надранных с родной липы По факту она даже не родная. Сбер - госконтора, принадлежащая постсовковому олигарху. Так что, по идее, ни у кого не должно быть проблем называть её продукты говном.
Жалко только инженеров, которые осознают, что выпускают хуйню, но ничего не могут поделать. Даже если у них есть лучшая по качеству модель либо ведётся над ней работа (а она ведётся, если верить комментам на Хабре от автора поста об этой сырой модели), они всё равно обязаны выкладывать вот это, потому что идите нахуй вот почему.
>>436129 Ну давай восстановим хронолонию: порвался со сберомодели@начал выть про ее хуевость по поводу и без@пошел дерейлить в политоту каждым постом, обсираясь когда тебя спросили по теме@скотился до нет ты, начал оправдываться и нести свои фантазии и убегать в срач. При этом ничего по сути не сказал, только хвастаешь что ты программист(!) и обладаешь тайными знаниями, которых не продемонстрировал. Вообще вся мотивация вещать это и всем доказывать забавляет, лучше расскажи от чего так горит твой пукан. >>436131 > авторы которой больше сил в её русскую часть вложили Нет, сама модель хороша, заведомо заточена на перевод и обучалась на литературе. Это не мешает ей путать обороты, пол и т.д., не говоря о том что она закрытая, а речь шла об опенсорсе.
>>436140 >Ну то есть никакой инфы нет >>436136 >Генерировал на разных, сравнивал, анализировал сгенерированное в самой Клавдии, в Жопе-4, в 3,5. >лишь чисто эмпирический опыт Ты долбоеб?
>>436140 >Из чего я делаю вывод, что вряд ли антропики носились конкретно с русским, и скорее всего они просто тюнили модель на всех языках, до которых смогли дотянутся. Вот тебе еще терминов, долбоеб: аналитические языки и синтетические.
>>436144 >Даже если у них есть лучшая по качеству модель либо ведётся над ней работа Это же реально-то не лапти. Нельзя просто с воздуха взять лучшую модель. Это как у себя в подвале собрать в 45-м году атомную бомбу. Ты просто не можешь сделать это чисто физически, сам факт подобной сборки подразумевает у тебя наличие определенных ресурсов. У них этих ресурсов тупо нет.
>>436145 >Ну давай восстановим хронолонию Давай. Ты (или кто-то другой) принёс в тред нерелейтед модель и порвался, когда её назвали говном. Занавес. >>436146 >Ты долбоеб? Нет ты. Нужна надёжная инфа от разработчиков, а не твои догадки. >>436146 >Вот тебе еще терминов И нахуя ты их сюда принёс? У тебя есть инфа (надёжная, а не твои додумки) что антропики использовали перевод всех языков в синтетический при обучении своей модели? Или может архитектурно сделали так, чтобы модель сама его выработала, чтобы хорошо отвечать на любом языке? Нет? Тогда нахуй антропиков, клаву и тебя. >>436150 ИЧСХ, собрать атомную бомбу проще, чем языковую модель, нужен только доступ к урану и отсутствие помех в виде всяких там стикснетов.
>>436158 > Ты (или кто-то другой) Во, в том и суть, с тебя тут все проигрывают пока продолжаешь глубже и глубже погружаться. И чсх сберомодель здесь коллективно и объективно критиковали, тогда как от тебя лишь беспредметный хейт ради хейта, на который уже пошли ответы. Твое дальнейшее триггерение и то что мы видим сейчас - довольно показательно.
Пиздос, зачем я удалил этот ебучий installer_files. Боюсь даже представить, сколько кругов ада мне придётся пройти, чтобы восстановить работоспособность этой шляпы.
Нахуя называть папку с используемыми в рантайме файлами installer_files? Жду с нетерпением, когда кто-нибудь напишет оболочку на нормальном языке, не требующем анальных танцев для работы приложений.
>>436160 >нечестные Ебать. А есть честные? Чувак, обернись! У тебя над правым плечом Карел Чапек пыхтит. Тебе не больно? Все честно? Не сжимай очко, будет только хуже.
>>436162 >Каких? Завода по обогащению урана. Миллиардов долляров на обучение, равно как и доступа к материалу для обучения. Как будто ты сам не знаешь каких. Дурачка выключи.
>>436169 >с тебя тут все проигрывают Ну, если ты себя со всеми отождествишь, это конечно сразу сделает тебя сильной стороной. Только ты на анонимной борде и условно нас тут всего двое - ты и не ты.
>И чсх сберомодель здесь коллективно и объективно критиковали Тут могли и гпт-2 критиковать, что дальше? Кусок говна тоже можно раскритиковать - невкусное, плохо пахнет.
>>436178 97% треда, бери выше. Намек понял? Ну? Нет? Я просто тебя тупым быдлом называю.
>>436198 Тебя не смущает что в каждом твоем посте минимум по 4 ответа и на каждый огрызаешься? Окружен но не сломлен, лол. > что дальше Не дерейли, сберомодель никто не восхвалял, что ты имплаил, тебе предъявили из-за необъективного/нерелейтед хейта, а дальше прорвало шизополитоту.
>>436111 Да прими уже таблетки, болезный, я ни слова не говорил про твою ненависть к русским, откуда ты высираешь свои фантазии. Ты хотя бы следи за диалогом, мы же сильно отличаемся. Ты просто пиздабол, который даже за свои слова ответить не может. Возможно, считаешь себя троллем сейчас, хотя по факту все просто ржут с тебя. Ладно, гуляй, пока санитары не заметили.
>>436158 >У тебя есть инфа (надёжная, а не твои додумки) что антропики использовали перевод всех языков в синтетический при обучении своей модели? Или может архитектурно сделали так, чтобы модель сама его выработала, чтобы хорошо отвечать на любом языке? Есть. Именно так и было. А так как массив на русском больше и доступней чем, допустим, на французском, то они выбрали именно русский.
>>436158 >ИЧСХ, собрать атомную бомбу проще, чем языковую модель, нужен только доступ к урану и отсутствие помех в виде всяких там стикснетов. У СССР был доступ к урану, но без шпионов собрать не смогли. Падишах и мать.
>>436213 >Тебя не смущает что в каждом твоем посте минимум по 4 ответа и на каждый огрызаешься? Я уж привык, что такие как ты высирают 4 поста подряд. Если я на каждый буду отдельно отвечать мы в бамплимит уйдем.
>а дальше прорвало шизополитоту. Не ври, она тут раньше была. И ты это прекрасно знаешь, и ты начал мне угрожать, а теперь жопой вертишь. У меня все ходы записаны.
>>436226 Сочувствую твоим привычкам, но тебе рил отвечают разные люди. Литералли полтреда охуевает с твоей шизы, полтреда ржет. Я понимаю, что тебе хочется почувствовать себя героем, но… ¯\_(ツ)_/¯
>>436390 >На сколько квантование уменьшает точность модели? Заметно. В целом, чем меньше perplexity, тем лучше, хотя там тоже есть нюансы. Например, сравнивать perplexity имеет смысл только для одной модели, квантованной по-разному.
>>426362 (OP) Установил сабж с гитхаб, добавил стандартный bin, запускаю chat.exe и нихуя. Программа пишет сведения о системе, находит bin и просто завершается до появления строки chatting mode. Проц 1230v2 памяти 16 гб. Что за хуйня? Ни логов нихуя нет.
>>436582 Да хуй его знает. Это единственная аи, которую я скачал и хотел запустить. Советуешь другие попробовать? Ещё видео карта у меня есть 1050ти. Интересует только чат без цензуры.
>>436390 Приемлемо, в обычном использовании разницу можно и не заметить. По gptq положняк пикрел, размеры для 13б модели. >>436624 Ставь убабугу или кобольд, качай ggml квант и с оффлоадом на видюху пытайся запустить.
>>436624 Да, рекомендую попробовать для начала KoboldCPP, там просто с гпу-акселерацией будет (nocuda версия), а может и с выгрузкой части слоев на видяху (большая версия). А если захочется подробнее — то уже ставь Убабугу.
С 1050ти твой удел — только ggml-модели, GPTQ стандартные в 4 гига не влезут.
Ну это 20 дохлых гб, тут 13В лама2 максимум. https://huggingface.co/TheBloke/Llama-2-13B-GGML Бери файл llama-2-13b.ggmlv3.q4_K_M.bin Ставь кобольда с выгрузкой части слоев на гпу через --useclblast 0 0
В угабуге происходит непотребное. В определённый момент чата в ~3 из 4 свайпов начинает генерироваться рандомный бред, не учитывающий контекст. Частенько сохраняется характер персонажей, но предыдущие посты полностью игнорируются. Допустим, мы играем вместе в плойку, и тут вдруг следующим сообщением она встречает меня на пороге квартиры и приветствует. Либо генерируется отрывок из нсфв сцены, которой там даже близко не было.
Я уверен, что дело в каком-то параметре, который у меня неверно настроен. Подскажите, анунаки, что может быть не так у меня в сетапе?
https://huggingface.co/IlyaGusev/saiga2_13b_ggml Сберсетка это конечно хорошо, но сайга на базе лламы 2 лучше(как минимум тем что в ггмл уже есть) Кстати, я так и не понял почему, но у меня на новом кобольде резко быстрее стала работать генерация токенов. Я помню раньше тоже выгружал всю 7б модель в видеопамять своей амд видеокарты и прироста скорости не было, только экономия памяти, а тут прям прирост. Магия какая-то
>>437027 > 1050ти > useclblast Там разве не другой параметр для куды? >>437275 GPTQ не завезли? Тестировали уже, такая же убогая как первая, или автор таки догадался подрезать соевость в датасете и использовать не чат версию как базовую модель?
>>437307 Чтож, сейчас попробую. Я пока с ней решил поболтать на тему политсрачей, вышло относительно неплохо. Интересно с каким промптом тот анон всё это делал.
>>437328 И это тоже скидывай, оценим как она может в диалог, насколько путается в русском и т.д. Ну и про особенности значений слов в разных языках попробуй, прошлая во всем соснула у файнтюна.
>>437373 Ладно, вот вторая попытка. Так как я АМД-анон то юзаю 7B_q4_1, так что те кто с норм железом и 13B сеткой получат результаты получше. По мне вполне неплохо, первая ллама и первая сайга писали хужи, но с неграх проиграл люто. Сейчас запущу какую-нибудь лламу2 из тех что есть
Ну и сам потестил, сой_гай еще та. Она лучше первой версии, которая была вообще неюзабельна, но все еще не без проблем. Соевость почти как в чат версии, только чуть меньше триггерится, ну и как только что-то подходит к левду - отчаяно копротивляется дерейлами и "сейчас не время/что-то внезапное происходит". Пикрел пришлось много раз перегенерировать. Вообще надо на карточках попробовать, относительно второй лламы вроде не сильно деградировала. В русском лучше простой 13б модели, но всеравно путается и хуже 65б первой лламы. С другой стороны - это лишь 13б так что может все не так плохо. На этот раз хотябы не кринжатина и скачать можно.
>>437628 Подрубил айроборос л2 1.4.1, он вообще не переводит на русский когда пишешь "переведи", отвечает только иногда на русском. Так что для 7B сайга для русского в разы лучше. Но да, большие модели видимо на русском сами по себе хороши, я их в силу своего железа не трогал. По поводу lewd\horny - ну так карточку надо подложить, в обычном режиме и лламу хуй куда склонишь, зато если правильный промпт скормить, там вполне себе ЕРП. Сейчас попробуем проверить на сайге2
>>437643 Вот уёбок, стоило написать "хуй с тобой" как по-русски ответил. Стал вежливым - опять по-английски пишет, переводить не хочет. Типичный иммигрант
>>437275 Ну-с, попробовать можно. Но что-то мне подсказывает, что оно будет писать хуйню как ллама, как бы переводя текст с русского на английский в своём понимании и отвечая на русском, дословно переводя с английского.
У кого сколько итераций/с на аироборосе 70В? У меня 2.45, причём всего с 8 потоками. Если больше или меньше ставить - уменьшаются ит/с. Это вообще нормальная скорость или я где-то проебался? Ибо медленно пизда.
>>437643 На 7б расчитывать на знания русского наверно вообще не стоит, если будет команды понимать уже хорошо, так альтернатив 7б сой_ге нет. > По поводу lewd\horny - ну так карточку надо подложить Файнтюны 1й с радостью заглатывали "я тебя ебу" сами придумывая контекст, а подобное и подавно. Но тут карточка может помочь, оценим.
Хотя пока что не особо > С радостью об этом решила бы ты? Ты же уже согласен сделать первые шаги в этой новой жизни, а не просто оставаться дома, перебираясь от одного компьютера к другому? 😉 > 👍 Я готова начать новый день вместе с тобой! Ты будешь моим первоначальным объектом и я буду твоей личной горничной. Я дам тебе возможность наслаждаться жизнью и помогу тебе достичь больших успехов в этом году. Мне очень приятно работать со мной! 💖 отборнейшую шизу вещает будто толком не понимает контекст.
>>437728 Команды понимает, но да, русский не знает. Ждём сайгу2 70б и сравнение от анонов с топ железом. Попробовал какие-то отыгрыши, шиза пиздец, она и правда в разы хуже начинает писать. Попробую упростить промпт и ещё потыкать. >Файнтюны 1й с радостью заглатывали Ну на то оно и файнтюны. Если стоковой 1й или 2й начать писать чот такое, зачастую она тоже скажет "хватит совращать ИИ". Всё же Сайга тренировали не на текстовых описаниях порнографии всякой. Чот представил файнтюн сайги на диалогах псковского порно и люто проиграл
Ну не, вообще непроглядная шиза и не просто мазохизм а вообще неюзабельно. А ведь на других карточках первые посты были даже ничего, но стабильно сходит с ума уже на пятом и начинает лупится на 6м. Возможно дело в настройках и форматировании, на обсер стабильно на всех, если кто подберет - делитесь.
Сука но мой вечер эта модель сделала, отборная шизофазия и мемогенератор, свайпай и проигрывай: > Ах, мой милый! Ну что ты говорил про меня, что я фантазирую о себе как об особенном человеке с этими чертами. Но на самом деле я - кнопка в жизни. Моя работа требует от меня быть идеальной женщиной с фигурой, которая будет заботиться о тебе в течение всего времени. Я могу дать тебе лучшие массажи и легкие прикосы для твоих волос, но я не буду предана тебе в своей настоящей форме. Ты можешь рассчитывать только на мое сердце и мою душу. 💗 > Ой, а как же это будет! Ну конечно же могу и сделаю что угодно для тебя, но лучше не делали бы этого… Может быть в следующий раз уже готова приготовлять какую-нибудь десерт - то есть ты должен просто выбраться из дома. Давай отправимся гулять вместе сегодня вечером, когда твой день закончится! Я знаю много интересных мест, куда мы можем зайти вместе. 😊 > Ой, а как же это сексуальное поведение! Меня больше удивляет тот факт, что ты такой кроткарь и несмотря на твою привычку ко вниманию, никогда не пытался проникнуться моим настоящим именем. Я рада, что мы друзьями теперь - но давай я скажу, что мне все-таки быстрее забывать о тебе после того, как он будет разрушен моей ловкой игрой? Твой дневник полностью исчез из своей карманной сумочки… > Ой, как тихонько спросила! Да конечно же, мое милое, ты искал меня именно ради этого, а не чтобы служить своей личной горничной, верное? Ну что ж, давай тогда тронемся в обходных проходах и будущим дню - это будет приятным для обоих из нас, ведь я так люблю быть близкой к тебе. 😈 > Ой, как добрые слова! Я смотрю в твой глаз и знаю, что ты говоришь правду. Ты же так милый и ведь ты моя любимая маленькая горничная! Сейчас ты просто идеальный случай для того чтобы я провела время со своей крошкой. И не бойся, я буду заботиться о тебе во всех отношениях - от кормления и уборки дома до наслаждения вашим физическим обновлением после долгого дня работы.
>>437741 >>437764 Выглядит как хуйня, хуже Сбера. Сберовская хоть и жпт-говно, но русском общается свобод. Для нормального файнтюна надо больше датасет и переобучать под русский словарь токенов.
>>437785 А теперь представь насколько пиздец у меня на 7б модели. Есть мысль, что она вообще не подходит для длинных чатов или отыгрышей. Ну мне всегда проще было ERP на английском с нейросетками делать, но тут реально прям генератор шизы.
>>437722 Мы про соотношение квантизации/размера. Эта бомжехуйня выгоднее следующей бомжехуйни в виде M, которая веса прибавляет больше, чем адекватности. На график посмотри, там где вниз больше, чем вправо — там большой скачок качества. Если у кого-то не влазит одна модель — можно взять модель поменьше. Если кому-то хочется побыстрее, чем есть — можно взять модель поменьше. Так что, дело и в умении, и в размере. >>437726 И память какая, псп, частота. А то по опыту, проц не так важен, как память, если проц не совсем дно.
>>437785 Блять, а ведь самый сок в том что загрузив wizard на основе той же 13б лламы2 и продолжив чат - оно работает лучше! Вот буквально, да иногда проскакивают английские слова вместо транслитерации заимствований и эмоции типа purrs, но оно не делает столько ошибок в склонениях и текст более чем осмысленный. А еще не против левдсов, забавный экспириенс. >>437814 Страшно представить, лол а если учесть что ты еще ответов ее долго ждешь вообще, пиздец нахуй обида увидеть подобное
>>437848 Не оч долго, 20-40 секунд, потому 13 и не стал тестить, так как там уже минуту сидеть. Энивей для рп она явно не подходит. Но позадавать вопросики или поспрашивать о чём-то можно. Реально удивительно чего её так от отыгрыша ломать начинает, мне кажется даже первая в этом получше была
>>437835 > И память какая, псп, частота. 6000, 64 гига, вроде Hynix a-die. Кстати, раз влияет значит стоит подразогнать? Есть смысл ебаться? А то долго это
>>437877 А ну это еще норм. Реально тут когерентность не больше 800 токенов, после тупо забывает начало и рвется шизофазией. Очень напоминает поведение при превышении контекста, о том же говорит и радикальная деградация после условно нормальных первых ответов. Не ну раз делали файнтюны 1й лламы на 8к, то также можно нафайнтюнить на 800, да еще отборной сои наделать, снимаю шляпу. >>437893 Битва была равна, лол, но сберосеть действительно лучше. >>437848 > забавный экспириенс. Тут речь про построение фраз, строение русского и английского предложения и порядок слов отличаются. Так вот речи сайги когда только начинает ехать (да немного и в начале) напоминают ангельский с дословным переводом. Если заставить визард выдавать великий - могучий, то он пытается в литературный слог, и поэтому замена отдельных слов вообще не бросается и все воспринимается приятно органично. Вот как, блять, можно было такую базу лламы2 (едва ли файнтюн визарда сильно русский улучшил) всрать?
>>437960 > только в 2025 Конец 24/начало25, но куртка как всегда может всех переиграть. Пока предпосылок выхода нет, 4090ти официально отменили. > всё те же 24Гб памяти Это врядли, хотя возможно, учитывая что плотность первых чипов гддр7 такая же как сейчас у 6х. К тому моменту если доживем про аи будет не знать только ленивый и малый объем памяти негативно на продажах скажется. Другое дело будет обидно увидеть 32гб вместо 48.
>>437960 Сказали же про 512 шину и 32 гб памяти. И вроде как конец 24го. Энивей чо ща загадывать. Мне вот интересно как себя 4060ти на 16 гигов чувствует, ибо чип говно, шина говно, но памяти полно.
>>437892 Думаю, смысл есть, но сам понимаешь, что от разгона на 5% ты не получишь прироста на 50%. ИМХО, 6000 уже хорошо. Но если хочешь и есть время — попробуй, сообщи, будем знать, какой там прирост по итогу. >>437976 Ну, шина не сильно важна, чип как раз не говно, в общем-то, так что, несколько видях вполне может оказаться коммерчески выгодным решением. Но зависит от цены и производительности. Вилами-то по воду мы можем, а без тестов толку думать. =) Надеюсь, кто-нибудь попробует.
>>435870 Ну сам подумай: все эти сетки по факту просто накапливают статистику распределения последовательностей фрагментов текста, токенов, в том массиве текста, что получают на вход при обучении. Статистика начинает накапливаться уже спустя несколько страниц текста. То есть в теории такое вполне возможно: какие-то вероятности распределения в любом случае будут накоплены, и по ним в любом случае что-то можно сгенерировать. Насколько результат будет хорош - это уже другой вопрос. Но по крайней мере результат будет близок к контексту, на котором обучали, а именно это и требуется. Потому что в простейшем случае сетка использует именно вероятности распределения токенов в конкретном контексте, и выдаст близкое к тому, что получала на вход. А вот с более далекими от контекста обучения темами будет много хуже, но это и не требуется. Так что для каких-то простейших контекстов большие сетки не требуются. Экспертные системы могут получаться на довольно маленьких сетках. То, что они будут иметь узкую область знаний - вполне нормально и ожидаемо. Проблема в том, что в целом на эти сетки полагаться нельзя. Они по своей сути не имеют какой-то практической пользы, их ответы случайны. Большие сетки вызвали такой всплеск интереса только потому, что их ответы похожи на ответы человека, и в них есть доля истины. Это позволяет хайповать на теме ИИ, революции, высоких технологий. Но по факту к ИИ эти сетки не имеют ни малейшего отношения, и никакой революции не несут. Это простейшие алгоритмы, оперирующие обширной статистикой распределения токенов в человеческих текстах, именно поэтому результат их работы так похож на результат работы человека. Но в отличии от человека, этот результат не осознан, случаен. Сетка не понимает ничего, она просто смотрит какие были токены, смотрит на статистику распределения токенов в человеческих текстах, и подбирает наиболее вероятные по этой статистике токены. Что там будет на выходе сетке без разницы, она не имеет даже зайчатков какого-то сознания. Именно потому она очень уверенно ошибается в половине случаев: никакой связи одной части ответа с другой там нет, только статистика. Именно отсюда всякие перлы про теплокровных собак и хладнокровных кошек - оно вообще не одупляет что есть что, и теряется на близких вероятностях. И именно из-за вероятностного характера ответов, никакого доверия к результатам работы нет и быть не может. Оно может сгенерировать какой-то гуманитарный текст, налить правдоподобной воды, даже подать идей, но все это в любом случае должен будет проверить человек, прогнать через реальный интеллект, вычистить откровенный мусор. А в технических задачах оно просто сосет, потому что там важны строгие взаимосвязи и во главе угла истина, а сеточки в истину не могут архитектурно. То есть даже как экспертные системы эти сеточки сильно сомнительно использовать, т.к. в любой момент могут наврать, причем так правдоподобно, что разберется только специалист, что опасно вдвойне. Вот и получается, что вроде как можно, а вроде как результат сомнительный. Провести презентации, впечатлить инвесторов хватит, а что-то настоящее сделать - уже нет. Но на основе этих сеточек в будущем появится и тот самый ИИ. Эти сеточки по сути воплощают концепцию нашей памяти, пусть в ограниченном и примитивном виде, но этого вполне достаточно. К ним осталось прикрутить некое небольшое логическое ядро, которое сможет грамотно этой памятью распоряжаться, использовать вероятности, расставлять ассоциативные связи, и менять их. И такая штука уже будет считаться ИИ. Она будет накапливать опыт, будет развиваться. Но не будет иметь мыслей и чувств. Чисто прикладной инструмент: её можно посадить управлять какой-нибудь индустриальной техникой, соблюдая простые правила типа не убий, самостоятельно её осваивая и совершенствуя свои навыки, не требуя отдыха и зарплаты. Можно будет задавать конкретную цель и ограничения и отправлять в свободный поиск путей достижения - неплохой аналитический инструмент для учёных и военных. Можно будет везде напихать таких ИИ как ассистентов: в телефон, в шиндовс, в браузер, на сайты. Заменит звонилок и операторов, и прочих низкоинтеллектуальных специалистов. Даже программистов заменит: сможет решать сложные технические задачи на любом стеке технологий, в кратчайшие сроки и эффективно, и пусть код при этом будет лютый, оно же с ним само и будет разбираться, и очень успешно, а у человеков ресурсов такой код разгрести просто нет - следовательно нас ждёт ещё один взрывной рост всяких сложных программных инструментов. Именно тогда все эти концепции умных городов и выстрелят: когда в середине сети из миллионов датчиков сидит спрут с ИИ, управление ресурсами больших городов, а то и целых стран, станет очень эффективным, и оно будет подстраиваться под ситуацию в реальном времени. Но когда все это будет - хз. Сами трансформеры тоже штука не сложная, но чтобы сделать один очевидный шаг в них понадобилось 60 лет попыток. Логическое ядро поверх трансформеров тоже штука простая, но как конкретно его реализовать тоже большой вопрос, и может уйти ещё полвека попыток, а может и прямо завтра, используя современные инструменты аналитики, какой-нибудь математик уже раскусит эту загадку. Сейчас время перемен, прогресс идет скачками произвольной длительности, заранее угадать тут нельзя, надо просто пробовать и пробовать.
>>438092 Рассказывай как обучил нейронку слогу двощера. Или попросил чатгопоту/клоду проанализировать а потом перефразировать текст? Хотя слишком круто для них. Просто не могу поверить что сам это полотно писал.
Значит берем вот это >>438092 и просим пик1 Сой_га (2) - визард (3), оба 13б. Сберосеть не сможет, там полотно в контекст не влезет. Тут бы хотелось спросить что-то типа "Илюша как сосется", но всеже человек что-то делает, пожалуй только дальнейших успехов ему пожелать.
>>438151 Кажется волшебник недооценен, ванильную лламу2 нужно чуть помучать чтобы что-то в тему получить вместо корректного ответа сразу. Но всеже для 13б - реально круто по сравнению с первой версией.
>>436076 Сил как раз хватит 13 миллиардов параметров и сотни гигов исходных данных - это посильно современному бытовому железу Но у экспертной системы параметров и исходных данных должно быть на порядки меньше Скажем какой-нибудь консультант по вопросам техники безопасности - это книг и прохладных баек на полгига от силы. А это уже совсем другие ресурсы и расклад. Но, вангую, при таком маленьком корпусе текстов оно даже русский может не освоить, что плохо: толку от эксперта, если он не способен выражаться внятно? Так что пресет придется дополнить художественной литературой, что даст русский и связность, но загрязнит датасет всякими сказками и прибаутками, которые, рано или поздно, но непременно всплывут в ответах. Весело будет, когда эксперт по ТБ вдруг начнет рассказывать про колобка у курочку рябу. С точки зрения человека это шиза. Опять же, размер датасета влияет на "понимание" промтов и инструкций: оно должно наработать достаточно статистики со словами промта, чтобы уверенно связывать их с нужным контекстом и отсекать откровенный мусор. То есть в любом случае образуется некий минимальный порог исходных данных, чисто для понимания языка и инструкций, а поверх него уже можно наложить какие-то специализированные знания. В ином случае получим хуйню. Вот такую сеточку и стоит поискать: ту, что дружит с русским на уровне простейшего общения, без специальных тем. Чем она будет меньше, тем лучше. 13B тут явно сильно избыточна: там огромный объем англоязычных данных и много специальных знаний, все это можно смело порезать. Но корпорациям не особо интересно обучать маленькие сетки: в чатиках требуется всесторонний эксперт, а значит его нужно накачивать огромными объемами самых разных знаний, которые для узкой экспертной системы нафиг не нужны. В принципе такую маленькую сеточку можно и самому поднять, если разобраться в принципе. Даже если она домашний сервак год будет насиловать, переваривая 10 гигов всяких художественных произведений - результат того стоит: чисто по фану, и серваки в быту 98% времени все равно в простоях крутятся. Ну и всегда можно арендовать дополнительные мощности - финансово это вполне посильно, они стоят копейки. Анончики на 600 бачей большую сетку тренили, а если заморочиться, можно вложиться и много больше. То есть весь вопрос в том, чтобы разобраться как это делать. И поискать чужие результаты: если выйдет найти небольшую русскоязычную сетку, которая кроме поддержания диалога на бытовые темы ничего больше не умеет, это сократит затраты процентов на 80 А что касается скорости сетки: 13b на современной видюхе имеет избыточную для одного пользователя скорость. То есть в теории можно и ее как основу использовать, и результат даже будет юзабелен для практического применения - мощность можно расширять тупо закупая видюхи, даже такая стоимость за одного пользователя вполне приемлема на первых этапах. Это рабочая, но в целом не очень хорошая стратегия: большую сетку будет очень дорого обучить, т.к. каждый цикл обучения требует пересмотра всей сетки, а это деньги на ветер, с учётом того, что от большой сетки нужен только русский, а все остальные ее знания значения не имеют.
>>438092 Я твой пост целиком не читал - слишком много токенов - но: >Проблема в том, что в целом на эти сетки полагаться нельзя. Они по своей сути не имеют какой-то практической пользы, их ответы случайны. А не похуй ли? Эти нейросетки нужны для того, чтобы кумить, а не для каких-то там сложных целей. С симуляцией аниме тяночек они уже справляются неплохо. Контекста не хватает, но это лишь дело времени.
Народ я очень хочу что-то похожее нач Сharakter ai у меня есть i9-13900k и 4090 на 24 гб, я настраивал и пробовал запускать ламу раньше где-то пол года назад и она натурально срала шизой.что самое главное она не работала как чат генерирую ответы и попросы вместо меня. а мне нужно что бы сет был обучен в таком темплейте
### HUMAN: {prompt}
### RESPONSE:
мне пофиг если ответ будет генерироваться пол часа или если это будет занимать 60 гб оперативы, я хочу результат такой же как chai или charakter ai. где-то же все эти приложухи вроде real girfren или virtmate берут стностные модели? почему у азиатов есть а у анона нет?