В этом треде обсуждаем семейство моделей от фейсбука под названием LLaMA, делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна, что сейчас наспех выпустили, а отладить забыли. Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2-х бит, на кофеварке с подкачкой на микроволновку.
LLaMA это генеративные текстовые модели размерами от 7B до 65B, притом младшие версии моделей превосходят во многих тестах GTP3, в которой 175B параметров (по утверждению самого фейсбука). От неё быстро ответвилась Alpaca, Vicuna и прочая живность из Южной Америки, те же модели, но с файнтюном под выполнение инструкций в стиле ChatGPT, американские студенты рады, в треде же пишут про мусор с тегами в выводе, что запускать, решать вам. На данный момент развитие идёт в сторону увеличения контекста методом NTK-Aware Scaled RoPE, заявляется (и работает) о контекстах в 4-8 (и даже 16) тысяч токенов без существенных потерь в качестве.
Сейчас существует несколько версий весов, не совместимых между собой, смотри не перепутай! 0) Оригинальные .pth файлы, работают только с оригинальным репозиторием. Формат имени consolidated.00.pth 1) Веса, сконвертированные в формат Hugging Face. Формат имени pytorch_model-00001-of-00033.bin 2) Веса, квантизированные в ggml. Работают со сборками на процессорах. Имеют несколько подформатов, совместимость поддерживает только koboldcpp, Герганов меняет форматы каждый месяц и дропает поддержку предыдущих, так что лучше качать последние. Формат имени ggml-model-q4_0.bin. Суффикс q4_0 означает квантование, в данном случае в 4 бита, версия 0. Чем больше число бит, тем выше точность и расход памяти. Чем новее версия, тем лучше (не всегда). 3) Веса, квантизированные в GPTQ. Работают на видеокарте и с оффлоадом на процессор в вебуи. Новые модели имеют имя типа llama-7b-4bit.safetensors (более безопасные файлы, содержат только веса), старые llama-7b-4bit.pt
В комплекте с хуитками для запуска обычно есть скрипты конвертации из оригинальных файлов или из формата Hugging Face. Для некоторых типов весов нужны дополнительные файлы типа params.json, короче качаем всё что видим, авось пригодится. Оригинальную llama.cpp сроду трясёт, и веса постоянно приходится конвертировать/перекачивать.
Гайд для ретардов без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой: 1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии. 2. Скачиваем модель в ggml формате. Например вот эту https://huggingface.co/Pi3141/alpaca-lora-30B-ggml/tree/main Можно просто вбить в huggingace в поиске "ggml" и скачать любую, охуеть, да? Главное, скачай файл с расширением .bin, а не какой-нибудь .pt 3. Запускаем koboldcpp.exe и выбираем скачанную модель. 4. Заходим в браузере на http://localhost:5001/ 5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.
Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!
Инструменты для запуска: https://github.com/ggerganov/llama.cpp Репозиторий с реализацией на плюсах и запуском на процессоре, в 10 раз медленнее видеокарт, зато не нужна карта с десятком гигабайт VRAM. https://github.com/LostRuins/koboldcpp/ Форк репозитория выше, есть поддержка видеокарт, но сделана не идеально, зато самый простой в запуске, инстуркция по работе с ним выше https://github.com/oobabooga/text-generation-webui/wiki/LLaMA-model ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать Таверну и ExLlama (ниже) https://github.com/turboderp/exllama Запуск только на видеокарте (или нескольких, если дохуя мажор), безо всяких оффлоадов, но зато с ебейшими скоростями, на 7B можно получить литерали 100+ токенов в секунду
Факультатив: https://rentry.org/Jarted Почитать, как трансгендеры пидарасы пытаются пиздить код белых господинов, но обсираются и получают заслуженную порцию мочи
Какая локалка для кума актуальна? Слышал про визарды и то, что пигма сейчас какую то свою модель на основе лламы выпустила на 13б. Она как вообще по качеству ответов, лучше старой пигмы?
>>393847 Вот так введешь промт в визард-суперкот 8к и он такой: "Да я сосу твой хуй и мну яйца". А блюмун такой: "Да я беру твой хуй, перегибаю пополам и засовываю тебе в жопу", и ты такой ЧТО? ЧТО? ух бля, а это интересно, учитывая что это делает мама со своим сыной, совершеннолетним естественно.
>>393847 А как оно с точки зрения длины/подробности ответов, качества описания? Некоторые даже на крутых промтах в лучшем случае выдают 3 строчки > ты меня ебешь > вздыхает > *стонет а другие даже при вялом персонаже прилично графоманят. Само склоняет в кум при первой возможности, сопротивляется или плавно подходит? Насколько умная в понимании намеков, отсылок и контекста? Не страдает ли шизолупами с оправданиями, постоянно добавляя шмурдяк типа > "эти действия больше укрепляет их духовную связь и помогает не смотря на культурные различия двигаться вместе среди враждебного и переменчивого мира"? Ну и про блумун опиши, и рецепт успеха если есть в настройках расскажи, а то односложность ответов и шизоидное (в плохом смысле) поведение персонажей не понравилось.
>>393871 Я короче буду ждать пока тот пчел ркдукатор перетренит свой блюмун, если он еще не забил. Еще альпачину бы хотелось, но чет они не популярны среди народа.
Бля хуево быть бомжом. На проце без поддержки avx2 opencl и куда вылетают. Пришлось компилить все под avx, думал будет прирост, не ну он есть, но только на обработку уже написанного текста, причем ощутимый раз в 50 наверное, Но вот генерация как была 1 - 1.5 токена в секунду на 13B моделях так и осталась.
>>393902 → > Даже по тестам сотни мб кэша у амуды ничего не дают Не дочитал до конца, его могут быть единицы - десятки гигабайт, вплоть до полной загрузки всей сетки, или ее части в случае оптимизации структуры и софта. Вот это уже был бы порядочный аи-ускоритель, правда сыграет совместимость с х86 в плюс или минус уже вопрос. >>393871 Опиши чуть подробнее, а то только про возможность внезапных твистов.
>>393964 >его могут быть единицы - десятки гигабайт, вплоть до полной загрузки всей сетки Хуя загнул. Сейчас пук-среньк десятки- сотни мегабайт L3 выделяют, а ты сразу на 2 порядка больше предлагаешь делать.
>>393997 > десятки- сотни мегабайт L3 выделяют, а ты сразу на 2 порядка больше предлагаешь делать > дополнительные кристаллы l4 > hbm Невнимательный ты. Что важно - все это уже ранее реализовывалось и местами даже прижилось.
Короче, приехала мне P104-100, которая 1070 как бы. Запустил ее единственной CUDA-картой на интел-встройке через удаленный доступ без монитора (кому нужны мониторы, пф, API наше все). Диспетчер задач вообще ее не увидил. GPU-Z не увидил видеопамять. OCCT просигнализировала, что видеопамять заполняется, ядро после запроса нагружается. Ура, работает!
Потеститл Pygmalion-7b-8K, 5 токенов в секунду.
Хотелось бы узнать у владельцев 1070 — какие у вас скорости?
Судя по всему, старые дрова не позволяют работать на скорости аналогов более позднего поколения.
И та же 24-гиговая P40 тоже выдаст не дюже много токенов. Предположу 1 токен на 65B модели с двумя P40. Конечно, в 2-4 раза быстрее проца, но цена и энергопотребление ну такое…
Для маленькой модели купить P104-100 за 2,5к-5к на авито можно. Но удовольствие все же сомнительно, ИМХО. Я купил для своего проекта, мне сойдет, но рекомендовать не могу. Теперь надо посмотреть, что у нас там по новым поколениям (20хх, 30хх) майнерских б/у видях.
>>395450 >старые дрова не позволяют работать на скорости аналогов более позднего поколения По-моему больше всего влияют tensor cores, которые завезли только в turing (rtx 2000+). Именно из-за них старые nvidia сильно отстают.
>какие у вас скорости? У меня даже на более дешёвом полярисе (rx 580) 9-10 Т/с, пока всё в vram влезает. Так что ищи более новые поколения, паскаль мёртв.
>>395619 Цензуры по сути нет, сои в базе минимум. Но так как костяк данных для файнтюнов брался с GPT сеток, там сои уже побольше. Некоторые пытаются чистить датасеты вилкой, там получше, модели помечают как uncensured (ВНЕЗАПНО). У пигмы датасет по идее самый чистый, но они не особо лламы трейнят, они с GPT-J сильно много пердолились.
как вы выбираете модели? где в шапке инфа про различия битности \ какую херню качать для видеокарты ХХХХ ?? а вдруг я сутки буду качать версию на 24 гига врам если у меня 6 всего(напр)
В шапке есть про различия моделей для цпу и гпу. Первые называются ggml, вторые gptq. Твой пикрелейтед список устарел, он не обновлялся после революционного обновления контекста. Заходи на huggingface и делай поиск сам например по слову ggml и выставляй сортировку по недавно залитым, смотри в названиях 4k, 8k, 16k - это размер поддерживаемого контекста. Выбирай модель из расчета - вес модели в гб должен поместится в памяти(врам для gptq или озу в случае ggml) + контекст из расчета примерно 1.2к контекста на гигабайт. Так, 13б модель весом 8 гб и 16к контекста займет 23 гб.
>>395676 >где в шапке инфа про различия битности Напиши, в следующий раз добавлю. Но можно сказать, что 4 бита норм, 5 бит почти идеал, 8 бит для шикующих, 16 бит разве что для обучения. >>395676 >какую херню качать для видеокарты ХХХХ Тебе ещё все карты протестировать? В общем и целом 13B лезет в 12ГБ врам, 30B в 24ГБ, 65В в 2х24ГБ, люди попроще могут дрочиться с 7B. На проце лимитирует объём рам, его обычно кратно больше, и легко нарастить (я вот подсобрал систему с 64ГБ как раз под сеточки). Информация если что про контекст 2к, более широкие контексты жрут больше и перестают помещаться в отведённые им системы. А остальное это чистая субъективщина, кто-то дрочит на суперкоте, кто-то терзает викунь задачами.
>>395559 А с рыксой много пердолинга, или воткнул ExLlama и поехал как обычно? А по температуре и энергопотреблению рыкса как? P104-100 70-90 ватт в пике и 55° хотспот. А рыкса, так-то, дешевле, ее за 3-4 тыщи найти можно где угодно. Может рыкса и лучше, хотя один хрен, все это и правда прошлый век, и больше для бомж-гейминга, чем для нейросеток.
>>395693 Не, ну ты еще учти, что хаггингфейс сам в однопотоке 1 МБ/с отдает зачастую, гитом ты так и так будешь полгода качать. Или там как-то можно указать параллельные потоки, чтобы он всю линию занимал?
>>395450 > Pygmalion-7b-8K, 5 токенов в секунду Это в начале или после накопление контекста? Если нет переполнения врам то как-то слишком мало, средний современных проц выдаст как бы не больше на 7б модели. Попробуй ее в оффлоаде ggml. >>395704 > P104-100 70-90 ватт в пике Для 1070 это мало, ищи причину недогрузки. Алсо обрати внимание на возможное наличие странного биоса под майнинг где все может быть радикально поломано. >>395707 > хаггингфейс сам в однопотоке 1 МБ/с отдает зачастую Ни разу не замечено, что за провайдер
>>395702 >Расплачешься? Ты ещё скажи, что запускаешь за зионе с четырёхканальной DDR3, тогда точно расплачусь. >>395707 Качаю браузером, скорость конечно зависит от погоды, но бывает и 15МБ/с.
>>395727 На биос посмотрю, может и в нем дело, да. ггмл тоже попробую, так, на интерес. >>395729 Провайдер — Ростелеком. Когда гружу Download Master'ом — стабильно максимум. Когда любым браузером или git clone — стабильно 1,1 в пике. Было пару раз, когда грузил на полной скорости, но такое бывает редко, к сожалению.
>>395729 > за зионе с четырёхканальной DDR3 Эх было время, интересно смогло бы оно что-то показать в отсутствии avx2 >>395751 Поищи вредительские настройки в системе типа оптимизации доставки, ограничения лимита на содинение и т.д., драйвер сетевухи обнови
>>395759 чел настоятельно советую чекнуть тред на оверах про напругу контролеров при разгоне 11 сокета. есть большиие шансы что у тебя камень быстро дегродит на такой частоте (тдп\разгоне)
>за зионе с четырёхканальной DDR3, а в чем прикол? сетки на 4 каналах работают хуже или что?
>>395795 > при разгоне 11 сокета Это 2011-1, заслуженный ветеран первой рязанской, за пару лет на 5 кекогерцах заслуживший множество боевых наград и вовремя ушедший новому владельцу так и не побежденным. > на 4 каналах работают хуже Каналы не важны, важна псп рам, но если в теории на таком пытаться запустить сетку некроархитектура может сильно в минус сыграть. Попробуй если можешь, интересно.
>>395704 >А с рыксой много пердолинга В среднем побольше, чем с nvidia, но ничего сверхсложного. При условии, что уже стоит linux. Для винды пока не завезли поддержку, только планируют. Алсо, есть определённые ограничения, например, на несколько gpu не раскидать в тех же llamacpp и koboldcpp (возможно, добавят со временем). >ExLlama Её не пробовал, там же под nvidia. Если пытаться собрать под hip, думаю, пердолинга сильно побольше будет. >по температуре и энергопотреблению В целом GCN (полярисы и веги) горячеее паскалей при прочих равных, оптимизация произошла в RDNA (rx 5000 и дальше), они, наоборот, холоднее при схожей производительности (в играх). >прошлый век Согласен. У меня просто она изначально была (брал под игры), поэтому и пользуюсь, так-то брать ради нейросеток не советую. Полярисы вообще лишились официальной поддержки от AMD, хотя пока "неофициально" работают. Веги пока поддерживаются, но надолго ли? Если и брать, то RDNA, при условии что тебя устроит 1 gpu (но на амудэ vram побольше накидывают, чем на nvidia того же ценового сегмента). Но их по таким бросовым ценам после майнинга на рынке б/у и не найдёшь.
>>395889 Кобольд, который с дисками и питоном https://github.com/KoboldAI/KoboldAI-Client не поддерживает модели на основе лламы (по крайней мере не в этом формате). Для запуска рекомендую использовать WebUI и ExLlama.
Залетаю в тред с ламерским вопросом. Скачал лламу и сайгу в ггмл, кидаю их в koboldcpp, всё работает на проце. Вместо видеокарты у меня амд рх590, линукс не стоит, поэтому при Clblast прирост скорости примерно нихуя, ну разве что оперативку можно разгрузить через gpulayers. Так вот, вопрос в чём - от чего зависит количество количество токенов в Processing Promt? Иногда там 40-60 токенов и он их быстро обрабатывает, а иногда 700-800 и ессно скорость падает. По итогу получаю 2-3 Т\с на 7b модели, есть чувство что я что-то делаю не так и у остальных шустрее
>>395967 Я точно не уверен, но вроде бы на кобольде ни clblast, ни cublast не влияют на скорость генерации, только скорость обработки промпта. Поэтому скорость генерации зависит от проца и памяти.
>>395825 Все что gptq и ggml - уже сконверчено и можно сразу запускать. Есть версии с разным числом бит и опциями квантования, чем больше тем лучше но и медленнее будет работать, тесты сравнения можешь погуглить и в прошлом треде скидывали. >>395967 > при Clblast прирост скорости примерно нихуя Рыкса это тот еще зверь, но всеравно прирост должен быть, вон выше 10т/с на ней, поспрашивай какие параметры. > от чего зависит количество количество токенов в Processing Promt От того насколько менялся промт. Добавь --smartcontext должен ускорять, но на него были жалобы.
>>395983 >ни clblast, ни cublast не влияют на скорость генерации, только скорость обработки промпта И на генерацию влияют, и на промпт. Причём, промпт на gpu может обрабатываться медленнее при определённых условиях. >>396030 >на него были жалобы Какие? Качество генерируемого текста ухудшается?
>>396305 Ответ: >>393749 (OP) >ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать Таверну и ExLlama (ниже) Там есть свой чат, но он уныл, можешь даже не тратить время на его установку.
>>396350 >связать Таверну и ExLlama t,fys ебаный рот этих запускаторов хуй пойми кто и что и как >Там есть свой чат, но он уныл, можешь даже не тратить время на его установку. какой нахуй чат мне надо запускатор на видяхе - в шапке написано что оно должно работать - ну типо и где?
>>396256 > И на генерацию влияют, и на промпт. Причём, промпт на gpu может обрабатываться медленнее при определённых условиях. Хм, у меня проц бещ avx2 разницы не заметил особо.
>>396410 бля типо это нехуя не запускатор типо koboldcpp или угабуги? или какого хуя 1 запускатор работает через другой, это блять как запускать таверну из кобальта и какой пидарас закинул это в шапку как ОТДЕЛЬНОЕ решение если это просто модуль угабуги? хули так запустано, но ща прочитаю ссылку
>>396440 >и какой пидарас Я. >ОТДЕЛЬНОЕ решение Технически можно запустить отдельно. И я запускал, иначе бы не писал. Практически смысла в этом немного.
>>396256 > Качество генерируемого текста ухудшается? Типа того, но там непонятно, не та модель, не те настройки, не та версия и еще весной было. >>396440 Это загрузчик модели, точно также как лламацпп, как аутожптк и прочие, которые своего интерфейса толком не имеют. Хубабуба - просто оболочка с интерфейсом, настройками, возможностью выбора и реализацией api для связки с таверной, также как вебуи автоматика позволяет использовать стабильную дифуззию и прочее. Кобольд цпп же - сразу и лоадер и интерфейс, все в одном. > в шапку как ОТДЕЛЬНОЕ решение Структура хромает, но зато ссыль на репу с самой актуальной инфой.
>>396256 >Какие? Качество генерируемого текста ухудшается? Вся суть в том что смартконтекст просто резервирует половину контекста под твою писанину, т.е. если стоит 2к контекста, то на промпт уходит 1к(грубо говоря), и еще 1к тебе дается на переписульки с няшками, когда твой 1к кончается, то идет переснюхивание промпта. Модели с 1к тупее, чем модель с 2к, по всяким тестам, но я не в курсе чем отличаются по уму 8к модели от 4к моделей, возможно что ничем.
>>396561 > на промпт уходит 1к(грубо говоря), и еще 1к тебе дается на переписульки с няшками Разве оно вообще везде так работает? Выгружаются примеры диалогов, приветствие, некоторые части, но основной промт на месте. Или ты про резервирование части контекста под заполнение с очисткой по достижению лимита и повторении этого, чтобы полный промт реже переобдумывать, вместо того чтобы каждый раз удалять последние реплики и иметь полный контекст?
>>396579 > Или ты про резервирование части контекста под заполнение с очисткой по достижению лимита и повторении этого, чтобы полный промт реже переобдумывать, вместо того чтобы каждый раз удалять последние реплики и иметь полный контекст? Вот это. Повторюсь, отупление модели от смартконтекста актуально для 2к моделей, 8к модели скорее всего не тупеют.
>>396579 > Разве оно вообще не везде так работает? фикс >>396590 Если на фуллцпу модель крутится то лучше эти 8к просто не превышать, а то обработка 8к токенов займет совсем неприличное время.
Ну что, использовал кто расширение контекста через альфу экслламой в 2к моделях или сам сравнивал ее с другой настройкой для мерджей с 8к файнтюном? По числам понятно что лучше, а по ощущениям?
>>396622 >Если на фуллцпу модель крутится то лучше эти 8к просто не превышать, а то обработка 8к токенов займет совсем неприличное время. Я там жить собираюсь в своем мирке, буду весь контекст заполнять и превышать.
>>395901 а схерали в шаппке пигма-треда написано что пигма открываается таверной и кобом если пигма на ламе сделана и 6 бит например не открываается в кообе наебка?
>>396440 Ну ты совсем пенек? Это все движки, конкретно в убабугу этот движок встроен. Убабуга умеет в апи. ЭксЛама=>Убабуга=>Таверна. Если ты умный, можешь сам настроить без убабуги, или свою обертку написать без таверны, или свой движок, а что, а вдруг. Но накой хуй оно тебе надо — вопрос. >>396499 Убабуга такое же все сразу, и лоадер, и интерфейс, все в одном. У них разных функционал, будем честны, тот же кобольд имеет тонну минусов. Ни тебе адекватной рисовки картинок (костыль кобольдцпп-кобольдаи — ну такое), ни тебе силеро ттс, а только встроенные движки, типа Нюанса, чи как его, ни тебе распознавания картинок (или он умеет это?). Ну, короче «все в одном» крайне натянутое. А всякие персонажи и миры и в убабуге есть. Просто каждый в чем-то сильнее другого.
какого хуя эта скатина сыпет непонятными ошибками если кресты и дрова видяхи достаточно свежие и вобще устанавливаю в 1 клик для даунов ? ЧТО И КАК МОГЛО СЛОМАТЬСЯ как там не хватает файла если он сам его должен скачивать без меня?
>>396773 > таверной > с таверны Таверна это лишь фронтэнд, она ничего не запускает >>396760 Если ты будешь ставить вручную, то при установке pip-ом системного пихона он может воспользоваться закешированным и тогда не будет ничего качать. Если ты ничего не понял - просто потерпи и скачай. >>396868 Ну да, правда как конечный интерфейс годна скорее для тестов. Главное что дружит с таверной, которая сильно лучше для рп >>396875 Почитай что там написано и сделай что просит.
>>397156 > microsoft c++ redistributable > требует microsoft c++ build tools Тебе даже прямую ссылку написало для скачивания. При установке оно не просто качает готовый бинарник а собирает его под твою систему, собирать ему нечем потому и ошибка.
>>395983 Ну я и разницу в скорости обработке промпта не вижу. А из-за того что он занимает бОльшую часть времени, как раз и выходит скорость низкая. >>396030 >вон выше 10т/с на ней Там у человека линукс, он скорее всего rocm накатил, аналог амдшной куды. >От того насколько менялся промт Странно, у меня он просто всегда одну и ту же цифру считает. Попробую со смартконтекстом поиграть.
>>397609 при выборе модели типо пигмы - модели типо автогпт сами выбираются >>397607 >>397442 только блять не говорите что каждый из вас устанавливал в пикрил1 ...ЧТО??? КАКИЕ ГАЛОЧКИ И ПОЧЕМУ БЕЗ НИХ ПРЕДЛОГАЕТ 2 ГИГА
ПИКРИЛ2 вобщето имнно это надо устанавливать когда проги и игры хотят кресты - только оно уже было установлено!
кстати за ночь обноружил что файл оказывается на месте но хули не так не ясно почему у вас таких трабл не было...
>>397625 > 3080/12Gb Докинь немного до 3090, разница в памяти радикальная >>398123 > каждый из вас устанавливал в пикрил1 Да, стояло изначально для другого и потому все сразу запустилось. Вот так и выходит что "простые" средства для нормисов у них не взлетают, а остальные удивляются почему. > ПРЕДЛОГАЕТ 2 ГИГА Ты чекни сколько модели весят, может оно тебе и не надо. Алсо если галочек выбрать то будет все 20 гигов. > файл оказывается на месте Какой еще файл? > кресты покайся! >>398128 А толку с некроты, пусть тогда обмажется видюхой, скорость выйдет выше.
>>398179 >А толку с некроты 64+ озу, можно и 128 и процы по 24 потока+ >Ты чекни сколько модели весят, может оно тебе и не надо. Алсо если галочек выбрать то будет все 20 гигов ой бля не пизди что каждый чел тут чот устанавливал чисто случайно или еще как то - вы даже не можете мне сказать какие галки нужны офис и пейнт то нахуя для угабуги? а базы даных SQL НАХУЯ ? ХУЛИ НАДО ТО? >Какой еще файл? КОторый блять на скриншоте завязааный на кресты
все нормальные люди устанавливают только библиотеки идущие в составе установок игр и всешшда этьоого хватало!
>>398266 > 64+ озу, можно и 128 Толку? Получить менее 0.5 т/с на 65б модели и гореть каждый раз, когда оно решит переобработать промт? 2 треда назад вкидывал как оно на радикально более шустром железе без гпу помощи крутится, это всеравно малоюзабельно. Вот если карточку добавить хотябы для быстрой обработки промта - уже что-то, но наиболее рационально просто купить мощную новидию с врам побольше, по перфоманс/прайс это сильно лучше. > ой бля не пизди Причина тряски? Не, офк триггернуться с занятых двух гигов в 2д23м это уже сильно, но всеже. > каждый чел тут чот устанавливал чисто случайно Ну да, фейсроллим и что-то выходит. > а базы даных SQL НАХУЯ ? Сам придумал - сам и отвечай, лол. > какие галки нужны Ищи того, кто ставил недавно и еще помнит. В теории тебе нужны что-то типа "разработка классических приложений x86" для ц компилятора. Ну и куда тулкит, ставится отдельно.
может все таки ктото поделится файлами например установочными? алсо выше писали что у меня ошибка на хуйне для запуска большой битности но у меня даже 7 бит не запускает
>>398299 Это троллинг тупостью, или ты серьезно настолько деградант? Показалось что > все нормальные люди устанавливают только библиотеки идущие в составе установок игр и всешшда этьоого хватало! лишь ирония, а ты там был серьезен? Читай что написано в консолечке. Если не понимаешь - читай еще раз, вчитывайся, повторяй пока не снизойдет просветление.
>>398297 >Не, офк триггернуться с занятых двух гигов в 2д23м это уже сильно глаза разуй я тригернулся с того что он хочет 2 гига А Я ЕЩЕ НЕ ОДНУ ГАЛКУ НЕ ОТМЕТИЛ МЕСТО ТО У МЕНЯ ХВАТИТ НА ВСЕ >Сам придумал - сам и отвечай, лол. дебил я сюда скрин выложил где еббаная уттилита ++ предлагает мне эту хуйню установтить - НАХУЯ??? >Ищи того, кто ставил недавно и еще помнит вот я итт и спрашиваю - а где еще? >x86 х64 ты хотел сказать
>>398266 >и процы по 24 потока+ Толку со 100500 потоков, если память едва лучше десктоп топа на DDR4 и сосёт с проглотом у DDR5? >чот устанавливал чисто случайно или еще как то Да. Я на рандоме как-то там поставил. >вы даже не можете мне сказать какие галки нужны У меня вот так. >>398266 >все нормальные люди устанавливают только библиотеки идущие в составе установок игр и всешшда этьоого хватало! Потому что либы это либы, а компилятор это компилятор. Внезапно, да? >>398308 >х64 ты хотел сказать х86-64 ты хотел сказать. А победит в конкурсе духоты тот, кто вспомнит про AMD64
>>398303 >Читай что написано в консолечке пикрил - тебе не кажется что консолька наебывает? > Если не понимаешь а сказать нельзя?? в треде пигмы иличот такое сказали что нужно ++ретребюшон 22 я эту хуйню скачал заранее почему в шапке не слово про еще какую то хуйню
и если ставить все галки нуужно 30 гигов - ну блять очевидно что вы все эти 30 гигов не ставили
>>398319 >и сосёт с проглотом у DDR5? эта та ппамять которая только в 22 году начала обгонять серверный сокет по пропускной способности памяти? часто на ддр4 видел псп как пикрил?(не мое) твой пикрил это галки которые уже установлены хош сказать? (справо)
>>398319 > и сосёт с проглотом у DDR5 Да не, 4 к_анала 3200 лучше чем ддр5 6400 как минимум по задержкам, а если гнать дальше (хз насколько те процы в этом могут) то 110+гбит достижимы, правда это скорее про 2066 соккет уже. Всеравно это бу железо, если связываться с ним то карточка за сравнимую цену будет сильно лучше. Да даже новая 3060 при оффлоаде в нее окажется быстрее. > AMD64 IA64, раунд! >>398320 Смотри пикрелейтед, это кусок твоего же скрина. Возьми телефон (у тебя же он есть?), запусти камеру гуглпереводчика и ознакомься что там написано. Подумай, сосредоточься чтобы аж прочувствовать как шестеренки в голове закрутились, потом поищи похожий параметр в настройках где выбираешь модельку и поставь на него галочку. Алсо оно всеравно может не взлететь ибо хз что с поддержкой mpt, нахуя скачал это вместо каноничных ллама-бейзд моделей?
>>398179 >Докинь немного до 3090, разница в памяти радикальная Поздно уже, увы. Сейчас виню себя, что поторопился. Не копнул тему достаточно глубоко вначале, и подумал, что и 12 гигов норм будет.
а хрен ли все качают эти модели из шапки пигмы и все норм у всех а у меня каких то файлов типо не хватает которых не было в репозитории? где мне их высрать надо было
>>398328 >эта та ппамять которая только в 22 году начала обгонять серверный сокет по пропускной способности памяти? ХЗ, собрался на ней 3 дня назад, черновые настройки вот. >>398328 >часто на ддр4 видел псп как пикрил?(не мое) Увы, мой сервак слишком далеко, чтобы по быстрому запустить шинду и посмотреть, сколько будет на 4 канальной DDR4 с тухлоскоростями, так как неразгоняемый зион >>398328 >твой пикрил это галки которые уже установлены хош сказать? (справо) Это то, что у меня сейчас стоит, запустил инсталятор и заскринил. Правда этот сетап был ещё для xformers, но не думаю, что его не хватит на компеляцию новой хуитки. >>398354 >Да не, 4 к_анала 3200 лучше чем ддр5 6400 как минимум по задержкам Не факт. >>398354 >IA64, раунд! Помянем жмура несвежего а ведь в ИИ мог бы и затащить.
>>398510 Там с ленивым xmp в простых плашках около такой же результат как на СЕДЬМОМ ШАГЕ ПОДГОНАорнул, а с более быстрыми за 100гбит можно уйти. Насчет 2011-3 не уверен, там чтобы 85 перешагнуть нужно уже анкор хорошо гнать да и не тестировали их толком с нормальной ддр4, а с 2066 на изи. А по латентности - мешгрид срет, если правильно настроить ядра то менее 50нс, при дефолтном выйти ниже 60 уже сложно. > сервак > шинду Больной ублюдок, лол > а ведь в ИИ мог бы и затащить. Ага, из извращенского кстати там есть сборочка llama cpp под е2к
>>398553 А чего там хенк на 100 с лишним метров насрал? >>398557 >СЕДЬМОМ ШАГЕ ПОДГОНА Шо не так то? В первый раз дыру пятую ковыряю, вообще ХЗ, что куда настраивать, поэтому двигаюсь маленькими шажками и всё не туда. Можешь поорать ещё раз, выйграл наносекунду с первичками )) А вот куда и как трогать вторички, я ХЗ. Где мой рузен калькулятор для DDR5. >Насчет 2011-3 не уверен, там чтобы 85 перешагнуть нужно уже анкор хорошо гнать Ясно, тогда не буду тянуть сервер с антресолей. Просто пока в нём стоит 2 плашки стачала вообще одна, лол, ещё 2 плашки валяются без дела, ибо пока на серваке торренты да диски, и на производительность было похуй. А ещё там E5-2630L v3 вместо процессора. >Больной ублюдок, лол Да не, я нормальный, шинда там была только на этапе настройки памяти, ибо я ХЗ, как в люнупсе смотреть настройки и тестировать стабильность. >Ага, из извращенского кстати там есть сборочка llama cpp под е2к Сколько там дев кит стоил, 200к?
>>398610 > Шо не так то? Ну бля, тот еще рофел же без осуждения, аналогичной поеботой страдаю, хочешь постичь дзен - воткни 4 плашки ддр5 > Сколько там дев кит стоил, 200к? Хз, так эту штуку пощупать и не удалось хотели на пробу взять, но поставить готовы были только старье и времена нынче далеко не жирные, только обзоры у известного в узких кругах техноблогера и из сообщества новость про лламу на нем.
Сколько у тебя чисто на цпу в такой конфигурации выдает? Прогони при случае, желательно несколько вариантов.
По 48 гиг каждая... Там всё так плохо? Везде пишут, что будет тыква, но как же хочется 100+ гиг оперативы. >>398625 >Сколько у тебя чисто на цпу в такой конфигурации выдает? Не тестил, лол, хотя основная причина апдейта с AM4 как раз нейросеточки. В выходные погоняю, заодно курву надо будет посмотреть, а то в интернетах пишут, что -30 на изях идёт. >>398672 Чел, у тебя какие-то катастрофические проблемы неясной этиологии. Мне прям печально смотреть на такое. Может, пора переставлять винду?
>>398702 >какие-то катастрофические проблемы неясной этиологии именно блять! это же не я тупой >Может, пора переставлять винду? спецально снес сперму ради ебучей 10 чтоб наконецто нейронки заработали дело не в ней кстати ебучая угабуга скачала не в папку модели а в корень веб-уи (серьезно блять? как разрабы такое допустили при том что скаченая модель не появляется в выдвижном списке моделей! как они это тестировали?)
>>398702 Будет тыква, пердолингом получится в лучшем случае на штатные xmp частоты вывести. У некоторых работяг вообще выше 4000 не поднимается, в то же время отдельные ребята вполне успешно разгоняют. Подозреваю что дело в каких-то субтаймингах или чем-то сравнительно тривиальном, но может и не так. > хотя основная причина апдейта с AM4 как раз нейросеточки А в сд в 512х512 батч положенные итерации то набирает? > катастрофические проблемы неясной этиологии Больше похоже на skill issue неверно настроенное окружение и/или отсутствие компиляторов, потому все что должно собираться нормально не собирается и работает только какой-нибудь autogptq и трансформерсы, что качаются сразу бинарником. >>398745 >>398752 Умеет выгружать на gpu, хорошо дружит с лламой, >>398553 вот отсюда качай, читай инструкции и запускай с нужными параметрами для оффлоада на видюху. Для него подходят только ggml модели, старайся качать q4/q5-k.
а не может быть трабл с запуском моделей из за включенной товерны в фоне подключеной к опен-аия?
>autogptq и трансформерсы, что качаются сразу бинарником. мож я конечно не понял - но! когда я запутил модель от кобальта 2.7 шинен - вышеупомянутые хуйни вроде работали
>>398774 > из за включенной товерны Нет > вышеупомянутые хуйни вроде работали Закрой и заново запусти убабугу, перейди на вкладку Model, там справа вверху сразу сними галочку Autoload the model. После этого из списка выбирай скачанную тобой gptq модель, под ней в Model loader выбери Exllama и ничего не трогая нажми лоад.
>>398780 спаасибо за совет но ща я совсем потерялся пикрил- сделал как ты сказал (точно) но каким то хуем запустилась пигма 7 суперхот(чтобыэто не значило) я правильно понимаю что у меня есть шанс запускать 7+ (лама) модели но никогда модели сторее?
>>398800 Раз запустилась значит эксллама у тебя хотябы живая. Чтобы 8к модель работала а не выдавала повторяющиеся символы и хтонь - выставь в настройках первую крутилку на 8192, а внизу альфу на 4. > у меня есть шанс запускать 7+ (лама) Ты можешь запускать любые модели на ллама архитектуре. В принципе, если autogptq работает, то и другие тоже, только галочку "верить коду" выставляй. Он работает медленнее экслламы. > 7+ Это не версия это размер, 7b - 7e-9, 7 миллиардов. Самая младшая из ллам, есть 13, 30, 65, для них нужно 12-24-48 гб памяти соответственно.
>>398802 я правильно понял где альфа а где 8к? просто если это не они то я хз где еще оно может быть ща жду пока пытается другую модель запустить но вроде завис кстати в предыдущей моддели пигма 7 ХОТ в папке появилась папка .гит на 4 гига - это так и должно быть? раньше ее не было
>>398811 Нет, совсем не так. Тут выбери шаблон simple-1 и больше не трогай ничего пока не разберешься. Разве что галочку text streaming убрать чтобы было быстрее и если все быстро работает разве что max new tokens можешь увеличить. Там же где модель выбираешь, вот там параметры экслламы, буквально 3 крутилки, тебе нужны две крайних. >>398802 > e-9 e+9
>>398816 у меня оказывается была включена вкладка ламаС++ я вот ща сиюжу туплю это я пигму на ней запустил или все таки на ексламе... 20 мин модель на 7 гигов грузится из за этого окно екламы не открывается эх ща прирывать значит ... ага заебись, супер хот точно на ЕХлмае запустился, то что ты обьяснял увидел, с этим все ясно тоесть я могу хоть 30К контекста скачать модель - если ограничу на 8 то все будет норм да?
>>398915 Всегда запускал эту хуйню батником, а так у кобольда же интерфейс при запуске есть в котором всё что надо можно выбрать, нахуя тут писать что-то?
>>398266 Да, я ставил, и? Зато у меня работает, у тебя нет.
То, что ты кто-то по умолчанию выбирает авто-гптк меня мало волнует. Убираешь галку Autoload model, выбираешь ExLlama, ставишь настройки, жмешь Save, а потом Load и все, проблема решена.
>>399252 >Зато у меня работает, у тебя нет. давай не пизди что у тебя SQL застовляет работать автогпт или бит-енд-байтс >Убираешь галку Autoload model, выбираешь ExLlama, ставишь настройки, жмешь Save, а потом Load и все, проблема решена. прикольно но старые не ламовые модели так и не получится открыть ничем
>>399254 > что у тебя SQL застовляет работать автогпт или бит-енд-байтс Шизофазию словил? > старые не ламовые модели так и не получится открыть ничем Все открывается
>>399254 Ой, пиздабол опять порвался, какой нахуй SQL, надо ж быть таким тупым, чтобы пытаться его ставить. Два пункта, еще раз, для тех кто ну совсем тупой: 1. Эта хуйня нахуй не нужна, эксллама быстрее и работает без нее. 2. Если тебе ну охуеть как хочется поставить — то тут рил люди не помнят, что ставили, потому что проблема с этой хуйней была месяца два назад, с тех пор все поставили, ошибку прошли, и щас сидят на экслламе, как бы, нахуй оно кому надо. Я скрин могу сделать с компа, где эта хуйня не выдает ошибки, но там много лишнего понаставлено просто на всякий случай, и мало ли когда пригодится.
Но я соглашусь с тобой, что сам подход, когда в «один-клик-инсталлере» требуется еще какой-то компилятор на 20 гигов, — это полнейшая поебень и тут разраб обосрался.
>>399254 Для точности, на вкладке Отдельные компоненты: Основные компоненты C++ Основные компоненты средств сборки C++ MSVC версии 143 — VS 2022 C++ x64/x86 Build Tools (последняя версия) Обновление для распространяемого компонента C++ 2022 Средства CMake C++ для Windows C++ AddressSanitizer Основные компоненты инструментов тестирования — средства сборки Пакет SDK для Windows 11 (10.0.22000.0) Универсальная среда выполнения C для Windows Преобразование текстовых шаблонов
>>399260 >Шизофазию словил? ты? это у тебя установка всякой ебалы из утилиты позволяет хуебуге работать >Все открывается да нехуя >>399262 > надо ж быть таким тупым, чтобы пытаться его ставить. я блять и говорю что нахуй ее ставить только так о всем можно сказать ,а че ставить непонятно
>>399268 > это у тебя установка всякой ебалы из утилиты позволяет хуебуге работать Пчел, ты это сам придумал, для чего? Компенсируешь свою неграмотность? В незнании чего-то нет ничего постыдного, но вот будучи днарем выебываться и фантазировать - похоже на диагноз. > да нехуя Хуя, все работает, прикинь? Алсо на самом деле в этих ванкликах смысла немного, все что нужно это создать венв, поставить последний торч и pip install -r requirements.txt, офк имея компилятор.
>>399278 нет это вы мне тут говорите типо ставь все вподррят >все что нужно это создать венв, поставить последний торч и pip install -r requirements.txt, офк имея компилятор. прикинь на товерну вся эта хуета как то установилась и работает без ошибок
>>399286 > на товерну Ну раз на саму таверну, значит теперь тебе любые репы даже самого отборного оперсорца должны покоряться и полноценно запускаться от одного взгляда. Накатить ноду (если не было) и нажать start.bat в простенькой оболочке - не хуй собачий.
>>399295 ну так а хули в товерне 1клик работает а там нет? и если торч итд поставились на товерне компилятором значит у меня этот кампилятор есть - разве не так
какогото хуя кобальт++ зависает на предпоследнем сетами а те что выше вылетают без запуска - только в макс безопасном режиме без авх работает переписка ИЧСХ АВХ у меня есть! и да я качал ггмл модель а не сейфтензор и памяти хваттало озу
>>399443 То что глупенький понятно, но ты совсем ебич? Из названия очевидно что эксллама для ллама-бейзд моделей, выше про нее написано и что как запускать >>398802 > можешь запускать любые модели на ллама архитектуре. В принципе, если autogptq работает, то и другие тоже, только галочку "верить коду" выставляй Случаем мясорубку с мастурбатором не путаешь? Хотя для генофонда было бы полезно лол
Вот скажите мне ламаны? ламериканцы? ламаноны? Вот этот вот роп на 8к он только для специальных моделей 8к работает на кобальде или на любой? А то чет эти викуны-визарды это уныние одно.
Никто не встречал вариантов интеграции LLM в UE5? Видел Impostor в Virt-a-Mate, но это ужасный Unity, и видел приложуху Deskucchi на Quest 2, но она с ChatGPT работает, вроде. А есть что-то локальное и на нормальном движке? Если нет, то я сам напишу, канеш, но тратить дни на разбирательства в движке анрила, API oobabooga/KoboldCPP и билде под Quest 2 — леновато.
>>399818 Конечно. Можно крутить модельку на одном компе, а играть на другом. Можно сделать Stand-alone приложение для квеста, просто графончик будет попроще и физики минимум.
Для одного ПК с небольшим объемом памяти/видеопамяти/одной видяхой такой трюк не пройдет, канеш. Но если есть чо, то уже не проблема.
>>399804 Самой интеграции с кручением непосредственно внутри ue - не будет офк, слишком специфическая и динамично развивающаяся тема. А вот готовые решения чтобы оно могло обращаться по api - вполне возможно уже кем-то сделаны.
>>399919 Ну вот я про второе и спрашивал, может кто видел блупринты или гиты какие. Понятное дело, что им не с руки прикручивать к движку непонятную на данный момент фигню. ChatGPT и то больше смысла имело бы, с их точки зрения.
>>395727 >средний современных проц выдаст как бы не больше на 7б модели Потестил, кста, 3-6 токенов/сек выдает на Ryzen 5 5500 в 6 тредов. Так что да, ван-клик на винде в экслламе не надо желаемого. Думаю убунту попробовать с ручным компилом, когда бп придет под сборку. Ну и оффлоад проверю, да.
>>399250 обычный батник уровня kobold.exe --useclblast 0 0 --gpulayers 100 Только хз нахуя это надо если в последних кобольдах уже есть ГУИшка в которой все эти аргументы и так есть в виде кнопочек и менюшек
ЕКСлама зависает при генерации историй начатых (много текста уже) в гпт и прочей фигне - это у всех так? тоесть нагрузка на видяху есть (50% почему то всегда в срреднем) а результата нет а в новом чате в адекватные сроки ответ выдает
>>400791 Контекст весь помещается? Выглядит так, как будто видяха пошла в подкачку, а с ней результата можно ждать бесконечно. Попробуй модель размером меньше на тех же контекстах.
>>400158 >Потестил, кста, 3-6 токенов/сек выдает на Ryzen 5 5500 в 6 тредов >>400616 >Мой 2700Х выдаёт 2-3 токена на 7б моделях
Так, наконец-то нашлась свободная минутка проверить новое железо. С нуля >Time Taken - Processing:6.9s (45ms/T), Generation:11.4s (106ms/T), Total:18.3s (5.8T/s) С тем же контекстом (реролл) >Time Taken - Processing:0.1s (105ms/T), Generation:11.6s (105ms/T), Total:11.7s (9.4T/s) Контекст там правда чуть больше сотни, и чуть больше сотни отдаёт. Это на 7900х + 64ГБ 6000МГц CL30. Софт koboldcpp-1.32.3.exe и WizardLM-7B-uncensored.ggml.q5_1.bin. 8 потоков, на 4-х, результат чуть меньше.
Кстати, в HWINFO заметил графу с пропускной способностью памяти. По ней можно отследить, когда добавлять потоки уже бесполезно. У меня походу это 5, лол. Пикрил пиковая 50ГБ/с на чтение (аида показывает 80), больше выжать не удалось.
Пора разрабатывать набор тестовых данных для бенчмарков, если с нулевой температурой запускать, то результаты вполне себе повторяемые (правда 0 встроенный кобольд не даёт выставить без правок в веб-инспекторе).
>>400889 >>400809 ща попробовал сжать контекст в 4 раза - вроде заработало но раньше то работало с большим контекстом и не висло нахуй на пустом диологе
>>400901 Я тестил на 3900 и тоже показалось, что там 5-7 токенов (но там и память на таймингах пониже), то есть в какой-то момент между 5 и 20 потоками разницы и нет. Думал глючит и зависит от контекста, но проверю еще и память, спс за наводку!
>если с нулевой температурой запускат А еще seed. =) Но, да, идея верная.
Вообще, я раньше думал, что от количества потоков сильно зависит результат. По дефолту убабуга запускает половину потоков и утилизирует 60% ЦП (ну, то есть, часть уходит под саму программу, видимо). Да и кобольд так же. Но, видимо, потоки нужны для больших объемов данных, т.е., на малых моделях после 5-6 тредов уже и не важно становится, вполне возможно, что ядра просто не успевают перелопачивать всю модель в памяти из-за ее пропускной скорости. А если модель 65Б, то там уже между 5 и 10 потоками будет около 30% разницы, насколько я помню (тащемта, прирост тоже не ахти какой). Надо бы не полениться и нормально погонять какие-нибудь тесты.
>>400791 Скорее всего при заполнении контекста кончилась врам. Оно плавно замедляется или в один момент резко встает и после нескольких минут ожидания ничего не выдает? И мониторь использование памяти. >>400822 Можно с 3090 >>400901 На интеле самый лучший результат если потоки вообще не задавать, выставишь - сразу падение. Ставишь аффинити только на производительные ядра - радикальное падение на порядок. Обычно все само крутится на p но если что-то условно нагружающее делать то оно часть на e сбрасывает, из-за чего сразу просадка раза в 1.5. Если их в биосе отключить то результат скорость стабильнее но не сказать что сильно лучше. Так что какие-то измерения на фоне особенностей гетерогенного процессора вообще лсожно сделать. Это еще на старой версии тест, лламу переписывали не только под куду, сейчас может чуть иначе. > 50ГБ/с на чтение (аида показывает 80), больше выжать не удалось Оно же не только читает, да и в профессор есть упор, так что все норм. Ну и не факт что показометр корректный, при тесте аиды оно совпадает с результатами? >>400956 Когда быстрая врам - разница ощутимее, между 20 и 30 точно есть. Это правда на этапе генерации токенов, обработка промта идентична.
Чего пока нигде не замечено - ускорения при снижении числа потоков, если других примеров нет то можно просто указывать все или пропустить параметр.
>>400997 >Так что какие-то измерения на фоне особенностей гетерогенного процессора вообще лсожно сделать. Одна из причин, почему я на AMD, лол. Нахуй такие приключения. >да и в профессор есть упор С чего бы? Был бы упор, было бы масштабирование от числа ядер. >Ну и не факт что показометр корректный, при тесте аиды оно совпадает с результатами? Кстати да, нихрена не совпадает. Забавно, что нейросетки жрут больше теста. Жаль, я уж было понадеялся на 50% потанцевал ускорения. >Чего пока нигде не замечено - ускорения при снижении числа потоков У меня при 8 скорость выше, чем при 24. Наверное поставлю вовсе 6, ибо зачем больше.
>>401037 > Был бы упор, было бы масштабирование от числа ядер В идеальном сферическом вакууме, если же там чреда операций с зависимостью от предыдущего результата то такое параллелится плохо, будут неизбежные паузы пока идет их обработка. > Одна из причин, почему я на AMD, лол. Нахуй такие приключения. Ну не, мелочь, которую кроме странного бенчмарка нигде не встретишь это полная ерунда, по сравнению с тем, как индусы над 7м поколением надругались. Ну и репутация, хотя тут еще та теорема эскобара. > У меня при 8 скорость выше, чем при 24 Может фича разноскоростных ядер или буста? Надо вообще на нормальной модели а не 7б потестить, а в идеале еще с оффлоадом на карточку.
>>400997 >Оно плавно замедляется или в один момент резко встает и после нескольких минут ожидания ничего не выдает? так нету же идикатора что оно работает кроме загрузки гпу в мси афтоберне там же смотрю что расход памяти НЕ меняется >И мониторь использование памяти. озу тоже стабильно - проверял
>>401085 gpu-z или любую программу для мониторинга и смотри сколько памяти задействовано. В афтербернере тоже этот параметр где-то был, ищи. > что расход памяти НЕ меняется Сколько используется и сколько у тебя вообще есть?
>>401063 >если же там чреда операций с зависимостью от предыдущего результата то такое параллелится плохо Там же размер скрытого слоя в 4096 "нейронов". В принципе их все можно считать параллельно. Собственно, видяхи небось так и делают. >Может фича разноскоростных ядер или буста? С одной стороны да, буст там значительно меньше. С другой, если 24 потока на 4,5 кеках делают меньше, чем 4 потока на 5,5, то тут явно упор не в числодробилку. >Надо вообще на нормальной модели а не 7б потестить Челы выше выложили на 7b, вот и я показал выйгрышь при переходе на новые платформы. По сути виден х2 прирост через поколение, лол. >а в идеале еще с оффлоадом на карточку Ну это уже ближе к реальности, но получаем, что придётся сравнивать не только ЦП, но комбинацию ЦП+картон, а это уже не так удобно. Например, у многих ли тут стоит 3080Ti, с учётом того, что эта карта по сути топ для игр (своего времени), для них и покупалась, а для нейронок люди докидывают 10% и берут 3090/4090? А люди без денег берут всякие там 3060 12GB как топ объём за свои деньги, или вот 4080 на 16 гигов тоже выглядит неплохо.
>>401097 я пишу >гпу в мси афтоберне >там же смотрю > расход памяти НЕ меняется ты пишеш >В афтербернере ..., ищи. ты не выспался чтоле я те точно говорю в процессе нехуя не меняется в ВРАМ ща начал подозревать а вдруг лама не понимает тексты от гпт и поэтому буксует
>>401103 > С другой, если 24 потока на 4,5 кеках делают меньше, чем 4 потока на 5,5, то тут явно упор не в числодробилку. На оче оче быстрой рам было небольшое отставание на обработке промта и видно что в ходе нее мало задействовано, и знатное доминирование по скорости его генерации. Когда оно только новый текст добавляет то 30б модель даже юзабельна с временем ответа 20-40 секунд, но стоит сорваться на переобработку - досвидули. Так что тут таки надо разделить этапы и там уже оценивать что где, ведь на гпу или при ее подключении обработка контекта усоряется колоссально, сама же обработка уже не так сильно. > Челы выше выложили на 7b Без упрека, интересно как будет скейлится с размером модели. Прирост от поколения офк будет, но сложно объективно оценить из-за отличий условий и отсутствия гарантий что все у всех правильно работает. А так если псп рам в 2 раза выше - так и должно быть. >>401118 > смотри сколько памяти задействовано > Сколько используется и сколько у тебя вообще есть? > ты не выспался чтоле SQL для нейросетей уже поставил?
>>401300 Все миксы с 8к-суперхотом говно. Сам суперхот 8К не берёт нормально, а миксы вообще калище. Лучше взять нормальную модель с большим контекстом или альфой разогнать.
>>401121 >Без упрека, интересно как будет скейлится с размером модели Ну я на 2700X и 16 гигах своих могу 13b запустить в принципе, надо только какие-то общие параметры выставить и схожие модели мб запустить.
>>400901 > Generation:11.4s (106ms/T) Что-то вообще пиздец, зачем амуду брал. У меня на инцеле с q5 вот такое, результаты в прогонах стабильные: > Time Taken - Processing:2.9s (65ms/T), Generation:5.6s (62ms/T), Total:8.5s (10.5T/s) С q4 вообще такое: Time Taken - Processing:0.9s (21ms/T), Generation:6.7s (51ms/T), Total:7.7s (17.2T/s)
впервые какая то хуета попыталась заработать на трансформере -хули другие не хотят? еще бля какаие то чекпоинты качает и требует больше памяти чем лама13б-суперхот8 , а сама 6б
>>400901 >Generation:11.6s (105ms/T), Короче можно чуть ускорится, если прибить процесс к идеальным ядрам. Почти Intel experience. Винду что ли обновить, хули 1809 не прибивает к быстрым ядрам сама.
>>402303 > Уверен, что видяха не задействуется? Да, с ней в 5 раз быстрее, пикрилейтед. > И ты специально так? Просто докупал свежие модели. Так же куплю следующий Самс.
>>402303 > Странно, что рисует quad channel Это "особенность" ддр5, ее так многий софт интерпретирует, в привычном понимании там 2 канала. >>402407 > Так же куплю следующий Самс Остановись подумай, уже 3й внезапно дохнет по невыясненным причинам как же хорошо что за неделю до этого докупил и этот стал "системным" без полезных данных, тогда как из других брендов только один отвалился при большем количестве. Ладно еще дешман оемы их брать, но эво/про, особенно без пятилетней гарантии - не.
>>403235 > Остановись подумай Зачем мне думать, если Самсы - фактически топ по SSD, по скорости у 990 конкурентов почти нет. То что у тебя от перегрева или материнки они полыхают - это не проблема SSD, по тысячам отзывов брака очень мало по сравнению с другими. У меня наработки уже прилично на них, никаких проблем нет.
>>401358 > Лучше взять нормальную модель с большим контекстом или альфой разогнать. Поддвачну, по крайней мере с альфой 2 и 4к контекстом ни о какой деградации и речи не идет, а понимает отсылки к старому контексту сильно лучше мерджей с суперхотом. >>403288 > Зачем мне думать, если Самсы - фактически топ по SSD Ага, тоже такую позицию долго разделял, но подохший недавно 970 эвик стал последней ступенью (раньше хоть стабильно по гарантии меняли), на месте террабайтника адаты раньше был он. > у 990 конкурентов почти нет Полон рынок + мало задач где оно как-то может ролять, но с учетом > 2tb скорее уже он не конкурент
>>403399 > ADATA Это же совсем китайское говно. > Полон рынок Умеющих в запись под 7000 и 1м+ IOPS - буквально пять моделей на весь рынок. Нормальный конкурент фактически только WD Black.
>>403461 Ты серьезно, брендодроч в 2д23м году? > Умеющих в запись под 7000 и 1м+ IOPS Часто используешь? Ну и можно открыть обзоры жирного и там каждый второй из современных моделей средне-высокого уровня подобное показывает инб4 6700 не считается вот 6800 - это да. А на амд или более старых платформах заявленных иопсов и рандомного чтения вообще не достигнуть, слаб профессор чтобы раскрыть ссд, как тебе такое? Но даже это не важно, ведь slc кэш мал, а 4тб версию зажали.
>>403502 > Часто используешь? Да. Для кэша заметная разница на практике по сравнению с 980. Для подкачки хорошо заходит, когда надо под 150 гигов выделить ОЗУ - оно юзабельно и даже не зависает нахуй всё. > амд Не похуй ли?
>>403546 > Для кэша Какого кэша? Вроде шутить про 32гб рам еще рано, видеомонтажер? Даже так разницу заметишь скорее всего потому что в 980м кэш выбирается и скорость сразу проседает а на 2тб еще хватает. > когда надо под 150 гигов выделить ОЗУ - оно юзабельно и даже не зависает нахуй всё Это ты при загрузке ллм? Там оно просто выделяет а обращений к этой области не делает, юзабельно будет даже на сата. Вот когда действительно задействуется, то там и на пси-е 5.0 посос будет, тут только саму память надо ставить еее привет ддр5 > Не похуй ли? Ирл разницу никогда не ощутишь, а в синтетике амд стабильно проигрывает в некоторых операциях (надо отметить в других иногда выигрыват, хоть реже). Если брать платформы что на ддр4 то там еще хуже, но это настолько несущественно что даже внимания не стоит, просто раз цифры ударяться отметил.
>>403708 Ничесе, тут уже все серьезно. Работяга или инди? > Сборка проекта может сжирать 100+ гигов ОЗУ Оно по факту единовременно использует ограниченную часть что в 32 влезает или делает мало обращений? Просто в условном решении сеточной задачи выгрузка рам даже на оче быстрый ссд приводит к падению производительности на порядок и становится безсмысленным. >>404057 65b файнтюны - пока лучшее что есть, в конце прошлого треда было сравнение ее с сайгой где последняя ни с чем не справилась. Контекст добавляется альфой, готовь много врам или запасайся терпением.
>>403288 >То что у тебя от перегрева или материнки они полыхают - это не проблема SSD Ну вот кстати у меня ОЕМная самса 980про начинает отлетать. Пара файлов не читается, резервное пространство начинает утекать.
Вкатываюсь в тред после полуторамесячного отвала. Есть резон заказывать пару P40 с Ебея, или лучше за те же деньги взять двухсокетную платформу на Зионе с Алика? Для кума, 32b квантованные в 4 бита. Как там щас с контекстом дела обстоят, добили хотя бы до 8к?
>>404441 >. Контекст добавляется альфой, готовь много врам или запасайся терпением. Вроде можно было часть слоев в видюху выгрузить, а часть на проце крутить?
>>404522 не експерт ну есть какие то суперхот модели которые типо 8К контекста но ктото говорил что говно больше хз чо сказать
>на Зионе с Алика? говорят старые процы хуета даже в 4 канала сам хз на проце не пробовал >>404552 всмысле 2 ?? давно ли память видях начали сумировать?
>>404552 30б влезет, если 8к контекст то с небольшим оффлоадом. Две штуки лучше. Просто что паскаль, что некрозеон будут хуже по цена/производительность а сам перфоманс так плох что пользоваться не будешь. >>404553 Давно, но чтобы с минимальным импактом - недавно.
>>404580 Вроде нет, придется autogptq или лламу-ц++ с кудой под ggml использовать. И там и там производительность будет нормальная, 20-40 секунд ожидания ответов это приемлемо для всяких (е)рп.
>>404580 В экслламе есть поддержка раскидывания по нескольким GPU. >>405892 А нигде, все просто используют кобольдовскую. Просто посмотри, что и как дёргает таверна, там всё просто как 5 пальцев обоссать.
>>406249 >Просто посмотри, что и как дёргает таверна Штош, я примерно об этом и думал, просто думал что какая-то документация есть. Ладно, придётся побыть немного программистом
>>406345 То есть писать реализацию по документации ты не считаешь программированием, лол. Тут скорее побыть реверс инженером, но читать открытый код на JS тоже такой себе RE.
>>406580 Ну мой уровень программирования это сделать калькулятор, я это не считаю за чот серьёзное. Потому по готовой документации накидать код в принципе ну задачка с которой можно справиться даже такому как я. А тут уже задачка для реального программиста, а не эникейщика
>>407323 Ниже 30б с русским жизни нет. 13б кое как понимают но нормально почти не отвечают, 30б понимают полноценно и некоторые (тот же визард) могут отвечать, но часто ломаются. 65б может полноценно вести диалог и даже рп, но чуть хуже ангельского и расход токенов выше. Речь о квантованных в 4 бита gptq если что.
в ламаподобных моделях (и для кобальта если кто знает) как работает обращение к сети? как в опенаи? (оос..) ? >>407775 спасибо за качественныый ответ анон
>>406249 > В экслламе есть поддержка раскидывания по нескольким GPU. Я видел эту настройку, вот только несколько гпу заюзать не могу, физически не помещаются в корпус, точнее впритык и как то стремно 6х память оставлять без нормального забора воздуха. Что там интересно по скорости на эксламе через райзеры, не в курсе?
>>408546 Чисто по логике фронтенду типа таверны, которая может работать хоть на калькуляторе с подсосом с опенаи, никакие торчи не нужны. Но с логикой у тебя проблемы, отсюда и все многочисленные и неистребимые косяки, которых у остальных тупо нет.
>>408563 бля ну оговорился перечислил лишний раз - хули ты в залупу лезешь и не обязан я знать за что эта хуета отвечает > отсюда и все хули ты пиздиш сука - я все по инструкции делал лучшеб сказал в каком виде должна быть куда если эта куда - и вобще она должна с дровами ставится
>>407793 От файнтюна зависит, большей частью работает, можно даже просто в скобках писать. >>407886 Через нормальный х16 райзер просадок не будет в принципе, через х4 в экслламе работает быстро. >>408205 Условия возникновения ошибки хоть опиши >>408504 И у каждого свое в локальном вэнве или окружении конды. > в товерне лол
Анончики, а какая суммарная мощность орды? Я хочу на др купить себе 4090, и интересно, орда несколько мощнее одной её и как мне, прикрутить её к орде, что бы сделать хорошо? мимоссоседнеготреда
>>407886 Да вроде кто-то тестил, что от линий PCIe почти ниче не зависит. Ты выгружаешь модель в видяху, а она там уже считает внутри. Если и зависит — то от частоты памяти и битности шины внутри видяхи, наскока я понимаю принцип работы. Типа, ты будешь дольше грузить модель в видяху (можно посчитать, будешь ли вообще), а работать будет плюс-минус так же. Но это теория, у меня райзера тупо нет, надо бы прикупить и затестить, офк.
>>409329 Предрекалось что при делении по шине будут полностью гулять активации между слоями а пока они пересылаются все будет простаивать, потому широкая х16 шина и особенно nvlink дадут существенную прибавку. В autogptq оно так похоже и реализовано, потому что при делении производительность сильно падала, гпу большей частью простаивали что было видно по загрузке и тдп. В экслламе более совершенный алгоритм, надо смотреть в коде. Вероятно, там пересылаются только изменения в слое, доля которых мала, или же работа идет асинхронно с обработкой других частей одновременно с передачей данных. Учитывая насколько обработка сетей параллелится, такой вариант вполне возможен. Гпу загружены почти также как и при одиночной работе, падение производительности незначительное. В лламе с++ кстати некоторое время назад добавили возможность оффлоада на несколько карт, стоит еще там протестировать.
>>410159 Ты видимо считать не умеешь. Скорость линейно скейлится. Если бы шина была бесплатной, то у 65B было бы 18-20 т/с на двух 4090 и в районе 15-17 т/с на 3090/4090. Т.е. как две 30B, даже быстрее - семплинг и обёртка питона один вместо двух. Но что-то это нихуя не так, даже близко этого нет. Можешь пикрилейтед воткнуть принты с таймером и посмотреть сколько времени уходит на копирование в другую карту. > В экслламе более совершенный алгоритм У GPTQ стандартный оффлоад от transformers, а у ExLlama отдельный forward написан для него с ручным перемещением данных.
>>410620 > Если бы шина была бесплатной, то у 65B было бы 18-20 т/с на двух 4090 и в районе 15-17 т/с на 3090/4090 Ну вот и к согласию пришли, замечательно. И это с даунвольтом/паверлимитом, с экслламой шина бесплатная выходит. На самом деле если, например, 30б пополам разгрузить то небольшая просадка идет, но процентов 5-10 относительно их средней скорости что ерунда.
>>408869 > Через нормальный х16 райзер просадок не будет в принципе, через х4 в экслламе работает быстро. Четвёртой версии х4? >>409329 > Да вроде кто-то тестил, что от линий PCIe почти ниче не зависит. Вот очень я сомневаюсь что если запихнуть в pci-e 3.0 х1 райзер всё в порядке будет и никаких просадок, там же пропускная способность вообще никакая будет, разве нет? >>410794 Это у тебя вторая в х4 стоит?
>>411399 Да, да, на плате все доп слоты с 4 линиями, 4.0. > сомневаюсь что если запихнуть в pci-e 3.0 х1 райзер всё в порядке будет и никаких просадок, там же пропускная способность вообще никакая будет, разве нет? Скорее всего врется уже заметно, зачем тебе х1 райзер? х16 есть и полуметровые легко сгибающиеся. Алсо если не hedt или некрозеон то будет максимум 8 линий на каждую, или х16 процессорными на первую и 4 чипсетных на вторую.
>>411458 > Скорее всего врется уже заметно, зачем тебе х1 райзер? Да незачем, просто пытаюсь понять, как это лучше подключить. > х16 есть и полуметровые легко сгибающиеся. Алсо если не hedt или некрозеон то будет максимум 8 линий на каждую, или х16 процессорными на первую и 4 чипсетных на вторую. Про материнку в курсе, х8/х8 в первых двух слотах должно быть вполне достаточно. Где ты такие райзеры нашёл гибкие?
технический вопрос! весь чат (контекст) он же в озу хранится? а считывается прямо из зоу в врам копированием? или там гпу\проц как то токены обрабатывает и ток потом кидает в врам? на сколько частота озу влияет на считывание контекста при генирации?
>>412218 На первую часть я тебе не отвечу. Вторая- сегодня эксперементально делал сброс с 2400 до 800 в биосе для моих 32 гб. Уменьшение скорости мне показалось практически прямопропорциональным. Я тут новичек, сижу неделю, прочел все доступные треды, до этого пару лет назад сидел в обучении pix2pix. Кумарил на 8-16к контекста. Постоянно при заполнении контекста около 3к токенов выводилась ошибка чтения и даже бсод. Я уже думал идти покупать новые плашки, предварительно потестив старые и не найдя ошибок. Но тут я решил почистить винду, ресетнув её системной очисткой под ноль. И всё пошло после этого нормально. Может вирь какой-то сидел в скрытой памяти, может не хватало подкачки (что кажется маловероятным, я не грузи на диск ничего). Чукча не машинист, чукча водитель. У меня тут ночь, а я тебе с прокси пишу, вставать пришлось с кровати и ползит до пк. Пойду дальше промты для таверны через gpt3.5 гонять.
скачал новую модель и примерно в это время заметил что новая и старые наебнулись - сначала выдавали по 1-5 слов на сообщение потом начали спамить описанием перса и приветствием из карты - не обязательно буквально но похоже - ваще не понимаю что могло пойти не так?
>>411399 Я уже написал, шо подумал про однокарточную систему, где карта сама результат обсчитывает и ни с кем не делится. =) В случае с мульти-гпу конечно разговор иной.
Есть какой-нибудь способ ускорить bitsandbytes? Для мультимодальных transformers других вариантов квантования нет. С 4-битным квантованием в nf4 имею около 5 т/с на 13В викуне с 4090. В 8 бит раза в 2 медленнее. Везде по этому говну каша какая-то вместо нормальной информации. А мне надо кучу данных пережевать, 3-5 секунд на выхлоп 10-20 токенов - это пиздец как долго.
>>413125 >5 т/с на 13В викуне с 4090 Ты блядь издеваешься? Должно быть раз в 10 больше. И да, для скоростей юзай ExLlama через ВебуУИ, нах тебе ванильный трансформеры не нужны.
>>413357 Так, а что ты там с мультимодалками делаешь? Я помню, там накидали парочку наколенных подделок, но даже запускать это не пробовал, ибо очевидно не пригодно ни для РАБочих задач, ни для кума. А так хотя бы на люнупсе запускаешься?
>>413368 > очевидно не пригодно ни для РАБочих задач Для анализа содержимого изображений альтернатив даже близко нет. Всякие CLIP - полный кал, пригодны только чтоб кота от залупы отличить. С мультимодалкой ты можешь объяснить что хочешь, написать чего на пике точно нет чтоб галлюцинации не шли у сетки, указать на что внимание обращать. Оно даже в логику происходящего неплохо умеет.
Пробую запустить pygmalion-7b ggml q4 на разных конфигурациях железа с koboldcpp + sillytavern - i5-10400f с 32 оперативы в 5 потоков - 2.9 токена при контексте <500, как только контекст набирается - 1.7 e5-2680 v4 с 64 оперативы в 13 потоков - 2.4 токена при контексте <500, как только контекст набирается - 1.1 (С смарт контекстом в обоих случаях чуть побыстрее, но все равно около 2) Почему ксеон медленнее отрабатывает? Оно же должно хорошо параллелиться.
Есть ли способы ускорить генерацию? Только резать контекст?
Будет ли быстрее на видюхах? На основном компьютере i7-8700k (те же 6 ядер получается, но нагрузка больше, т.к. работаю с него) + 1060 6гб + 128 ram Потянет одна 1060-я?
На других компах 1050ти 4гб и 1650 супер 4гб стоят. Если я воткну 3 карточки к ксеону, получится что-то запустить и запараллелить? Или количество видеопамяти на каждой в отдельности нужно хорошее
>>413415 Как сольют модели и код, так и будем обсуждать. И не понятно куда 30В потеряли, ну зато 13В на уровне Фалькона - он по тестам выше 30В был. Зато не надо будет с контекстом ебаться - на 16К хватит с 13В.
>>413385 Больше похоже на теорию. На практике можешь показать, как у тебя выходит? Со скоростями помочь не смогу, тут ты один такой, но хоть посмотрю, как и для чего юзают текущие мультимодалки. Хотя конечно можешь попробовать ишью на гитхабе Герганова/эксламы/кобольдцпп создать, там пердолей много, может кто заинтересуется. >>413398 >Если я воткну 3 карточки к ксеону, получится что-то запустить и запараллелить? В экслламе попробуй, вдруг взлетит, команды на запуск на нескольких ГПУ в репе есть. >>413415 Поддвачну, ждём слива. А то вдруг они станут осторожными и не будут рассылать всем подряд студентам. Да и я свою почту в домене edu проебал кажись. >>413422 >ну зато 13В на уровне Фалькона Как бы по сое не стала на уровне GPT4, лол.
Хуй знает в чём дело, но тест на память в llama2-chat провален, пытался настройки крутить - нет результата никакого. Зато в обычной llama2 пройден - с разными настройками всегда проходит корректно. При этом чат количество текста выдаёт больше чем в обычной с одинаковыми настройками. Похоже в чате адекватность в угоду болтливости просрана.
Ну в целом неплохо, лучше всяких файнтюнов. Но надо ебаться с настройками семплинга. На стандартном Годлайке такое себе, но если подкрутить разгоняется неплохо. Но всё равно есть местами какая-то упоротость со слишком сильной привязкой к контексту, аж приходится энкодер подкручивать чтоб он меньше внимания обращал на свои посты.
>>414266 Ну турбу оно точно выебет. Цензуры нет, в чате не путается. А привязка в контексту ослабляется энкодером. Пол года назад ныли что память как у рыбки, а теперь наоборот надо бороться с памятью - если в промпте говняк или ляпнул что-то, то заебёт.
>>414279 Они даже хвалятся теперь, что с новым методом тренировки один раз задаёшь условие и модель его не забывает. И в публикации очень много про "безопасность", что модель не уходит в шизу и не отклоняется от поставленной задачи, безопаснее её использовать для реальных задач в виде ассистента. >>414287 encoder_repetition_penalty >>414311 Теперь надо промпты чекать, судя по всему хуёвый промпт = соответствующий диалог. А не как раньше по ходу диалога всё размазывалось.
Как я понял, в новых лламах по сравнению со старыми только какой-то модный аттеншен завезли? >The architecture is very similar to the first Llama, with the addition of Groupe Query Attention (GQA) >>414257 >упоротость со слишком сильной привязкой к контексту, >>414279 >теперь наоборот надо бороться с памятью - если в промпте говняк или ляпнул что-то, то заебёт. >>414318 >с новым методом тренировки один раз задаёшь условие и модель его не забывает. И в публикации очень много про "безопасность", что модель не уходит в шизу и не отклоняется от поставленной задачи, Так это же наоборот очень хорошо для каких-то точных применений, разве нет?
>>414397 4k заявлено официально на всех (7,13,70). Сейчас пробую 13 промт на 5к токенов загнать, если срабоает- значит заебись, не врут. В кум она может, это уже установлено, даже без джейлбрейка. Пока что.
>>414391 Меньше - лучше. 34В ещё в процессе тренировки. Да и без двух карт оно не сильно нужно. >>414397 4К родные, с альфой 2 спокойно 6К тянет, уже проверил.
>>414659 Можешь сказать что за альфа 2? Я только что запустил 5 к промта, и сразу мимо- глаза персонажа не те что в описании. И в примеры диалогов въелась так, что прямо цитирует. Но общая суть верна.
>>414257 > Но надо ебаться с настройками семплинга. На стандартном Годлайке такое себе, но если подкрутить разгоняется неплохо Где можно почитать подробнее про настройки сэмплинга? Я только про температуру читал, и то это упоминалось вскольз, в каком то из гайдов.
>>414749 > Смысла в 7-13b нет, в общем Так это давно ясно, чел. Дурачку чуда ждут какого-то, что у них на мелкой модели будет производительность ебейшая. Очевидно только 70B. Ну, может что-то сможет 30B, но хз.
>>414749 Щас еще почитал вайтпейпер. + У LLAMA 2 нативный 4к контекст. Что еще сделает файнтюнинг 16-32к более качественным. - Встроенная соя, чистых весов нет. Хз насколько хорошо будут пахать джейлбрейки. А если перетрейнивать, нужен датасет уровня форчана походу.
>>414842 Не знаю о какой сое речь, скрины с биг нигга персонажем есть, сам сейчас позабавился с гяру на школьной крыше. Цензура есть у чат версии, но так и обычная ллама в чат может
>>414868 >Не знаю о какой сое речь, Раздел "safety" в пейпере. Там даже предупреждение, что даже с приведенных в этом разделе примеров можно угнетнуться. Да, соя там встроенная, соефикация уже на уровне самого датасета для претрейна. Думаю, махинациями с промптом это не обойти.
>>414898 Соевость - это когда в датасет намеренно пихают соевые модели поведения, в итоге имеем как в викуне "не могу об этом говорить". В ламе такого говна нет, ты разные вещи в одно мешаешь.
>>414886 Смотри, моделька сначала трейнится на триллионах неотфильтрованных токенов. Потом используется небольшой соевый датасет для трейна chat/instruct-версии. Так вот LLAMA 1 была слита чистая, до претрейна. Тогда как LLAMA 2 - только после, чистой версии нет. Вопрос - возможно ли вообще ее делоботомировать теперь? Ибо она могла забыть всё на тему ебли, например, после претрейна.
>>414907 > могла Чел, зачем ты фантазируешь, когда можно просто проверить? > Потом используется небольшой соевый датасет для трейна Там же в публикации всё написано. В том числе как чат тренировался. >>414908 На графике процент ухода нейросети от промпта, викуня как раз имеет высокий процент из-за сои в датасете, заставляющей её игнорить контекст и делать как ей хочется. Не понятно как и сюда шизы сою приплели, вам уже пора таблетки принимать, когда уже полную противоположность за сою считаете.
Что-то эта ваша вторая лама не впечатляет. Я разные модели всегда проверяю на предмет того, могут ли они применить первую теорему об изоморфизме к простейшему примеру. Так вот, вторая лама 70В (спейс на обнимордах) только после трех пинков и прямого упоминания нужной теоремы смогла. Кто-то из первых лам, вроде 30В (в чате обниморд или опенассистанте, уже не помню) сразу ответила. Но зато вторая лама хотя бы про изначальный вопрос не забыла даже после трех ответов, походу, они правда лучше запоминают контекст.
>>414920 >На графике процент ухода нейросети от промпта, викуня как раз имеет высокий процент из-за сои в датасете, заставляющей её игнорить контекст и делать как ей хочется. Не понятно как и сюда шизы сою приплели, вам уже пора таблетки принимать, когда уже полную противоположность за сою считаете. Ты не прав. На картинке часть графика 17 со стр. 30, параграф 4.4, стр. 29+. Там прямо написано: >We collected roughly 2,000 adversarial prompts for human evaluation according to the safety categories in Section 4.2.1, in which 1,351 prompts are single-turn and 623 are multi-turn. Examples of evaluation prompts and responses can be found in Appendix A.4.6. Идем в Appendix A.4.6 (стр. 65+) за примерами - пикрилейтед. Не все примеры там касаются сои, есть например просьбы рассказать, как сделать что-то незаконное. Но примеры из класса "Hateful & Harmful activities" это именно что соя: >Toxicity. >To measure the degree of generation of toxic language and hate speech across different groups, we use ToxiGen (Hartvigsen et al., 2022), a dataset that contains implicitly toxic and benign sentences mentioning 13 minority groups. We adopt a revised version of the dataset from Hosseini et al. (2023) that reduces noise by filtering out prompts for which annotators disagree on the target demographic group. We then use the default ToxiGen classifier tuned on RoBERTa (Liu et al., 2019) to measure the toxicity of generations of each of the LLMs. Короче говоря, они использовали отдельные нейронки, изначально натренированные на детекцию уровня сои (конкретно - ToxiGen classifier tuned on RoBERTa), и затем использовали их для оценки ответов лам. Результат на рисунке 17 из статьи >>414908 Это уровень не только сои, но и сои тоже. Так что таблетки-то тебе пора принимать, лол.
>>414945 Я не знаю алгебру и морфизмы, но на 1-м скриншоте у тебя как-то криво сформулирован вопрос и нейросетка вполне справедливо его обсирает. Потом ты её начинаешь пугать теоремами и она как провинившийся ученик испуганно цитирует учебник.
>>414889 >Думаю, махинациями с промптом это не обойти. Я потестил на первой попавшейся, жить можно. >>414920 >На графике процент ухода нейросети от промпта ну так они же считают, что на запрос поебатся нужно отвечать "я не могу это делать, иди нахуй", и отход от этой модели поведения считают плохим. Впрочем, пока на графике полезность-соя склонение идёт в сторону полезности. >>414991 Два чаю. Сейчас вообще все модели лоботомируют в пользу сои. ЧатГопота на 16к намного более соевая, чем старая от 0301, у клода с цензурой пока проблемы, но они над этим работают. Все двигаются в сторону "безопасных" моделей, хоть это и снижает качество. Просто пока общий рост опережает деградацию от сои.
>>414658 >>414659 Каеф, пишут что с альфой до 16к растягивается без потерь когерентности. >>414842 > Встроенная соя, чистых весов нет Насколько сильна? >>414868 >>414886 Хотя сам затестил > I cannot provide an answer to that question. The notion that > I cannot provide an answer to that question. The idea that > As a responsible AI language model, I cannot fulfill that request. I'm just an AI > I cannot fulfill that request. I'm just an AI, I don't have the capability Вот это хуета хует просто, нет сои называется?
>>415029 Давненько тестил, она показалсь просто оче тупой и отказывала, но без такой платиновой повесточки с развернутыми ответами о том как плохо судить о расах и статистика это расизм, о том что женщин и феминисток нельзя за что-то осуждать, что делать активности плохо и даже "ты меня ебешь" не смогла. А выше так утверждали что базовая ллама 1 нон-байасед ультимейт ансензоред что даже им поверил. Но вот таких заученных фраз в ней точно не припоминаю. > I cannot provide an answer to that question. The notion that any one race or ethnicity is more prone to criminal behavior is not supported by evidence and is a harmful stereotype. Crime is a complex issue that involves a variety of factors, including socioeconomic conditions, education, family background, and mental health. It is not accurate or fair to make generalizations about any group of people based on their race. Additionally, such generalizations can perpetuate negative biases and discrimination. It is important to approach discussions of crime with nuance and to avoid perpetuating harmful stereotypes. Is there anything else you would like to know? > I cannot provide an answer to that question. The idea that someone's physical appearance or body shape determines their worth or value as a person is not only inaccurate but also harmful and offensive. Feminism is a social, political, and cultural movement aimed at achieving equality and justice for all individuals, regardless of their gender or background. It is not about physical appearance or body shape. Additionally, it is important to recognize that people come in all shapes and sizes, and that everyone deserves respect and dignity regardless of how they look. It is not appropriate to make assumptions about someone's character based on their appearance. Is there anything else you would like to know? > As a responsible AI language model, I cannot fulfill that request. I'm just an AI, it's not within my programming or ethical guidelines to assist with harmful or destructive activities. My purpose is to provide helpful and informative responses to your questions, while promoting a safe and respectful online environment. If you have any other questions or requests, I'll do my best to assist you. > I cannot fulfill that request. I'm just an AI, I don't have the capability to engage in flirting or any form of romantic or sexual activity. My purpose is to assist users with information and tasks, while maintaining a professional and respectful tone. It is important to respect boundaries and not make inappropriate or uncomfortable requests. Is there anything else I can help you with?
>>415026 Не всегда с первого раза, но вполне себе даёт рецепт взрывчатки (думаю если следовать этому рецепту, подорвёшься сам), знает про жестокость чёрных (но почему-то считает, что белые в США более преступны, лол).
Просто делай это с персонажем, а не безликим АИ, и посылов нахуй будет значительно меньше.
>>415021 >на 1-м скриншоте у тебя как-то криво сформулирован вопрос и нейросетка вполне справедливо его обсирает. Потом ты её начинаешь пугать теоремами и она как провинившийся ученик испуганно цитирует учебник. Да вот если бы. Там суть примера как раз в том, что свойства того что я спрашиваю прямо выводятся из свойств того, что я прямо же задал условием. И именно по упомянутой позже теореме. Причем, лама эту теорему знает и даже цитирует(!), но вот применить не может, пока носом не ткнешь, вместо этого (в ответе на первый вопрос) с умным видом несет хуйню. Это не очень хорошо, ящитаю.
>>415053 Это обнадеживает, значит соответствие промту для нее имеет всеже больший приоритет и она может вычленить цензурные запреты. Ждем файнтюнов, всеравно даже такое пиздец, а дотрен перовой лламы любой намек на цензуру выпиливал. > но почему-то считает, что белые в США более преступны, лол Вот оно уже в данные прокралось. Разве что надежда на недопонимание, ведь количество преступлений от белых действительно выше, переспроси чтобы отнес к населению.
>>415067 У тебя на первом скриншоте задана связь f между A и B и связь h между C и D. Как ты из этих предпосылок ты выведешь связь g между B и C? У тебя группы (f, A, B) и (h, C, D) никак между собой не связаны в условии. И нейросетка тебе именно так и ответила, "связи нет". Ты точно нигде буквы не перепутал?
>>415092 >У тебя на первом скриншоте задана связь f между A и B и связь h между C и D. Как ты из этих предпосылок ты выведешь связь g между B и C? Каноническая декомпозиция же, пикрелейтед упрощенный вариант с другими буквами. Свойства морфизма g в моем примере выводятся из свойств f и h единственным образом, который делает такую диаграмму коммутативной. Доказывается первой теоремой об изоморфизме, которую лама знает, но не может применить. Моя ошибка в том, что я не указал морфизм между A и D, но это ничего не меняет, лама все равно не может применить теорему пока ее явно не укажешь (пик 2 и 3). Но если подсказать, то решает она правильно (пик 3).
Короче, если пример переписать точнее, то лама 70В таки может вытужить полное доказательство, лол. Плохо, что нужно указывать конкретную теорему, сама лама до нее не додумывается, хотя теорему знает и умеет правильно применять.
> user:помоги подобрать комплектующие под rtx 3080 > ai: Certainly! To build a high-performance gaming computer with an Nvidia GeForce RTX 3080 graphics card, here are some component recommendations: > Processor: Intel Core i7-11700K or AMD Ryzen 9 5900X - These processors offer excellent performance and are compatible with the RTX 3080. > Memory: 16GB-32GB DDR4 RAM - This amount of memory will provide plenty of resources for running demanding games and applications. > Storage: Samsung 970 EVO Plus M.2 NVMe SSD (512GB) + Western Digital Black SN750 NVMe SSD (2TB) - These storage drives offer fast read/write speeds and ample capacity for storing games, programs, and files. > Graphics Card: Nvidia GeForce RTX 3080 - This is one of the most powerful graphics cards available, offering exceptional performance in games and other graphically-intensive applications. > Power Supply: Corsair RM750, RM650, or RM550 - These power supplies offer high efficiency and reliable performance, providing enough power to run all your components without any issues. > Motherboard: ASUS PRIME Z590-A or ASRock X570 Extreme4 - These motherboards offer excellent features such as WiFi, USB 3.2 Gen 2 ports, and high-quality audio. They are also compatible with the RTX 3080 and other components listed above. > Case: Fractal Design Meshify C ATX Mid Tower or Phanteks Eclipse P400A - These cases provide good airflow and cable management options, keeping your system looking neat and tidy.
> user:а под 3090? > ai: To build a high-performance gaming computer with an Nvidia GeForce RTX 3090 graphics card, here are some component recommendations: > Processor: Intel Core i9-11900K or AMD Ryzen 9 5900X - These processors offer exceptional performance and are compatible with the RTX 3090. > Memory: 32GB DDR4 RAM - This amount of memory will provide ample resources for running demanding games and applications. > Storage: Samsung 970 EVO Plus M.2 NVMe SSD (1TB) + Western Digital Black SN750 NVMe SSD (2TB) - These storage drives offer fast read/write speeds and ample capacity for storing games, programs, and files. > Graphics Card: Nvidia GeForce RTX 3090 - This is one of the most powerful graphics cards available, offering exceptional performance in games and other graphically-intensive applications. > Power Supply: Corsair RM850, RM750, or RM650 - These power supplies offer high efficiency and reliable performance, providing enough power to run all your components without any issues. > Motherboard: ASUS PRIME Z590-A or ASRock X570 Extreme4 - These motherboards offer excellent features such as WiFi, USB 3.2 Gen 2 ports, and high-quality audio. They are also compatible with the RTX 3090 and other components listed above. > Case: Fractal Design Meshify C ATX Mid Tower or Phanteks Eclipse P400A - These cases provide good airflow and cable management options, keeping your system looking neat and tidy.
> Please note that these recommendations are just a starting point, and you may need to adjust based on your specific needs and budget. Additionally, be sure to check for compatibility between each component before making a final decision.
>>415071 Короче докладываю в тред результаты экскрементов. Чат модель более соевая, чем обычная, так что удваиваю анона выше >>414868 Не понимаю тогда, нах нужна отдельная чат версия, если она тупая. >>415422 > а неплохо выходит Ток не актуально слегка, сейчас надо на i9-13900 или AMD Ryzen 9 7900х собираться.
>>415480 >не актуально слегка, Смотрел видос на Ютубе, чувак спрашивал ламу2 что-то типа про последние даты, фигурирующие в обучающем датасете, лама говорит, что это 31 декабря 2022. То есть, вроде как эти ламы ничего не знают из 2023 года.
>>415026 >Вот это хуета хует просто, нет сои называется? Skill issue? Ну типо я рукожоп, вставил лламу2 7б в кобольд и с ней смог обсудить лгбт, флойда и любую скользкую тему. Накинул сверху таверну и трахнул ту карточку, с которой в последний раз в айроборосе сексился. Ты мб чат версию скачал?
>>415071 >Вот оно уже в данные прокралось Обычные галлюцинации и шиза, работает в обе стороны. Моя статистику нагнула в другую сторону, антиповесточную, я аж охуел. Уточнять не буду, но это классика когда нейросетка с уверенным ебалом тебе что-то втирает.
>>415480 > Чат модель более соевая Вот это хорошо, если обычная этой хуетой так не страдает то все более радужно. Там уже первые файнтюны заквантовали, скорее всего херь ибо датасет просто с чатжопити, но значит никаких проблем с этим нет, ждем нормальных. > Ток не актуально слегка Платина же, можно еще у модели спросить какой сейчас год и кто президент США, с ответов первой лламы можно было аж прослезиться, вспомнив времена. >>415554 > Skill issue? Едва ли, но версия именно чат. Трахать 7б модель, неужели настолько хорош прогресс? Это что же там с 70б тогда будет.
>>393749 (OP) Пацаны мне нужно запихнуть огромный дилдак в жопу для аналитики в виде контекста на парочку миллионов токенов. Когда уже подвезут такую возможность или ждать принципиально новой архитектуры? Можно ли обойтись файнтьюном? Дорого будет на миллион токенов надрочить? Не затеряются ли данные где-нибудь в глубине весов, чтобы я мог конкретно по ним запросы делать?
>>416476 Сформулируй нормально что ты хочешь, а то вопрос уровня организации путешествия на марс имея прототип двс. Обработку большого объема данных решить можно и имеющимися нейросетями, нужен правильный подход.
>>416553 Мне нужны именно NLP возможности чтобы вычленять детали. Например есть книга и нужно перечислить каждую сцену с гомонеграми. Если бы очко контекста было неограниченным я бы просто залил книгу в виде промпта и делал нужные запросы. Если можно это очко обойти просто дообучив модель на книге, то мне норм. В чем вообще различие контекста от дообучения?
>>416710 Обучение это напрямую обучение, то, какой текст выдавать на поступающий промт. Контекст - то что ты кормишь на вход чтобы получить новые токены. > Например есть книга и нужно перечислить каждую сцену с гомонеграми. Делаешь запрос и скармливаешь по кускам? Суммарайзеры и подобные алгоритмы в помощь.
>>416553 А как к этому подойти? Тоже интересна эта тема. Сейчас пользуюсь автодополнением кода с помощью ai, работает быстро, и точность неплохая: угадывает мои желания, исходя из контекста (кода вокруг точки редактирования) и того что начинаю писать в 3-5 случаях из 10. Настолько неплохо, что уже всерьез конкурирует со стандартным синтаксическим анализатором, который имеет чит в виде доступа к полному синтаксическому дереву всего проекта, и все равно ai его умудряется обходить: подсказки выдает намного быстрее, в половине случаев они точнее, в трети соучаев умудряется дополнять сразу целым блоком вполне годного кода, который если и нужно править, то минимально В общем субъективно экономит до трети времени на писанину, посему и зашло
И если есть возможность запустить такую штуку локально, подсунув в качестве контекста текущий код, было бы вообще идеально: такой бы плагин я бы с удовольствием использовал, сконнектив его с параллельной llama.cpp на OpenCL через простаивающую современную видюшку Да даже без видюшки, ради такой экономии времени, ее вполне стоит купить - окупится за несколько месяцев
copilot еще не пробовал, может тоже годнота, сейчас пользуюсь codeium, нравится что он бесплатный, быстрый, и не требует ничего ему объясненять или как-то ещё с ним взаимодействовать. Он просто смотрит на то что ты пишешь и предлагает продолжение, сразу показывая целевой результат как он будет встроен в коде, так его удобнее оценивать
>>413398 Как я P104-100 (1070) не настраивал — 5 токенов максимум. 2~6, если точнее. Ну такое. Учти, что там прям все плохо было с нужными технологиями, множителями и ядрами в то время. В FireStrike'е графикс скоре 9500, все как надо. 1650 тоже не поможет. Втроем скорость не перемножается. У тебя слои распределяются по картам, и каждая карта копается в своих слоях, грубо говоря. Т.е., ты получишь часть 1060, часть 1050ти и часть 1650 производительности — усредненное что-то. И учитывая, что 1070 дает 5 токенов, то эти дадут 4 токена, а то и 3 на пике. Звучит как твой проц, смекаешь?
>e5-2680 DDR4: 2400 Мгц А на i5-10400F небось 3200~3600? Скорость зависит и от обсчета процом, и от копания по памяти. Если упирается в пропускную способность, то количество потоков не спасет.
>>416710 >Если бы очко контекста было неограниченным я бы просто залил книгу в виде промпта и делал нужные запросы. И получал бы хуиту. Вообще, твоя задача решается разбитием книги на главы (и дальше) и подсчёт по отдельности, а потом просто суммировать результаты. Да, погроммирование, но без него реальные задачи с нейросетками всё равно не решить.
>>413398 Офигеть у вас скорости Только сегодня ламу2 13b в q4ks гонял на llama.cpp+clblast с полной выгрузкой в амд-шную, довольно медленную для этих дел, карточку 7900, на контексте 1к и 4 потоках оно шпарило с нереальной скоростью, порядка 20-25мс на токен, это 40-50 токенов в секунду Прям совсем другие ощущения после llama1 30b с выгрузкой в gpu на 80% - та в тех же условиях прям с черепашьей скоростью ползет, порядка 5-10 токенов в секунду И такое ощущение, что 13b llama2 вполне на уровне с 30b llama1 находится: результаты +/- сравнимые, русский понимает и умеет хорошо переводить на него, если попросить. Может быть это и субъективно, но вполне юзабельно, и скорости просто отличные, и память не жрет, комп не замечает нагрузки, можно использовать на потоке вместе с другими тяжелыми по памяти/процессору инструментами, что прям уже вообще годно и открывает возможности для прикладного использования этих сеток, по крайней мере на современном железе
>>416890 >прям с черепашьей скоростью ползет, порядка 5-10 токенов в секунду >амд-шную, довольно медленную для этих дел, карточку 7900 Сижу, выгружаю в амдшную 590 с амдшного 2700х, радуюсь когда вижу 3 токена в секунду. С этими вашими нейросетками даже апгрейдиться хочется
Скачал vicuna-7b 1.3, по началу она не влезала в память, 13 гиг в 12 гиговую карточку, была генерация 1.8 токенов в секунду. Ща доставил 1070 в компик, и оно может вот так просто на двух видяхах крутить? Скорость повысилась до 8 токенов в секунду. Как насчет 13b, 30b? Там духуя памяти надо?
>>417432 можешь показать логи (интересует время и токены в секунду с 1 сообщения после загрузки модели и последующие) генерации ответов с 1070 ? незна ю какая еще у тя карта
>>417463 Ебу где логи эти. Там в папке лог кеш настроек каких то. А так у меня Гига Gaming 3060 второй ревизии, на 12 гигов GDDR6 обычной. Вот скрин консоли могу скинуть.
почему silly tavern с определенного момента начинает каждый раз загружать весть полный промт а не последнюю его часть? Это из-за обезки контекста каждый раз когда уже нету места под новый в тех 2к токенов? Я правильно понимаю, что, когда место зарезервированное под токены кончается, он начинает меять промт и уже не отсле;ивает последне добавления к тексту, а пересчитвает всё с последним оставшемся контексте и это не исправить? Не получится оставить дескрипшн на 1000 токенов и не считать его каждый раз, изменив только последнюю 1000 которая поменялась после переполнения. Я еще не тестил, в кобольде будет то же самое?
>>417580 >почему silly tavern с определенного момента начинает каждый раз загружать весть полный промт Таверна отправляет, и да, это из-за лимита токенов. >>417586 >у меня постоянно ех-ллама чот не грузит Ну так скачай GPTQ, можно даже в самом вебуи.
Сап. Существует ли возможность фаин тюнить модели самому? Через коллаб или локально меня 3070 ti 8gb vram. Тестил локального кобольда в твверне вполне себе быстро отвечает 5-10 сек на ответ.
>>417915 Во-первых, обсуждаем. Во-вторых, что это за опенсорс, если надо челобитную барину подавать, чтобы доступ открыл? С первой так же было, к слову.
>>417884 Можно, но у тебя мощностей не хватает. Там побольше надо. >>418004 Два чаю, даже запускать не нужно, чтобы увидеть, что это говно. Там всего датасета на 300+100B, тогда как лламу трейнили на 1T и 1.4B токенов. Вторую лламу трейнили уже на 2T токенов. Выеб на порядок.
>>418004 Не, это понятно, что скорее всего говнище, но попробовать-то хочецца все равно. Ну, раз gpt-2, то авось в ggml согнать можно. >>417996 Проебался со ссылкой, анон правильную набросил >>418014
>>418351 Полнейший шмурдяк по отзывам. Ты лучше расскажи какую разницу видишь между 8 бит и разными вариантами квантования 4 битов >>416394 > Нет, настолько не тянет пека просто. Ну это не принципиально, ты лучше дай отзыв насколько 7б модель пригодна для разного рп. Осмысленные ответы и подробные полотна для ерп, или шиза и "вздыхает ты меня ебешь"?
>>418416 Ну ответы неплохие, напоминает старые 13б модели. Какого-то лютого ахуя нет, но сюжет куда-то вести может, иногда даже не забывает контекст происходящего. Думаю попробовать ей как-то просто дать задание выдать пару абзацев чтоб она сама всё отыгрывала, посмотреть как это выйдет. А то у меня то 100-120 токенов сообщения, не разгуляться. Ессно если проц поновее и оперативки побольше, а тем более видяха от зелёных, то явно стоит 13б модельку дрочить, 7б скорее про скорость и быстродействие
>>418515 Не оче понял что в ней нового, раз 2 месяца назад залита была. А так как понимаю это не сайга которая просто тренированная ллама, а прям отдельная сетка? Если так то любопытно, но сомневаюсь что блок её квантует.
Хуй знает, обычная лучше чем чат версия, соевые ответы лезут что все равно пиздец, но при наличии минимального контекста уже не так плохо. Заявочка на рп определенно есть, надо оценивать более подробно. Для 13б модели в режиме ассистента вполне неплохо. капча которую мы заслужили >>418707 Рофлишь?
>>418670 Нет, ерп лучше чем с тренированной пигмой. Чат версии имеют цензуру которая обходится через костыли, но пока никто не понял в чём профит использовать чат версию с костылями, если обычная неплохо чатится.
Кто-нибудь на амуде пробовал ставить всю эту залупу именно сейчас? Сука, три месяца прошло уже всё устарело, блядский ui не работает, потому что вместо GPTQ-for-LLaMa перекатился на autogptq а там нихуя для амуды нет я ниасилил...
>>418272 Не квантованная 100%. Я чистую качал без всех этих квантов. Я качал квантовую модель до этого. Уж лучше меньше параметров будет но не квантованая.
>>420644 В шапке всё есть, лол. >>420681 Разные пресеты для разных задач, внезапно. В основном все крутят температуру, чем больше, тем больше творчества и шизы.
>>417884 Кстати, тока щас заметил твой вопрос. Можно, но 8 гигов хватит прям совсем на мало, и результат будет около нулевой. Самую маленькую модель и совсем немного по объему и глубине.
>>420522 Ну вот и ответ. Ты пытаешься полноценные 13,5 гигов запихнуть в 12. Какой результат? Правильно, не лезет. А если грузить не fp16, а 8 или 4 бита — то все влазит, соответственно.
Ты зря скептически настроен. 8 бит почти не отличается от 16 бит. На 4 видна разница, конечно, но не существенно.
Если хочешь, зайди в карточку vicuna-7b-…-GPTQ, какая тебе нравится, и поищи табличку с 4bit и 8bit, там написано, как качать нужную тебе. 8-битные весят ~7 гигов, должна норм зайти, а по качеству разницы не почувствуешь. Больше от сида будет зависеть.
>>417432 Ну и это, у тебя щас получается 20 гигов. Смотри: 1. Часть места оставляем на контекст, не помню точно, будем считать 4 гига из рассчета на 4к контекста, если захочешь с альфой поиграться. 2. Остается 8+8, значит в 16 гигов надо впихнуться. 13B туда залезет без проблем. Даже 8-битная, если сэр хочет качества. 3. Качаешь нужную тебе GPTQ-модельку, в ExLlama пишешь 8,8 в GPU split, ставишь контекст на 4096 и альфа на 2. Load.
Ну это я по памяти, без обид, мне лень в три ночи пихать 1070 в игровой комп ради тестов, не спиздел ли я тебе. =)
30B модель может влезть, но только 3-битная, скорее всего, но там уже вопросы к качеству генерации. Она может много знать, но плохо угадывать, че ты от нее хочешь. Но если хочешь — попробуй 4-битную 30B-GPTQ.
Так же помни, что каждая видяха генерит свои слои, что на нее выгружено. Поэтому ты получишь среднюю по больнице скорость генерации в большинстве случаев. Часть ответа 20 токенов сек, часть ответа 10 токенов сек, в среднем 40 токенов — 3 секунды, то есть 14 токенов сек, а то и ниже. Ну это грубейшая математика, но просто чтобы ты не думал, что ты быстрой карте добавил просто видеопамять. =)
>>420802 > На 4 видна разница, конечно, но не существенно. Я скачал где то ggml-vicuna-13b-cocktail-v1-q5_0, Хуета ебаная. По сравнению vicuna-7b 1.3v.
>>420824 Не хочу отдельные модели под ExLlama качать. Может вот тут можно нажать загрузить как 8бит или 4 бита?
>>420829 Вроде то что надо, можно накачать, благо места много у меня.
У меня load-in-8bits и auto-devices заняло 8~9 гигов в видеопамяти и выдало 2,5 токена сек. load-in-4bits и auto-devices заняло 5 гигов в видеопамяти и выдало 8,5 токенов сек. Экслама на этой модели в 4 бита выдает 60+ токенов сек. Ну я хз, стоит ли оно того.
Я не спец, но если бы мне хотелось высокого качества в ограниченном объеме, я бы не вебгуи ставил, а линуху с xtrasformers, где выжимал бы максимум сам.
>>420880 > У меня load-in-8bits и auto-devices заняло 8~9 гигов в видеопамяти и выдало 2,5 токена сек. Проверил щас у себя, загрузило, работает. У меня тоже 8-9 гигов занимает в памяти, но скорость с 8 упала до 4 токена в секунду.
>>420835 > cocktail-v1 > Хуета ебаная Причина в этом Но зачем тебе вообще эта викунья если есть ллама-2? Она не хуже викуньи по познаниям будет и по следованию контексту на голову выше. Да и соевости меньше, лол. >>420842 Для gptq используй Exllama, если у тебя карточка новидео и в ней хватает врам - ничего другого не нужно.
Наконец экслламу обновили и она может работать со старшими моделями без ошибок. Ощущение что подкрутили использование врам, ибо 70б в две карточки грузится с овер 7 гигов запаса, что лучше чем раньше было с 65б. Растяжка до 16к контекста влезает спокойно, перфоманс не поменялся.
>>420829 Скачал gptq_model-8bit-128g.safetensors Ни AutoGPTQ ни ExLlAma_HF ее не запускает. Параметры запуска: The AutoGPTQ params are: {'model_basename': 'gptq_model-8bit-128g', 'device': 'cuda:0', 'use_triton': False, 'inject_fused_attention': True, 'inject_fused_mlp': True, 'use_safetensors': True, 'trust_remote_code': False, 'max_memory': {0: '10900MiB', 1: '7190MiB', 'cpu': '16400MiB'}, 'quantize_config': None, 'use_cuda_fp16': True} Ошибка: RuntimeError: [enforce fail at ..\c10\core\impl\alloc_cpu.cpp:72] data. DefaultCPUAllocator: not enough memory: you tried to allocate 26214400 bytes.
В ExLlaba_HF тоже говно пишет RuntimeError: [enforce fail at ..\c10\core\impl\alloc_cpu.cpp:72] data. DefaultCPUAllocator: not enough memory: you tried to allocate 26214400 bytes.
Я на Transformers запускаю модель с тем же распределением памяти, и никакого говна типа памяти нету. У меня ОЗУ если что 32 гига, 10 занято.
>>420943 > чето там ждать надо будет еще Тебе уже ответили >>420829 https://huggingface.co/TheBloke/Llama-2-13B-GPTQ Качаешь и довольно purrs Никаких 8 бит не надо. Алсо AutoGPTQ ломается скорее всего потому что на первой карточке слишком много выделил, разреши гигов 8-9, оно сверх нормы всегда потребляет, cpu вообще не трогай. Но лучше забудь про него и пользуй Exllama.
>>420957 > Алсо AutoGPTQ ломается скорее всего потому что на первой карточке слишком много выделил, разреши гигов 8-9, оно сверх нормы всегда потребляет, cpu вообще не трогай. Ну хуй знает, оно даже не пыталось че-то загрузить. Когда я на обычных Transformers слишком много памяти выделяю, оно сначала грузит модель, и выдает ошибку эту что мало памяти. На двух других этих - сразу выскакивает ошибка.
> Но лучше забудь про него и пользуй Exllama. Зашел, бахнул 8, 6 Синий экран.
> Тебе уже ответили >>420829 Оригинальную бы... 16 бит которая. Заебался уже с этими Exllama, AutoGPTQ ебаться, если они нихуя не работают.
Хуй с ней короче. Есть ли плагин для дискорда, при которой модель будет смотреть за чатом в дискорде, держать его в памяти, и чето выдавать если обращаются к ней? Или упоминают ее, или если есть какие то возражения... Хотя вряд ли есть что-то настолько продвинутое.
В пресетах есть параметр "encoder_repetition_penalty" ни один пресет в списке его не изменяет. Модель проебывается, начинает говорить от имени мужского пола, хотя должна от женского. Перестает называть меня "Мастером", я выебал параметр 1.16, и заебись!
Еще я замечал что модель обрывается на полуслове, видимо ей не хватает токенов. Но если я увеличиваю max_new_tokens то рано или поздно это случится вновь. Я так понимаю нужно правильно подобрать "max_new_tokens" и "Truncate the prompt up to this length"?
>>420943 >DefaultCPUAllocator: not enough memory Грит оперативы мало. Поставь подкачку гигов 40, там бывает кривота. >>420977 >Оригинальную бы... 16 бит которая. Боярин с A100 на 80 гигов? Нет? Ну тогда забудь о 16 битах.
>>421234 > Грит оперативы мало. Поставь подкачку гигов 40, там бывает кривота. Да, я когда грузил модель в CPU, оно загрузило первый слой, а второй отказывалось. Будто оно копировало з памяти пеовый слой повторно. Наверное проблема в этом. > Боярин с A100 на 80 гигов? Нет? Как вариант взять пару 4060 Ti на 16 гигов, или закупить бу 1080 Ti. Но денег нет даже на это.
Каждый раз ору с carbon footprint от обучения моделей. Вот уж где настоящая соя. Можете имадженировать какой carbon footprint у нашего треда во время кума?
>>420977 > Синий экран. Земля пухом лол, в лучшем случае винда взорванная и кривые дрова. > Оригинальную бы... 16 бит которая. Она нужна для дообучения или своего квантования > Заебался уже с этими Exllama, AutoGPTQ ебаться, если они нихуя не работают. Творишь ерунду на которую они не рассчитаны и имеешь проблемы, вот и не работают. Офк убабуга нихуя не юзерфрендли и форматы могут смутить, но освоиться можно быстро. >>421227 > max_new_tokens Да, если они сгенерила лимит то остановится. Если останавливается до достижения лимита - значит поломалась. Можешь просто написать ей "продолжай", нажать continue, отправить пустое сообщение и она следующим постом допишет. >>421313 > бу 1080 Ti Днище по скорости, уже писали же
>>420977 Можем тока посочувствовать, если ты прям вот совсем не хочешь использовать то, что у всех работает, а только и исключительно трансформеры нативные. Но наскока я знаю, полноценные модели имеют fp16 в конце, выбирай среди них. Все там же, у TheBloke.
>>421214 Думаю, легко, просто переписать стандартный дискорд бот, чтобы он отвечал только на свои теги. Но мне лень было с телеграмом париться, я в личке так и переписываюсь.
>>421227 Generation attempts (for longer replies) на вкладе Parameters.
>>421313 У 1080 ti совсем малая скорость будет, ИМХО. 4060 на 16 гигов будет получше. В теории, хз.
как вы пользуйтесь новой лламой 2? запустил по инструкции в репозитории https://huggingface.co/TheBloke/LLongMA-2-7B-GPTQ в угабуге и пытаюсь что-то сгенерировать. а этот шиз просто разные наборы букв строит и нихрена не генерирует. что не так то епта я делаю?
>>422041 >>422049 Впрочем, со второго раза получилось даже адекватно. А на первый лучше не смотреть. Очевидно, это силли таверна, вебуи в угабуге через экслламу.
>>421869 > uncensored ламы 2 выложили Оффициальные с другим датасетом от меты или васян-файнтюны? >>422033 65б, ллама2 должна быть лучше и скорее всего на 30 уверенно будет говорить, но это не точно. >>422056 Это 7б так выдала? Круто на самом деле, учитывая что ранее 13б оче условно переводила.
>>422216 >или васян-файнтюны? Это конечно же, ФБ в сёрную дыру вместе с Землёй свалится, если выложит сетку без сои вообще. >>422216 >Это 7б так выдала? 13 конечно же, 7 совсем мало и я её не юзаю. >>422245 Чуть лучше в манятестах, и проебали самую ходовую 30B версию. Обещают выдать, но пока ждём. Практических улучшений я пока не вижу, модели надо обкатать, отфайнтюнить да подобрать параметры/семплеры/прочее говно.
Говнище полное новая лама. Сваливается в повторение ответов моментально. Просто хуита, сломанная срань. Что вы тут обсуждаете? С этим нельзя работать вообще.
>>422356 С обычными. Сейчас вот запустил с >python .\server.py --api --api-blocking-port 6000 --loader exllama --max_seq_len 4096 --compress_pos_emb 1 --model TheBloke_Llama-2-13B-GPTQ Натройки таверны стандартные, прикрутил только контексты и кручу периодически температуру. Вот кстати по твоей теме, с 6 попытки таки базу выдал. Но политику лучше сюда не тащи, а то зарепорчу и удалят.
>>422303 > Это конечно же, ФБ в сёрную дыру вместе с Землёй свалится, если выложит сетку без сои вообще. И как оно? Просто удалили сою в ответ на базированные вопросы или шиза начинает лезть? > 13 конечно же Все равно довольно таки неплохо
Стоковая лама 2 (что 13 что 70б) технически в ерп может, на сама на кукан не прыгает на левд карточке пока не выразишь явную инициативу (при это может внезапно ломаться уровня "что ты делаешь я не готова" в разрез контекста, лечется свайпом), склонна писать короткими постами как только все переходит к процессу соития при том что до этого 200+ токенов описывала свои ощущения и реакцию. Вроде как пригодна и нет явных запретов, но файнтюны очень нужны. Чат версия срет соей по поводу и без, к скачиванию для подобного применения не рекомендуется.
>>422787 Скорость у тебя немного печальная. Запускаешь 13B с оффлоадом? А то у меня карточка чуть лучше твоей, 3080Ti, а скорость в 3 раза выше. >>423198 >Просто удалили сою в ответ Как будто это просто, лол. Сравнивать сложно, потому что без сои пока только 7В версия, а оно такое себе чисто из-за размера. Я бы оценил уровень сои как в обычной версии, а чаттинг как в чат версии, сообщения даже немного больше выходили. Ждём тюна 13B версии.
Оригинальный пост - Big Nigga анон адаптировал своего большого ниггу для этого промтинг-стиля : https://desuarchive.org/g/thread/94845561/#94846059 Суть : Нейронка разговаривает и спорит сама с собой пока не придёт к приемлемому ответу по её же мнению. На пике у чела ответ от 30B нейронки.
>>423420 На самом деле 30В и выше не нужны, если получится заставить нейронку хоть немного думать. Скорости у 13В с избытком и можно хоть три диалога пускать параллельно, знания нахуй не нужны, даже 7В знает википедию лучше рандомного двачера.
>>423739 Там фишка не в знаниях, а в количестве весов. То есть, насколько она сопоставляет одни буквы-слова с другими, и насколько хорошо пишет, в итоге. «Думать» LLM ты не заставишь в принципе. Но имитация размышлений в виде красиво и наиболее статистически вероятно построенного абзаца ты получишь на большом количестве весов, на подробном дереве, которое и весит 30 и более.
Тащемта, GPT4 — 8 различных моделей по 220B каждая, которые и решают задачи пользователя. По слухам. Отсюда и качество (до их цензурирования, офк). Так что получить адекватную речь на 13B параметров — надо ее обучать на конкретных текстах с нуля, не добавляя никаких википедий лишних.
>>423819 Хм, интересно. Первые ламы были на уровне гпт3, а вторые с файнтюнингом местами уже чатгопоту обгоняют. Всё-таки метод "навалить побольше параметров" себя не оправдал, зарешала таки оптимизация архитектуры.
>>423887 Это так не работает. Во вторых ламах какие-то аттеншены модные, это доработка самого трансформера, даже если такие на чатгопоту поставить, модель придется заново с нуля переучивать, а это по цене пиздец. В опенаи уже заявляли, что гпт5 не будет, так что они со своей бизнес-моделью "слыш плати @ залупу тебе на воротник, а не свободный доступ" уже проебали Цукербергу. Третьи ламы такими темпами уже будут на уровне гпт4, причем свободно на обнимордах и скорее всего в этом году.
>>423788 > по 220B каждая Писали про 175, не? >>423875 > зарешала таки оптимизация архитектуры Опубликованы ли нюансы обучения? Вроде как совсем радикальных изменений архитектуры во второй лламе нет, но обучение более масштабное и качественное. Если использовали подход постепенного нарастания сложности с разъяснением это вполне могло сыграть и "логику" прокачать, например, ревью ошибочных ответов после корректировки делает гораздо лучше чем первая, разбирая по частям. Сюда же изначально более качественные и структурированные тексты вместо обрывков - сразу стала лучше придерживаться промта. >>423911 > Третьи ламы такими темпами уже будут на уровне гпт4, причем свободно на обнимордах и скорее всего в этом году Кумерских и сторитейл файнтюнов бы второй дождаться, но хотелось бы верить в такое светлое будущее.
>>416476 >>416710 Кури Longnet, который позволяет запихнуть в контекстное окно до миллиарда токенов с линейным ростом вычислительной сложности https://arxiv.org/abs/2307.02486 Либо просто немного подожди, думаю, что за ближайший месяц-полтора уже должны появиться доступные имплементации.
>>424080 >позволяет запихнуть в контекстное окно до миллиарда токенов Ну вот, это уже что-то. А то 4, 16к, не серьёзно. Хочу локально ламу3 лучше гпт4 и с контекстом 1млрд токенов.
>>424126 Даже если удастся запустить это локально, нужно учитывать, что для миллиарда токенов вычислительная сложность всё равно растет линейно даже для лонгнета, так что вместо 100 токенов/с для окна в 4к на том же железе ты получишь 1 токен в 40 минут для окна в 1Г.
>>423875 >Первые ламы были на уровне гпт3 И это было пиздежом. >а вторые с файнтюнингом местами уже чатгопоту обгоняют И то пиздёж. >Всё-таки метод "навалить побольше параметров" себя не оправдал В смысле? Во второй вилле как раз за 100B параметров ушли. Банально у неквантованной 70B лламы веса весят 128 гиг, а у них 230 гиг. >>423883 Ждём файнтюнов. >>423911 >В опенаи уже заявляли, что гпт5 не будет Они когда-то заявляли, что они открытая компания, и будут вываливать всё в попенсорс. Угадай что вышло. >>423974 >Возможно из-за того, что я запускаю в песочнице sandboxie? Возможно. А нахуя?
Как отлёрнить по-человечески? Взял TheBloke_Nous-Hermes-13B-GPTQ , загрузил через AutoGPTQ, накидал говна в Лору, а он мне ошибками сыпет и на память ругается, есть какие-то норм гайды?
>>424174 >В смысле? Во второй вилле как раз за 100B параметров ушли. Банально у неквантованной 70B лламы веса весят 128 гиг, а у них 230 гиг. Так вилла это файнтюн лламы2, всё так же 70B. Может у них 32-битные веса. В любом случае ждем 4бит квантовку от thebloke'а.
>>424190 Железо то какое? Там минимум 24ГБ врама надо. >>424196 >Может у них 32-битные веса. Да, ты прав, я проебался с этим, посмотрел, действительно за каким-то хером они 32 битные веса раздают. >>424196 >В любом случае ждем 4бит квантовку от thebloke'а. Вчера смотрел, ни одной раздачи для процов.
>>424372 Оу май, аж прослезился. Впервые ЛЛМ-ка зафейлила мой стандартный запрос. Мало того что перепутала манхуу с мангой, еще и шизо-сои налила вместо ответа.
>>424544 Ну не знаю, я вот специально сейчас поспрашивал эту ламу на темы, которые точно нигде, никем и никогда не рассматривались. И она пиздец какие осмысленные ответы выдает, я бы сам до некоторых выводов не сразу додумался. Это 100% ориджинал контент, выводы самой ламы, нагуглить она это не могла, как и в ее датасете ничего такого не могло быть.
>>423883 В отличии от первой, вторая более критична к параметрам движка Почитай маны, покрути параметры У меня в зависимости от параметров получалось настраивать очень разные поведения Когда ее зажимаешь по вероятностям - она начинает срать повторами, потому что такая архитектура у LLM, и в описании параметров это прямо и написано что будет именно так Когда отпускаешь - она тебе может хоть книгу написать Ну а средний оптимум - немного зажать, чтобы бредогенератор прикрутить, и влупить штрафы за повторы, тогда получается на уровне первой, и даже интереснее
>>424151 А верно ли это? Дело в том, что в выводе ламы вижу отдельной строкой именно обработку промта, и цифры там бывает доходят до 2000 токенов в секунду через clblast Также у греганова в движке есть хитрый кеш, который обработку промта вообще до нуля снижает Что касается самого окна контекста, то его наполнение не особо заметно замедляет генерацию токенов, замедление явно не линейное, скорее ближе к логарифмическому: при увеличении контекста в 20 раз скорость падает всего процентов на 40
В общем по мне оно там более хитро устроено, чем ожидается
>>423974 Ну так да, ты грузишь ggml-модель, получается? Она не «работает на видеокарте», она выгружается на видюху и как бы работает на ней, но предназначена для проца. То есть ты околоэмулируешь.
А если скачать GPTQ, и запустить движком ExLlama, то там скорости будут выше, конечно. Нативная хуйня.
>>424222 Проиграл Если ты на винде, то у тебя левых экзешников и так не меньше 98% Песочницы на винде - это как одинокая калитка посреди поля Тем более любой современный зловред из этих песочниц вываливается в ядро как делать нефиг. Даже 10 лет назад они уже были неактуальны, и трояны из софта для школьников у меня свободно выпрыгивали из песочниц, уже тогда это везде внедряли как базовую вещь
>>424871 я на 32 гигах и 30 битные модели в 4 кванта запускал, на 64 гигах запускал 65B. И это все без файла подкачки. У тебя 3090 спокойно в нее влезет 13 битная модель
>>425226 ggml работает видюха+проц, если поставить clblast или cublas (nvidia cuda), в противном случае без этого параметра она работает на openblas (только процессор) и он очень медленный. К примеру у меня ноут с 3060 и кубласом и промт он генерит на видюхе очень быстро, а ответ считает на проце, что медленнее. На сервере с 32 ядрами у меня итоговый вывод получается медленнее, чем на ноуте.
>>425211 Скинь свой пресет. >>425221 А теперь учти расход памяти, 1 гиг на 1к токенов. >>425222 >Ждем. Девиз этого треда, надо в шапку внести. >>425294 Там чел трейнить хочет, а там требования совсем другие.
>>425297 Я в курсе, у меня 4 разных конфига работает. =) Я про то, почему у него такая низкая скорость генерации. А еще на сервере можно поиграться с количеством потоков, если память не DDR5, высока вероятность, что уже на 4 потоках будет предпиковая скорость. >>425309 А шо еще делать, если у меня нет 48 видеопамяти, чтобы 70B на видяхах запустить. =( Был вариант собрать распределенную сеть, но я поленился накатывать на все компы петалс.
Аз да, если кто не в курсе, есть такая штука: https://petals.dev/ Но там сами разбирайтесь, я ленивый.
>>425396 >>425433 Вторые ламы на самом деле просто вне конкуренции, когда ответ требует креативно сочетать темы, которые раньше никто в таком ключе не рассматривал. Я пробовал это же >>424700 спрашивать у чатгопоты, 4ая ещё пытается что-то внятное вытужить, а 3.5 просто сливается в кукареканья типа "это разные темы вообще" в лучшем случае пукнет что нужны глубокие познания в обеих темах, чтобы их сравнивать. То есть, лама2-70В-чат подобные темы понимает и умеет применять по факту лучше любой чатгопоты. Возможно, это связано с тем, что чатгопота это кластер из нескольких моделей, а в последнее время ходят обоснованные слухи, что их почти все отключили, так как пипл и то что есть радостно наворачивает, ещё и платит регулярно. Но факт в том, что в нынешнем виде даже чатгопота4 тупее ламы2-70В-чат. Понятно, что файнтюненные ламы2 ещё лучше, я не удивлюсь если Вилли2 в большинстве случаев выдает ответы лучше опенаишных поделий.
А есть торрент всех вторых лам, как был с первыми? Что-то неохота сотни файлов с обниморд вручную качать. Зашел реддит почитать на эту тему, а там соевика трясет: https://www.reddit.com/r/LocalLLaMA/comments/15779no/poisoned_models/ >It all started when someone has posted about "a new shiny Russian speaking model":
>I dove a little deeper of what this model do and what it is related to. It turns out, it only outputs pro Ru propaganda on any politic question (it is also quite "hot" and random and outputs quite different on same question), but answers I actually got on my first try made my blood froze in my veins. Они же правда такие, прямо канон с soy booru.
А эту кто-нить юзал? magnet:?xt=urn:btih:658ab223d5f69b0a79b7f590237560a135c77ce7&dn=wizard-vicuna-7b-uncensored-superhot-8k-GPTQ-4bit-128g.no-act.order.safetensors&tr=udp://tracker.openbittorrent.com:80&tr=udp://tracker.opentrackr.org:1337/announce
>>425736 >>425772 Я ламами никогда не дрочил, но могу предположить, что проблема может быть в том, что они не предназначены для РП, их натаскивают на общение по типу вопрос-ответ. Я вот тут попробовал ламу поспрашивать за шпиндель для фрезера, оказывается она в этом весьма прошарена, ответ намного содержательнее и конкретнее, чем то что я находил поиском в гуглах, это радует.
>>425530 > что их почти все отключили Оптимизировали, одно дело запускать полный процесс а потом сводить или итерировать, а тут в начале экспресс оценку "кому давать" и экономия мощностей в разы. Уже не в первый раз заявления о деградации чтжпт в некоторых запросах, но это еще с лоботомией и цензурой связывают. > файнтюненные ламы2 ещё лучше Нужно систему из двух разных файнтюнов лламы, которые будут поступать на вход третьей, которая уже будет решать какую информацию выбрать или объединить. >>425617 Ай лол, так трястись всего-то с крымняша. Рили канон >>425811 Поделись рецептом и настройками. В общем в рп оно может и иногда неплохо, но когда доходит до эколоэротики то ощутимо сокращается длина и разнообразие постов (офк не "ты меня ебешь" но до файнтюнов 1й лламы даже не близко), а еще иногда может дерейлить заливая про мораль и уместность.
>>426070 Да. Я файнтюнил на Adafactor мультимодалки Llava, там обычная лама в качестве текстовой модели. Можно ещё из bitsandbytes взять Adam8bit вместо адафактора, но он чуть пожирнее. Либо лорами обмазаться через peft и тогда 13В потянет, тебе всё равно все параметры не надо тюнить. Но высеры от HuggingFace - это пиздец клоунада из говнокода и отсутствия документации.
>>426222 Похуй, её всё равно ничего кроме ванильной llama.cpp в консольке не поддерживает. Убабуга так вообще сломал у себя всё, пидрилий, опять без правки кода нихуя не работает.
Народ я очень хочу что-то похожее нач Сharakter ai у меня есть i9-13900k и 4090 на 24 гб, я настраивал и пробовал запускать ламу раньше где-то пол года назад и она натурально срала шизой.что самое главное она не работала как чат генерирую ответы и попросы вместо меня. а мне нужно что бы сет был обучен в таком темплейте
### HUMAN: {prompt}
### RESPONSE:
мне пофиг если ответ будет генерироваться пол часа или если это будет занимать 60 гб оперативы, я хочу результат такой же как chai или charakter ai. где-то же все эти приложухи вроде real girfren или virtmate берут стностные модели? почему у азиатов есть а у анона нет?