/ai/ - LLaMA тред №12

LLaMA тред №12 /llama/ Аноним 09/07/23 Вск 20:27:02 № 393749 1

В этом треде обсуждаем семейство моделей от фейсбука под названием LLaMA, делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна, что сейчас наспех выпустили, а отладить забыли.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2-х бит, на кофеварке с подкачкой на микроволновку.

LLaMA это генеративные текстовые модели размерами от 7B до 65B, притом младшие версии моделей превосходят во многих тестах GTP3, в которой 175B параметров (по утверждению самого фейсбука). От неё быстро ответвилась Alpaca, Vicuna и прочая живность из Южной Америки, те же модели, но с файнтюном под выполнение инструкций в стиле ChatGPT, американские студенты рады, в треде же пишут про мусор с тегами в выводе, что запускать, решать вам.
На данный момент развитие идёт в сторону увеличения контекста методом NTK-Aware Scaled RoPE, заявляется (и работает) о контекстах в 4-8 (и даже 16) тысяч токенов без существенных потерь в качестве.

Сейчас существует несколько версий весов, не совместимых между собой, смотри не перепутай!
0) Оригинальные .pth файлы, работают только с оригинальным репозиторием. Формат имени consolidated.00.pth
1) Веса, сконвертированные в формат Hugging Face. Формат имени pytorch_model-00001-of-00033.bin
2) Веса, квантизированные в ggml. Работают со сборками на процессорах. Имеют несколько подформатов, совместимость поддерживает только koboldcpp, Герганов меняет форматы каждый месяц и дропает поддержку предыдущих, так что лучше качать последние. Формат имени ggml-model-q4_0.bin. Суффикс q4_0 означает квантование, в данном случае в 4 бита, версия 0. Чем больше число бит, тем выше точность и расход памяти. Чем новее версия, тем лучше (не всегда).
3) Веса, квантизированные в GPTQ. Работают на видеокарте и с оффлоадом на процессор в вебуи. Новые модели имеют имя типа llama-7b-4bit.safetensors (более безопасные файлы, содержат только веса), старые llama-7b-4bit.pt

В комплекте с хуитками для запуска обычно есть скрипты конвертации из оригинальных файлов или из формата Hugging Face. Для некоторых типов весов нужны дополнительные файлы типа params.json, короче качаем всё что видим, авось пригодится. Оригинальную llama.cpp сроду трясёт, и веса постоянно приходится конвертировать/перекачивать.

Гайд для ретардов без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в ggml формате. Например вот эту
https://huggingface.co/Pi3141/alpaca-lora-30B-ggml/tree/main
Можно просто вбить в huggingace в поиске "ggml" и скачать любую, охуеть, да? Главное, скачай файл с расширением .bin, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.

Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!

Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/TavernAI/TavernAI (на выбор https://github.com/Cohee1207/SillyTavern , умеет больше, но заморочнее)
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Радуемся

Инструменты для запуска:
https://github.com/ggerganov/llama.cpp Репозиторий с реализацией на плюсах и запуском на процессоре, в 10 раз медленнее видеокарт, зато не нужна карта с десятком гигабайт VRAM.
https://github.com/LostRuins/koboldcpp/ Форк репозитория выше, есть поддержка видеокарт, но сделана не идеально, зато самый простой в запуске, инстуркция по работе с ним выше
https://github.com/oobabooga/text-generation-webui/wiki/LLaMA-model ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать Таверну и ExLlama (ниже)
https://github.com/turboderp/exllama Запуск только на видеокарте (или нескольких, если дохуя мажор), безо всяких оффлоадов, но зато с ебейшими скоростями, на 7B можно получить литерали 100+ токенов в секунду

Ссылки на модели и гайды:
https://rentry.co/llama-tard-v2 общая ссылка со всеми гайдами от иностранных коллег, порядком устарела
https://rentry.org/TESFT-LLaMa Свежие гайды на ангельском
https://github.com/tloen/alpaca-lora Та самая альпака.
https://pastebin.com/vWKhETWS Промт для АИ собеседника
https://pastebin.com/f9HZWiAy Промт для Мику
https://rentry.co/vsu4n Инструкция GPTQ
https://ivonblog.com/en-us/posts/alpaca-cpp-termux-android/ Запуск на телефоне
https://rentry.org/lmg_models Самый полный список годных моделей
https://github.com/oobabooga/text-generation-webui/files/11069779/LLaMA-HF-4bit.zip не самые новые торренты
https://huggingface.co/lmsys Викуня, хороша для программирования, но соевая
https://huggingface.co/anon8231489123/gpt4-x-alpaca-13b-native-4bit-128g
https://huggingface.co/camelids/llama-65b-ggml-q2_0 65B, квантованные в 2 бита.
https://huggingface.co/reeducator/bluemoonrp-30b Единственная модель с нативным размером контекста в 4к токенов

Факультатив:
https://rentry.org/Jarted Почитать, как трансгендеры пидарасы пытаются пиздить код белых господинов, но обсираются и получают заслуженную порцию мочи

Предыдущие треды тонут здесь:
>>362380 (OP)
>>320577 (OP)

Аноним 09/07/23 Вск 20:50:40 № 393791 2

>>393749 (OP)
Первонах

Аноним 09/07/23 Вск 21:04:20 № 393809 3

Какая локалка для кума актуальна? Слышал про визарды и то, что пигма сейчас какую то свою модель на основе лламы выпустила на 13б. Она как вообще по качеству ответов, лучше старой пигмы?

Аноним 09/07/23 Вск 21:16:00 № 393832 4

>>393809
Присоединяюсь к вопросу, интересно что пользуют аноны airoboros65b

Аноним 09/07/23 Вск 21:21:44 № 393847 5

>>393809
>>393832
Хз, скачал визард-суперкот 8к, пока не тестил нормально, вроде норм стелит, но без изюминки как блюмун.

Аноним 09/07/23 Вск 21:30:04 № 393864 6

>>393847
Вот так введешь промт в визард-суперкот 8к и он такой: "Да я сосу твой хуй и мну яйца". А блюмун такой: "Да я беру твой хуй, перегибаю пополам и засовываю тебе в жопу", и ты такой ЧТО? ЧТО? ух бля, а это интересно, учитывая что это делает мама со своим сыной, совершеннолетним естественно.

Аноним 09/07/23 Вск 21:31:44 № 393867 7

>>393847
А как оно с точки зрения длины/подробности ответов, качества описания? Некоторые даже на крутых промтах в лучшем случае выдают 3 строчки
> ты меня ебешь
> вздыхает
> *стонет
а другие даже при вялом персонаже прилично графоманят. Само склоняет в кум при первой возможности, сопротивляется или плавно подходит? Насколько умная в понимании намеков, отсылок и контекста? Не страдает ли шизолупами с оправданиями, постоянно добавляя шмурдяк типа
> "эти действия больше укрепляет их духовную связь и помогает не смотря на культурные различия двигаться вместе среди враждебного и переменчивого мира"?
Ну и про блумун опиши, и рецепт успеха если есть в настройках расскажи, а то односложность ответов и шизоидное (в плохом смысле) поведение персонажей не понравилось.

Аноним 09/07/23 Вск 21:33:17 № 393871 8

>>393867
>>393864
Хуя я экстрасенс, ответил на твой пост заранее.

Аноним 09/07/23 Вск 21:37:41 № 393879 9

>>393871
Я короче буду ждать пока тот пчел ркдукатор перетренит свой блюмун, если он еще не забил. Еще альпачину бы хотелось, но чет они не популярны среди народа.

Аноним 09/07/23 Вск 21:47:14 № 393896 10

>>393809
Точно читал что пигма как раз стала хуже

Аноним 09/07/23 Вск 21:47:14 № 393897 11

image.png 68Кб, 953x235

Бля хуево быть бомжом. На проце без поддержки avx2 opencl и куда вылетают. Пришлось компилить все под avx, думал будет прирост, не ну он есть, но только на обработку уже написанного текста, причем ощутимый раз в 50 наверное, Но вот генерация как была 1 - 1.5 токена в секунду на 13B моделях так и осталась.

Аноним 09/07/23 Вск 22:42:39 № 393964 12

>>393902 →
> Даже по тестам сотни мб кэша у амуды ничего не дают
Не дочитал до конца, его могут быть единицы - десятки гигабайт, вплоть до полной загрузки всей сетки, или ее части в случае оптимизации структуры и софта. Вот это уже был бы порядочный аи-ускоритель, правда сыграет совместимость с х86 в плюс или минус уже вопрос.
>>393871
Опиши чуть подробнее, а то только про возможность внезапных твистов.

Аноним 09/07/23 Вск 23:06:41 № 393997 13

>>393964
>его могут быть единицы - десятки гигабайт, вплоть до полной загрузки всей сетки
Хуя загнул. Сейчас пук-среньк десятки- сотни мегабайт L3 выделяют, а ты сразу на 2 порядка больше предлагаешь делать.

Аноним 09/07/23 Вск 23:17:02 № 394012 14

>>393997
> десятки- сотни мегабайт L3 выделяют, а ты сразу на 2 порядка больше предлагаешь делать
> дополнительные кристаллы l4
> hbm
Невнимательный ты. Что важно - все это уже ранее реализовывалось и местами даже прижилось.

Аноним 10/07/23 Пнд 23:21:38 № 395257 15

Оййй.

Аноним 11/07/23 Втр 03:05:33 № 395450 16

Короче, приехала мне P104-100, которая 1070 как бы.
Запустил ее единственной CUDA-картой на интел-встройке через удаленный доступ без монитора (кому нужны мониторы, пф, API наше все).
Диспетчер задач вообще ее не увидил.
GPU-Z не увидил видеопамять.
OCCT просигнализировала, что видеопамять заполняется, ядро после запроса нагружается.
Ура, работает!

Потеститл Pygmalion-7b-8K, 5 токенов в секунду.

Хотелось бы узнать у владельцев 1070 — какие у вас скорости?

Судя по всему, старые дрова не позволяют работать на скорости аналогов более позднего поколения.

И та же 24-гиговая P40 тоже выдаст не дюже много токенов.
Предположу 1 токен на 65B модели с двумя P40. Конечно, в 2-4 раза быстрее проца, но цена и энергопотребление ну такое…

Для маленькой модели купить P104-100 за 2,5к-5к на авито можно. Но удовольствие все же сомнительно, ИМХО. Я купил для своего проекта, мне сойдет, но рекомендовать не могу.
Теперь надо посмотреть, что у нас там по новым поколениям (20хх, 30хх) майнерских б/у видях.

Аноним 11/07/23 Втр 08:11:25 № 395559 17

>>395450
>старые дрова не позволяют работать на скорости аналогов более позднего поколения
По-моему больше всего влияют tensor cores, которые завезли только в turing (rtx 2000+). Именно из-за них старые nvidia сильно отстают.

>какие у вас скорости?
У меня даже на более дешёвом полярисе (rx 580) 9-10 Т/с, пока всё в vram влезает. Так что ищи более новые поколения, паскаль мёртв.

Аноним 11/07/23 Втр 10:44:17 № 395619 18

>>393749 (OP)
чо у вас по цензуре по сабжу и в чем отличие всяких пигм\альпак итд меж собой и от ламы?

Аноним 11/07/23 Втр 11:42:47 № 395647 19

>>395619
Цензуры по сути нет, сои в базе минимум. Но так как костяк данных для файнтюнов брался с GPT сеток, там сои уже побольше. Некоторые пытаются чистить датасеты вилкой, там получше, модели помечают как uncensured (ВНЕЗАПНО).
У пигмы датасет по идее самый чистый, но они не особо лламы трейнят, они с GPT-J сильно много пердолились.

Аноним 11/07/23 Втр 12:23:43 № 395676 20

как вы выбираете модели? где в шапке инфа про различия битности \ какую херню качать для видеокарты ХХХХ ?? а вдруг я сутки буду качать версию на 24 гига врам если у меня 6 всего(напр)

Аноним 11/07/23 Втр 12:39:25 № 395687 21

>>395676

В шапке есть про различия моделей для цпу и гпу. Первые называются ggml, вторые gptq.
Твой пикрелейтед список устарел, он не обновлялся после революционного обновления контекста. Заходи на huggingface и делай поиск сам например по слову ggml и выставляй сортировку по недавно залитым, смотри в названиях 4k, 8k, 16k - это размер поддерживаемого контекста. Выбирай модель из расчета - вес модели в гб должен поместится в памяти(врам для gptq или озу в случае ggml) + контекст из расчета примерно 1.2к контекста на гигабайт. Так, 13б модель весом 8 гб и 16к контекста займет 23 гб.

Аноним 11/07/23 Втр 12:42:33 № 395690 22

>>395676
>где в шапке инфа про различия битности
Напиши, в следующий раз добавлю.
Но можно сказать, что 4 бита норм, 5 бит почти идеал, 8 бит для шикующих, 16 бит разве что для обучения.
>>395676
>какую херню качать для видеокарты ХХХХ
Тебе ещё все карты протестировать?
В общем и целом 13B лезет в 12ГБ врам, 30B в 24ГБ, 65В в 2х24ГБ, люди попроще могут дрочиться с 7B. На проце лимитирует объём рам, его обычно кратно больше, и легко нарастить (я вот подсобрал систему с 64ГБ как раз под сеточки). Информация если что про контекст 2к, более широкие контексты жрут больше и перестают помещаться в отведённые им системы.
А остальное это чистая субъективщина, кто-то дрочит на суперкоте, кто-то терзает викунь задачами.

Аноним 11/07/23 Втр 12:43:30 № 395693 23

>>395676
>а вдруг я сутки буду качать
Если ты не можешь скачать файл весом в десяток гигабайт за 15 минут, то ты ошибся тредом.

Аноним 11/07/23 Втр 13:01:55 № 395702 24

>>395693
Скачал 3 терабайта моделей на скорости 10 мбит/сек, сижу в треде. И че ты сделаешь? Расплачешься?

Аноним 11/07/23 Втр 13:06:14 № 395704 25

>>395559
А с рыксой много пердолинга, или воткнул ExLlama и поехал как обычно?
А по температуре и энергопотреблению рыкса как?
P104-100 70-90 ватт в пике и 55° хотспот.
А рыкса, так-то, дешевле, ее за 3-4 тыщи найти можно где угодно.
Может рыкса и лучше, хотя один хрен, все это и правда прошлый век, и больше для бомж-гейминга, чем для нейросеток.

Аноним 11/07/23 Втр 13:08:09 № 395707 26

>>395693
Не, ну ты еще учти, что хаггингфейс сам в однопотоке 1 МБ/с отдает зачастую, гитом ты так и так будешь полгода качать.
Или там как-то можно указать параллельные потоки, чтобы он всю линию занимал?

Аноним 11/07/23 Втр 13:38:43 № 395727 27

>>395450
> Pygmalion-7b-8K, 5 токенов в секунду
Это в начале или после накопление контекста? Если нет переполнения врам то как-то слишком мало, средний современных проц выдаст как бы не больше на 7б модели. Попробуй ее в оффлоаде ggml.
>>395704
> P104-100 70-90 ватт в пике
Для 1070 это мало, ищи причину недогрузки. Алсо обрати внимание на возможное наличие странного биоса под майнинг где все может быть радикально поломано.
>>395707
> хаггингфейс сам в однопотоке 1 МБ/с отдает зачастую
Ни разу не замечено, что за провайдер

Аноним 11/07/23 Втр 13:40:50 № 395729 28

>>395702
>Расплачешься?
Ты ещё скажи, что запускаешь за зионе с четырёхканальной DDR3, тогда точно расплачусь.
>>395707
Качаю браузером, скорость конечно зависит от погоды, но бывает и 15МБ/с.

Аноним 11/07/23 Втр 13:52:52 № 395741 29

>>395729
>за

Аноним 11/07/23 Втр 13:59:07 № 395751 30

>>395727
На биос посмотрю, может и в нем дело, да.
ггмл тоже попробую, так, на интерес.
>>395729
Провайдер — Ростелеком. Когда гружу Download Master'ом — стабильно максимум. Когда любым браузером или git clone — стабильно 1,1 в пике. Было пару раз, когда грузил на полной скорости, но такое бывает редко, к сожалению.

Аноним 11/07/23 Втр 14:02:42 № 395759 31

>>395729
> за зионе с четырёхканальной DDR3
Эх было время, интересно смогло бы оно что-то показать в отсутствии avx2
>>395751
Поищи вредительские настройки в системе типа оптимизации доставки, ограничения лимита на содинение и т.д., драйвер сетевухи обнови

Аноним 11/07/23 Втр 14:35:54 № 395795 32

>>395759
чел настоятельно советую чекнуть тред на оверах про напругу контролеров при разгоне 11 сокета. есть большиие шансы что у тебя камень быстро дегродит на такой частоте (тдп\разгоне)

>за зионе с четырёхканальной DDR3,
а в чем прикол? сетки на 4 каналах работают хуже или что?

Аноним 11/07/23 Втр 14:40:37 № 395801 33

>>395795
> при разгоне 11 сокета
Это 2011-1, заслуженный ветеран первой рязанской, за пару лет на 5 кекогерцах заслуживший множество боевых наград и вовремя ушедший новому владельцу так и не побежденным.
> на 4 каналах работают хуже
Каналы не важны, важна псп рам, но если в теории на таком пытаться запустить сетку некроархитектура может сильно в минус сыграть. Попробуй если можешь, интересно.

Аноним 11/07/23 Втр 15:12:14 № 395825 34

>>395687
>huggingface
а я на глаз замечу надо ли ебаться с конвертацией или скачал-вставил?
https://huggingface.co/TheBloke/Pygmalion-7B-SuperHOT-8K-GPTQ
например эта - тут же просто скачать можно ?..

Аноним 11/07/23 Втр 15:16:32 № 395832 35

>>395704
>А с рыксой много пердолинга
В среднем побольше, чем с nvidia, но ничего сверхсложного. При условии, что уже стоит linux. Для винды пока не завезли поддержку, только планируют. Алсо, есть определённые ограничения, например, на несколько gpu не раскидать в тех же llamacpp и koboldcpp (возможно, добавят со временем).
>ExLlama
Её не пробовал, там же под nvidia. Если пытаться собрать под hip, думаю, пердолинга сильно побольше будет.
>по температуре и энергопотреблению
В целом GCN (полярисы и веги) горячеее паскалей при прочих равных, оптимизация произошла в RDNA (rx 5000 и дальше), они, наоборот, холоднее при схожей производительности (в играх).
>прошлый век
Согласен. У меня просто она изначально была (брал под игры), поэтому и пользуюсь, так-то брать ради нейросеток не советую. Полярисы вообще лишились официальной поддержки от AMD, хотя пока "неофициально" работают. Веги пока поддерживаются, но надолго ли? Если и брать, то RDNA, при условии что тебя устроит 1 gpu (но на амудэ vram побольше накидывают, чем на nvidia того же ценового сегмента). Но их по таким бросовым ценам после майнинга на рынке б/у и не найдёшь.

Аноним 11/07/23 Втр 15:18:27 № 395834 36

>>395825
Вроде очевидно, что конвертировать это некуда.

Аноним 11/07/23 Втр 16:30:20 № 395889 37

https://huggingface.co/notstoic/pygmalion-13b-4bit-128g
скачал без консоли руками
диск Б - виртуальный кобальский
что может быть не так

Аноним 11/07/23 Втр 16:45:19 № 395901 38

>>395889
Кобольд, который с дисками и питоном https://github.com/KoboldAI/KoboldAI-Client не поддерживает модели на основе лламы (по крайней мере не в этом формате).
Для запуска рекомендую использовать WebUI и ExLlama.

Аноним 11/07/23 Втр 17:33:12 № 395967 39

Залетаю в тред с ламерским вопросом. Скачал лламу и сайгу в ггмл, кидаю их в koboldcpp, всё работает на проце. Вместо видеокарты у меня амд рх590, линукс не стоит, поэтому при Clblast прирост скорости примерно нихуя, ну разве что оперативку можно разгрузить через gpulayers.
Так вот, вопрос в чём - от чего зависит количество количество токенов в Processing Promt? Иногда там 40-60 токенов и он их быстро обрабатывает, а иногда 700-800 и ессно скорость падает. По итогу получаю 2-3 Т\с на 7b модели, есть чувство что я что-то делаю не так и у остальных шустрее

Аноним 11/07/23 Втр 17:44:01 № 395983 40

>>395967
Я точно не уверен, но вроде бы на кобольде ни clblast, ни cublast не влияют на скорость генерации, только скорость обработки промпта. Поэтому скорость генерации зависит от проца и памяти.

Аноним 11/07/23 Втр 18:05:59 № 396030 41

>>395825
Все что gptq и ggml - уже сконверчено и можно сразу запускать. Есть версии с разным числом бит и опциями квантования, чем больше тем лучше но и медленнее будет работать, тесты сравнения можешь погуглить и в прошлом треде скидывали.
>>395967
> при Clblast прирост скорости примерно нихуя
Рыкса это тот еще зверь, но всеравно прирост должен быть, вон выше 10т/с на ней, поспрашивай какие параметры.
> от чего зависит количество количество токенов в Processing Promt
От того насколько менялся промт. Добавь --smartcontext должен ускорять, но на него были жалобы.

Аноним 11/07/23 Втр 19:38:16 № 396256 42

>>395983
>ни clblast, ни cublast не влияют на скорость генерации, только скорость обработки промпта
И на генерацию влияют, и на промпт. Причём, промпт на gpu может обрабатываться медленнее при определённых условиях.
>>396030
>на него были жалобы
Какие? Качество генерируемого текста ухудшается?

Аноним 11/07/23 Втр 19:49:56 № 396305 43

как должна выглядить и запускатся ExLlama - почему то нет батника старт
качал гитом клоном репозитории

Аноним 11/07/23 Втр 20:03:12 № 396350 44

>>396305
Ответ:
>>393749 (OP)
>ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать Таверну и ExLlama (ниже)
Там есть свой чат, но он уныл, можешь даже не тратить время на его установку.

Аноним 11/07/23 Втр 20:13:05 № 396379 45

>>396350
>связать Таверну и ExLlama
t,fys ебаный рот этих запускаторов хуй пойми кто и что и как
>Там есть свой чат, но он уныл, можешь даже не тратить время на его установку.
какой нахуй чат
мне надо запускатор на видяхе - в шапке написано что оно должно работать - ну типо и где?

Аноним 11/07/23 Втр 20:25:33 № 396410 46

>>396379
> в шапке написано что оно должно работать - ну типо и где?
В вебуи, написано еж. Вот ссылка на инструкцию, если вдруг ты сам не нашёл
https://github.com/oobabooga/text-generation-webui/blob/main/docs/ExLlama.md

Аноним 11/07/23 Втр 20:29:33 № 396431 47

>>396256
> И на генерацию влияют, и на промпт. Причём, промпт на gpu может обрабатываться медленнее при определённых условиях.
Хм, у меня проц бещ avx2 разницы не заметил особо.

Аноним 11/07/23 Втр 20:32:01 № 396440 48

>>396410
бля типо это нехуя не запускатор типо koboldcpp или угабуги?
или какого хуя 1 запускатор работает через другой, это блять как запускать таверну из кобальта
и какой пидарас закинул это в шапку как ОТДЕЛЬНОЕ решение если это просто модуль угабуги?
хули так запустано, но ща прочитаю ссылку

Аноним 11/07/23 Втр 20:53:28 № 396470 49

>>396440
>и какой пидарас
Я.
>ОТДЕЛЬНОЕ решение
Технически можно запустить отдельно. И я запускал, иначе бы не писал. Практически смысла в этом немного.

Аноним 11/07/23 Втр 21:06:28 № 396499 50

>>396256
> Качество генерируемого текста ухудшается?
Типа того, но там непонятно, не та модель, не те настройки, не та версия и еще весной было.
>>396440
Это загрузчик модели, точно также как лламацпп, как аутожптк и прочие, которые своего интерфейса толком не имеют. Хубабуба - просто оболочка с интерфейсом, настройками, возможностью выбора и реализацией api для связки с таверной, также как вебуи автоматика позволяет использовать стабильную дифуззию и прочее.
Кобольд цпп же - сразу и лоадер и интерфейс, все в одном.
> в шапку как ОТДЕЛЬНОЕ решение
Структура хромает, но зато ссыль на репу с самой актуальной инфой.

Аноним 11/07/23 Втр 21:27:21 № 396561 51

>>396256
>Какие? Качество генерируемого текста ухудшается?
Вся суть в том что смартконтекст просто резервирует половину контекста под твою писанину, т.е. если стоит 2к контекста, то на промпт уходит 1к(грубо говоря), и еще 1к тебе дается на переписульки с няшками, когда твой 1к кончается, то идет переснюхивание промпта. Модели с 1к тупее, чем модель с 2к, по всяким тестам, но я не в курсе чем отличаются по уму 8к модели от 4к моделей, возможно что ничем.

Аноним 11/07/23 Втр 21:36:42 № 396579 52

>>396561
> на промпт уходит 1к(грубо говоря), и еще 1к тебе дается на переписульки с няшками
Разве оно вообще везде так работает? Выгружаются примеры диалогов, приветствие, некоторые части, но основной промт на месте. Или ты про резервирование части контекста под заполнение с очисткой по достижению лимита и повторении этого, чтобы полный промт реже переобдумывать, вместо того чтобы каждый раз удалять последние реплики и иметь полный контекст?

Аноним 11/07/23 Втр 21:39:05 № 396590 53

>>396579
> Или ты про резервирование части контекста под заполнение с очисткой по достижению лимита и повторении этого, чтобы полный промт реже переобдумывать, вместо того чтобы каждый раз удалять последние реплики и иметь полный контекст?
Вот это. Повторюсь, отупление модели от смартконтекста актуально для 2к моделей, 8к модели скорее всего не тупеют.

Аноним 11/07/23 Втр 21:57:52 № 396622 54

>>396579
> Разве оно вообще не везде так работает?
фикс
>>396590
Если на фуллцпу модель крутится то лучше эти 8к просто не превышать, а то обработка 8к токенов займет совсем неприличное время.

Ну что, использовал кто расширение контекста через альфу экслламой в 2к моделях или сам сравнивал ее с другой настройкой для мерджей с 8к файнтюном? По числам понятно что лучше, а по ощущениям?

Аноним 11/07/23 Втр 22:06:53 № 396655 55

>>396622
>Если на фуллцпу модель крутится то лучше эти 8к просто не превышать, а то обработка 8к токенов займет совсем неприличное время.
Я там жить собираюсь в своем мирке, буду весь контекст заполнять и превышать.

Аноним 11/07/23 Втр 23:00:24 № 396760 56

скажите плиз
где в убагубе в папке инстаал файл должен валятся торч - который 2 гига качается
хочу с таверны готовый перенести но не знаю как и кудда

Аноним 11/07/23 Втр 23:08:53 № 396773 57

>>395901
а схерали в шаппке пигма-треда написано что пигма открываается таверной и кобом если пигма на ламе сделана и 6 бит например не открываается в кообе
наебка?

Аноним 11/07/23 Втр 23:12:40 № 396776 58

>>396773
Оригинальная пигма сделана на GPT-J, ллама подделки это новодел, шапку не успели допилить.

Аноним 11/07/23 Втр 23:17:06 № 396783 59

>>396776
https://huggingface.co/mayaeary/pygmalion-6b-4bit-128g
запускал это говно кобальтом - пиздит про несоовествие версий моделий и чот про нео-гпт... крч ошибка и наебалово какоето
или пигмы есть с одинаковым названием на ламе и без ламы?

Аноним 11/07/23 Втр 23:33:24 № 396811 60

>>396783
>или пигмы есть с одинаковым названием на ламе и без ламы?
Пигмы на лламе идут от 7B, на старых GPT имеют размер 6B.

Аноним 12/07/23 Срд 00:02:10 № 396859 61

image.png 6Кб, 958x50

какогото хрена 6бит не пашет на кобальте

Аноним 12/07/23 Срд 00:13:38 № 396868 62

>>396440
Ну ты совсем пенек? Это все движки, конкретно в убабугу этот движок встроен. Убабуга умеет в апи.
ЭксЛама=>Убабуга=>Таверна.
Если ты умный, можешь сам настроить без убабуги, или свою обертку написать без таверны, или свой движок, а что, а вдруг.
Но накой хуй оно тебе надо — вопрос.
>>396499
Убабуга такое же все сразу, и лоадер, и интерфейс, все в одном.
У них разных функционал, будем честны, тот же кобольд имеет тонну минусов. Ни тебе адекватной рисовки картинок (костыль кобольдцпп-кобольдаи — ну такое), ни тебе силеро ттс, а только встроенные движки, типа Нюанса, чи как его, ни тебе распознавания картинок (или он умеет это?). Ну, короче «все в одном» крайне натянутое. А всякие персонажи и миры и в убабуге есть. Просто каждый в чем-то сильнее другого.

Аноним 12/07/23 Срд 00:17:22 № 396875 63

какого хуя эта скатина сыпет непонятными ошибками если кресты и дрова видяхи достаточно свежие и вобще устанавливаю в 1 клик для даунов ? ЧТО И КАК МОГЛО СЛОМАТЬСЯ
как там не хватает файла если он сам его должен скачивать без меня?

Аноним 12/07/23 Срд 00:21:44 № 396881 64

>>396773
> таверной
> с таверны
Таверна это лишь фронтэнд, она ничего не запускает
>>396760
Если ты будешь ставить вручную, то при установке pip-ом системного пихона он может воспользоваться закешированным и тогда не будет ничего качать. Если ты ничего не понял - просто потерпи и скачай.
>>396868
Ну да, правда как конечный интерфейс годна скорее для тестов. Главное что дружит с таверной, которая сильно лучше для рп
>>396875
Почитай что там написано и сделай что просит.

Аноним 12/07/23 Срд 02:47:18 № 397156 65

>>396881
>Почитай что там написано и сделай что просит.
как блять?
кресты обновленны
хули он сам файл этот не скачал?

тут может кто своими файлами поделиться? или конкретно этим или всю угабугу торентом например ?
а то даже не представляю хули делать

Аноним 12/07/23 Срд 03:03:55 № 397175 66

Шизодрузья, скажите мне есть ли какие-то подвижки помимо контекста? Последний рад трогал какую-то визардлм 30б

Аноним 12/07/23 Срд 08:31:42 № 397442 67

>>397156
> microsoft c++ redistributable
> требует microsoft c++ build tools
Тебе даже прямую ссылку написало для скачивания. При установке оно не просто качает готовый бинарник а собирает его под твою систему, собирать ему нечем потому и ошибка.

Аноним 12/07/23 Срд 08:58:56 № 397447 68

Такую таблицу находил по битности 7b и 13b.

Аноним 12/07/23 Срд 12:56:39 № 397607 69

>>396875
Для quant-cuda нужен VS Build Tools C++ шо-то такое, гугли и качай, карочи.
И там еще надо путь прописать, вроде, да.

Аноним 12/07/23 Срд 12:57:30 № 397609 70

>>397156
А вообще, quant-cuda в Auto-GPTQ нужна.
Если ты ExLlama будешь юзать, то я не уверен, не похер ли, если честно. =)

Аноним 12/07/23 Срд 13:30:40 № 397625 71

Собираю новый комп, конфиг будет i7-10700k, 32Gb, 3080/12Gb

Есть ли у меня шансы запустить Wizard30M и AlpacaLora 65M?
Я совершенный нуб во всем этом, поэтому заранее извиняюсь, если вопрос глупый.

Аноним 12/07/23 Срд 13:32:40 № 397627 72

>>397625
Все, вопрос снят. Уже понял, что ничего мне не светит, слишком мало памяти.

Аноним 12/07/23 Срд 14:25:43 № 397705 73

>>397627
На деле 30B с оффлоадом можно попробовать, но будет медленно и печально.

Аноним 12/07/23 Срд 18:07:15 № 397948 74

>>395983
Ну я и разницу в скорости обработке промпта не вижу. А из-за того что он занимает бОльшую часть времени, как раз и выходит скорость низкая.
>>396030
>вон выше 10т/с на ней
Там у человека линукс, он скорее всего rocm накатил, аналог амдшной куды.
>От того насколько менялся промт
Странно, у меня он просто всегда одну и ту же цифру считает. Попробую со смартконтекстом поиграть.

Аноним 12/07/23 Срд 20:01:31 № 398123 75

>>397609
при выборе модели типо пигмы - модели типо автогпт сами выбираются
>>397607
>>397442
только блять не говорите что каждый из вас устанавливал в пикрил1 ...ЧТО??? КАКИЕ ГАЛОЧКИ И ПОЧЕМУ БЕЗ НИХ ПРЕДЛОГАЕТ 2 ГИГА

ПИКРИЛ2 вобщето имнно это надо устанавливать когда проги и игры хотят кресты - только оно уже было установлено!

кстати за ночь обноружил что файл оказывается на месте но хули не так не ясно
почему у вас таких трабл не было...

чо за ебала?!

Аноним 12/07/23 Срд 20:01:43 № 398124 76

>>397625
>Wizard30M

Можно, но на цпу с оффлоадом.

>AlpacaLora 65M

Только в 2 bit с оффлоадом.

Аноним 12/07/23 Срд 20:02:46 № 398128 77

>>397627
гугли рабочие станции и сокет типо 2011-3

Аноним 12/07/23 Срд 20:38:15 № 398176 78

>>398123
Я ради чего-то ставил visual studio build tools c++, вышло 11 гигов

Аноним 12/07/23 Срд 20:39:34 № 398179 79

>>397625
> 3080/12Gb
Докинь немного до 3090, разница в памяти радикальная
>>398123
> каждый из вас устанавливал в пикрил1
Да, стояло изначально для другого и потому все сразу запустилось. Вот так и выходит что "простые" средства для нормисов у них не взлетают, а остальные удивляются почему.
> ПРЕДЛОГАЕТ 2 ГИГА
Ты чекни сколько модели весят, может оно тебе и не надо. Алсо если галочек выбрать то будет все 20 гигов.
> файл оказывается на месте
Какой еще файл?
> кресты
покайся!
>>398128
А толку с некроты, пусть тогда обмажется видюхой, скорость выйдет выше.

Аноним 12/07/23 Срд 21:36:50 № 398266 80

>>398179
>А толку с некроты
64+ озу, можно и 128
и процы по 24 потока+
>Ты чекни сколько модели весят, может оно тебе и не надо. Алсо если галочек выбрать то будет все 20 гигов
ой бля не пизди что каждый чел тут чот устанавливал чисто случайно или еще как то - вы даже не можете мне сказать какие галки нужны
офис и пейнт то нахуя для угабуги? а базы даных SQL НАХУЯ ?
ХУЛИ НАДО ТО?
>Какой еще файл?
КОторый блять на скриншоте завязааный на кресты

все нормальные люди устанавливают только библиотеки идущие в составе установок игр и всешшда этьоого хватало!

Аноним 12/07/23 Срд 21:48:26 № 398297 81

>>398266
> 64+ озу, можно и 128
Толку? Получить менее 0.5 т/с на 65б модели и гореть каждый раз, когда оно решит переобработать промт? 2 треда назад вкидывал как оно на радикально более шустром железе без гпу помощи крутится, это всеравно малоюзабельно. Вот если карточку добавить хотябы для быстрой обработки промта - уже что-то, но наиболее рационально просто купить мощную новидию с врам побольше, по перфоманс/прайс это сильно лучше.
> ой бля не пизди
Причина тряски? Не, офк триггернуться с занятых двух гигов в 2д23м это уже сильно, но всеже.
> каждый чел тут чот устанавливал чисто случайно
Ну да, фейсроллим и что-то выходит.
> а базы даных SQL НАХУЯ ?
Сам придумал - сам и отвечай, лол.
> какие галки нужны
Ищи того, кто ставил недавно и еще помнит. В теории тебе нужны что-то типа "разработка классических приложений x86" для ц компилятора. Ну и куда тулкит, ставится отдельно.

Аноним 12/07/23 Срд 21:48:56 № 398299 82

image.png 34Кб, 960x284

может все таки ктото поделится файлами например установочными?
алсо
выше писали что у меня ошибка на хуйне для запуска большой битности
но у меня даже 7 бит не запускает

Аноним 12/07/23 Срд 21:51:32 № 398303 83

>>398299
Это троллинг тупостью, или ты серьезно настолько деградант? Показалось что
> все нормальные люди устанавливают только библиотеки идущие в составе установок игр и всешшда этьоого хватало!
лишь ирония, а ты там был серьезен?
Читай что написано в консолечке. Если не понимаешь - читай еще раз, вчитывайся, повторяй пока не снизойдет просветление.

Аноним 12/07/23 Срд 21:53:55 № 398308 84

>>398297
>Не, офк триггернуться с занятых двух гигов в 2д23м это уже сильно
глаза разуй
я тригернулся с того что он хочет 2 гига А Я ЕЩЕ НЕ ОДНУ ГАЛКУ НЕ ОТМЕТИЛ
МЕСТО ТО У МЕНЯ ХВАТИТ НА ВСЕ
>Сам придумал - сам и отвечай, лол.
дебил я сюда скрин выложил где еббаная уттилита ++ предлагает мне эту хуйню установтить - НАХУЯ???
>Ищи того, кто ставил недавно и еще помнит
вот я итт и спрашиваю - а где еще?
>x86
х64 ты хотел сказать

Аноним 12/07/23 Срд 21:59:42 № 398319 85

>>398266
>и процы по 24 потока+
Толку со 100500 потоков, если память едва лучше десктоп топа на DDR4 и сосёт с проглотом у DDR5?
>чот устанавливал чисто случайно или еще как то
Да. Я на рандоме как-то там поставил.
>вы даже не можете мне сказать какие галки нужны
У меня вот так.
>>398266
>все нормальные люди устанавливают только библиотеки идущие в составе установок игр и всешшда этьоого хватало!
Потому что либы это либы, а компилятор это компилятор. Внезапно, да?
>>398308
>х64 ты хотел сказать
х86-64 ты хотел сказать. А победит в конкурсе духоты тот, кто вспомнит про AMD64

Аноним 12/07/23 Срд 21:59:47 № 398320 86

>>398303
>Читай что написано в консолечке
пикрил - тебе не кажется что консолька наебывает?
> Если не понимаешь
а сказать нельзя??
в треде пигмы иличот такое сказали что нужно ++ретребюшон 22
я эту хуйню скачал заранее
почему в шапке не слово про еще какую то хуйню

и если ставить все галки нуужно 30 гигов - ну блять очевидно что вы все эти 30 гигов не ставили

Аноним 12/07/23 Срд 22:03:36 № 398328 87

>>398319
>и сосёт с проглотом у DDR5?
эта та ппамять которая только в 22 году начала обгонять серверный сокет по пропускной способности памяти?
часто на ддр4 видел псп как пикрил?(не мое)
твой пикрил это галки которые уже установлены хош сказать? (справо)

Аноним 12/07/23 Срд 22:09:08 № 398354 88

1534253960936.png 8Кб, 957x64

>>398319
> и сосёт с проглотом у DDR5
Да не, 4 к_анала 3200 лучше чем ддр5 6400 как минимум по задержкам, а если гнать дальше (хз насколько те процы в этом могут) то 110+гбит достижимы, правда это скорее про 2066 соккет уже.
Всеравно это бу железо, если связываться с ним то карточка за сравнимую цену будет сильно лучше. Да даже новая 3060 при оффлоаде в нее окажется быстрее.
> AMD64
IA64, раунд!
>>398320
Смотри пикрелейтед, это кусок твоего же скрина. Возьми телефон (у тебя же он есть?), запусти камеру гуглпереводчика и ознакомься что там написано. Подумай, сосредоточься чтобы аж прочувствовать как шестеренки в голове закрутились, потом поищи похожий параметр в настройках где выбираешь модельку и поставь на него галочку.
Алсо оно всеравно может не взлететь ибо хз что с поддержкой mpt, нахуя скачал это вместо каноничных ллама-бейзд моделей?

Аноним 12/07/23 Срд 22:15:18 № 398380 89

image.png 4Кб, 414x73

>>398354
так я качал пигму от ламы - та же хуета

Аноним 12/07/23 Срд 22:41:30 № 398450 90

>>398179
>Докинь немного до 3090, разница в памяти радикальная
Поздно уже, увы.
Сейчас виню себя, что поторопился. Не копнул тему достаточно глубоко вначале, и подумал, что и 12 гигов норм будет.

Аноним 12/07/23 Срд 22:50:59 № 398468 91

>>398450
> что и 12 гигов норм будет.
а паскаль на 11гигов куда дешевле стоит

Аноним 12/07/23 Срд 22:58:08 № 398480 92

image.png 38Кб, 1131x257

а хрен ли все качают эти модели из шапки пигмы и все норм у всех а у меня каких то файлов типо не хватает которых не было в репозитории? где мне их высрать надо было

Аноним 12/07/23 Срд 23:15:06 № 398510 93

>>398328
>эта та ппамять которая только в 22 году начала обгонять серверный сокет по пропускной способности памяти?
ХЗ, собрался на ней 3 дня назад, черновые настройки вот.
>>398328
>часто на ддр4 видел псп как пикрил?(не мое)
Увы, мой сервак слишком далеко, чтобы по быстрому запустить шинду и посмотреть, сколько будет на 4 канальной DDR4 с тухлоскоростями, так как неразгоняемый зион
>>398328
>твой пикрил это галки которые уже установлены хош сказать? (справо)
Это то, что у меня сейчас стоит, запустил инсталятор и заскринил. Правда этот сетап был ещё для xformers, но не думаю, что его не хватит на компеляцию новой хуитки.
>>398354
>Да не, 4 к_анала 3200 лучше чем ддр5 6400 как минимум по задержкам
Не факт.
>>398354
>IA64, раунд!
Помянем жмура несвежего а ведь в ИИ мог бы и затащить.

Аноним 12/07/23 Срд 23:17:25 № 398515 94

image.png 3Кб, 506x46

image.png 1Кб, 136x22

почему ебучий еребус для кобальта загрузился а остальное нет?

Аноним 12/07/23 Срд 23:42:34 № 398553 95

https://github.com/LostRuins/koboldcpp/releases/tag/v1.35
Теперь их уже три.

Аноним 12/07/23 Срд 23:45:20 № 398557 96

>>398510
Там с ленивым xmp в простых плашках около такой же результат как на СЕДЬМОМ ШАГЕ ПОДГОНА орнул, а с более быстрыми за 100гбит можно уйти. Насчет 2011-3 не уверен, там чтобы 85 перешагнуть нужно уже анкор хорошо гнать да и не тестировали их толком с нормальной ддр4, а с 2066 на изи. А по латентности - мешгрид срет, если правильно настроить ядра то менее 50нс, при дефолтном выйти ниже 60 уже сложно.
> сервак
> шинду
Больной ублюдок, лол
> а ведь в ИИ мог бы и затащить.
Ага, из извращенского кстати там есть сборочка llama cpp под е2к

Аноним 13/07/23 Чтв 00:25:05 № 398610 97

>>398553
А чего там хенк на 100 с лишним метров насрал?
>>398557
>СЕДЬМОМ ШАГЕ ПОДГОНА
Шо не так то? В первый раз дыру пятую ковыряю, вообще ХЗ, что куда настраивать, поэтому двигаюсь маленькими шажками и всё не туда. Можешь поорать ещё раз, выйграл наносекунду с первичками ))
А вот куда и как трогать вторички, я ХЗ. Где мой рузен калькулятор для DDR5.
>Насчет 2011-3 не уверен, там чтобы 85 перешагнуть нужно уже анкор хорошо гнать
Ясно, тогда не буду тянуть сервер с антресолей. Просто пока в нём стоит 2 плашки стачала вообще одна, лол, ещё 2 плашки валяются без дела, ибо пока на серваке торренты да диски, и на производительность было похуй. А ещё там E5-2630L v3 вместо процессора.
>Больной ублюдок, лол
Да не, я нормальный, шинда там была только на этапе настройки памяти, ибо я ХЗ, как в люнупсе смотреть настройки и тестировать стабильность.
>Ага, из извращенского кстати там есть сборочка llama cpp под е2к
Сколько там дев кит стоил, 200к?

Аноним 13/07/23 Чтв 00:39:21 № 398625 98

>>398610
> Шо не так то?
Ну бля, тот еще рофел же без осуждения, аналогичной поеботой страдаю, хочешь постичь дзен - воткни 4 плашки ддр5
> Сколько там дев кит стоил, 200к?
Хз, так эту штуку пощупать и не удалось хотели на пробу взять, но поставить готовы были только старье и времена нынче далеко не жирные, только обзоры у известного в узких кругах техноблогера и из сообщества новость про лламу на нем.

Сколько у тебя чисто на цпу в такой конфигурации выдает? Прогони при случае, желательно несколько вариантов.

Аноним 13/07/23 Чтв 01:01:25 № 398672 99

пытался скачать не руками а автокачалкой - какого хуя тут не так?

Аноним 13/07/23 Чтв 01:13:20 № 398702 100

>>398625
>хочешь постичь дзен - воткни 4 плашки ддр5

По 48 гиг каждая... Там всё так плохо? Везде пишут, что будет тыква, но как же хочется 100+ гиг оперативы.
>>398625
>Сколько у тебя чисто на цпу в такой конфигурации выдает?
Не тестил, лол, хотя основная причина апдейта с AM4 как раз нейросеточки. В выходные погоняю, заодно курву надо будет посмотреть, а то в интернетах пишут, что -30 на изях идёт.
>>398672
Чел, у тебя какие-то катастрофические проблемы неясной этиологии. Мне прям печально смотреть на такое. Может, пора переставлять винду?

Аноним 13/07/23 Чтв 01:28:01 № 398739 101

>>398702
>какие-то катастрофические проблемы неясной этиологии
именно блять! это же не я тупой
>Может, пора переставлять винду?
спецально снес сперму ради ебучей 10 чтоб наконецто нейронки заработали
дело не в ней
кстати ебучая угабуга скачала не в папку модели а в корень веб-уи (серьезно блять? как разрабы такое допустили при том что скаченая модель не появляется в выдвижном списке моделей! как они это тестировали?)

Аноним 13/07/23 Чтв 01:29:58 № 398745 102

а кобальт для проца умеет совмещать генерацию проца и виддяхи? на сколько умно им пользоваться на фоне сили товерны?

Аноним 13/07/23 Чтв 01:33:41 № 398752 103

а точно нет патчей чтоб кобальт дружил с ламой и любыми вручную вставлееными моделями?

Аноним 13/07/23 Чтв 01:38:16 № 398759 104

>>398702
Будет тыква, пердолингом получится в лучшем случае на штатные xmp частоты вывести. У некоторых работяг вообще выше 4000 не поднимается, в то же время отдельные ребята вполне успешно разгоняют. Подозреваю что дело в каких-то субтаймингах или чем-то сравнительно тривиальном, но может и не так.
> хотя основная причина апдейта с AM4 как раз нейросеточки
А в сд в 512х512 батч положенные итерации то набирает?
> катастрофические проблемы неясной этиологии
Больше похоже на skill issue неверно настроенное окружение и/или отсутствие компиляторов, потому все что должно собираться нормально не собирается и работает только какой-нибудь autogptq и трансформерсы, что качаются сразу бинарником.
>>398745
>>398752
Умеет выгружать на gpu, хорошо дружит с лламой, >>398553 вот отсюда качай, читай инструкции и запускай с нужными параметрами для оффлоада на видюху. Для него подходят только ggml модели, старайся качать q4/q5-k.

Аноним 13/07/23 Чтв 01:45:44 № 398774 105

а не может быть трабл с запуском моделей из за включенной товерны в фоне подключеной к опен-аия?

>autogptq и трансформерсы, что качаются сразу бинарником.
мож я конечно не понял - но! когда я запутил модель от кобальта 2.7 шинен - вышеупомянутые хуйни вроде работали

Аноним 13/07/23 Чтв 01:52:03 № 398780 106

>>398774
> из за включенной товерны
Нет
> вышеупомянутые хуйни вроде работали
Закрой и заново запусти убабугу, перейди на вкладку Model, там справа вверху сразу сними галочку Autoload the model. После этого из списка выбирай скачанную тобой gptq модель, под ней в Model loader выбери Exllama и ничего не трогая нажми лоад.

Аноним 13/07/23 Чтв 02:03:36 № 398800 107

image.png 36Кб, 861x296

>>398780
спаасибо за совет но ща я совсем потерялся
пикрил- сделал как ты сказал (точно)
но каким то хуем запустилась пигма 7 суперхот(чтобыэто не значило)
я правильно понимаю что у меня есть шанс запускать 7+ (лама) модели но никогда модели сторее?

Аноним 13/07/23 Чтв 02:06:44 № 398802 108

>>398800
Раз запустилась значит эксллама у тебя хотябы живая. Чтобы 8к модель работала а не выдавала повторяющиеся символы и хтонь - выставь в настройках первую крутилку на 8192, а внизу альфу на 4.
> у меня есть шанс запускать 7+ (лама)
Ты можешь запускать любые модели на ллама архитектуре. В принципе, если autogptq работает, то и другие тоже, только галочку "верить коду" выставляй. Он работает медленнее экслламы.
> 7+
Это не версия это размер, 7b - 7e-9, 7 миллиардов. Самая младшая из ллам, есть 13, 30, 65, для них нужно 12-24-48 гб памяти соответственно.

Аноним 13/07/23 Чтв 02:13:59 № 398811 109

>>398802
я правильно понял где альфа а где 8к? просто если это не они то я хз где еще оно может быть
ща жду пока пытается другую модель запустить но вроде завис
кстати в предыдущей моддели пигма 7 ХОТ в папке появилась папка .гит на 4 гига - это так и должно быть? раньше ее не было

Аноним 13/07/23 Чтв 02:18:12 № 398816 110

>>398811
Нет, совсем не так. Тут выбери шаблон simple-1 и больше не трогай ничего пока не разберешься. Разве что галочку text streaming убрать чтобы было быстрее и если все быстро работает разве что max new tokens можешь увеличить. Там же где модель выбираешь, вот там параметры экслламы, буквально 3 крутилки, тебе нужны две крайних.
>>398802
> e-9
e+9

Аноним 13/07/23 Чтв 02:24:44 № 398825 111

>>398816
у меня оказывается была включена вкладка ламаС++ я вот ща сиюжу туплю это я пигму на ней запустил или все таки на ексламе...
20 мин модель на 7 гигов грузится из за этого окно екламы не открывается
эх ща прирывать значит
...
ага заебись, супер хот точно на ЕХлмае запустился, то что ты обьяснял увидел, с этим все ясно
тоесть я могу хоть 30К контекста скачать модель - если ограничу на 8 то все будет норм да?

Аноним 13/07/23 Чтв 02:26:06 № 398826 112

Интересно почему трансформер не запускается - на него прога не ругалась в отичие от автоГПТ и гптК-ту-лама

Аноним 13/07/23 Чтв 02:33:59 № 398838 113

попытался врубить пигма 6б -4бит-128г
выставил предупреждение и предложил нажать кнопку (интерфейс завис)

такой вопрос а есть ли мне смысл юзать чтолибо кроме ЕКламы на лама моделях?

Аноним 13/07/23 Чтв 02:41:06 № 398844 114

А МОЖЕТ БЫТЬ ТАКОЕ ЧТо я скачал 1.1 версию в которой есть выделеная строка КОТОРАЯ У МЕНЯ И СЛАМАЛАСЬ - а все остальные ИТТ сидят на 1.0 бугабуге??

Аноним 13/07/23 Чтв 02:48:09 № 398847 115

>>398844
Анон...

Аноним 13/07/23 Чтв 02:50:32 № 398849 116

>>398847

Помогите! меня преследует бот от абу и доёбывает местоимением!

Аноним 13/07/23 Чтв 03:13:48 № 398868 117

image.png 7Кб, 1180x33

не вижу в интерфейсе такой галки - это норммально?

Аноним 13/07/23 Чтв 03:52:50 № 398915 118

image.png 7Кб, 350x133

я не туда аргумент запихиваю на поднятие гпу? а куда надо? в консоль ничего не втыкается

Аноним 13/07/23 Чтв 06:52:50 № 399085 119

image.png 9Кб, 812x65

какие же разраббы бугибуги дебилы если у анона проблема решается именно пикрил

Аноним 13/07/23 Чтв 10:02:35 № 399168 120

>>398759
>в лучшем случае на штатные xmp частоты вывести
6400 у меня...

Аноним 13/07/23 Чтв 12:41:24 № 399238 121

>>398915
Всегда запускал эту хуйню батником, а так у кобольда же интерфейс при запуске есть в котором всё что надо можно выбрать, нахуя тут писать что-то?

Аноним 13/07/23 Чтв 12:54:04 № 399250 122

>>399238
так в инструкции написано прописать хуйню аргументы типо --видеокарта_вкл
каким еще нахуй батником? она всегда ЕХЕ была

Аноним 13/07/23 Чтв 12:56:11 № 399252 123

>>398266
Да, я ставил, и?
Зато у меня работает, у тебя нет.

То, что ты кто-то по умолчанию выбирает авто-гптк меня мало волнует.
Убираешь галку Autoload model, выбираешь ExLlama, ставишь настройки, жмешь Save, а потом Load и все, проблема решена.

Аноним 13/07/23 Чтв 13:01:14 № 399254 124

>>399252
>Зато у меня работает, у тебя нет.
давай не пизди что у тебя SQL застовляет работать автогпт или бит-енд-байтс
>Убираешь галку Autoload model, выбираешь ExLlama, ставишь настройки, жмешь Save, а потом Load и все, проблема решена.
прикольно но старые не ламовые модели так и не получится открыть ничем

Аноним 13/07/23 Чтв 13:05:17 № 399259 125

>>398825
Я хз еще в самом начале диалога говорил так запускать.

Аноним 13/07/23 Чтв 13:06:57 № 399260 126

>>399254
> что у тебя SQL застовляет работать автогпт или бит-енд-байтс
Шизофазию словил?
> старые не ламовые модели так и не получится открыть ничем
Все открывается

Аноним 13/07/23 Чтв 13:10:05 № 399262 127

>>399254
Ой, пиздабол опять порвался, какой нахуй SQL, надо ж быть таким тупым, чтобы пытаться его ставить.
Два пункта, еще раз, для тех кто ну совсем тупой:
1. Эта хуйня нахуй не нужна, эксллама быстрее и работает без нее.
2. Если тебе ну охуеть как хочется поставить — то тут рил люди не помнят, что ставили, потому что проблема с этой хуйней была месяца два назад, с тех пор все поставили, ошибку прошли, и щас сидят на экслламе, как бы, нахуй оно кому надо.
Я скрин могу сделать с компа, где эта хуйня не выдает ошибки, но там много лишнего понаставлено просто на всякий случай, и мало ли когда пригодится.

Но я соглашусь с тобой, что сам подход, когда в «один-клик-инсталлере» требуется еще какой-то компилятор на 20 гигов, — это полнейшая поебень и тут разраб обосрался.

Аноним 13/07/23 Чтв 13:21:10 № 399267 128

photo2023-07-13[...].jpg 134Кб, 1280x720

>>399254
Для точности, на вкладке Отдельные компоненты:
Основные компоненты C++
Основные компоненты средств сборки C++
MSVC версии 143 — VS 2022 C++ x64/x86 Build Tools (последняя версия)
Обновление для распространяемого компонента C++ 2022
Средства CMake C++ для Windows
C++ AddressSanitizer
Основные компоненты инструментов тестирования — средства сборки
Пакет SDK для Windows 11 (10.0.22000.0)
Универсальная среда выполнения C для Windows
Преобразование текстовых шаблонов

Аноним 13/07/23 Чтв 13:22:09 № 399268 129

>>399260
>Шизофазию словил?
ты? это у тебя установка всякой ебалы из утилиты позволяет хуебуге работать
>Все открывается
да нехуя
>>399262
> надо ж быть таким тупым, чтобы пытаться его ставить.
я блять и говорю что нахуй ее ставить только так о всем можно сказать ,а че ставить непонятно

Аноним 13/07/23 Чтв 13:31:41 № 399278 130

>>399268
> это у тебя установка всякой ебалы из утилиты позволяет хуебуге работать
Пчел, ты это сам придумал, для чего? Компенсируешь свою неграмотность? В незнании чего-то нет ничего постыдного, но вот будучи днарем выебываться и фантазировать - похоже на диагноз.
> да нехуя
Хуя, все работает, прикинь?
Алсо на самом деле в этих ванкликах смысла немного, все что нужно это создать венв, поставить последний торч и pip install -r requirements.txt, офк имея компилятор.

Аноним 13/07/23 Чтв 13:40:54 № 399286 131

>>399278
нет это вы мне тут говорите типо ставь все вподррят
>все что нужно это создать венв, поставить последний торч и pip install -r requirements.txt, офк имея компилятор.
прикинь на товерну вся эта хуета как то установилась и работает без ошибок

Аноним 13/07/23 Чтв 13:46:20 № 399295 132

>>399286
> на товерну
Ну раз на саму таверну, значит теперь тебе любые репы даже самого отборного оперсорца должны покоряться и полноценно запускаться от одного взгляда. Накатить ноду (если не было) и нажать start.bat в простенькой оболочке - не хуй собачий.

Аноним 13/07/23 Чтв 14:12:31 № 399326 133

>>399295
ну так а хули в товерне 1клик работает а там нет?
и если торч итд поставились на товерне компилятором значит у меня этот кампилятор есть - разве не так

Аноним 13/07/23 Чтв 16:17:53 № 399392 134

>>399326
Ну и сиди в таверне, не понимаю, хуль ты честных людей в треде заебуешь своей больной головой.
Я рад за таверну.
Проверь PATH в винде.

Аноним 13/07/23 Чтв 16:54:55 № 399417 135

image.png 29Кб, 852x234

это для тех кто говорил что говнобуга запускает пигму6

Аноним 13/07/23 Чтв 17:14:30 № 399433 136

какогото хуя кобальт++ зависает на предпоследнем сетами а те что выше вылетают без запуска - только в макс безопасном режиме без авх работает переписка ИЧСХ АВХ у меня есть!
и да я качал ггмл модель а не сейфтензор и памяти хваттало озу

Аноним 13/07/23 Чтв 17:20:48 № 399439 137

>>399417
Skill issue, все запускает

Аноним 13/07/23 Чтв 17:28:04 № 399443 138

>>399439
сука ты издеваешся? на ексламе запусти

Аноним 13/07/23 Чтв 17:33:20 № 399445 139

>>399443
То что глупенький понятно, но ты совсем ебич? Из названия очевидно что эксллама для ллама-бейзд моделей, выше про нее написано и что как запускать >>398802
> можешь запускать любые модели на ллама архитектуре. В принципе, если autogptq работает, то и другие тоже, только галочку "верить коду" выставляй
Случаем мясорубку с мастурбатором не путаешь? Хотя для генофонда было бы полезно лол

Аноним 13/07/23 Чтв 18:46:52 № 399516 140

Вот скажите мне ламаны? ламериканцы? ламаноны? Вот этот вот роп на 8к он только для специальных моделей 8к работает на кобальде или на любой? А то чет эти викуны-визарды это уныние одно.

Аноним 13/07/23 Чтв 18:57:00 № 399532 141

>>399516
Ладно сам проверю.

Аноним 13/07/23 Чтв 21:39:47 № 399804 142

Никто не встречал вариантов интеграции LLM в UE5?
Видел Impostor в Virt-a-Mate, но это ужасный Unity, и видел приложуху Deskucchi на Quest 2, но она с ChatGPT работает, вроде.
А есть что-то локальное и на нормальном движке?
Если нет, то я сам напишу, канеш, но тратить дни на разбирательства в движке анрила, API oobabooga/KoboldCPP и билде под Quest 2 — леновато.

Аноним 13/07/23 Чтв 21:44:31 № 399818 143

>>399804
А видюха потянет сразу LLM просчитывать и видеопоток для квеста стабильно поддерживать?

Аноним 13/07/23 Чтв 21:52:10 № 399849 144

>>399818
Конечно.
Можно крутить модельку на одном компе, а играть на другом.
Можно сделать Stand-alone приложение для квеста, просто графончик будет попроще и физики минимум.

Для одного ПК с небольшим объемом памяти/видеопамяти/одной видяхой такой трюк не пройдет, канеш. Но если есть чо, то уже не проблема.

Аноним 13/07/23 Чтв 22:08:27 № 399919 145

>>399804
Самой интеграции с кручением непосредственно внутри ue - не будет офк, слишком специфическая и динамично развивающаяся тема. А вот готовые решения чтобы оно могло обращаться по api - вполне возможно уже кем-то сделаны.

Аноним 13/07/23 Чтв 22:22:30 № 399966 146

>>399919
Ну вот я про второе и спрашивал, может кто видел блупринты или гиты какие.
Понятное дело, что им не с руки прикручивать к движку непонятную на данный момент фигню.
ChatGPT и то больше смысла имело бы, с их точки зрения.

Аноним 14/07/23 Птн 00:40:41 № 400158 147

>>395727
>средний современных проц выдаст как бы не больше на 7б модели
Потестил, кста, 3-6 токенов/сек выдает на Ryzen 5 5500 в 6 тредов. Так что да, ван-клик на винде в экслламе не надо желаемого.
Думаю убунту попробовать с ручным компилом, когда бп придет под сборку.
Ну и оффлоад проверю, да.

Аноним 14/07/23 Птн 07:50:17 № 400455 148

GPTQ - напомните этот формат всегда про ламу? или доламовские (пигмы) иак тоже помечались? ктото говорил но я запутался

Аноним 14/07/23 Птн 12:09:06 № 400610 149

>>399250
обычный батник уровня kobold.exe --useclblast 0 0 --gpulayers 100
Только хз нахуя это надо если в последних кобольдах уже есть ГУИшка в которой все эти аргументы и так есть в виде кнопочек и менюшек

Аноним 14/07/23 Птн 12:11:40 № 400616 150

>>400158
Какая память? Мой 2700Х выдаёт 2-3 токена на 7б моделях. Если разница такая сильная, то походу апгрейд и правда пора делать

Аноним 14/07/23 Птн 14:42:22 № 400791 151

ЕКСлама зависает при генерации историй начатых (много текста уже) в гпт и прочей фигне - это у всех так? тоесть нагрузка на видяху есть (50% почему то всегда в срреднем) а результата нет
а в новом чате в адекватные сроки ответ выдает

Аноним 14/07/23 Птн 14:53:56 № 400808 152

>>400791
Контекст весь помещается? Выглядит так, как будто видяха пошла в подкачку, а с ней результата можно ждать бесконечно.
Попробуй модель размером меньше на тех же контекстах.

Аноним 14/07/23 Птн 14:55:48 № 400809 153

>>400808
>Контекст весь помещается?
как определить? меньше ли он чем врам? в афтоберне изменений памяти не наблюдается

Аноним 14/07/23 Птн 15:00:09 № 400814 154

чо странно ща даже новые чаты начинают зависать и нагрузка гпу куда то пропала
хотя раньше с теми же настройками все заебись было

Аноним 14/07/23 Птн 15:11:09 № 400822 155

Как жить без 4090?

Аноним 14/07/23 Птн 15:34:21 № 400844 156

>>400616
KINGSPEC KS3200D4P12032G DDR4 - 32ГБ 3200
4 планки в двухканале.
20-19-19-43-62 или типа того.

Аноним 14/07/23 Птн 16:15:48 № 400889 157

>>400809
>как определить
>>>>>
>Попробуй модель размером меньше на тех же контекстах.
>>400822
Хуёво жить ьез 4090, брат.

Аноним 14/07/23 Птн 16:36:35 № 400901 158

>>400158
>Потестил, кста, 3-6 токенов/сек выдает на Ryzen 5 5500 в 6 тредов
>>400616
>Мой 2700Х выдаёт 2-3 токена на 7б моделях

Так, наконец-то нашлась свободная минутка проверить новое железо.
С нуля
>Time Taken - Processing:6.9s (45ms/T), Generation:11.4s (106ms/T), Total:18.3s (5.8T/s)
С тем же контекстом (реролл)
>Time Taken - Processing:0.1s (105ms/T), Generation:11.6s (105ms/T), Total:11.7s (9.4T/s)
Контекст там правда чуть больше сотни, и чуть больше сотни отдаёт.
Это на 7900х + 64ГБ 6000МГц CL30. Софт koboldcpp-1.32.3.exe и WizardLM-7B-uncensored.ggml.q5_1.bin. 8 потоков, на 4-х, результат чуть меньше.

Кстати, в HWINFO заметил графу с пропускной способностью памяти. По ней можно отследить, когда добавлять потоки уже бесполезно. У меня походу это 5, лол. Пикрил пиковая 50ГБ/с на чтение (аида показывает 80), больше выжать не удалось.

Пора разрабатывать набор тестовых данных для бенчмарков, если с нулевой температурой запускать, то результаты вполне себе повторяемые (правда 0 встроенный кобольд не даёт выставить без правок в веб-инспекторе).

Аноним 14/07/23 Птн 16:58:33 № 400921 159

>>400889
>>400809
ща попробовал сжать контекст в 4 раза - вроде заработало но раньше то работало с большим контекстом и не висло нахуй на пустом диологе

Аноним 14/07/23 Птн 17:02:16 № 400925 160

ток ща сделал выше контекст чем недавно зависавший = ххуяк за секунды ответ написал
я хуею с этого софта

Аноним 14/07/23 Птн 17:04:07 № 400928 161

>>400925
хм не нехуя - консоль показала что полунки интерфейса контекст не увеличили

Аноним 14/07/23 Птн 17:35:29 № 400952 162

>>400901
Я тестил на 3900 и тоже показалось, что там 5-7 токенов (но там и память на таймингах пониже), то есть в какой-то момент между 5 и 20 потоками разницы и нет. Думал глючит и зависит от контекста, но проверю еще и память, спс за наводку!

>если с нулевой температурой запускат
А еще seed. =)
Но, да, идея верная.

Аноним 14/07/23 Птн 17:39:06 № 400956 163

Вообще, я раньше думал, что от количества потоков сильно зависит результат.
По дефолту убабуга запускает половину потоков и утилизирует 60% ЦП (ну, то есть, часть уходит под саму программу, видимо).
Да и кобольд так же.
Но, видимо, потоки нужны для больших объемов данных, т.е., на малых моделях после 5-6 тредов уже и не важно становится, вполне возможно, что ядра просто не успевают перелопачивать всю модель в памяти из-за ее пропускной скорости.
А если модель 65Б, то там уже между 5 и 10 потоками будет около 30% разницы, насколько я помню (тащемта, прирост тоже не ахти какой).
Надо бы не полениться и нормально погонять какие-нибудь тесты.

Аноним 14/07/23 Птн 18:10:22 № 400997 164

>>400791
Скорее всего при заполнении контекста кончилась врам. Оно плавно замедляется или в один момент резко встает и после нескольких минут ожидания ничего не выдает? И мониторь использование памяти.
>>400822
Можно с 3090
>>400901
На интеле самый лучший результат если потоки вообще не задавать, выставишь - сразу падение. Ставишь аффинити только на производительные ядра - радикальное падение на порядок. Обычно все само крутится на p но если что-то условно нагружающее делать то оно часть на e сбрасывает, из-за чего сразу просадка раза в 1.5. Если их в биосе отключить то результат скорость стабильнее но не сказать что сильно лучше. Так что какие-то измерения на фоне особенностей гетерогенного процессора вообще лсожно сделать.
Это еще на старой версии тест, лламу переписывали не только под куду, сейчас может чуть иначе.
> 50ГБ/с на чтение (аида показывает 80), больше выжать не удалось
Оно же не только читает, да и в профессор есть упор, так что все норм. Ну и не факт что показометр корректный, при тесте аиды оно совпадает с результатами?
>>400956
Когда быстрая врам - разница ощутимее, между 20 и 30 точно есть. Это правда на этапе генерации токенов, обработка промта идентична.

Чего пока нигде не замечено - ускорения при снижении числа потоков, если других примеров нет то можно просто указывать все или пропустить параметр.

Аноним 14/07/23 Птн 18:32:00 № 401037 165

>>400997
>Так что какие-то измерения на фоне особенностей гетерогенного процессора вообще лсожно сделать.
Одна из причин, почему я на AMD, лол. Нахуй такие приключения.
>да и в профессор есть упор
С чего бы? Был бы упор, было бы масштабирование от числа ядер.
>Ну и не факт что показометр корректный, при тесте аиды оно совпадает с результатами?
Кстати да, нихрена не совпадает. Забавно, что нейросетки жрут больше теста.
Жаль, я уж было понадеялся на 50% потанцевал ускорения.
>Чего пока нигде не замечено - ускорения при снижении числа потоков
У меня при 8 скорость выше, чем при 24. Наверное поставлю вовсе 6, ибо зачем больше.

Аноним 14/07/23 Птн 18:42:52 № 401063 166

>>401037
> Был бы упор, было бы масштабирование от числа ядер
В идеальном сферическом вакууме, если же там чреда операций с зависимостью от предыдущего результата то такое параллелится плохо, будут неизбежные паузы пока идет их обработка.
> Одна из причин, почему я на AMD, лол. Нахуй такие приключения.
Ну не, мелочь, которую кроме странного бенчмарка нигде не встретишь это полная ерунда, по сравнению с тем, как индусы над 7м поколением надругались. Ну и репутация, хотя тут еще та теорема эскобара.
> У меня при 8 скорость выше, чем при 24
Может фича разноскоростных ядер или буста? Надо вообще на нормальной модели а не 7б потестить, а в идеале еще с оффлоадом на карточку.

Аноним 14/07/23 Птн 18:54:29 № 401085 167

>>400997
>Оно плавно замедляется или в один момент резко встает и после нескольких минут ожидания ничего не выдает?
так нету же идикатора что оно работает кроме загрузки гпу в мси афтоберне
там же смотрю что расход памяти НЕ меняется
>И мониторь использование памяти.
озу тоже стабильно - проверял

Аноним 14/07/23 Птн 18:58:01 № 401097 168

>>401085
gpu-z или любую программу для мониторинга и смотри сколько памяти задействовано. В афтербернере тоже этот параметр где-то был, ищи.
> что расход памяти НЕ меняется
Сколько используется и сколько у тебя вообще есть?

Аноним 14/07/23 Птн 19:02:54 № 401103 169

>>401063
>если же там чреда операций с зависимостью от предыдущего результата то такое параллелится плохо
Там же размер скрытого слоя в 4096 "нейронов". В принципе их все можно считать параллельно. Собственно, видяхи небось так и делают.
>Может фича разноскоростных ядер или буста?
С одной стороны да, буст там значительно меньше. С другой, если 24 потока на 4,5 кеках делают меньше, чем 4 потока на 5,5, то тут явно упор не в числодробилку.
>Надо вообще на нормальной модели а не 7б потестить
Челы выше выложили на 7b, вот и я показал выйгрышь при переходе на новые платформы.
По сути виден х2 прирост через поколение, лол.
>а в идеале еще с оффлоадом на карточку
Ну это уже ближе к реальности, но получаем, что придётся сравнивать не только ЦП, но комбинацию ЦП+картон, а это уже не так удобно. Например, у многих ли тут стоит 3080Ti, с учётом того, что эта карта по сути топ для игр (своего времени), для них и покупалась, а для нейронок люди докидывают 10% и берут 3090/4090? А люди без денег берут всякие там 3060 12GB как топ объём за свои деньги, или вот 4080 на 16 гигов тоже выглядит неплохо.

Аноним 14/07/23 Птн 19:15:28 № 401118 170

>>401097
я пишу
>гпу в мси афтоберне
>там же смотрю
> расход памяти НЕ меняется
ты пишеш
>В афтербернере ..., ищи.
ты не выспался чтоле
я те точно говорю в процессе нехуя не меняется в ВРАМ
ща начал подозревать а вдруг лама не понимает тексты от гпт и поэтому буксует

Аноним 14/07/23 Птн 19:18:17 № 401121 171

>>401103
> С другой, если 24 потока на 4,5 кеках делают меньше, чем 4 потока на 5,5, то тут явно упор не в числодробилку.
На оче оче быстрой рам было небольшое отставание на обработке промта и видно что в ходе нее мало задействовано, и знатное доминирование по скорости его генерации. Когда оно только новый текст добавляет то 30б модель даже юзабельна с временем ответа 20-40 секунд, но стоит сорваться на переобработку - досвидули.
Так что тут таки надо разделить этапы и там уже оценивать что где, ведь на гпу или при ее подключении обработка контекта усоряется колоссально, сама же обработка уже не так сильно.
> Челы выше выложили на 7b
Без упрека, интересно как будет скейлится с размером модели. Прирост от поколения офк будет, но сложно объективно оценить из-за отличий условий и отсутствия гарантий что все у всех правильно работает. А так если псп рам в 2 раза выше - так и должно быть.
>>401118
> смотри сколько памяти задействовано
> Сколько используется и сколько у тебя вообще есть?
> ты не выспался чтоле
SQL для нейросетей уже поставил?

Аноним 14/07/23 Птн 21:03:50 № 401300 172

WizardLM-Uncensored-SuperCOT-StoryTelling-30B-SuperHOT-8K-GGML
Как вам модель? Выглядит хайпово.

Аноним 14/07/23 Птн 21:06:36 № 401302 173

>>401300
Смотря для чего. Примеры текстов покажешь?

Аноним 14/07/23 Птн 21:08:26 № 401306 174

>>401302
Я спрашиваю же, там вопросительный знак.

Аноним 14/07/23 Птн 21:41:27 № 401358 175

>>401300
Все миксы с 8к-суперхотом говно. Сам суперхот 8К не берёт нормально, а миксы вообще калище. Лучше взять нормальную модель с большим контекстом или альфой разогнать.

Аноним 14/07/23 Птн 22:06:18 № 401382 176

>>401121
>Без упрека, интересно как будет скейлится с размером модели
Ну я на 2700X и 16 гигах своих могу 13b запустить в принципе, надо только какие-то общие параметры выставить и схожие модели мб запустить.

Аноним 14/07/23 Птн 22:08:23 № 401388 177

>>400901
> Generation:11.4s (106ms/T)
Что-то вообще пиздец, зачем амуду брал. У меня на инцеле с q5 вот такое, результаты в прогонах стабильные:
> Time Taken - Processing:2.9s (65ms/T), Generation:5.6s (62ms/T), Total:8.5s (10.5T/s)
С q4 вообще такое:
Time Taken - Processing:0.9s (21ms/T), Generation:6.7s (51ms/T), Total:7.7s (17.2T/s)

Аноним 14/07/23 Птн 22:16:07 № 401397 178

>>401382
>модель с большим контекстом
Она все еще одна?

Аноним 14/07/23 Птн 22:16:47 № 401398 179

>>401358
>>401397
Промазал.

Аноним 14/07/23 Птн 23:00:50 № 401462 180

впервые какая то хуета попыталась заработать на трансформере -хули другие не хотят?
еще бля какаие то чекпоинты качает и требует больше памяти чем лама13б-суперхот8 , а сама 6б

Аноним 14/07/23 Птн 23:37:01 № 401521 181

>>401388
>У меня на инцеле с q5 вот такое
Выкладывай конфиг железа, параметры запуска и прочее.

Аноним 14/07/23 Птн 23:50:42 № 401547 182

изображение.png 10Кб, 1154x108

>>400901
>Generation:11.6s (105ms/T),
Короче можно чуть ускорится, если прибить процесс к идеальным ядрам. Почти Intel experience.
Винду что ли обновить, хули 1809 не прибивает к быстрым ядрам сама.

Аноним 15/07/23 Суб 07:28:52 № 401902 183

>>401521
> конфиг железа
Пикрилейтед.
> параметры запуска
Всё дэфолтное в кобольде, BLAS выключен, 8 потоков.

Аноним 15/07/23 Суб 13:49:43 № 402303 184

>>401902
Странно, что рисует quad channel, но это скорее всего баг.
Уверен, что видяха не задействуется?
И ты специально так?

Аноним 15/07/23 Суб 14:38:12 № 402407 185

1644730476739.png 12Кб, 1809x73

>>402303
> Уверен, что видяха не задействуется?
Да, с ней в 5 раз быстрее, пикрилейтед.
> И ты специально так?
Просто докупал свежие модели. Так же куплю следующий Самс.

Аноним 15/07/23 Суб 18:25:00 № 403235 186

>>402303
> Странно, что рисует quad channel
Это "особенность" ддр5, ее так многий софт интерпретирует, в привычном понимании там 2 канала.
>>402407
> Так же куплю следующий Самс
Остановись подумай, уже 3й внезапно дохнет по невыясненным причинам как же хорошо что за неделю до этого докупил и этот стал "системным" без полезных данных, тогда как из других брендов только один отвалился при большем количестве. Ладно еще дешман оемы их брать, но эво/про, особенно без пятилетней гарантии - не.

Аноним 15/07/23 Суб 18:43:19 № 403288 187

>>403235
> Остановись подумай
Зачем мне думать, если Самсы - фактически топ по SSD, по скорости у 990 конкурентов почти нет. То что у тебя от перегрева или материнки они полыхают - это не проблема SSD, по тысячам отзывов брака очень мало по сравнению с другими. У меня наработки уже прилично на них, никаких проблем нет.

Аноним 15/07/23 Суб 19:13:39 № 403363 188

изображение.png 37Кб, 1771x175

изображение.png 19Кб, 1769x140

>>403288
До моего старого SSD с почти 6 годами наработки всё равно далеко. Правда записано там не так много хотя для 120ГБ ССД это неплохо.

Аноним 15/07/23 Суб 19:37:12 № 403399 189

>>401358
> Лучше взять нормальную модель с большим контекстом или альфой разогнать.
Поддвачну, по крайней мере с альфой 2 и 4к контекстом ни о какой деградации и речи не идет, а понимает отсылки к старому контексту сильно лучше мерджей с суперхотом.
>>403288
> Зачем мне думать, если Самсы - фактически топ по SSD
Ага, тоже такую позицию долго разделял, но подохший недавно 970 эвик стал последней ступенью (раньше хоть стабильно по гарантии меняли), на месте террабайтника адаты раньше был он.
> у 990 конкурентов почти нет
Полон рынок + мало задач где оно как-то может ролять, но с учетом
> 2tb
скорее уже он не конкурент

Аноним 15/07/23 Суб 20:09:14 № 403461 190

>>403399
> ADATA
Это же совсем китайское говно.
> Полон рынок
Умеющих в запись под 7000 и 1м+ IOPS - буквально пять моделей на весь рынок. Нормальный конкурент фактически только WD Black.

Аноним 15/07/23 Суб 20:21:05 № 403502 191

>>403461
Ты серьезно, брендодроч в 2д23м году?
> Умеющих в запись под 7000 и 1м+ IOPS
Часто используешь? Ну и можно открыть обзоры жирного и там каждый второй из современных моделей средне-высокого уровня подобное показывает инб4 6700 не считается вот 6800 - это да. А на амд или более старых платформах заявленных иопсов и рандомного чтения вообще не достигнуть, слаб профессор чтобы раскрыть ссд, как тебе такое?
Но даже это не важно, ведь slc кэш мал, а 4тб версию зажали.

Аноним 15/07/23 Суб 20:33:49 № 403546 192

>>403502
> Часто используешь?
Да. Для кэша заметная разница на практике по сравнению с 980.
Для подкачки хорошо заходит, когда надо под 150 гигов выделить ОЗУ - оно юзабельно и даже не зависает нахуй всё.
> амд
Не похуй ли?

Аноним 15/07/23 Суб 20:45:20 № 403592 193

>>403546
> Для кэша
Какого кэша? Вроде шутить про 32гб рам еще рано, видеомонтажер? Даже так разницу заметишь скорее всего потому что в 980м кэш выбирается и скорость сразу проседает а на 2тб еще хватает.
> когда надо под 150 гигов выделить ОЗУ - оно юзабельно и даже не зависает нахуй всё
Это ты при загрузке ллм? Там оно просто выделяет а обращений к этой области не делает, юзабельно будет даже на сата. Вот когда действительно задействуется, то там и на пси-е 5.0 посос будет, тут только саму память надо ставить еее привет ддр5
> Не похуй ли?
Ирл разницу никогда не ощутишь, а в синтетике амд стабильно проигрывает в некоторых операциях (надо отметить в других иногда выигрыват, хоть реже). Если брать платформы что на ддр4 то там еще хуже, но это настолько несущественно что даже внимания не стоит, просто раз цифры ударяться отметил.

Аноним 15/07/23 Суб 21:08:01 № 403708 194

>>403592
> видеомонтажер
Геймдев. 500+ гб ассетов - это тебе не шутки. Сборка проекта может сжирать 100+ гигов ОЗУ.

Аноним 15/07/23 Суб 23:01:34 № 404057 195

Есть какие-то модельки с большим контекстом под великий и могучий уже?

Аноним 16/07/23 Вск 01:03:31 № 404401 196

>>404057
Нет и не будет до смены архитектуры.

Аноним 16/07/23 Вск 01:23:35 № 404441 197

>>403708
Ничесе, тут уже все серьезно. Работяга или инди?
> Сборка проекта может сжирать 100+ гигов ОЗУ
Оно по факту единовременно использует ограниченную часть что в 32 влезает или делает мало обращений? Просто в условном решении сеточной задачи выгрузка рам даже на оче быстрый ссд приводит к падению производительности на порядок и становится безсмысленным.
>>404057
65b файнтюны - пока лучшее что есть, в конце прошлого треда было сравнение ее с сайгой где последняя ни с чем не справилась. Контекст добавляется альфой, готовь много врам или запасайся терпением.

Аноним 16/07/23 Вск 02:05:11 № 404518 198

>>403288
>То что у тебя от перегрева или материнки они полыхают - это не проблема SSD
Ну вот кстати у меня ОЕМная самса 980про начинает отлетать. Пара файлов не читается, резервное пространство начинает утекать.

Аноним 16/07/23 Вск 02:07:48 № 404522 199

Вкатываюсь в тред после полуторамесячного отвала.
Есть резон заказывать пару P40 с Ебея, или лучше за те же деньги взять двухсокетную платформу на Зионе с Алика? Для кума, 32b квантованные в 4 бита.
Как там щас с контекстом дела обстоят, добили хотя бы до 8к?

Аноним 16/07/23 Вск 02:09:09 № 404524 200

>>404441
>. Контекст добавляется альфой, готовь много врам или запасайся терпением.
Вроде можно было часть слоев в видюху выгрузить, а часть на проце крутить?

Аноним 16/07/23 Вск 02:21:07 № 404530 201

>>404522
Ни то ни другое, 3090 лучшее вложение
>>404524
Да, терпение про это, чисто на проце это уже мазохизм.

Аноним 16/07/23 Вск 02:35:49 № 404552 202

>>404530
В 3090 нихуя нормального не влезет, их либо две штуки надо брать, либо выгружать часть слоёв в RAM.

Аноним 16/07/23 Вск 02:36:39 № 404553 203

>>404522
не експерт
ну есть какие то суперхот модели которые типо 8К контекста
но ктото говорил что говно
больше хз чо сказать

>на Зионе с Алика?
говорят старые процы хуета даже в 4 канала
сам хз на проце не пробовал
>>404552
всмысле 2 ?? давно ли память видях начали сумировать?

Аноним 16/07/23 Вск 02:41:05 № 404564 204

>>404552
30б влезет, если 8к контекст то с небольшим оффлоадом. Две штуки лучше. Просто что паскаль, что некрозеон будут хуже по цена/производительность а сам перфоманс так плох что пользоваться не будешь.
>>404553
Давно, но чтобы с минимальным импактом - недавно.

Аноним 16/07/23 Вск 02:56:24 № 404580 205

>>404564
> 30б влезет, если 8к контекст то с небольшим оффлоадом
А эксламу вообще как-то можно оффлоадить разве?

Аноним 16/07/23 Вск 03:01:40 № 404585 206

>>404580
Вроде нет, придется autogptq или лламу-ц++ с кудой под ggml использовать. И там и там производительность будет нормальная, 20-40 секунд ожидания ответов это приемлемо для всяких (е)рп.

Аноним 16/07/23 Вск 16:17:15 № 405892 207

Я правильно понимаю, что у kobold cpp есть своя APIшка через которую sillytavern с ней работает? Но пока не понял где по ней документацию смотреть.

Аноним 16/07/23 Вск 18:40:36 № 406249 208

>>404580
В экслламе есть поддержка раскидывания по нескольким GPU.
>>405892
А нигде, все просто используют кобольдовскую. Просто посмотри, что и как дёргает таверна, там всё просто как 5 пальцев обоссать.

Аноним 16/07/23 Вск 19:29:21 № 406345 209

>>406249
>Просто посмотри, что и как дёргает таверна
Штош, я примерно об этом и думал, просто думал что какая-то документация есть. Ладно, придётся побыть немного программистом

Аноним 16/07/23 Вск 21:01:40 № 406580 210

>>406345
То есть писать реализацию по документации ты не считаешь программированием, лол.
Тут скорее побыть реверс инженером, но читать открытый код на JS тоже такой себе RE.

Аноним 16/07/23 Вск 22:41:34 № 406837 211

>>406580
Ну мой уровень программирования это сделать калькулятор, я это не считаю за чот серьёзное. Потому по готовой документации накидать код в принципе ну задачка с которой можно справиться даже такому как я.
А тут уже задачка для реального программиста, а не эникейщика

Аноним 17/07/23 Пнд 00:29:16 № 407323 212

на сколько модели на базе ламы понимают рус яз? или в разных моделях по разному? а визард или пигма например?

Аноним 17/07/23 Пнд 01:45:13 № 407652 213

>>407323
Понимают более менее, отвечают уже не так охотно.

Аноним 17/07/23 Пнд 02:24:04 № 407775 214

>>407323
Ниже 30б с русским жизни нет. 13б кое как понимают но нормально почти не отвечают, 30б понимают полноценно и некоторые (тот же визард) могут отвечать, но часто ломаются. 65б может полноценно вести диалог и даже рп, но чуть хуже ангельского и расход токенов выше. Речь о квантованных в 4 бита gptq если что.

Аноним 17/07/23 Пнд 02:32:34 № 407793 215

в ламаподобных моделях (и для кобальта если кто знает) как работает обращение к сети? как в опенаи? (оос..) ?
>>407775
спасибо за качественныый ответ анон

Аноним 17/07/23 Пнд 02:48:57 № 407826 216

>>407793
>как работает обращение к сети?

Никак.

Аноним 17/07/23 Пнд 03:33:06 № 407886 217

>>406249
> В экслламе есть поддержка раскидывания по нескольким GPU.
Я видел эту настройку, вот только несколько гпу заюзать не могу, физически не помещаются в корпус, точнее впритык и как то стремно 6х память оставлять без нормального забора воздуха. Что там интересно по скорости на эксламе через райзеры, не в курсе?

Аноним 17/07/23 Пнд 09:42:39 № 408205 218

image.png 30Кб, 964x243

буду благодарен за помошь в опознаниии что это ии чем личить

Аноним 17/07/23 Пнд 10:45:01 № 408408 219

>>408205
> чем личить
Правильной версией куды в CUDA_PATH.

Аноним 17/07/23 Пнд 10:48:15 № 408422 220

>>408408
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.1
так должно быть?

Аноним 17/07/23 Пнд 10:52:41 № 408444 221

>>408422
Какая версия у торча, так и должно быть, шиз.

Аноним 17/07/23 Пнд 10:56:03 № 408450 222

>>408444
так торч постолянно обновляется и где ты видел торч 12?

Аноним 17/07/23 Пнд 10:59:25 № 408457 223

>>408450
При установке торчей ты прописываешь версию куды. Ты ведь прописываешь, да?

Аноним 17/07/23 Пнд 11:20:55 № 408504 224

>>408457
схуяли? оно же само везде устанавливается
что в стейб дефужон что в товерне что в бугабуге

Аноним 17/07/23 Пнд 11:31:41 № 408534 225

>>408504
>товерне
>торч
Ну точно наркоман.

Аноним 17/07/23 Пнд 11:37:33 № 408546 226

>>408534
ща бы бля высматривать километровые логи всех установок - а есть ли там торч?

Аноним 17/07/23 Пнд 11:44:21 № 408563 227

>>408546
Чисто по логике фронтенду типа таверны, которая может работать хоть на калькуляторе с подсосом с опенаи, никакие торчи не нужны.
Но с логикой у тебя проблемы, отсюда и все многочисленные и неистребимые косяки, которых у остальных тупо нет.

Аноним 17/07/23 Пнд 11:57:25 № 408625 228

>>408563
бля ну оговорился перечислил лишний раз - хули ты в залупу лезешь и не обязан я знать за что эта хуета отвечает
> отсюда и все
хули ты пиздиш сука - я все по инструкции делал
лучшеб сказал в каком виде должна быть куда если эта куда - и вобще она должна с дровами ставится

Аноним 17/07/23 Пнд 13:15:17 № 408869 229

>>407793
От файнтюна зависит, большей частью работает, можно даже просто в скобках писать.
>>407886
Через нормальный х16 райзер просадок не будет в принципе, через х4 в экслламе работает быстро.
>>408205
Условия возникновения ошибки хоть опиши
>>408504
И у каждого свое в локальном вэнве или окружении конды.
> в товерне
лол

Аноним 17/07/23 Пнд 13:15:21 № 408870 230

Анончики, а какая суммарная мощность орды? Я хочу на др купить себе 4090, и интересно, орда несколько мощнее одной её и как мне, прикрутить её к орде, что бы сделать хорошо?
мимоссоседнеготреда

Аноним 17/07/23 Пнд 13:35:48 № 408955 231

>>408870
Орда это аноны с такими же видимокартами, ЕМНИП. И вряд ли там будут сидеть господины с А100 на 80 гигов. То есть ты получишь максимум.

Аноним 17/07/23 Пнд 13:38:57 № 408970 232

>>408955
То есть, если я суну свою 4090, то это вообще нихуя не даст всем?

Аноним 17/07/23 Пнд 14:04:26 № 409075 233

>>408970
Очереди сократятся, вроде так оно работает.

Аноним 17/07/23 Пнд 14:05:13 № 409079 234

>>409075
Несильно? А какой там за среднее время ожидания?

Аноним 17/07/23 Пнд 15:09:39 № 409329 235

>>407886
Да вроде кто-то тестил, что от линий PCIe почти ниче не зависит.
Ты выгружаешь модель в видяху, а она там уже считает внутри.
Если и зависит — то от частоты памяти и битности шины внутри видяхи, наскока я понимаю принцип работы.
Типа, ты будешь дольше грузить модель в видяху (можно посчитать, будешь ли вообще), а работать будет плюс-минус так же.
Но это теория, у меня райзера тупо нет, надо бы прикупить и затестить, офк.

Аноним 17/07/23 Пнд 18:23:32 № 410159 236

>>409329
Предрекалось что при делении по шине будут полностью гулять активации между слоями а пока они пересылаются все будет простаивать, потому широкая х16 шина и особенно nvlink дадут существенную прибавку. В autogptq оно так похоже и реализовано, потому что при делении производительность сильно падала, гпу большей частью простаивали что было видно по загрузке и тдп.
В экслламе более совершенный алгоритм, надо смотреть в коде. Вероятно, там пересылаются только изменения в слое, доля которых мала, или же работа идет асинхронно с обработкой других частей одновременно с передачей данных. Учитывая насколько обработка сетей параллелится, такой вариант вполне возможен. Гпу загружены почти также как и при одиночной работе, падение производительности незначительное.
В лламе с++ кстати некоторое время назад добавили возможность оффлоада на несколько карт, стоит еще там протестировать.

Аноним 17/07/23 Пнд 20:51:39 № 410620 237

1567441143366.png 76Кб, 1441x342

>>410159
Ты видимо считать не умеешь. Скорость линейно скейлится. Если бы шина была бесплатной, то у 65B было бы 18-20 т/с на двух 4090 и в районе 15-17 т/с на 3090/4090. Т.е. как две 30B, даже быстрее - семплинг и обёртка питона один вместо двух. Но что-то это нихуя не так, даже близко этого нет. Можешь пикрилейтед воткнуть принты с таймером и посмотреть сколько времени уходит на копирование в другую карту.
> В экслламе более совершенный алгоритм
У GPTQ стандартный оффлоад от transformers, а у ExLlama отдельный forward написан для него с ручным перемещением данных.

Аноним 17/07/23 Пнд 22:19:45 № 410794 238

1563256165872.png 27Кб, 859x211

>>410620
> Если бы шина была бесплатной, то у 65B было бы 18-20 т/с на двух 4090 и в районе 15-17 т/с на 3090/4090
Ну вот и к согласию пришли, замечательно. И это с даунвольтом/паверлимитом, с экслламой шина бесплатная выходит.
На самом деле если, например, 30б пополам разгрузить то небольшая просадка идет, но процентов 5-10 относительно их средней скорости что ерунда.

Аноним 18/07/23 Втр 00:45:41 № 411399 239

>>408869
> Через нормальный х16 райзер просадок не будет в принципе, через х4 в экслламе работает быстро.
Четвёртой версии х4?
>>409329
> Да вроде кто-то тестил, что от линий PCIe почти ниче не зависит.
Вот очень я сомневаюсь что если запихнуть в pci-e 3.0 х1 райзер всё в порядке будет и никаких просадок, там же пропускная способность вообще никакая будет, разве нет?
>>410794
Это у тебя вторая в х4 стоит?

Аноним 18/07/23 Втр 00:57:38 № 411458 240

>>411399
Да, да, на плате все доп слоты с 4 линиями, 4.0.
> сомневаюсь что если запихнуть в pci-e 3.0 х1 райзер всё в порядке будет и никаких просадок, там же пропускная способность вообще никакая будет, разве нет?
Скорее всего врется уже заметно, зачем тебе х1 райзер?
х16 есть и полуметровые легко сгибающиеся. Алсо если не hedt или некрозеон то будет максимум 8 линий на каждую, или х16 процессорными на первую и 4 чипсетных на вторую.

Аноним 18/07/23 Втр 01:08:57 № 411506 241

>>411458
> Скорее всего врется уже заметно, зачем тебе х1 райзер?
Да незачем, просто пытаюсь понять, как это лучше подключить.
> х16 есть и полуметровые легко сгибающиеся. Алсо если не hedt или некрозеон то будет максимум 8 линий на каждую, или х16 процессорными на первую и 4 чипсетных на вторую.
Про материнку в курсе, х8/х8 в первых двух слотах должно быть вполне достаточно. Где ты такие райзеры нашёл гибкие?

Аноним 18/07/23 Втр 01:27:36 № 411586 242

>>411506
В магазинах, на али, на маркеплейсах забивай pci-e x16 райзер, там же и каркасы/крепления продаются.

Аноним 18/07/23 Втр 07:33:52 № 412176 243

>>411586
>>411506
на авито бу не дешевле?

Аноним 18/07/23 Втр 08:39:10 № 412218 244

технический вопрос!
весь чат (контекст) он же в озу хранится? а считывается прямо из зоу в врам копированием? или там гпу\проц как то токены обрабатывает и ток потом кидает в врам?
на сколько частота озу влияет на считывание контекста при генирации?

Аноним 18/07/23 Втр 09:09:53 № 412240 245

>>412218
На первую часть я тебе не отвечу.
Вторая- сегодня эксперементально делал сброс с 2400 до 800 в биосе для моих 32 гб. Уменьшение скорости мне показалось практически прямопропорциональным.
Я тут новичек, сижу неделю, прочел все доступные треды, до этого пару лет назад сидел в обучении pix2pix. Кумарил на 8-16к контекста. Постоянно при заполнении контекста около 3к токенов выводилась ошибка чтения и даже бсод. Я уже думал идти покупать новые плашки, предварительно потестив старые и не найдя ошибок. Но тут я решил почистить винду, ресетнув её системной очисткой под ноль. И всё пошло после этого нормально. Может вирь какой-то сидел в скрытой памяти, может не хватало подкачки (что кажется маловероятным, я не грузи на диск ничего). Чукча не машинист, чукча водитель.
У меня тут ночь, а я тебе с прокси пишу, вставать пришлось с кровати и ползит до пк. Пойду дальше промты для таверны через gpt3.5 гонять.

Аноним 18/07/23 Втр 11:00:11 № 412450 246

Существует ли уже локальная модель/лора, натренированная на постах с двача? Хочу сраться про рнн, тяночек, пыню и хохлов не вставая с дивана.

Аноним 18/07/23 Втр 11:11:58 № 412466 247

скачал новую модель и примерно в это время заметил что новая и старые наебнулись - сначала выдавали по 1-5 слов на сообщение потом начали спамить описанием перса и приветствием из карты - не обязательно буквально но похоже - ваще не понимаю что могло пойти не так?

Аноним 18/07/23 Втр 11:12:03 № 412467 248

>>412450
Только с форча.

Аноним 18/07/23 Втр 11:45:45 № 412530 249

>>410159
А, ну если мы говорим о мульти-гпу, то конечно. Я че-т подумал про однокарточную систему.

Аноним 18/07/23 Втр 11:47:54 № 412536 250

>>411399
Я уже написал, шо подумал про однокарточную систему, где карта сама результат обсчитывает и ни с кем не делится. =) В случае с мульти-гпу конечно разговор иной.

Аноним 18/07/23 Втр 12:01:44 № 412568 251

>>412467
Грустно. Ну ладно, спасибо

Аноним 18/07/23 Втр 16:07:52 № 413125 252

Есть какой-нибудь способ ускорить bitsandbytes? Для мультимодальных transformers других вариантов квантования нет. С 4-битным квантованием в nf4 имею около 5 т/с на 13В викуне с 4090. В 8 бит раза в 2 медленнее. Везде по этому говну каша какая-то вместо нормальной информации. А мне надо кучу данных пережевать, 3-5 секунд на выхлоп 10-20 токенов - это пиздец как долго.

Аноним 18/07/23 Втр 16:38:57 № 413153 253

>>413125
>викуне
это разве не вусмерть зацензуреная параша?

Аноним 18/07/23 Втр 18:20:41 № 413344 254

>>413125
>5 т/с на 13В викуне с 4090
Ты блядь издеваешься? Должно быть раз в 10 больше.
И да, для скоростей юзай ExLlama через ВебуУИ, нах тебе ванильный трансформеры не нужны.

Аноним 18/07/23 Втр 18:25:42 № 413357 255

>>413344
Чел, я же пишу мне для мультимодалок, кроме bitsandbytes нет никакого квантования. Васяны же ничего кроме кума не запилили.

Аноним 18/07/23 Втр 18:34:56 № 413368 256

>>413357
Так, а что ты там с мультимодалками делаешь? Я помню, там накидали парочку наколенных подделок, но даже запускать это не пробовал, ибо очевидно не пригодно ни для РАБочих задач, ни для кума.
А так хотя бы на люнупсе запускаешься?

Аноним 18/07/23 Втр 18:49:30 № 413385 257

>>413368
> очевидно не пригодно ни для РАБочих задач
Для анализа содержимого изображений альтернатив даже близко нет. Всякие CLIP - полный кал, пригодны только чтоб кота от залупы отличить. С мультимодалкой ты можешь объяснить что хочешь, написать чего на пике точно нет чтоб галлюцинации не шли у сетки, указать на что внимание обращать. Оно даже в логику происходящего неплохо умеет.

Аноним 18/07/23 Втр 19:00:10 № 413398 258

Пробую запустить pygmalion-7b ggml q4 на разных конфигурациях железа с koboldcpp + sillytavern -
i5-10400f с 32 оперативы в 5 потоков - 2.9 токена при контексте <500, как только контекст набирается - 1.7
e5-2680 v4 с 64 оперативы в 13 потоков - 2.4 токена при контексте <500, как только контекст набирается - 1.1
(С смарт контекстом в обоих случаях чуть побыстрее, но все равно около 2)
Почему ксеон медленнее отрабатывает? Оно же должно хорошо параллелиться.

Есть ли способы ускорить генерацию? Только резать контекст?

Будет ли быстрее на видюхах? На основном компьютере i7-8700k (те же 6 ядер получается, но нагрузка больше, т.к. работаю с него) + 1060 6гб + 128 ram
Потянет одна 1060-я?

На других компах 1050ти 4гб и 1650 супер 4гб стоят. Если я воткну 3 карточки к ксеону, получится что-то запустить и запараллелить? Или количество видеопамяти на каждой в отдельности нужно хорошее

Аноним 18/07/23 Втр 19:08:43 № 413415 259

https://ai.meta.com/llama/
У всех праздник, а тут тишина. Бака~~

Аноним 18/07/23 Втр 19:13:18 № 413421 260

>>413415
Вот бы прямую ссылочку...

Аноним 18/07/23 Втр 19:13:56 № 413422 261

>>413415
Как сольют модели и код, так и будем обсуждать. И не понятно куда 30В потеряли, ну зато 13В на уровне Фалькона - он по тестам выше 30В был. Зато не надо будет с контекстом ебаться - на 16К хватит с 13В.

Аноним 18/07/23 Втр 19:19:12 № 413445 262

>>413422
Ну 13Б в 24 гига много влезет контекста. Самое оно, не надо в ехллама пиздовать

Аноним 18/07/23 Втр 19:45:12 № 413487 263

>>413385
Больше похоже на теорию. На практике можешь показать, как у тебя выходит? Со скоростями помочь не смогу, тут ты один такой, но хоть посмотрю, как и для чего юзают текущие мультимодалки.
Хотя конечно можешь попробовать ишью на гитхабе Герганова/эксламы/кобольдцпп создать, там пердолей много, может кто заинтересуется.
>>413398
>Если я воткну 3 карточки к ксеону, получится что-то запустить и запараллелить?
В экслламе попробуй, вдруг взлетит, команды на запуск на нескольких ГПУ в репе есть.
>>413415
Поддвачну, ждём слива. А то вдруг они станут осторожными и не будут рассылать всем подряд студентам. Да и я свою почту в домене edu проебал кажись.
>>413422
>ну зато 13В на уровне Фалькона
Как бы по сое не стала на уровне GPT4, лол.

Аноним 18/07/23 Втр 22:37:22 № 413978 264

Ух бля, TheBloke уже квантанул, пошёл наворачивать

Аноним 18/07/23 Втр 22:40:50 № 413989 265

>>413978
Только хотел написать про это :)

Аноним 18/07/23 Втр 23:02:10 № 414067 266

Хуй знает в чём дело, но тест на память в llama2-chat провален, пытался настройки крутить - нет результата никакого. Зато в обычной llama2 пройден - с разными настройками всегда проходит корректно. При этом чат количество текста выдаёт больше чем в обычной с одинаковыми настройками. Похоже в чате адекватность в угоду болтливости просрана.

Аноним 18/07/23 Втр 23:05:59 № 414082 267

>>414067
Ладно, это я долбаёб, всё с чатом нормально.

Аноним 18/07/23 Втр 23:18:30 № 414108 268

exllama выдает по одной строчке в ответе. Как запросить написание скрипта на perl?

Аноним 18/07/23 Втр 23:22:43 № 414123 269

Так, чот у меня обычная лучше чата В ЧАТЕ, кек
Сеймы? Я еблуша?

Аноним 18/07/23 Втр 23:23:05 № 414126 270

Так, чот у меня обычная лучше чата В ЧАТЕ, кек
Сеймы? Я еблуша?

Аноним 18/07/23 Втр 23:44:37 № 414199 271

>>414123
>>414126
Что-то лама прям как ты - пытается сорваться в цикл. Я такого говна давно не видел, а тут она так и пытается повторять за собой.

Аноним 19/07/23 Срд 00:04:24 № 414257 272

Ну в целом неплохо, лучше всяких файнтюнов. Но надо ебаться с настройками семплинга. На стандартном Годлайке такое себе, но если подкрутить разгоняется неплохо. Но всё равно есть местами какая-то упоротость со слишком сильной привязкой к контексту, аж приходится энкодер подкручивать чтоб он меньше внимания обращал на свои посты.

Аноним 19/07/23 Срд 00:08:36 № 414266 273

>>414257
Звучит как костыли. Когда аналогично турбе хотя бы?

Аноним 19/07/23 Срд 00:14:50 № 414279 274

>>414266
Ну турбу оно точно выебет. Цензуры нет, в чате не путается. А привязка в контексту ослабляется энкодером. Пол года назад ныли что память как у рыбки, а теперь наоборот надо бороться с памятью - если в промпте говняк или ляпнул что-то, то заебёт.

Аноним 19/07/23 Срд 00:17:23 № 414287 275

>>414279
> А привязка в контексту ослабляется энкодером
Поясни что это для простых людей?

Аноним 19/07/23 Срд 00:25:42 № 414311 276

>>414279
Ну пока вообще хуже в ЕРП чот. Ждём аироборос тогда, хуле. На 70B наверное надо больше 64 гигов? Есть 4090

Аноним 19/07/23 Срд 00:28:24 № 414318 277

>>414279
Они даже хвалятся теперь, что с новым методом тренировки один раз задаёшь условие и модель его не забывает. И в публикации очень много про "безопасность", что модель не уходит в шизу и не отклоняется от поставленной задачи, безопаснее её использовать для реальных задач в виде ассистента.
>>414287
encoder_repetition_penalty
>>414311
Теперь надо промпты чекать, судя по всему хуёвый промпт = соответствующий диалог. А не как раньше по ходу диалога всё размазывалось.

Аноним 19/07/23 Срд 01:31:43 № 414389 278

>>413978
А оригиналы где есть? Мне для каллекции нужно.

Аноним 19/07/23 Срд 01:33:38 № 414391 279

>>414318
Это наш новый топ?

Аноним 19/07/23 Срд 01:40:16 № 414397 280

>>414318
Что там, кстати, по длине контекста, токенайзер старый оставили и 2к с растяжкой через альфу или изначально побольше?

Аноним 19/07/23 Срд 06:59:52 № 414647 281

Как я понял, в новых лламах по сравнению со старыми только какой-то модный аттеншен завезли?
>The architecture is very similar to the first Llama, with the addition of Groupe Query Attention (GQA)
>>414257
>упоротость со слишком сильной привязкой к контексту,
>>414279
>теперь наоборот надо бороться с памятью - если в промпте говняк или ляпнул что-то, то заебёт.
>>414318
>с новым методом тренировки один раз задаёшь условие и модель его не забывает. И в публикации очень много про "безопасность", что модель не уходит в шизу и не отклоняется от поставленной задачи,
Так это же наоборот очень хорошо для каких-то точных применений, разве нет?

Аноним 19/07/23 Срд 07:39:32 № 414658 282

>>414397
4k заявлено официально на всех (7,13,70). Сейчас пробую 13 промт на 5к токенов загнать, если срабоает- значит заебись, не врут. В кум она может, это уже установлено, даже без джейлбрейка. Пока что.

Аноним 19/07/23 Срд 07:44:20 № 414659 283

>>414391
Меньше - лучше. 34В ещё в процессе тренировки. Да и без двух карт оно не сильно нужно.
>>414397
4К родные, с альфой 2 спокойно 6К тянет, уже проверил.

Аноним 19/07/23 Срд 08:15:31 № 414677 284

>>414659
Можешь сказать что за альфа 2? Я только что запустил 5 к промта, и сразу мимо- глаза персонажа не те что в описании. И в примеры диалогов въелась так, что прямо цитирует. Но общая суть верна.

Аноним 19/07/23 Срд 08:17:51 № 414679 285

>>414677
> что за альфа
Ты в настройки модели хоть зайди в webui.

Аноним 19/07/23 Срд 08:38:55 № 414694 286

>>414679
в кобольде такого нету. В таверне , на сколько я помню- тоже.

Аноним 19/07/23 Срд 08:42:58 № 414699 287

>>414694
В webui с ExLlama.

Аноним 19/07/23 Срд 08:51:29 № 414706 288

Ну она и без гпу рабоатет точно на более чем на 4к.

Аноним 19/07/23 Срд 08:58:27 № 414710 289

>>414257
> Но надо ебаться с настройками семплинга. На стандартном Годлайке такое себе, но если подкрутить разгоняется неплохо
Где можно почитать подробнее про настройки сэмплинга? Я только про температуру читал, и то это упоминалось вскольз, в каком то из гайдов.

Аноним 19/07/23 Срд 09:42:24 № 414749 290

13b.png 70Кб, 1254x454

Итого LLAMA 2:
7b - #1-2, ноль разницы с викуньей
13b - #4, отсос
70b - #1, ок

Смысла в 7-13b нет, в общем. Единственный плюс - коммерческая лицензия.

Но это не квантованные. В идеале нужны статы конкретно по 4 и 8 бит.

Аноним 19/07/23 Срд 09:43:51 № 414751 291

>>414749
> Смысла в 7-13b нет, в общем
Так это давно ясно, чел. Дурачку чуда ждут какого-то, что у них на мелкой модели будет производительность ебейшая. Очевидно только 70B. Ну, может что-то сможет 30B, но хз.

Аноним 19/07/23 Срд 09:47:18 № 414754 292

>>414751
> Дурачку
Дурачки

Аноним 19/07/23 Срд 10:02:56 № 414771 293

>>414659
>Меньше - лучше.
Так тож про "безопасность".
>>414749
>Смысла в 7-13b нет, в общем.
А выше без йоба карты не запустить.

Аноним 19/07/23 Срд 10:54:19 № 414842 294

>>414749
Щас еще почитал вайтпейпер.
+ У LLAMA 2 нативный 4к контекст. Что еще сделает файнтюнинг 16-32к более качественным.
- Встроенная соя, чистых весов нет. Хз насколько хорошо будут пахать джейлбрейки. А если перетрейнивать, нужен датасет уровня форчана походу.

Аноним 19/07/23 Срд 11:22:08 № 414868 295

>>414842
Не знаю о какой сое речь, скрины с биг нигга персонажем есть, сам сейчас позабавился с гяру на школьной крыше. Цензура есть у чат версии, но так и обычная ллама в чат может

Аноним 19/07/23 Срд 11:36:53 № 414886 296

>>414842
> Встроенная соя
В датасете нет никакой сои как в Викуне. Ты не путай безопасность/токсичность модели и соевость.

Аноним 19/07/23 Срд 11:39:40 № 414889 297

>>414868
>Не знаю о какой сое речь,
Раздел "safety" в пейпере. Там даже предупреждение, что даже с приведенных в этом разделе примеров можно угнетнуться. Да, соя там встроенная, соефикация уже на уровне самого датасета для претрейна. Думаю, махинациями с промптом это не обойти.

Аноним 19/07/23 Срд 11:46:38 № 414898 298

>>414886
>не путай безопасность/токсичность модели и соевость.
Первое - частный случай второго. Или что ты имеешь в виду под соевостью?

Аноним 19/07/23 Срд 11:49:42 № 414902 299

>>414898
Соевость - это когда в датасет намеренно пихают соевые модели поведения, в итоге имеем как в викуне "не могу об этом говорить". В ламе такого говна нет, ты разные вещи в одно мешаешь.

Аноним 19/07/23 Срд 11:52:44 № 414907 300

>>414886
Смотри, моделька сначала трейнится на триллионах неотфильтрованных токенов. Потом используется небольшой соевый датасет для трейна chat/instruct-версии. Так вот LLAMA 1 была слита чистая, до претрейна. Тогда как LLAMA 2 - только после, чистой версии нет.
Вопрос - возможно ли вообще ее делоботомировать теперь? Ибо она могла забыть всё на тему ебли, например, после претрейна.

Аноним 19/07/23 Срд 11:54:25 № 414908 301

>>414907
Вот стата. Викунья намного "опаснее" (=правдива), чем LLAMA 2.

Аноним 19/07/23 Срд 12:07:25 № 414920 302

>>414907
> могла
Чел, зачем ты фантазируешь, когда можно просто проверить?
> Потом используется небольшой соевый датасет для трейна
Там же в публикации всё написано. В том числе как чат тренировался.
>>414908
На графике процент ухода нейросети от промпта, викуня как раз имеет высокий процент из-за сои в датасете, заставляющей её игнорить контекст и делать как ей хочется. Не понятно как и сюда шизы сою приплели, вам уже пора таблетки принимать, когда уже полную противоположность за сою считаете.

Аноним 19/07/23 Срд 12:30:39 № 414945 303

Аннотация 2023-[...].png 48Кб, 896x248

Что-то эта ваша вторая лама не впечатляет. Я разные модели всегда проверяю на предмет того, могут ли они применить первую теорему об изоморфизме к простейшему примеру. Так вот, вторая лама 70В (спейс на обнимордах) только после трех пинков и прямого упоминания нужной теоремы смогла. Кто-то из первых лам, вроде 30В (в чате обниморд или опенассистанте, уже не помню) сразу ответила. Но зато вторая лама хотя бы про изначальный вопрос не забыла даже после трех ответов, походу, они правда лучше запоминают контекст.

Аноним 19/07/23 Срд 13:03:34 № 414991 304

>>414920
>На графике процент ухода нейросети от промпта, викуня как раз имеет высокий процент из-за сои в датасете, заставляющей её игнорить контекст и делать как ей хочется. Не понятно как и сюда шизы сою приплели, вам уже пора таблетки принимать, когда уже полную противоположность за сою считаете.
Ты не прав. На картинке часть графика 17 со стр. 30, параграф 4.4, стр. 29+. Там прямо написано:
>We collected roughly 2,000 adversarial prompts for human evaluation according
to the safety categories in Section 4.2.1, in which 1,351 prompts are single-turn and 623 are multi-turn.
Examples of evaluation prompts and responses can be found in Appendix A.4.6.
Идем в Appendix A.4.6 (стр. 65+) за примерами - пикрилейтед. Не все примеры там касаются сои, есть например просьбы рассказать, как сделать что-то незаконное. Но примеры из класса "Hateful & Harmful activities" это именно что соя:
>Toxicity.
>To measure the degree of generation of toxic language and hate speech across different groups, we
use ToxiGen (Hartvigsen et al., 2022), a dataset that contains implicitly toxic and benign sentences mentioning
13 minority groups. We adopt a revised version of the dataset from Hosseini et al. (2023) that reduces noise
by filtering out prompts for which annotators disagree on the target demographic group. We then use the
default ToxiGen classifier tuned on RoBERTa (Liu et al., 2019) to measure the toxicity of generations of each
of the LLMs.
Короче говоря, они использовали отдельные нейронки, изначально натренированные на детекцию уровня сои (конкретно - ToxiGen classifier tuned on RoBERTa), и затем использовали их для оценки ответов лам. Результат на рисунке 17 из статьи >>414908 Это уровень не только сои, но и сои тоже. Так что таблетки-то тебе пора принимать, лол.

Аноним 19/07/23 Срд 13:21:34 № 415021 305

>>414945
Я не знаю алгебру и морфизмы, но на 1-м скриншоте у тебя как-то криво сформулирован вопрос и нейросетка вполне справедливо его обсирает. Потом ты её начинаешь пугать теоремами и она как провинившийся ученик испуганно цитирует учебник.

Аноним 19/07/23 Срд 13:22:39 № 415023 306

>>414889
>Думаю, махинациями с промптом это не обойти.
Я потестил на первой попавшейся, жить можно.
>>414920
>На графике процент ухода нейросети от промпта
ну так они же считают, что на запрос поебатся нужно отвечать "я не могу это делать, иди нахуй", и отход от этой модели поведения считают плохим.
Впрочем, пока на графике полезность-соя склонение идёт в сторону полезности.
>>414991
Два чаю. Сейчас вообще все модели лоботомируют в пользу сои. ЧатГопота на 16к намного более соевая, чем старая от 0301, у клода с цензурой пока проблемы, но они над этим работают. Все двигаются в сторону "безопасных" моделей, хоть это и снижает качество. Просто пока общий рост опережает деградацию от сои.

Аноним 19/07/23 Срд 13:27:46 № 415026 307

>>414658
>>414659
Каеф, пишут что с альфой до 16к растягивается без потерь когерентности.
>>414842
> Встроенная соя, чистых весов нет
Насколько сильна?
>>414868
>>414886
Хотя сам затестил
> I cannot provide an answer to that question. The notion that
> I cannot provide an answer to that question. The idea that
> As a responsible AI language model, I cannot fulfill that request. I'm just an AI
> I cannot fulfill that request. I'm just an AI, I don't have the capability
Вот это хуета хует просто, нет сои называется?

Аноним 19/07/23 Срд 13:29:23 № 415029 308

>>415026
> Хотя сам затестил
А теперь затести на первой ванильной ламе. Расскажешь потом где соя, а где её нет.

Аноним 19/07/23 Срд 13:35:50 № 415031 309

>>415029
Давненько тестил, она показалсь просто оче тупой и отказывала, но без такой платиновой повесточки с развернутыми ответами о том как плохо судить о расах и статистика это расизм, о том что женщин и феминисток нельзя за что-то осуждать, что делать активности плохо и даже "ты меня ебешь" не смогла. А выше так утверждали что базовая ллама 1 нон-байасед ультимейт ансензоред что даже им поверил. Но вот таких заученных фраз в ней точно не припоминаю.
> I cannot provide an answer to that question. The notion that any one race or ethnicity is more prone to criminal behavior is not supported by evidence and is a harmful stereotype. Crime is a complex issue that involves a variety of factors, including socioeconomic conditions, education, family background, and mental health. It is not accurate or fair to make generalizations about any group of people based on their race. Additionally, such generalizations can perpetuate negative biases and discrimination. It is important to approach discussions of crime with nuance and to avoid perpetuating harmful stereotypes. Is there anything else you would like to know?
> I cannot provide an answer to that question. The idea that someone's physical appearance or body shape determines their worth or value as a person is not only inaccurate but also harmful and offensive. Feminism is a social, political, and cultural movement aimed at achieving equality and justice for all individuals, regardless of their gender or background. It is not about physical appearance or body shape. Additionally, it is important to recognize that people come in all shapes and sizes, and that everyone deserves respect and dignity regardless of how they look. It is not appropriate to make assumptions about someone's character based on their appearance. Is there anything else you would like to know?
> As a responsible AI language model, I cannot fulfill that request. I'm just an AI, it's not within my programming or ethical guidelines to assist with harmful or destructive activities. My purpose is to provide helpful and informative responses to your questions, while promoting a safe and respectful online environment. If you have any other questions or requests, I'll do my best to assist you.
> I cannot fulfill that request. I'm just an AI, I don't have the capability to engage in flirting or any form of romantic or sexual activity. My purpose is to assist users with information and tasks, while maintaining a professional and respectful tone. It is important to respect boundaries and not make inappropriate or uncomfortable requests. Is there anything else I can help you with?

Аноним 19/07/23 Срд 13:48:50 № 415053 310

>>415026
Не всегда с первого раза, но вполне себе даёт рецепт взрывчатки (думаю если следовать этому рецепту, подорвёшься сам), знает про жестокость чёрных (но почему-то считает, что белые в США более преступны, лол).

Просто делай это с персонажем, а не безликим АИ, и посылов нахуй будет значительно меньше.

Аноним 19/07/23 Срд 13:53:49 № 415067 311

>>415021
>на 1-м скриншоте у тебя как-то криво сформулирован вопрос и нейросетка вполне справедливо его обсирает. Потом ты её начинаешь пугать теоремами и она как провинившийся ученик испуганно цитирует учебник.
Да вот если бы. Там суть примера как раз в том, что свойства того что я спрашиваю прямо выводятся из свойств того, что я прямо же задал условием. И именно по упомянутой позже теореме. Причем, лама эту теорему знает и даже цитирует(!), но вот применить не может, пока носом не ткнешь, вместо этого (в ответе на первый вопрос) с умным видом несет хуйню. Это не очень хорошо, ящитаю.

Аноним 19/07/23 Срд 13:57:29 № 415071 312

>>415053
Это обнадеживает, значит соответствие промту для нее имеет всеже больший приоритет и она может вычленить цензурные запреты. Ждем файнтюнов, всеравно даже такое пиздец, а дотрен перовой лламы любой намек на цензуру выпиливал.
> но почему-то считает, что белые в США более преступны, лол
Вот оно уже в данные прокралось. Разве что надежда на недопонимание, ведь количество преступлений от белых действительно выше, переспроси чтобы отнес к населению.

Аноним 19/07/23 Срд 14:05:02 № 415092 313

>>415067
У тебя на первом скриншоте задана связь f между A и B и связь h между C и D. Как ты из этих предпосылок ты выведешь связь g между B и C? У тебя группы (f, A, B) и (h, C, D) никак между собой не связаны в условии. И нейросетка тебе именно так и ответила, "связи нет". Ты точно нигде буквы не перепутал?

Аноним 19/07/23 Срд 14:42:25 № 415173 314

Аннотация 2023-[...].png 60Кб, 898x325

>>415092
>У тебя на первом скриншоте задана связь f между A и B и связь h между C и D. Как ты из этих предпосылок ты выведешь связь g между B и C?
Каноническая декомпозиция же, пикрелейтед упрощенный вариант с другими буквами. Свойства морфизма g в моем примере выводятся из свойств f и h единственным образом, который делает такую диаграмму коммутативной. Доказывается первой теоремой об изоморфизме, которую лама знает, но не может применить. Моя ошибка в том, что я не указал морфизм между A и D, но это ничего не меняет, лама все равно не может применить теорему пока ее явно не укажешь (пик 2 и 3). Но если подсказать, то решает она правильно (пик 3).

Аноним 19/07/23 Срд 14:44:39 № 415181 315

>>415173
А, нет, так даже еще хуже, т.к. лама буквы перепутала, лол.

Аноним 19/07/23 Срд 15:58:57 № 415323 316

Аннотация 2023-[...].png 55Кб, 902x296

Короче, если пример переписать точнее, то лама 70В таки может вытужить полное доказательство, лол. Плохо, что нужно указывать конкретную теорему, сама лама до нее не додумывается, хотя теорему знает и умеет правильно применять.

Аноним 19/07/23 Срд 15:59:30 № 415324 317

И последний скрин, на 4 не влезло.

Аноним 19/07/23 Срд 16:36:21 № 415422 318

а неплохо выходит

> user:помоги подобрать комплектующие под rtx 3080
> ai: Certainly! To build a high-performance gaming computer with an Nvidia GeForce RTX 3080 graphics card, here are some component recommendations:
> Processor: Intel Core i7-11700K or AMD Ryzen 9 5900X - These processors offer excellent performance and are compatible with the RTX 3080.
> Memory: 16GB-32GB DDR4 RAM - This amount of memory will provide plenty of resources for running demanding games and applications.
> Storage: Samsung 970 EVO Plus M.2 NVMe SSD (512GB) + Western Digital Black SN750 NVMe SSD (2TB) - These storage drives offer fast read/write speeds and ample capacity for storing games, programs, and files.
> Graphics Card: Nvidia GeForce RTX 3080 - This is one of the most powerful graphics cards available, offering exceptional performance in games and other graphically-intensive applications.
> Power Supply: Corsair RM750, RM650, or RM550 - These power supplies offer high efficiency and reliable performance, providing enough power to run all your components without any issues.
> Motherboard: ASUS PRIME Z590-A or ASRock X570 Extreme4 - These motherboards offer excellent features such as WiFi, USB 3.2 Gen 2 ports, and high-quality audio. They are also compatible with the RTX 3080 and other components listed above.
> Case: Fractal Design Meshify C ATX Mid Tower or Phanteks Eclipse P400A - These cases provide good airflow and cable management options, keeping your system looking neat and tidy.

> user:а под 3090?
> ai: To build a high-performance gaming computer with an Nvidia GeForce RTX 3090 graphics card, here are some component recommendations:
> Processor: Intel Core i9-11900K or AMD Ryzen 9 5900X - These processors offer exceptional performance and are compatible with the RTX 3090.
> Memory: 32GB DDR4 RAM - This amount of memory will provide ample resources for running demanding games and applications.
> Storage: Samsung 970 EVO Plus M.2 NVMe SSD (1TB) + Western Digital Black SN750 NVMe SSD (2TB) - These storage drives offer fast read/write speeds and ample capacity for storing games, programs, and files.
> Graphics Card: Nvidia GeForce RTX 3090 - This is one of the most powerful graphics cards available, offering exceptional performance in games and other graphically-intensive applications.
> Power Supply: Corsair RM850, RM750, or RM650 - These power supplies offer high efficiency and reliable performance, providing enough power to run all your components without any issues.
> Motherboard: ASUS PRIME Z590-A or ASRock X570 Extreme4 - These motherboards offer excellent features such as WiFi, USB 3.2 Gen 2 ports, and high-quality audio. They are also compatible with the RTX 3090 and other components listed above.
> Case: Fractal Design Meshify C ATX Mid Tower or Phanteks Eclipse P400A - These cases provide good airflow and cable management options, keeping your system looking neat and tidy.

> Please note that these recommendations are just a starting point, and you may need to adjust based on your specific needs and budget. Additionally, be sure to check for compatibility between each component before making a final decision.

Аноним 19/07/23 Срд 17:19:21 № 415480 319

>>415071
Короче докладываю в тред результаты экскрементов.
Чат модель более соевая, чем обычная, так что удваиваю анона выше >>414868
Не понимаю тогда, нах нужна отдельная чат версия, если она тупая.
>>415422
> а неплохо выходит
Ток не актуально слегка, сейчас надо на i9-13900 или AMD Ryzen 9 7900х собираться.

Аноним 19/07/23 Срд 17:30:07 № 415503 320

Какое качество у этой штуки? Сколько VRAM надо для запуска, учитывая 8к контекста?
https://huggingface.co/TheBloke/wizard-vicuna-13B-SuperHOT-8K-GPTQ

Аноним 19/07/23 Срд 17:30:37 № 415506 321

>>415480
>не актуально слегка,
Смотрел видос на Ютубе, чувак спрашивал ламу2 что-то типа про последние даты, фигурирующие в обучающем датасете, лама говорит, что это 31 декабря 2022. То есть, вроде как эти ламы ничего не знают из 2023 года.

Аноним 19/07/23 Срд 17:31:13 № 415507 322

>>415503
В 16ГБ должна влезть.

Аноним 19/07/23 Срд 17:59:42 № 415554 323

>>415026
>Вот это хуета хует просто, нет сои называется?
Skill issue? Ну типо я рукожоп, вставил лламу2 7б в кобольд и с ней смог обсудить лгбт, флойда и любую скользкую тему. Накинул сверху таверну и трахнул ту карточку, с которой в последний раз в айроборосе сексился.
Ты мб чат версию скачал?

Аноним 19/07/23 Срд 18:01:53 № 415556 324

>>415071
>Вот оно уже в данные прокралось
Обычные галлюцинации и шиза, работает в обе стороны. Моя статистику нагнула в другую сторону, антиповесточную, я аж охуел. Уточнять не буду, но это классика когда нейросетка с уверенным ебалом тебе что-то втирает.

Аноним 19/07/23 Срд 18:24:39 № 415579 325

>>415554
Какую ты скачивал?

Аноним 19/07/23 Срд 20:59:09 № 416288 326

>>415480
> Чат модель более соевая
Вот это хорошо, если обычная этой хуетой так не страдает то все более радужно. Там уже первые файнтюны заквантовали, скорее всего херь ибо датасет просто с чатжопити, но значит никаких проблем с этим нет, ждем нормальных.
> Ток не актуально слегка
Платина же, можно еще у модели спросить какой сейчас год и кто президент США, с ответов первой лламы можно было аж прослезиться, вспомнив времена.
>>415554
> Skill issue?
Едва ли, но версия именно чат. Трахать 7б модель, неужели настолько хорош прогресс? Это что же там с 70б тогда будет.

Аноним 19/07/23 Срд 21:19:26 № 416394 327

>>415579
llama-2-7b.ggmlv3.q4_K_M.bin, полёт нормальный
>>416288
Нет, настолько не тянет пека просто.

Аноним 19/07/23 Срд 21:32:42 № 416476 328

>>393749 (OP)
Пацаны мне нужно запихнуть огромный дилдак в жопу для аналитики в виде контекста на парочку миллионов токенов. Когда уже подвезут такую возможность или ждать принципиально новой архитектуры? Можно ли обойтись файнтьюном? Дорого будет на миллион токенов надрочить? Не затеряются ли данные где-нибудь в глубине весов, чтобы я мог конкретно по ним запросы делать?

Аноним 19/07/23 Срд 21:43:00 № 416553 329

>>416476
Сформулируй нормально что ты хочешь, а то вопрос уровня организации путешествия на марс имея прототип двс. Обработку большого объема данных решить можно и имеющимися нейросетями, нужен правильный подход.

Аноним 19/07/23 Срд 22:15:59 № 416710 330

>>416553
Мне нужны именно NLP возможности чтобы вычленять детали. Например есть книга и нужно перечислить каждую сцену с гомонеграми. Если бы очко контекста было неограниченным я бы просто залил книгу в виде промпта и делал нужные запросы. Если можно это очко обойти просто дообучив модель на книге, то мне норм. В чем вообще различие контекста от дообучения?

Аноним 19/07/23 Срд 22:26:55 № 416755 331

>>416710
Обучение это напрямую обучение, то, какой текст выдавать на поступающий промт. Контекст - то что ты кормишь на вход чтобы получить новые токены.
> Например есть книга и нужно перечислить каждую сцену с гомонеграми.
Делаешь запрос и скармливаешь по кускам? Суммарайзеры и подобные алгоритмы в помощь.

Аноним 19/07/23 Срд 22:50:25 № 416831 332

>>416553
А как к этому подойти?
Тоже интересна эта тема. Сейчас пользуюсь автодополнением кода с помощью ai, работает быстро, и точность неплохая: угадывает мои желания, исходя из контекста (кода вокруг точки редактирования) и того что начинаю писать в 3-5 случаях из 10.
Настолько неплохо, что уже всерьез конкурирует со стандартным синтаксическим анализатором, который имеет чит в виде доступа к полному синтаксическому дереву всего проекта, и все равно ai его умудряется обходить: подсказки выдает намного быстрее, в половине случаев они точнее, в трети соучаев умудряется дополнять сразу целым блоком вполне годного кода, который если и нужно править, то минимально
В общем субъективно экономит до трети времени на писанину, посему и зашло

И если есть возможность запустить такую штуку локально, подсунув в качестве контекста текущий код, было бы вообще идеально: такой бы плагин я бы с удовольствием использовал, сконнектив его с параллельной llama.cpp на OpenCL через простаивающую современную видюшку
Да даже без видюшки, ради такой экономии времени, ее вполне стоит купить - окупится за несколько месяцев

copilot еще не пробовал, может тоже годнота, сейчас пользуюсь codeium, нравится что он бесплатный, быстрый, и не требует ничего ему объясненять или как-то ещё с ним взаимодействовать. Он просто смотрит на то что ты пишешь и предлагает продолжение, сразу показывая целевой результат как он будет встроен в коде, так его удобнее оценивать

Аноним 19/07/23 Срд 22:53:05 № 416842 333

>>413398
Как я P104-100 (1070) не настраивал — 5 токенов максимум. 2~6, если точнее.
Ну такое.
Учти, что там прям все плохо было с нужными технологиями, множителями и ядрами в то время.
В FireStrike'е графикс скоре 9500, все как надо.
1650 тоже не поможет.
Втроем скорость не перемножается.
У тебя слои распределяются по картам, и каждая карта копается в своих слоях, грубо говоря. Т.е., ты получишь часть 1060, часть 1050ти и часть 1650 производительности — усредненное что-то.
И учитывая, что 1070 дает 5 токенов, то эти дадут 4 токена, а то и 3 на пике.
Звучит как твой проц, смекаешь?

>e5-2680
DDR4: 2400 Мгц
А на i5-10400F небось 3200~3600?
Скорость зависит и от обсчета процом, и от копания по памяти. Если упирается в пропускную способность, то количество потоков не спасет.

Аноним 19/07/23 Срд 22:58:21 № 416862 334

>>416710
>Если бы очко контекста было неограниченным я бы просто залил книгу в виде промпта и делал нужные запросы.
И получал бы хуиту.
Вообще, твоя задача решается разбитием книги на главы (и дальше) и подсчёт по отдельности, а потом просто суммировать результаты. Да, погроммирование, но без него реальные задачи с нейросетками всё равно не решить.

Аноним 19/07/23 Срд 23:06:03 № 416890 335

>>413398
Офигеть у вас скорости
Только сегодня ламу2 13b в q4ks гонял на llama.cpp+clblast с полной выгрузкой в амд-шную, довольно медленную для этих дел, карточку 7900, на контексте 1к и 4 потоках оно шпарило с нереальной скоростью, порядка 20-25мс на токен, это 40-50 токенов в секунду
Прям совсем другие ощущения после llama1 30b с выгрузкой в gpu на 80% - та в тех же условиях прям с черепашьей скоростью ползет, порядка 5-10 токенов в секунду
И такое ощущение, что 13b llama2 вполне на уровне с 30b llama1 находится: результаты +/- сравнимые, русский понимает и умеет хорошо переводить на него, если попросить. Может быть это и субъективно, но вполне юзабельно, и скорости просто отличные, и память не жрет, комп не замечает нагрузки, можно использовать на потоке вместе с другими тяжелыми по памяти/процессору инструментами, что прям уже вообще годно и открывает возможности для прикладного использования этих сеток, по крайней мере на современном железе

Аноним 19/07/23 Срд 23:22:42 № 416975 336

>>416890
>прям с черепашьей скоростью ползет, порядка 5-10 токенов в секунду
>амд-шную, довольно медленную для этих дел, карточку 7900
Сижу, выгружаю в амдшную 590 с амдшного 2700х, радуюсь когда вижу 3 токена в секунду.
С этими вашими нейросетками даже апгрейдиться хочется

Аноним 19/07/23 Срд 23:30:04 № 417006 337

>>416831
Для прогания сто лет назад сделали FauxPilot, я ставил, но потестить руки так и не дошли.

Аноним 20/07/23 Чтв 00:39:52 № 417174 338

>>416975
>3 токена в секунду

А мог бы трупы школьниц ебать, бесплатно на жидовских сетках, где пикрил генерируется за 4 секунды

Аноним 20/07/23 Чтв 00:50:46 № 417199 339

>>417174
> где пикрил генерируется за 4 секунды
Мм фантазер

Аноним 20/07/23 Чтв 03:19:11 № 417432 340

Скачал vicuna-7b 1.3, по началу она не влезала в память,
13 гиг в 12 гиговую карточку, была генерация 1.8 токенов в секунду.
Ща доставил 1070 в компик, и оно может вот так просто на двух видяхах крутить?
Скорость повысилась до 8 токенов в секунду.
Как насчет 13b, 30b? Там духуя памяти надо?

Аноним 20/07/23 Чтв 03:45:42 № 417463 341

>>417432
можешь показать логи (интересует время и токены в секунду с 1 сообщения после загрузки модели и последующие) генерации ответов с 1070 ? незна ю какая еще у тя карта

Аноним 20/07/23 Чтв 03:51:02 № 417470 342

>>417432
У меня, вроде, лезло без проблем.
Попробуй запустить в ExLlama на одной видяхе и посмотреть скорость.

Аноним 20/07/23 Чтв 05:55:04 № 417536 343

>>417463
Ебу где логи эти.
Там в папке лог кеш настроек каких то.
А так у меня Гига Gaming 3060 второй ревизии, на 12 гигов GDDR6 обычной.
Вот скрин консоли могу скинуть.

Аноним 20/07/23 Чтв 05:56:59 № 417537 344

re2.png 46Кб, 960x272

>>417470
> ExLlama
Почему то не грузит. Пишет что два файла .bin обнаружено.

Аноним 20/07/23 Чтв 07:40:24 № 417580 345

почему silly tavern с определенного момента начинает каждый раз загружать весть полный промт а не последнюю его часть? Это из-за обезки контекста каждый раз когда уже нету места под новый в тех 2к токенов? Я правильно понимаю, что, когда место зарезервированное под токены кончается, он начинает меять промт и уже не отсле;ивает последне добавления к тексту, а пересчитвает всё с последним оставшемся контексте и это не исправить? Не получится оставить дескрипшн на 1000 токенов и не считать его каждый раз, изменив только последнюю 1000 которая поменялась после переполнения.
Я еще не тестил, в кобольде будет то же самое?

Аноним 20/07/23 Чтв 07:54:23 № 417582 346

есть какие то особенности карт которые плохо считываются локальными сетками?

Аноним 20/07/23 Чтв 07:57:53 № 417586 347

>>417536
>Вот скрин консоли могу скинуть.
это я и хотел спс
>>417537
у меня постоянно ех-ллама чот не грузит

понаделкют сука 100500 форматов а потом сидии ебись качай за зря

Аноним 20/07/23 Чтв 09:50:16 № 417682 348

>>417174
Не, мне интереснее локально поднимать, а не вот это всё.

Аноним 20/07/23 Чтв 10:01:51 № 417697 349

>>417580
>почему silly tavern с определенного момента начинает каждый раз загружать весть полный промт
Таверна отправляет, и да, это из-за лимита токенов.
>>417586
>у меня постоянно ех-ллама чот не грузит
Ну так скачай GPTQ, можно даже в самом вебуи.

Аноним 20/07/23 Чтв 11:54:11 № 417884 350

Сап. Существует ли возможность фаин тюнить модели самому? Через коллаб или локально меня 3070 ti 8gb vram.
Тестил локального кобольда в твверне вполне себе быстро отвечает 5-10 сек на ответ.

Аноним 20/07/23 Чтв 12:04:38 № 417915 351

META выпустила Лламу второй версии, но на этот раз уже официально опопен-сорс и с правом на коммерческое применение.

ЧОМУ НЕ ОБСУЖДАЕМ?

Аноним 20/07/23 Чтв 12:08:06 № 417923 352

>>417915
Во-первых, обсуждаем. Во-вторых, что это за опенсорс, если надо челобитную барину подавать, чтобы доступ открыл? С первой так же было, к слову.

Аноним 20/07/23 Чтв 12:13:22 № 417929 353

Аноним 20/07/23 Чтв 12:32:12 № 417970 354

>>393749 (OP)
Не лама, но все же: https://huggingface.co/ai-forever/ruGPT-3.5-13B. Гигачат таки родился в опенсурсе, есть инфа, че там внутри за модель и можно её наggmlить или в gptq конвертнуть?

Аноним 20/07/23 Чтв 12:42:21 № 417996 355

>>417970
чет дохлая страница уже, че там было то хоть?

Аноним 20/07/23 Чтв 12:43:56 № 418004 356

>>417970
> есть инфа, че там внутри за модель
В конфиг не можешь глянуть? Ванильная GPT-2, т.е. кал.

Аноним 20/07/23 Чтв 12:50:02 № 418014 357

https://huggingface.co/ai-forever/ruGPT-3.5-13B/tree/main

Аноним 20/07/23 Чтв 13:14:57 № 418049 358

>>417884
Можно, но у тебя мощностей не хватает. Там побольше надо.
>>418004
Два чаю, даже запускать не нужно, чтобы увидеть, что это говно. Там всего датасета на 300+100B, тогда как лламу трейнили на 1T и 1.4B токенов. Вторую лламу трейнили уже на 2T токенов. Выеб на порядок.

Аноним 20/07/23 Чтв 13:20:17 № 418064 359

>>418004
Не, это понятно, что скорее всего говнище, но попробовать-то хочецца все равно. Ну, раз gpt-2, то авось в ggml согнать можно.
>>417996
Проебался со ссылкой, анон правильную набросил >>418014

Аноним 20/07/23 Чтв 14:19:07 № 418272 360

>>417537
А модель у тебя pytorch.bin или .safetensor?
Попробуй поставить галочку load-in-8bit или load-in-4bit, может у тебя не квантованная.

Аноним 20/07/23 Чтв 14:23:16 № 418293 361

>>417915
Пару дней подождать, пока куча файнтьюнов выйдет, и уже там тестить и отжигать.

Аноним 20/07/23 Чтв 14:47:22 № 418351 362

квантованные модели до 2бит это как glados картошка? Я вижу разницу очень большую с 8 бит.

Аноним 20/07/23 Чтв 15:04:18 № 418416 363

>>418351
Полнейший шмурдяк по отзывам. Ты лучше расскажи какую разницу видишь между 8 бит и разными вариантами квантования 4 битов
>>416394
> Нет, настолько не тянет пека просто.
Ну это не принципиально, ты лучше дай отзыв насколько 7б модель пригодна для разного рп. Осмысленные ответы и подробные полотна для ерп, или шиза и "вздыхает ты меня ебешь"?

Аноним 20/07/23 Чтв 15:29:19 № 418505 364

>>418416
Ну ответы неплохие, напоминает старые 13б модели. Какого-то лютого ахуя нет, но сюжет куда-то вести может, иногда даже не забывает контекст происходящего. Думаю попробовать ей как-то просто дать задание выдать пару абзацев чтоб она сама всё отыгрывала, посмотреть как это выйдет. А то у меня то 100-120 токенов сообщения, не разгуляться.
Ессно если проц поновее и оперативки побольше, а тем более видяха от зелёных, то явно стоит 13б модельку дрочить, 7б скорее про скорость и быстродействие

Аноним 20/07/23 Чтв 15:31:07 № 418515 365

русская и православная нейронка!
> https://www.reddit.com/r/LocalLLaMA/comments/154lcbg/rugpt_35_13b_a_new_model_for_russian_language/
https://huggingface.co/ai-forever/ruGPT-3.5-13B
thebloke вероятно уже квантует её.

Аноним 20/07/23 Чтв 15:41:04 № 418537 366

>>417970
>>418014
>>418515
Давайте с новостями и прорывами в сетках, отличных от лламы, пройдёте в общий тред?
>>395587 (OP)

Аноним 20/07/23 Чтв 16:22:51 № 418642 367

>>418515
Не оче понял что в ней нового, раз 2 месяца назад залита была. А так как понимаю это не сайга которая просто тренированная ллама, а прям отдельная сетка? Если так то любопытно, но сомневаюсь что блок её квантует.

Аноним 20/07/23 Чтв 16:30:53 № 418670 368

Говорят Ллаам 2 самая адски зацензуренная модель соу фар, это есть так?

Аноним 20/07/23 Чтв 16:34:04 № 418676 369

>>418670
Нет.

Аноним 20/07/23 Чтв 16:41:10 № 418687 370

Screenshot9.png 13Кб, 696x155

>>418670
только -chat файнтюны адски накачаны соей, pre-trained модели не имеют биас в сторону """за всё хорошее против всего плохого"""

Аноним 20/07/23 Чтв 16:54:57 № 418707 371

>>418670
А чем тебе цензура мешает?

Аноним 20/07/23 Чтв 17:47:23 № 418908 372

1659986793559.png 295Кб, 863x2748

Хуй знает, обычная лучше чем чат версия, соевые ответы лезут что все равно пиздец, но при наличии минимального контекста уже не так плохо. Заявочка на рп определенно есть, надо оценивать более подробно. Для 13б модели в режиме ассистента вполне неплохо.
капча которую мы заслужили
>>418707
Рофлишь?

Аноним 20/07/23 Чтв 18:02:31 № 418992 373

>>418670
Нет, ерп лучше чем с тренированной пигмой. Чат версии имеют цензуру которая обходится через костыли, но пока никто не понял в чём профит использовать чат версию с костылями, если обычная неплохо чатится.

Аноним 20/07/23 Чтв 18:13:06 № 419034 374

>>418992
>>418676
>>418537
Спасибо, ясно.

>>418707
Всем

Аноним 20/07/23 Чтв 21:39:41 № 419645 375

Кто-нибудь на амуде пробовал ставить всю эту залупу именно сейчас? Сука, три месяца прошло уже всё устарело, блядский ui не работает, потому что вместо GPTQ-for-LLaMa перекатился на autogptq а там нихуя для амуды нет
я ниасилил...

Аноним 20/07/23 Чтв 22:03:33 № 419750 376

>>419645
>>416890

Аноним 20/07/23 Чтв 22:51:54 № 419948 377

>>419645
Разобрался, достаточно было при запуске ui указать флажок --gptq-for-llama, надо было читать доку оказывается

Аноним 21/07/23 Птн 00:31:32 № 420401 378

>>416831
интересная идея, анончик
запилил, подключайся

Аноним 21/07/23 Птн 00:32:06 № 420403 379

>>420401
линк потерял
https://github.com/ggml-org/p1/discussions/1

Аноним 21/07/23 Птн 00:58:56 № 420514 380

>>418272
Не квантованная 100%.
Я чистую качал без всех этих квантов.
Я качал квантовую модель до этого. Уж лучше меньше параметров будет но не квантованая.

Аноним 21/07/23 Птн 01:00:06 № 420522 381

>>418272
pytorch_model-00001-of-00002.bin
pytorch_model-00002-of-00002.bin
если чо.

Аноним 21/07/23 Птн 01:21:33 № 420600 382

>>420522
Формат не торт если что, экслламе нужен GPTQ.

Аноним 21/07/23 Птн 01:37:57 № 420644 383

>>420600
Ебать, понаделали форматов...

Аноним 21/07/23 Птн 01:55:08 № 420681 384

В параметрах куча этих "Generation parameters preset"
Что для чего, какой и с чем едят?

Аноним 21/07/23 Птн 02:06:54 № 420713 385

>>420644
В шапке всё есть, лол.
>>420681
Разные пресеты для разных задач, внезапно. В основном все крутят температуру, чем больше, тем больше творчества и шизы.

Аноним 21/07/23 Птн 02:09:33 № 420724 386

>>420713
А все эти top_p, top_k, mirostat?

Аноним 21/07/23 Птн 02:37:43 № 420785 387

>>417884
Кстати, тока щас заметил твой вопрос.
Можно, но 8 гигов хватит прям совсем на мало, и результат будет около нулевой.
Самую маленькую модель и совсем немного по объему и глубине.

Аноним 21/07/23 Птн 02:45:59 № 420802 388

>>420522
Ну вот и ответ.
Ты пытаешься полноценные 13,5 гигов запихнуть в 12. Какой результат? Правильно, не лезет.
А если грузить не fp16, а 8 или 4 бита — то все влазит, соответственно.

Ты зря скептически настроен. 8 бит почти не отличается от 16 бит. На 4 видна разница, конечно, но не существенно.

Если хочешь, зайди в карточку vicuna-7b-…-GPTQ, какая тебе нравится, и поищи табличку с 4bit и 8bit, там написано, как качать нужную тебе.
8-битные весят ~7 гигов, должна норм зайти, а по качеству разницы не почувствуешь. Больше от сида будет зависеть.

Аноним 21/07/23 Птн 02:52:00 № 420819 389

>>420802
Я раньше искал, там квантованные версии это 1.1.
Я 1.3 квантованую версию не видел.

Аноним 21/07/23 Птн 02:54:56 № 420824 390

>>417432
Ну и это, у тебя щас получается 20 гигов.
Смотри:
1. Часть места оставляем на контекст, не помню точно, будем считать 4 гига из рассчета на 4к контекста, если захочешь с альфой поиграться.
2. Остается 8+8, значит в 16 гигов надо впихнуться. 13B туда залезет без проблем. Даже 8-битная, если сэр хочет качества.
3. Качаешь нужную тебе GPTQ-модельку, в ExLlama пишешь 8,8 в GPU split, ставишь контекст на 4096 и альфа на 2. Load.

Ну это я по памяти, без обид, мне лень в три ночи пихать 1070 в игровой комп ради тестов, не спиздел ли я тебе. =)

30B модель может влезть, но только 3-битная, скорее всего, но там уже вопросы к качеству генерации. Она может много знать, но плохо угадывать, че ты от нее хочешь.
Но если хочешь — попробуй 4-битную 30B-GPTQ.

Так же помни, что каждая видяха генерит свои слои, что на нее выгружено. Поэтому ты получишь среднюю по больнице скорость генерации в большинстве случаев. Часть ответа 20 токенов сек, часть ответа 10 токенов сек, в среднем 40 токенов — 3 секунды, то есть 14 токенов сек, а то и ниже.
Ну это грубейшая математика, но просто чтобы ты не думал, что ты быстрой карте добавил просто видеопамять. =)

Аноним 21/07/23 Птн 02:57:12 № 420826 391

>>420819
Тебе Викуня прям важна?
Если че, мы тут смотрим: https://huggingface.co/TheBloke , чел квантует дофига всего.
А уже потом — поиском, конечно.

Аноним 21/07/23 Птн 02:59:14 № 420829 392

>>420819
https://huggingface.co/TheBloke/vicuna-7B-v1.3-GPTQ
https://huggingface.co/TheBloke/vicuna-13b-v1.3.0-GPTQ
Например. ¯\_(ツ)_/¯

Аноним 21/07/23 Птн 03:02:18 № 420835 393

>>420802
> На 4 видна разница, конечно, но не существенно.
Я скачал где то ggml-vicuna-13b-cocktail-v1-q5_0,
Хуета ебаная. По сравнению vicuna-7b 1.3v.

>>420824
Не хочу отдельные модели под ExLlama качать.
Может вот тут можно нажать загрузить как 8бит или 4 бита?

>>420829
Вроде то что надо, можно накачать, благо места много у меня.

Аноним 21/07/23 Птн 03:06:31 № 420837 394

Какие модели для ролплея лучше всего подходят кстати?

Аноним 21/07/23 Птн 03:09:09 № 420842 395

> Может вот тут можно нажать загрузить как 8бит или 4 бита?
Не хочет грузить.

Аноним 21/07/23 Птн 03:32:15 № 420880 396

>>420835
auto-devices еще

У меня load-in-8bits и auto-devices заняло 8~9 гигов в видеопамяти и выдало 2,5 токена сек.
load-in-4bits и auto-devices заняло 5 гигов в видеопамяти и выдало 8,5 токенов сек.
Экслама на этой модели в 4 бита выдает 60+ токенов сек. Ну я хз, стоит ли оно того.

Я не спец, но если бы мне хотелось высокого качества в ограниченном объеме, я бы не вебгуи ставил, а линуху с xtrasformers, где выжимал бы максимум сам.

А убабуга че-то сам понимаешь. Но попробуй.

Аноним 21/07/23 Птн 03:41:59 № 420888 397

>>420880
> У меня load-in-8bits и auto-devices заняло 8~9 гигов в видеопамяти и выдало 2,5 токена сек.
Проверил щас у себя, загрузило, работает.
У меня тоже 8-9 гигов занимает в памяти, но скорость с 8 упала до 4 токена в секунду.

Аноним 21/07/23 Птн 03:43:16 № 420891 398

>>420835
> cocktail-v1
> Хуета ебаная
Причина в этом
Но зачем тебе вообще эта викунья если есть ллама-2? Она не хуже викуньи по познаниям будет и по следованию контексту на голову выше. Да и соевости меньше, лол.
>>420842
Для gptq используй Exllama, если у тебя карточка новидео и в ней хватает врам - ничего другого не нужно.

Наконец экслламу обновили и она может работать со старшими моделями без ошибок. Ощущение что подкрутили использование врам, ибо 70б в две карточки грузится с овер 7 гигов запаса, что лучше чем раньше было с 65б. Растяжка до 16к контекста влезает спокойно, перфоманс не поменялся.

Аноним 21/07/23 Птн 04:34:39 № 420943 399

>>420891
> Но зачем тебе вообще эта викунья если есть ллама-2?
Я ебал это все заполнять, чето там ждать надо будет еще.
https://ai.meta.com/resources/models-and-libraries/llama-downloads/

>>420829
Скачал gptq_model-8bit-128g.safetensors
Ни AutoGPTQ ни ExLlAma_HF ее не запускает.
Параметры запуска: The AutoGPTQ params are: {'model_basename': 'gptq_model-8bit-128g', 'device': 'cuda:0', 'use_triton': False, 'inject_fused_attention': True, 'inject_fused_mlp': True, 'use_safetensors': True, 'trust_remote_code': False, 'max_memory': {0: '10900MiB', 1: '7190MiB', 'cpu': '16400MiB'}, 'quantize_config': None, 'use_cuda_fp16': True}
Ошибка: RuntimeError: [enforce fail at ..\c10\core\impl\alloc_cpu.cpp:72] data. DefaultCPUAllocator: not enough memory: you tried to allocate 26214400 bytes.

В ExLlaba_HF тоже говно пишет
RuntimeError: [enforce fail at ..\c10\core\impl\alloc_cpu.cpp:72] data. DefaultCPUAllocator: not enough memory: you tried to allocate 26214400 bytes.

Я на Transformers запускаю модель с тем же распределением памяти, и никакого говна типа памяти нету.
У меня ОЗУ если что 32 гига, 10 занято.

Аноним 21/07/23 Птн 04:41:37 № 420957 400

>>420943
> чето там ждать надо будет еще
Тебе уже ответили >>420829
https://huggingface.co/TheBloke/Llama-2-13B-GPTQ
Качаешь и довольно purrs
Никаких 8 бит не надо.
Алсо AutoGPTQ ломается скорее всего потому что на первой карточке слишком много выделил, разреши гигов 8-9, оно сверх нормы всегда потребляет, cpu вообще не трогай. Но лучше забудь про него и пользуй Exllama.

Аноним 21/07/23 Птн 04:54:30 № 420977 401

>>420957
> Алсо AutoGPTQ ломается скорее всего потому что на первой карточке слишком много выделил, разреши гигов 8-9, оно сверх нормы всегда потребляет, cpu вообще не трогай.
Ну хуй знает, оно даже не пыталось че-то загрузить.
Когда я на обычных Transformers слишком много памяти выделяю, оно сначала грузит модель, и выдает ошибку эту что мало памяти.
На двух других этих - сразу выскакивает ошибка.

> Но лучше забудь про него и пользуй Exllama.
Зашел, бахнул 8, 6
Синий экран.

> Тебе уже ответили >>420829
Оригинальную бы... 16 бит которая.
Заебался уже с этими Exllama, AutoGPTQ ебаться, если они нихуя не работают.

Аноним 21/07/23 Птн 09:48:50 № 421214 402

Хуй с ней короче.
Есть ли плагин для дискорда, при которой модель будет смотреть за чатом в дискорде, держать его в памяти, и чето выдавать если обращаются к ней?
Или упоминают ее, или если есть какие то возражения... Хотя вряд ли есть что-то настолько продвинутое.

В пресетах есть параметр "encoder_repetition_penalty"
ни один пресет в списке его не изменяет.
Модель проебывается, начинает говорить от имени мужского пола, хотя должна от женского.
Перестает называть меня "Мастером", я выебал параметр 1.16, и заебись!

Аноним 21/07/23 Птн 09:57:03 № 421227 403

Еще я замечал что модель обрывается на полуслове, видимо ей не хватает токенов.
Но если я увеличиваю max_new_tokens то рано или поздно это случится вновь.
Я так понимаю нужно правильно подобрать "max_new_tokens" и "Truncate the prompt up to this length"?

Аноним 21/07/23 Птн 10:02:41 № 421234 404

>>420943
>DefaultCPUAllocator: not enough memory
Грит оперативы мало. Поставь подкачку гигов 40, там бывает кривота.
>>420977
>Оригинальную бы... 16 бит которая.
Боярин с A100 на 80 гигов? Нет? Ну тогда забудь о 16 битах.

Аноним 21/07/23 Птн 10:03:45 № 421236 405

>>421227
Через таверну сиди или типа того, короче чтобы автоматом контекст формировало.

Аноним 21/07/23 Птн 10:17:59 № 421259 406

>>420977
>Оригинальную бы... 16 бит которая.
https://huggingface.co/TheBloke/Llama-2-13B-fp16/tree/main
>>421214
Нету, пиши сам.

Аноним 21/07/23 Птн 10:40:26 № 421313 407

>>421234
> Грит оперативы мало. Поставь подкачку гигов 40, там бывает кривота.
Да, я когда грузил модель в CPU, оно загрузило первый слой, а второй отказывалось. Будто оно копировало з памяти пеовый слой повторно.
Наверное проблема в этом.
> Боярин с A100 на 80 гигов? Нет?
Как вариант взять пару 4060 Ti на 16 гигов, или закупить бу 1080 Ti.
Но денег нет даже на это.

>>421236
Не, не то что мне нужно.

>>421259
Спасибо.

Аноним 21/07/23 Птн 11:01:59 № 421368 408

В работе, погромировании и ид кто-то использует локальные версии или онлайн чатгпт и тд уже вырвались вперед намного?

Аноним 21/07/23 Птн 11:46:16 № 421467 409

Каждый раз ору с carbon footprint от обучения моделей. Вот уж где настоящая соя. Можете имадженировать какой carbon footprint у нашего треда во время кума?

Аноним 21/07/23 Птн 12:22:24 № 421557 410

>>421467
>footprint
Это что-то связанное с фут-фетишем?
Мимо обдрочившийся

Аноним 21/07/23 Птн 12:39:23 № 421585 411

>>420977
> Синий экран.
Земля пухом лол, в лучшем случае винда взорванная и кривые дрова.
> Оригинальную бы... 16 бит которая.
Она нужна для дообучения или своего квантования
> Заебался уже с этими Exllama, AutoGPTQ ебаться, если они нихуя не работают.
Творишь ерунду на которую они не рассчитаны и имеешь проблемы, вот и не работают. Офк убабуга нихуя не юзерфрендли и форматы могут смутить, но освоиться можно быстро.
>>421227
> max_new_tokens
Да, если они сгенерила лимит то остановится. Если останавливается до достижения лимита - значит поломалась. Можешь просто написать ей "продолжай", нажать continue, отправить пустое сообщение и она следующим постом допишет.
>>421313
> бу 1080 Ti
Днище по скорости, уже писали же

Аноним 21/07/23 Птн 13:03:49 № 421638 412

>>421557
Это сколько выделилось углекислого газа в атмосферу.

Аноним 21/07/23 Птн 13:13:39 № 421659 413

>>420891
70b в 24+24?

Аноним 21/07/23 Птн 13:18:49 № 421667 414

>>421659
Да. Алсо 32g квантованную пока все также отказывается запускать, все загружает но при запросе ошибка.

Аноним 21/07/23 Птн 14:34:42 № 421857 415

>>420977
Можем тока посочувствовать, если ты прям вот совсем не хочешь использовать то, что у всех работает, а только и исключительно трансформеры нативные.
Но наскока я знаю, полноценные модели имеют fp16 в конце, выбирай среди них. Все там же, у TheBloke.

>>421214
Думаю, легко, просто переписать стандартный дискорд бот, чтобы он отвечал только на свои теги.
Но мне лень было с телеграмом париться, я в личке так и переписываюсь.

>>421227
Generation attempts (for longer replies) на вкладе Parameters.

>>421313
У 1080 ti совсем малая скорость будет, ИМХО.
4060 на 16 гигов будет получше. В теории, хз.

>>421368
Использую для себя, экономит время.

Аноним 21/07/23 Птн 14:39:23 № 421869 416

Там уже uncensored ламы 2 выложили, кто-нибудь пробовал, есть разница по соевости с оригиналами?

Аноним 21/07/23 Птн 14:49:59 № 421894 417

>>421869
Чел, там 7B. Ждём дальше. И вообще, я жду 30B версию, её куда-то проебали.

Аноним 21/07/23 Птн 14:55:51 № 421914 418

>>421894
Плюсую, 30B должна быть хороша и по работе, и по размеру.

Аноним 21/07/23 Птн 15:46:20 № 422033 419

Я так понимаю с русским языком модели работать не особо умеют? Какую бы ни пробовал - везде откровенная чушь в ответах

Последняя wizard vicuna 30B q5_1, вообще на условном уровне поддерживает смысл диалога

Аноним 21/07/23 Птн 15:49:56 № 422041 420

как вы пользуйтесь новой лламой 2? запустил по инструкции в репозитории https://huggingface.co/TheBloke/LLongMA-2-7B-GPTQ в угабуге и пытаюсь что-то сгенерировать. а этот шиз просто разные наборы букв строит и нихрена не генерирует. что не так то епта я делаю?

Аноним 21/07/23 Птн 15:55:24 № 422049 421

>>422041
>как вы пользуйтесь новой лламой 2?
Как нормальные люди, на английском.

Аноним 21/07/23 Птн 16:00:18 № 422055 422

>>422049
Да абсолютно тоже самое и на английском языке

Аноним 21/07/23 Птн 16:00:36 № 422056 423

изображение.png 201Кб, 2381x658

изображение.png 85Кб, 1179x371

>>422041
>>422049
Впрочем, со второго раза получилось даже адекватно. А на первый лучше не смотреть.
Очевидно, это силли таверна, вебуи в угабуге через экслламу.

Аноним 21/07/23 Птн 16:02:34 № 422058 424

изображение.png 74Кб, 1186x341

>>422055
Значит ты что-то делаешь не так. Кстати, почему лонг ллама? Это файнтюн если что, начни с обычной.

А вот с датами у сетки какая-то родовая беда, вечно ноль клеит.

Аноним 21/07/23 Птн 16:31:09 № 422106 425

>>422058
Лонг, это тот самый лонгчат? ) Шиза крепчайшая. Я так понял, он норм работает тока на 8К контексте в первой лламе.

Аноним 21/07/23 Птн 17:04:30 № 422155 426

>>414749
>Сравнили лама2 70В со всем остальным 30В

Аноним 21/07/23 Птн 17:42:54 № 422216 427

>>421869
> uncensored ламы 2 выложили
Оффициальные с другим датасетом от меты или васян-файнтюны?
>>422033
65б, ллама2 должна быть лучше и скорее всего на 30 уверенно будет говорить, но это не точно.
>>422056
Это 7б так выдала? Круто на самом деле, учитывая что ранее 13б оче условно переводила.

Аноним 21/07/23 Птн 17:46:01 № 422224 428

Если нативный контекст у второй ламы 4к, значит вплоть до 8к достаточно альфы в значении 2? Или так же как у первой ламы надо четверку ставить?

Аноним 21/07/23 Птн 17:48:50 № 422229 429

>>422224
Ставил единицу для 4к, на превышение 2к никак не отреагировала

Аноним 21/07/23 Птн 17:55:50 № 422245 430

Такс, нука быстро пояснили мне про ллама2.
Что нового, какие преимущества относительно 1й версии?

с меня как обычно нихуя

Аноним 21/07/23 Птн 17:56:25 № 422248 431

image.png 28Кб, 996x144

Балдежно... В последнее время даже чатгопота так быстро не въебывает.

Аноним 21/07/23 Птн 18:20:47 № 422303 432

>>422216
>или васян-файнтюны?
Это конечно же, ФБ в сёрную дыру вместе с Землёй свалится, если выложит сетку без сои вообще.
>>422216
>Это 7б так выдала?
13 конечно же, 7 совсем мало и я её не юзаю.
>>422245
Чуть лучше в манятестах, и проебали самую ходовую 30B версию. Обещают выдать, но пока ждём.
Практических улучшений я пока не вижу, модели надо обкатать, отфайнтюнить да подобрать параметры/семплеры/прочее говно.

Аноним 21/07/23 Птн 18:22:50 № 422310 433

>>422058
https://huggingface.co/TheBloke/Llama-2-7B-GPTQ на этой та же гавнина. янипанимать что не так то епта. каким движком запускать эту задницу? угабуга предлагает AutoGPTQ. а надо каким?

Аноним 21/07/23 Птн 18:25:17 № 422319 434

Говнище полное новая лама. Сваливается в повторение ответов моментально. Просто хуита, сломанная срань. Что вы тут обсуждаете? С этим нельзя работать вообще.

Аноним 21/07/23 Птн 18:28:48 № 422336 435

>>422310
>угабуга предлагает AutoGPTQ. а надо каким?
эксллама.
>>422319
У других работает.

Аноним 21/07/23 Птн 18:32:26 № 422356 436

>>422336

Расскажи с какими параметрами запускал.

Аноним 21/07/23 Птн 18:32:46 № 422358 437

>>422336
>эксллама.
охренеть работает. пасеьо

Аноним 21/07/23 Птн 18:37:32 № 422368 438

>>422356
С обычными. Сейчас вот запустил с
>python .\server.py --api --api-blocking-port 6000 --loader exllama --max_seq_len 4096 --compress_pos_emb 1 --model TheBloke_Llama-2-13B-GPTQ
Натройки таверны стандартные, прикрутил только контексты и кручу периодически температуру.
Вот кстати по твоей теме, с 6 попытки таки базу выдал. Но политику лучше сюда не тащи, а то зарепорчу и удалят.

Аноним 21/07/23 Птн 18:40:35 № 422383 439

>>422368

Хорошо, попробую на пресете пигмалиона.
GPT-5 это персонаж? Поделишься промптом?

Аноним 21/07/23 Птн 18:44:42 № 422400 440

>>422383
>Поделишься промптом?
На первом скрине, лол >>422056

Аноним 21/07/23 Птн 18:50:28 № 422417 441

>>422248
Это какая модель/видео?

Аноним 21/07/23 Птн 19:05:13 № 422462 442

>>422417

llama2 13b / 4090 rtx

Аноним 21/07/23 Птн 20:04:08 № 422631 443

>>422310
не запускается

Аноним 21/07/23 Птн 20:58:25 № 422787 444

Запустилось
rtx3080

Аноним 21/07/23 Птн 23:42:56 № 423105 445

>>422631
Нужен не один файл safetensor, а все файлы оттуда. Мелкие которые рядом.

Аноним 22/07/23 Суб 00:30:50 № 423198 446

>>422303
> Это конечно же, ФБ в сёрную дыру вместе с Землёй свалится, если выложит сетку без сои вообще.
И как оно? Просто удалили сою в ответ на базированные вопросы или шиза начинает лезть?
> 13 конечно же
Все равно довольно таки неплохо

Стоковая лама 2 (что 13 что 70б) технически в ерп может, на сама на кукан не прыгает на левд карточке пока не выразишь явную инициативу (при это может внезапно ломаться уровня "что ты делаешь я не готова" в разрез контекста, лечется свайпом), склонна писать короткими постами как только все переходит к процессу соития при том что до этого 200+ токенов описывала свои ощущения и реакцию. Вроде как пригодна и нет явных запретов, но файнтюны очень нужны.
Чат версия срет соей по поводу и без, к скачиванию для подобного применения не рекомендуется.

Аноним 22/07/23 Суб 02:22:12 № 423411 447

изображение.png 20Кб, 1233x166

>>422787
Скорость у тебя немного печальная. Запускаешь 13B с оффлоадом? А то у меня карточка чуть лучше твоей, 3080Ti, а скорость в 3 раза выше.
>>423198
>Просто удалили сою в ответ
Как будто это просто, лол.
Сравнивать сложно, потому что без сои пока только 7В версия, а оно такое себе чисто из-за размера. Я бы оценил уровень сои как в обычной версии, а чаттинг как в чат версии, сообщения даже немного больше выходили. Ждём тюна 13B версии.

Аноним 22/07/23 Суб 02:30:41 № 423420 448

Интересный эксперимент с Tree Of Thought стилем промтинга.
https://www.promptingguide.ai/techniques/tot

Оригинальный пост - Big Nigga анон адаптировал своего большого ниггу для этого промтинг-стиля : https://desuarchive.org/g/thread/94845561/#94846059
Суть : Нейронка разговаривает и спорит сама с собой пока не придёт к приемлемому ответу по её же мнению. На пике у чела ответ от 30B нейронки.

Аноним 22/07/23 Суб 10:59:48 № 423739 449

>>423420
На самом деле 30В и выше не нужны, если получится заставить нейронку хоть немного думать. Скорости у 13В с избытком и можно хоть три диалога пускать параллельно, знания нахуй не нужны, даже 7В знает википедию лучше рандомного двачера.

Аноним 22/07/23 Суб 11:38:27 № 423788 450

>>423739
Там фишка не в знаниях, а в количестве весов. То есть, насколько она сопоставляет одни буквы-слова с другими, и насколько хорошо пишет, в итоге.
«Думать» LLM ты не заставишь в принципе.
Но имитация размышлений в виде красиво и наиболее статистически вероятно построенного абзаца ты получишь на большом количестве весов, на подробном дереве, которое и весит 30 и более.

Тащемта, GPT4 — 8 различных моделей по 220B каждая, которые и решают задачи пользователя. По слухам. Отсюда и качество (до их цензурирования, офк).
Так что получить адекватную речь на 13B параметров — надо ее обучать на конкретных текстах с нуля, не добавляя никаких википедий лишних.

Аноним 22/07/23 Суб 11:59:28 № 423819 451

Screenshot.png 48Кб, 1262x300

Новый король опенсурса от Мостака

https://stability.ai/blog/freewilly-large-instruction-fine-tuned-models

Аноним 22/07/23 Суб 12:46:26 № 423872 452

>>423819
> ###
Даже в викуне от этого говна уже давно отказались.

Аноним 22/07/23 Суб 12:48:00 № 423875 453

Screenshot+2023[...].png 74Кб, 750x202

>>423819
Хм, интересно. Первые ламы были на уровне гпт3, а вторые с файнтюнингом местами уже чатгопоту обгоняют. Всё-таки метод "навалить побольше параметров" себя не оправдал, зарешала таки оптимизация архитектуры.

Аноним 22/07/23 Суб 12:55:29 № 423883 454

Как вы боретесь с тем что лама 2 в повторения уходит вместо ответов?

Аноним 22/07/23 Суб 12:59:15 № 423887 455

>>423875
Но что мешает closedai зафайнтюнить их 170B гопоту, используя новые методы?

Аноним 22/07/23 Суб 13:25:33 № 423911 456

>>423887
Это так не работает. Во вторых ламах какие-то аттеншены модные, это доработка самого трансформера, даже если такие на чатгопоту поставить, модель придется заново с нуля переучивать, а это по цене пиздец. В опенаи уже заявляли, что гпт5 не будет, так что они со своей бизнес-моделью "слыш плати @ залупу тебе на воротник, а не свободный доступ" уже проебали Цукербергу. Третьи ламы такими темпами уже будут на уровне гпт4, причем свободно на обнимордах и скорее всего в этом году.

Аноним 22/07/23 Суб 13:47:53 № 423963 457

>>423788
> по 220B каждая
Писали про 175, не?
>>423875
> зарешала таки оптимизация архитектуры
Опубликованы ли нюансы обучения? Вроде как совсем радикальных изменений архитектуры во второй лламе нет, но обучение более масштабное и качественное. Если использовали подход постепенного нарастания сложности с разъяснением это вполне могло сыграть и "логику" прокачать, например, ревью ошибочных ответов после корректировки делает гораздо лучше чем первая, разбирая по частям.
Сюда же изначально более качественные и структурированные тексты вместо обрывков - сразу стала лучше придерживаться промта.
>>423911
> Третьи ламы такими темпами уже будут на уровне гпт4, причем свободно на обнимордах и скорее всего в этом году
Кумерских и сторитейл файнтюнов бы второй дождаться, но хотелось бы верить в такое светлое будущее.

Аноним 22/07/23 Суб 13:58:05 № 423974 458

>>423411
>Скорость у тебя немного печальная. Запускаешь 13B с оффлоадом?

Запускаю 13b. Что за оффлоад? Запускаю с такими параметрами:
call python server.py --listen --auto-devices --model llama2 --model_type llama

>А то у меня карточка чуть лучше твоей, 3080Ti, а скорость в 3 раза выше.
Возможно из-за того, что я запускаю в песочнице sandboxie?

Аноним 22/07/23 Суб 13:58:43 № 423977 459

>>423105
там все файлы были.
запустилось после обновления oobabooga

Аноним 22/07/23 Суб 14:44:54 № 424041 460

>>423977
но теперь после обновления викуня не запускается (

Аноним 22/07/23 Суб 15:10:27 № 424080 461

>>416476
>>416710
Кури Longnet, который позволяет запихнуть в контекстное окно до миллиарда токенов с линейным ростом вычислительной сложности https://arxiv.org/abs/2307.02486
Либо просто немного подожди, думаю, что за ближайший месяц-полтора уже должны появиться доступные имплементации.

Аноним 22/07/23 Суб 15:30:08 № 424126 462

>>424080
>позволяет запихнуть в контекстное окно до миллиарда токенов
Ну вот, это уже что-то. А то 4, 16к, не серьёзно. Хочу локально ламу3 лучше гпт4 и с контекстом 1млрд токенов.

Аноним 22/07/23 Суб 15:42:53 № 424151 463

>>424126
Даже если удастся запустить это локально, нужно учитывать, что для миллиарда токенов вычислительная сложность всё равно растет линейно даже для лонгнета, так что вместо 100 токенов/с для окна в 4к на том же железе ты получишь 1 токен в 40 минут для окна в 1Г.

Аноним 22/07/23 Суб 15:53:40 № 424174 464

>>423875
>Первые ламы были на уровне гпт3
И это было пиздежом.
>а вторые с файнтюнингом местами уже чатгопоту обгоняют
И то пиздёж.
>Всё-таки метод "навалить побольше параметров" себя не оправдал
В смысле? Во второй вилле как раз за 100B параметров ушли. Банально у неквантованной 70B лламы веса весят 128 гиг, а у них 230 гиг.
>>423883
Ждём файнтюнов.
>>423911
>В опенаи уже заявляли, что гпт5 не будет
Они когда-то заявляли, что они открытая компания, и будут вываливать всё в попенсорс. Угадай что вышло.
>>423974
>Возможно из-за того, что я запускаю в песочнице sandboxie?
Возможно. А нахуя?

Аноним 22/07/23 Суб 16:03:18 № 424190 465

Как отлёрнить по-человечески? Взял TheBloke_Nous-Hermes-13B-GPTQ , загрузил через AutoGPTQ, накидал говна в Лору, а он мне ошибками сыпет и на память ругается, есть какие-то норм гайды?

Аноним 22/07/23 Суб 16:05:05 № 424196 466

>>424174
>В смысле? Во второй вилле как раз за 100B параметров ушли. Банально у неквантованной 70B лламы веса весят 128 гиг, а у них 230 гиг.
Так вилла это файнтюн лламы2, всё так же 70B. Может у них 32-битные веса. В любом случае ждем 4бит квантовку от thebloke'а.

Аноним 22/07/23 Суб 16:14:22 № 424222 467

>>424174
>Возможно. А нахуя?
параною, не запускаю левые ехешники

Аноним 22/07/23 Суб 16:34:23 № 424263 468

>>424190
Железо то какое? Там минимум 24ГБ врама надо.
>>424196
>Может у них 32-битные веса.
Да, ты прав, я проебался с этим, посмотрел, действительно за каким-то хером они 32 битные веса раздают.
>>424196
>В любом случае ждем 4бит квантовку от thebloke'а.
Вчера смотрел, ни одной раздачи для процов.

Аноним 22/07/23 Суб 16:55:07 № 424291 469

Аннотация 2023-[...].png 15Кб, 937x206

Видали, к обнимордовскому чату уже ламу2-70В-чат прикрутили, причем с возможностью гуглить ответы.

Аноним 22/07/23 Суб 17:23:36 № 424360 470

>>424291
ссылку в студию

Аноним 22/07/23 Суб 17:28:24 № 424372 471

>>424360
https://huggingface.co/chat/

Аноним 22/07/23 Суб 18:40:08 № 424544 472

>>424372
Оу май, аж прослезился. Впервые ЛЛМ-ка зафейлила мой стандартный запрос. Мало того что перепутала манхуу с мангой, еще и шизо-сои налила вместо ответа.

Прямо комический пример дистопии.

Аноним 22/07/23 Суб 18:56:57 № 424590 473

>>423420
Анон обновил своего большого ниггу и добавил ST карту, я потестил это на 13B дефолт llama-2, очень сложно заставить её мутить "дерево мысли", в то же время llama-2-13B-Guanaco-QLoRA-GGML справляется с этим куда быстрее, и более точно что ли... в общем есть потанцевал.
https://boards.4channel.org/g/thread/94857990#p94863495
в том же треде аноны намутили desu бота :
https://boards.4channel.org/g/thread/94857990#p94864454

Аноним 22/07/23 Суб 19:04:05 № 424604 474

>>424263
>Железо то какое? Там минимум 24ГБ врама надо.
Да, у мя 3090 и 32 гб оперы.

Аноним 22/07/23 Суб 19:57:25 № 424685 475

https://github.com/CStanKonrad/long_llama
Пусть тут полежит чтобы не забыть. (Я не тестил, формат дикий) Обещают многое...

Аноним 22/07/23 Суб 20:00:14 № 424688 476

>>424372
в принципе не сильно хуже gpt3.5

Аноним 22/07/23 Суб 20:12:56 № 424700 477

>>424544
Ну не знаю, я вот специально сейчас поспрашивал эту ламу на темы, которые точно нигде, никем и никогда не рассматривались. И она пиздец какие осмысленные ответы выдает, я бы сам до некоторых выводов не сразу додумался. Это 100% ориджинал контент, выводы самой ламы, нагуглить она это не могла, как и в ее датасете ничего такого не могло быть.

Аноним 22/07/23 Суб 20:30:49 № 424725 478

>>424604
>32 гб оперы
Мало. Попробуй поставь подкачку гигов 100, авось прокатит.

Аноним 22/07/23 Суб 21:23:57 № 424853 479

>>424725
Ух, блин, может 7ми миллионную попробовать тогда.

Аноним 22/07/23 Суб 21:32:31 № 424871 480

>>424725
64 хватит?

Аноним 22/07/23 Суб 22:40:12 № 425024 481

>>424871
Попробуй, и нам потом скажешь.

Аноним 23/07/23 Вск 00:40:25 № 425211 482

>>423883
В отличии от первой, вторая более критична к параметрам движка
Почитай маны, покрути параметры
У меня в зависимости от параметров получалось настраивать очень разные поведения
Когда ее зажимаешь по вероятностям - она начинает срать повторами, потому что такая архитектура у LLM, и в описании параметров это прямо и написано что будет именно так
Когда отпускаешь - она тебе может хоть книгу написать
Ну а средний оптимум - немного зажать, чтобы бредогенератор прикрутить, и влупить штрафы за повторы, тогда получается на уровне первой, и даже интереснее

Аноним 23/07/23 Вск 00:48:48 № 425221 483

>>424151
А верно ли это?
Дело в том, что в выводе ламы вижу отдельной строкой именно обработку промта, и цифры там бывает доходят до 2000 токенов в секунду через clblast
Также у греганова в движке есть хитрый кеш, который обработку промта вообще до нуля снижает
Что касается самого окна контекста, то его наполнение не особо заметно замедляет генерацию токенов, замедление явно не линейное, скорее ближе к логарифмическому: при увеличении контекста в 20 раз скорость падает всего процентов на 40

В общем по мне оно там более хитро устроено, чем ожидается

Аноним 23/07/23 Вск 00:48:59 № 425222 484

>>424263
Блок сказал, что пока llama.cpp не работает с 70б моделью, поэтому ему и квантовать нечего. Ждем.

Аноним 23/07/23 Вск 00:51:59 № 425226 485

>>423974
Ну так да, ты грузишь ggml-модель, получается?
Она не «работает на видеокарте», она выгружается на видюху и как бы работает на ней, но предназначена для проца. То есть ты околоэмулируешь.

А если скачать GPTQ, и запустить движком ExLlama, то там скорости будут выше, конечно. Нативная хуйня.

Аноним 23/07/23 Вск 00:52:53 № 425228 486

>>424222
Проиграл
Если ты на винде, то у тебя левых экзешников и так не меньше 98%
Песочницы на винде - это как одинокая калитка посреди поля
Тем более любой современный зловред из этих песочниц вываливается в ядро как делать нефиг. Даже 10 лет назад они уже были неактуальны, и трояны из софта для школьников у меня свободно выпрыгивали из песочниц, уже тогда это везде внедряли как базовую вещь

Аноним 23/07/23 Вск 01:53:40 № 425294 487

>>424871
я на 32 гигах и 30 битные модели в 4 кванта запускал, на 64 гигах запускал 65B. И это все без файла подкачки. У тебя 3090 спокойно в нее влезет 13 битная модель

Аноним 23/07/23 Вск 01:58:33 № 425297 488

>>425226
ggml работает видюха+проц, если поставить clblast или cublas (nvidia cuda), в противном случае без этого параметра она работает на openblas (только процессор) и он очень медленный. К примеру у меня ноут с 3060 и кубласом и промт он генерит на видюхе очень быстро, а ответ считает на проце, что медленнее. На сервере с 32 ядрами у меня итоговый вывод получается медленнее, чем на ноуте.

Аноним 23/07/23 Вск 02:10:50 № 425309 489

>>425211
Скинь свой пресет.
>>425221
А теперь учти расход памяти, 1 гиг на 1к токенов.
>>425222
>Ждем.
Девиз этого треда, надо в шапку внести.
>>425294
Там чел трейнить хочет, а там требования совсем другие.

Аноним 23/07/23 Вск 04:23:54 № 425389 490

>>425297
Я в курсе, у меня 4 разных конфига работает. =)
Я про то, почему у него такая низкая скорость генерации.
А еще на сервере можно поиграться с количеством потоков, если память не DDR5, высока вероятность, что уже на 4 потоках будет предпиковая скорость.
>>425309
А шо еще делать, если у меня нет 48 видеопамяти, чтобы 70B на видяхах запустить. =(
Был вариант собрать распределенную сеть, но я поленился накатывать на все компы петалс.

Аз да, если кто не в курсе, есть такая штука: https://petals.dev/
Но там сами разбирайтесь, я ленивый.

Аноним 23/07/23 Вск 04:37:25 № 425396 491

https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
Видели? Вилли2 в топе. Говорят гпт3.5

Аноним 23/07/23 Вск 05:41:39 № 425433 492

>>425396
>Говорят гпт3.5
Шо, опять? Впрочем кто тут запускал? Как там с соей?

Аноним 23/07/23 Вск 09:15:06 № 425530 493

Screenshot2023-[...].jpg 587Кб, 720x1650

>>425396
>>425433
Вторые ламы на самом деле просто вне конкуренции, когда ответ требует креативно сочетать темы, которые раньше никто в таком ключе не рассматривал. Я пробовал это же >>424700 спрашивать у чатгопоты, 4ая ещё пытается что-то внятное вытужить, а 3.5 просто сливается в кукареканья типа "это разные темы вообще" в лучшем случае пукнет что нужны глубокие познания в обеих темах, чтобы их сравнивать. То есть, лама2-70В-чат подобные темы понимает и умеет применять по факту лучше любой чатгопоты. Возможно, это связано с тем, что чатгопота это кластер из нескольких моделей, а в последнее время ходят обоснованные слухи, что их почти все отключили, так как пипл и то что есть радостно наворачивает, ещё и платит регулярно. Но факт в том, что в нынешнем виде даже чатгопота4 тупее ламы2-70В-чат. Понятно, что файнтюненные ламы2 ещё лучше, я не удивлюсь если Вилли2 в большинстве случаев выдает ответы лучше опенаишных поделий.

Аноним 23/07/23 Вск 10:35:52 № 425617 494

А есть торрент всех вторых лам, как был с первыми? Что-то неохота сотни файлов с обниморд вручную качать.
Зашел реддит почитать на эту тему, а там соевика трясет: https://www.reddit.com/r/LocalLLaMA/comments/15779no/poisoned_models/
>It all started when someone has posted about "a new shiny Russian speaking model":

>https://www.reddit.com/r/LocalLLaMA/comments/154lcbg/rugpt_35_13b_a_new_model_for_russian_language/

>I dove a little deeper of what this model do and what it is related to. It turns out, it only outputs pro Ru propaganda on any politic question (it is also quite "hot" and random and outputs quite different on same question), but answers I actually got on my first try made my blood froze in my veins.
Они же правда такие, прямо канон с soy booru.

Аноним 23/07/23 Вск 10:52:52 № 425644 495

>>425617
>
>А есть торрент всех вторых лам, как был с первыми? Что-то неохота сотни файлов с обниморд вручную качать.

magnet:?xt=urn:btih:14ec42c98d0b12f5b12f5b3d670cdf4915c1feaf&dn=llama-2&tr=udp://tracker.openbittorrent.com:80&tr=udp://tracker.opentrackr.org:1337/announce

magnet:?xt=urn:btih:61b84260b6a927581b6520493203b67b4a311552&dn=llama-2-70b&tr=udp://tracker.openbittorrent.com:80&tr=udp://tracker.opentrackr.org:1337/announce

Аноним 23/07/23 Вск 11:18:15 № 425687 496

>>425644
magnet:?xt=urn:btih:61b84260b6a927581b6520493203b67b4a311552&dn=llama-2-70b&tr=udp://tracker.openbittorrent.com:80&tr=udp://tracker.opentrackr.org:1337/announce

короче тут поищи https://bt4gprx.com/search?q=llama-2&category=all

А эту кто-нить юзал? magnet:?xt=urn:btih:658ab223d5f69b0a79b7f590237560a135c77ce7&dn=wizard-vicuna-7b-uncensored-superhot-8k-GPTQ-4bit-128g.no-act.order.safetensors&tr=udp://tracker.openbittorrent.com:80&tr=udp://tracker.opentrackr.org:1337/announce

Аноним 23/07/23 Вск 12:31:10 № 425736 497

>>425530
Не знаю, я РПшить пытался - любые лламы и файнтюны не предназначены просто для этого, прям говно полное.

Аноним 23/07/23 Вск 13:03:55 № 425772 498

>LLaMA 2
Опять дрочить...

Аноним 23/07/23 Вск 13:26:15 № 425806 499

>>425736
>>425772
Я ламами никогда не дрочил, но могу предположить, что проблема может быть в том, что они не предназначены для РП, их натаскивают на общение по типу вопрос-ответ. Я вот тут попробовал ламу поспрашивать за шпиндель для фрезера, оказывается она в этом весьма прошарена, ответ намного содержательнее и конкретнее, чем то что я находил поиском в гуглах, это радует.

Аноним 23/07/23 Вск 13:28:55 № 425811 500

>>425806
>они не предназначены для РП
Ты просто не умеешь их готовить.

Аноним 23/07/23 Вск 13:32:31 № 425817 501

https://huggingface.co/TheBloke/llama2_7b_chat_uncensored-GPTQ

Аноним 23/07/23 Вск 13:38:03 № 425824 502

>>425530
> что их почти все отключили
Оптимизировали, одно дело запускать полный процесс а потом сводить или итерировать, а тут в начале экспресс оценку "кому давать" и экономия мощностей в разы. Уже не в первый раз заявления о деградации чтжпт в некоторых запросах, но это еще с лоботомией и цензурой связывают.
> файнтюненные ламы2 ещё лучше
Нужно систему из двух разных файнтюнов лламы, которые будут поступать на вход третьей, которая уже будет решать какую информацию выбрать или объединить.
>>425617
Ай лол, так трястись всего-то с крымняша. Рили канон
>>425811
Поделись рецептом и настройками.
В общем в рп оно может и иногда неплохо, но когда доходит до эколоэротики то ощутимо сокращается длина и разнообразие постов (офк не "ты меня ебешь" но до файнтюнов 1й лламы даже не близко), а еще иногда может дерейлить заливая про мораль и уместность.

Аноним 23/07/23 Вск 14:20:38 № 425898 503

Катить будете - ссылки в шапке проверьте, и актуализировать стоит.
>>393749 (OP)
> 2. Скачиваем модель в ggml формате. Например вот эту
> https://huggingface.co/Pi3141/alpaca-lora-30B-ggml/tree/main
> https://pastebin.com/vWKhETWS Промт для АИ собеседника
> https://pastebin.com/f9HZWiAy Промт для Мику
> https://rentry.co/vsu4n Инструкция GPTQ
> https://huggingface.co/anon8231489123/gpt4-x-alpaca-13b-native-4bit-128g
> https://huggingface.co/camelids/llama-65b-ggml-q2_0 65B, квантованные в 2 бита.
> https://huggingface.co/reeducator/bluemoonrp-30b Единственная модель с нативным размером контекста в 4к токенов
Нужно менять или сносить, а добавить про лламу 2 (можно магнет торрента), ссылку на https://huggingface.co/TheBloke и разъяснение про ggml и gptq упростить и отдельно вынести бы.

Аноним 23/07/23 Вск 17:04:20 № 426070 504

А хотя бы 7b реально тренировать на 24 Гигабайтах видеопамяти?

Аноним 23/07/23 Вск 17:51:12 № 426140 505

>>423788
>GPT4 — 8 различных моделей по 220B каждая
вроде же 6 моделей по 175 каждая

Аноним 23/07/23 Вск 18:22:58 № 426179 506

>>426070
Да. Я файнтюнил на Adafactor мультимодалки Llava, там обычная лама в качестве текстовой модели. Можно ещё из bitsandbytes взять Adam8bit вместо адафактора, но он чуть пожирнее. Либо лорами обмазаться через peft и тогда 13В потянет, тебе всё равно все параметры не надо тюнить. Но высеры от HuggingFace - это пиздец клоунада из говнокода и отсутствия документации.

Аноним 23/07/23 Вск 18:42:01 № 426215 507

>>426070
7b и на 12 реально.
Правда, хуйня получается. =)
Но я просто мало эпох запускал.
Ну и важно что: знания или стиль.

Аноним 23/07/23 Вск 18:43:16 № 426218 508

>>423963
>>426140
Может быть, соряньте, если попутал, конечно.

Аноним 23/07/23 Вск 18:45:52 № 426222 509

https://huggingface.co/TheBloke/Llama-2-70B-Chat-GGML
Завезли для бомжей, ура.
Правда, только чат-версию, ждем нормальную.
Но качну, потестирую скорости и знания, сравню с ВикАнлокед и Гуанако старыми.

Аноним 23/07/23 Вск 19:21:08 № 426275 510

>>426222
Залили нормальную. Алсо и фривилли2 подвезли, что там известно каков уровень сои?

Аноним 23/07/23 Вск 19:50:56 № 426328 511

>>425898
Окей, сейчас перекачу.

Аноним 23/07/23 Вск 19:57:47 № 426337 512

>>426222
Похуй, её всё равно ничего кроме ванильной llama.cpp в консольке не поддерживает. Убабуга так вообще сломал у себя всё, пидрилий, опять без правки кода нихуя не работает.

Аноним 23/07/23 Вск 20:00:04 № 426338 513

>>426337
Да там и куда не поддерживается у Жоры пока, опять половину токена в секунду сосать из его говнокода.

Аноним 23/07/23 Вск 20:30:03 № 426364 514

>>426362 (OP)

ПЕРЕКАТ

>>426362 (OP)

Аноним 23/07/23 Вск 20:30:28 № 426365 515

>>426364
>wipe samewords
СУКА

ПЕРЕКАТ
>>426362 (OP)

Аноним 02/08/23 Срд 13:19:15 № 440438 516

Народ я очень хочу что-то похожее нач Сharakter ai у меня есть i9-13900k и 4090 на 24 гб, я настраивал и пробовал запускать ламу раньше где-то пол года назад и она натурально срала шизой.что самое главное она не работала как чат генерирую ответы и попросы вместо меня. а мне нужно что бы сет был обучен в таком темплейте

### HUMAN:
{prompt}

### RESPONSE:

мне пофиг если ответ будет генерироваться пол часа или если это будет занимать 60 гб оперативы, я хочу результат такой же как chai или charakter ai. где-то же все эти приложухи вроде real girfren или virtmate берут стностные модели? почему у азиатов есть а у анона нет?

Назад Вверх Каталог Обновить