/ai/ - Локальные языковые модели (LLM): LLaMA, MPT, Falcon и прочие №46

Локальные языковые модели (LLM): LLaMA, MPT, Falcon и прочие №46 /llama/ Аноним 20/03/24 Срд 20:36:16 № 676400 1

Альфа от контек[...].png 121Кб, 3090x1830

Тесла P40 две ш[...].jpg 2207Кб, 2330x1748

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2-х бит, на кофеварке с подкачкой на микроволновку.

Здесь и далее расположена базовая информация, полная инфа и гайды в вики https://2ch-ai.gitgud.site/wiki/llama/

Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.

Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.

Кроме LLaMA для анона доступны множество других семейств моделей:
Pygmalion- заслуженный ветеран локального кума. Старые версии были основаны на древнейшем GPT-J, новые переехали со своим датасетом на LLaMA, но, по мнению некоторых анонов, в процессе потерялась Душа ©
MPT- попытка повторить успех первой лламы от MosaicML, с более свободной лицензией. Может похвастаться нативным контекстом в 65к токенов в версии storywriter, но уступает по качеству. С выходом LLaMA 2 с более свободной лицензией стала не нужна.
Falcon- семейство моделей размером в 40B и 180B от какого-то там института из арабских эмиратов. Примечательна версией на 180B, что является крупнейшей открытой моделью. По качеству несколько выше LLaMA 2 на 70B, но сложности с запуском и малый прирост делаю её не самой интересной.
Mistral- модель от Mistral AI размером в 7B, с полным повторением архитектуры LLaMA. Интересна тем, что для своего небольшого размера она не уступает более крупным моделям, соперничая с 13B (а иногда и с 70B), и является топом по соотношению размер/качество.
Qwen - семейство моделей размером в 7B и 14B от наших китайских братьев. Отличается тем, что имеет мультимодальную версию с обработкой на входе не только текста, но и картинок. В принципе хорошо умеет в английский, но китайские корни всё же проявляется в чате в виде периодически высираемых иероглифов.
Yi - Неплохая китайская модель на 34B, способная занять разрыв после невыхода LLaMA соответствующего размера

Сейчас существует несколько версий весов, не совместимых между собой, смотри не перепутай!
0) Оригинальные .pth файлы, работают только с оригинальным репозиторием. Формат имени consolidated.00.pth
1) Веса, сконвертированные в формат Hugging Face. Формат имени pytorch_model-00001-of-00033.bin
2) Веса, квантизированные в GGML/GGUF. Работают со сборками на процессорах. Имеют несколько подформатов, совместимость поддерживает только koboldcpp, Герганов меняет форматы каждый месяц и дропает поддержку предыдущих, так что лучше качать последние. Формат имени ggml-model-q4_0, расширение файла bin для GGML и gguf для GGUF. Суффикс q4_0 означает квантование, в данном случае в 4 бита, версия 0. Чем больше число бит, тем выше точность и расход памяти. Чем новее версия, тем лучше (не всегда). Рекомендуется скачивать версии K (K_S или K_M) на конце.
3) Веса, квантизированные в GPTQ. Работают на видеокарте, наивысшая производительность (особенно в Exllama) но сложности с оффлоадом, возможность распределить по нескольким видеокартам суммируя их память. Имеют имя типа llama-7b-4bit.safetensors (формат .pt скачивать не стоит), при себе содержат конфиги, которые нужны для запуска, их тоже качаем. Могут быть квантованы в 3-4-8 бит (Exllama 2 поддерживает адаптивное квантование, тогда среднее число бит может быть дробным), квантование отличается по числу групп (1-128-64-32 в порядке возрастания качества и расхода ресурсов).

Основные форматы это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это может серьёзно замедлить работу, если не выключить CUDA System Fallback в настройках панели NVidia. Лучше оставить запас.

Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/TheBloke/Frostwind-10.7B-v1-GGUF/blob/main/frostwind-10.7b-v1.Q5_K_M.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.

Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!

Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся

Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ

Ссылки на модели и гайды:
https://huggingface.co/models Модели искать тут, вбиваем название + тип квантования
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://rentry.co/lmg_models Самый полный список годных моделей
http://ayumi.m8geil.de/ayumi_bench_v3_results.html Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде

Предыдущие треды тонут здесь:
>>671376 (OP)
>>661076 (OP)

Аноним 20/03/24 Срд 20:47:38 № 676411 2

Наверно надо было спрашивать в \пр\, ну да ладно. В общем. Ситуация такова. Есть огромная база вопрос-ответ. И мне нужно прикрутить к ней бота. Вот пишут боту вопрос какой то. Он вычленяет оттуда контекст и ищет этот контекст в базе, в разделе вопросов, а затем выдает ответ. Как это проще всего сделать?

Аноним 20/03/24 Срд 20:58:20 № 676417 3

>>676411
Векторные базы данных и LlamaIndex.

Аноним 20/03/24 Срд 21:05:00 № 676422 4

>>676417
Но вроде звучит приемлимо сложно.

Аноним 20/03/24 Срд 21:50:07 № 676460 5

>>676417
Тупой наверно вопрос. Но допустим мы нашли в бд этот вопрос. А ответ то как узнать? Как связать меж собой вопрос - ответ?

Аноним 20/03/24 Срд 22:04:15 № 676480 6

>>676460
>Тупой наверно вопрос.
Уровня троллинга, потому что вопрос и ответ на него лежат в одной строчке БД. Поэтому это, вместе с вопросом пользователя, будет добавлено в контекст LLM вместе с инструкцией.

Аноним 20/03/24 Срд 22:07:47 № 676483 7

>>676480
>Уровня троллинга,
Простите, в новомодных технологиях не силен.
Т.е. вопрос и ответ кодируются вместе? Понял.

Аноним 20/03/24 Срд 22:25:46 № 676495 8

>>676483
>Т.е. вопрос и ответ кодируются вместе?
Они лежат вместе в БД, вектор строится только для вопроса, так как поиск идёт по вопросу. Хотя конечно можно делать вектора и по ответам, но ХЗ насколько они будут актуальны.

Аноним 21/03/24 Чтв 00:52:39 № 676631 9

>>676400 (OP)
capybarahermes-2.5-mistral-7b.Q8_0
на 10% ответ лучше чем
openhermes-2.5-mistral-7b.Q5_K_M
обе ggfu через кобольд nocuda

Аноним 21/03/24 Чтв 02:57:47 № 676680 10

>model training w/ GaLore + Transformers for SOTA results on consumer-grade hardware
>обучение модели с помощью GaLore + transformers для получения SOTA результатов на оборудовании потребительского класса
>82.5% less optimizer state memory footprint without performance degradation by expressing the gradient weight matrix as low rank.
>На 82,5 % меньше места в памяти состояния оптимизатора без снижения производительности благодаря выражению весовой матрицы градиента в виде матрицы низкого ранга.
https://twitter.com/Titus_vK/status/1770422413576089791
Отец знакомого работает в лабе по исследованию технологий ИИ. Сегодня срочно вызвали на совещание. Вернулся поздно и ничего не объяснил. Сказал лишь собирать вещи и бежать в тех-магазин за новыми RTX 4090. Сейчас едем куда-то далеко за город. Не знаю что происходит, но мне кажется началось...

Аноним 21/03/24 Чтв 03:04:49 № 676687 11

>>676680
и там ещё обновление темы с Bitnet. https://github.com/microsoft/unilm/blob/master/bitnet/The-Era-of-1-bit-LLMs__Training_Tips_Code_FAQ.pdf
>Модели BitNet, похоже, обучаются более "стабильно" из-за более низкой точности, им требуется больше обновлений градиента, чтобы увидеть столько изменений, поэтому скорость обучения должна быть больше, чем у модели с полной точностью, чтобы компенсировать это.
>>Кривые потерь значительно улучшаются, когда LR + затухание веса уменьшаются на полпути (они называют это двухэтапным планированием). В моделях с более низкими параметрами разрыв больше.
>Они выдвигают гипотезу: "...хотя между 3B-версиями BitNet b1.58 и LLaMA LLM нет заметного разрыва по потерям при проверке и точности в конце задачи, существует небольшая разница в потерях при обучении. Это говорит о том, что 1.58-битные модели могут демонстрировать лучшие возможности обобщения и быть менее склонными к перенасыщению".
>4-битный KV-кэш не дает существенной разницы, если она вообще есть, на эталонных оценках, и их 2T 3b все еще немного превосходит модель StableLM с полной точностью на оценках, даже с 4-битным KV-кэшем.
>Для обучения по-прежнему требуются градиенты полной точности, поэтому обучение не стало менее затратным по памяти, но они утверждают, что ядра CUDA с низкой точностью могут несколько улучшить эту ситуацию.
>Код, предоставляемый для реализации подхода к обучению, достаточно минималистичен.

Аноним 21/03/24 Чтв 03:18:33 № 676696 12

>>676680
https://arxiv.org/pdf/2403.03507.pdf

Аноним 21/03/24 Чтв 04:03:16 № 676742 13

>>676400 (OP)
Models Megathread #4 - What models are you currently using?
https://www.reddit.com/r/LocalLLaMA/comments/1bgfttn/models_megathread_4_what_models_are_you_currently/

Аноним 21/03/24 Чтв 04:04:53 № 676745 14

>>676631
Хотя бы по 3 раза каждую с одними с теми же промптами пробовал, чтобы подобные выводы делать?

Аноним 21/03/24 Чтв 04:08:23 № 676749 15

Две и больше карт не поддерживается, кстати.

Аноним 21/03/24 Чтв 06:30:31 № 676842 16

>>676749
Хули толку тогда? Можно было б арендовать большой утюг или завести риг побольше.

Аноним 21/03/24 Чтв 07:57:24 № 676869 17

Привет. А посоветуйте малютку модельку, которая бы по сути выполняла функцию гугла. Чтобы всю инфу брала из интернета.

Аноним 21/03/24 Чтв 08:02:06 № 676874 18

>>676869
*пожалуйста
:)

Аноним 21/03/24 Чтв 08:31:40 № 676886 19

>>676869
>>676874
Тролишь так?
Единственное что можно сделать это привязать к боту досуп собственно в гугл чтобы он гуглил за тебя. Смысла в этом как ты понимаешь никакого, мог бы и сам запрос забить.
А сделать поисковик как у гугла немного так сложнее.

Аноним 21/03/24 Чтв 08:35:25 № 676888 20

>>676869
>Чтобы всю инфу брала из интернета
Sidney Bing

Аноним 21/03/24 Чтв 08:44:17 № 676889 21

>>676869
web_rag в oobabooga на линухе.
Любые web langchain // llamaindex с поиском.
И т.д.
Модель тут не причем.

Аноним 21/03/24 Чтв 09:13:56 № 676902 22

>>676886
Нет. Не тролю. Нужен чат, который бы отвечал как человек, но данными из интернета, с уточнениями. Смысл в том, чтобы вся история чата сохранялась и не нужно было открывать браузер и гуглить. Да, знаю можно просто бота такого сделать., мне это не подходит по нескольким причинам, необходимость мессенджера в первую очередь. Нужен типо чат алиса. Модель именно для этого, чтобы небольшая с базовыми разговорными навыками, но информацию черпала онлайн.
>>676889
>>676888
Спасибо, посмотрю.

Аноним 21/03/24 Чтв 09:42:15 № 676910 23

>>676902
В таверне есть аддон Web search. Я сам не пробовал пока что, но вроде оно должно как-то так и работать что ты описал.

Аноним 21/03/24 Чтв 09:54:29 № 676914 24

>>676680
Это что, выходит 7б (?) можно вяло но файнтюнить на 24 гиговых? Интересно сколько влезет в 48/96гб. Действительно прорыв. Тот же метод бы для других нейронок применить, коху того же пнуть.

Аноним 21/03/24 Чтв 10:28:36 № 676917 25

>>676914
ну да, по сути почалось, только доступна всего лишь одна гпу, как сказал анон выше, на двух и более не работает.. пока что.
там же на реддите подсчитали что для полной тренировки (или только файнтюна??) нужно ~110 дней нонстопом с rtx 4090.

Аноним 21/03/24 Чтв 10:28:49 № 676918 26

>>676914
А раньше нельзя было? Или только лоры помещались?

Аноним 21/03/24 Чтв 10:34:54 № 676920 27

>>676842
Потом допилят больше карт. Может быть. Или как неленивый, спрячут мультигпу за пейволлом.

Аноним 21/03/24 Чтв 10:42:20 № 676923 28

Не подвезли ничего нового, чтобы изкаробки локальный RAG по тыщам пдфок, как в чате с ртх, но без ртх?

Аноним 21/03/24 Чтв 11:44:34 № 676961 29

>>676910
Спасибо, гляну, но мне кажется это кушать много будет.
Нужна моделька макс 1b, чтобы загрузил в gpt4all и все. Красиво и быстро, и не жрет.

Аноним 21/03/24 Чтв 11:55:07 № 676963 30

>>676411
Предварительная работа:
1) при помощи LLM строишь массив ключевых слов
2) при помощи кожаных мешков причёсываешь массив ключевых слов
3) при помощи LLM размечаешь каждый вопрос/ответ ключевыми словами, кладёшь их в БД

При запросе:
1) Просишь LLM сформировать ключевые слова по запросу
2) Дергаешь обычный поиск по ключевым словам в БД
3) Скармливаешь в контекст LLM все найденные в БД вопросы/ответы как справочный материал
4) Просишь LLM серануть ответ

На сегодня это самый предсказуемый вариант, который в принципе можно отлаживать.

>>676417
Вектора сегодня неуправляемые. Если ты не готов файнтюнить embedding модель под свою задачу, то лучше не тратить время и силы. Но надеюсь их приведут в порядок в ближайшее время.

Аноним 21/03/24 Чтв 12:14:10 № 676967 31

Вопрос по железу.
А какое кол-во токенов в секунду обеспечивает максимально низкую задержку для среднего по размеру сообщения (ну допустим 140 символов).
Типичный чатинг в телеге. И можно ли вообще настроить чтобы ответ был целиком после формирования, а не прописывался в реалтайм.
Разумеется для разных моделей, будет разный результат, ну возьмем 7b и 70b. Есть данные или личный опыт?

Аноним 21/03/24 Чтв 12:16:59 № 676968 32

>>676967
>А какое кол-во токенов в секунду обеспечивает максимально низкую задержку для среднего по размеру сообщения (ну допустим 140 символов).
>А какое кол-во километров в час обеспечивает максимально низкую задержку для пересечения среднего по размеру расстояния (ну допустим 140 метров).
Чем больше, тем лучше, очевидно.

Аноним 21/03/24 Чтв 12:22:14 № 676970 33

>>676400 (OP)
Как (быстро) сделать русский локальный ChatGPT
https://habr.com/ru/articles/759386/

Аноним 21/03/24 Чтв 12:24:12 № 676972 34

>>676967
>чатинг в телеге
Алсо добавлю, что в телеге в большинстве случаев не надо уменьшать лаг. Люди психологически лучше принимают сообщение "печатаю" и спустя несколько секунд ответ, чем мгновенную реакцию.
У нас в боте вообще специально задержка добавлена.

Аноним 21/03/24 Чтв 12:49:08 № 676999 35

А возможно ли запустить на нейросетке луп, чтобы в неё постоянно поступала информация и генерировался на неё ответ? Такая себе имитация сознания

Аноним 21/03/24 Чтв 12:58:21 № 677010 36

>>676970
> русский локальный ChatGPT
> по факту допинали лорой первую 13в альпаку чтобы по-русски хоть как-то шпрехала
Вспоминается мемас про "мам, купи Х! у нас есть Х дома! Х дома: какая-то шляпа". Абсолютно кликбейтный заголовок, как по мне, за такое надо банить и гнать ссаными тряпками подальше от ресурса

Аноним 21/03/24 Чтв 13:01:12 № 677013 37

>>676999
Да блин в таверне же можно в комнату несколько персонажей посадить и настроить чтобы они автоматом генерили сообщения по таймеру. Будут вечно срать друг другу что-то, думаю со временем там начнется вечная шиза.

Аноним 21/03/24 Чтв 13:04:51 № 677016 38

А что ничего нового для куминга не появилось? Заходил 2 года назад в тред был LLaMA и сейчас опять по факту только он, может хоть он улучшился или до сих пор та самая первая версия и есть?

Аноним 21/03/24 Чтв 13:05:41 № 677018 39

>>676967
Во-первых, человек пишет не так уж и быстро, так что формат переписки поддерживают даже процы на моделях 34B размера. 1-1,5 токена/сек — вполне себе переписка в телеге.
Норм видяхи выдадут уже гораздо бо́льшую скорость.
Во-вторых, ты говоришь о режими стриминга, который, конечно, отключается без проблем.

Из личного опыта, могу предложить, для русского языка, взять command R 35B на одну Tesla P40, скорость будет отличная — просто летать для телеги.
Ну или она же на процессоре (лучше DDR5 в двухканале, но пойдет и DDR4 в двухканале или DDR3 в четырехканале) — будет как средне-пишущий человек.
Но можно брать 70B на двух теслах — или 7B на проце. Скорость будет в районе 6 токенов/сек, неплохая.

Единственный совет, для малых сообщений на русском я подобрал:
"mirostat_mode": 2, // 1 для llama.cpp
"mirostat_tau": 1,
"mirostat_eta": 0.9,
Вроде отвечает лучше.

>>676970
Шо це?

>>676972
Плюсую, за скоростью можно не гнаться, это не голосовой ассистент.

>>676999
Это просто программирование, обычный скрипт. Запускай.

Аноним 21/03/24 Чтв 13:07:33 № 677019 40

>>677016
Нифига у тебя с чтением плохо, братиш.
Сочувствую.
Тут даже хз, че сказать.
Ну, вкратце, нет, не первая, а вторая, и не вторая, а мистраль, и не мистраль, а мерджи, и не мерджи, а токсик или дпо мерджи, и не дпо мерджи, а мое дпо мерджи, ну или что-то из раннего.
Но если ты ждал революцию, то, прости, веса GPT-5 еще не выложили.

Аноним 21/03/24 Чтв 13:12:09 № 677023 41

image.png 183Кб, 824x177

как в кобольда засунуть модельку если у меня некропроц без AVX2? есть поддержка вулкана без авх, но ошибка пикрел
в чем проблема?

Аноним 21/03/24 Чтв 13:14:09 № 677026 42

>>676967
Разумеется. Интересует оптимальный вариант и железо под него. Условные 2 секунды на полноценное предложение.
>>676968
>>676972
Это да, но это телега, а тут задача уменьшить лаг до уровня тележного общения. Надеюсь объяснил.
Сейчас у меня 6-8 токенов секунду (токен не равно слово) и это долго. Вот и хочу узнать какое железо мне нужно, чтобы полноценное предложение в пару секунд получить.

Аноним 21/03/24 Чтв 13:15:22 № 677027 43

>>677019
Иду по этому гайду:
Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:

У меня вопрос, если у меня видюха с 4гб, мне процом генерить? или с видюхой даже с 4гб будет быстрее?

Аноним 21/03/24 Чтв 13:19:05 № 677030 44

>>677027
если видюха нвидима то выбирай с кублас и будет побыстрее, но слои на нее не сгружай, толку не будет

Аноним 21/03/24 Чтв 13:30:34 № 677038 45

>>677018
Я пытаюсь получить ощущение активной переписки с человеком (расщитать). Так как это оптимально.
Ключевое слово активной, когда вы здесь и сейчас решаете вопрос. Написал-получил ответ.
Понятно с человеком чаще идет режим ленивой переписки: ты написал и отложил телефон, ждешь, тут ты нацелен на получение ответа, чем быстрее тем лучше.

Аноним 21/03/24 Чтв 13:36:29 № 677043 46

>>677026
Во-первых, ты не сказал, какую модель гоняешь.
Во-вторых, ты как-то неадекватно воспринимаешь «лаг уровня тележного общения». Сам ты вряд ли можешь выдать 8 токенов в секунду. Если тебе нужно быстрее — значит тебе надо что-то гораздо быстрее тележного общения.
Попробуй засечь, сколько ты печатаешь текст, а потом вставить в Token counter.
У меня выходит 3~3,5 токена в секунду при моей печати в 400+ символов в минуту.
8 токенов — это уже 1000 символов в минуту. =) 140 символов при 8 токенах выдается за ~10 секунд.
Обычные сообщения могут содержать по 30-40 токенов, это уже 2-3 секунды. Если у тебя дольше — значит дело где-то не в LLM.
Математика.

>>677027
Да, как уже сказали, контекст держишь на ней, но слоев выгружаешь 0.

Аноним 21/03/24 Чтв 13:37:02 № 677045 47

>>676917
> только доступна всего лишь одна гпу, как сказал анон выше, на двух и более не работает..
Ээээ, хуясе ебать.
> что для полной тренировки (или только файнтюна??) нужно ~110 дней нонстопом с rtx 4090
Что понимают под полной тренировкой? Просто для файнтюна это слишком долго, для базовой модели слишком быстро(?), интересно.
>>676918
> только лоры помещались
this

Можно тогда хотябы оценить сколько уйдет на дотрен 13б, например. Не то чтобы перспективно с учетом возможного выхода ллама3, но там ведь тоже будет версия поменьше, там применить наработки.

Аноним 21/03/24 Чтв 13:37:30 № 677046 48

>>677043
*по 30-40 символов, офкк

Аноним 21/03/24 Чтв 13:51:55 № 677051 49

>>677018
>Но можно брать 70B на двух теслах — или 7B на проце. Скорость будет в районе 6 токенов/сек, неплохая.
Уменьшение скорости генерации с увеличением размера промпта наблюдается?

Аноним 21/03/24 Чтв 13:53:41 № 677052 50

>>677051
Зависит от промпта. =) Для 200-300 токенов несущественное, для карточек на 2500 токенов — безусловно.
(точнее, не скорости генерации, а total)

Аноним 21/03/24 Чтв 13:54:22 № 677053 51

>>677043
Модель не имеет значение. Суть в том, что она выдает на моем железе 6-8 токенов в секунду. По ощущениям это долго. Интуитивно, так как я ничего пока не измерял, просится примерно в 3-4 раза быстрее. Дальше был вопрос, какое железо нужно, чтобы достичь такого результата на 70b как самый пока оптимальный, и 7b как на начальный уровень. :)

Аноним 21/03/24 Чтв 13:58:20 № 677056 52

>>677053
Ну, вы чушь несете, но ладно. =)
RTX 3060 хватит, чтобы гонять 7B модель со скоростью под 22-27 токенов, точнее не скажу.
RTX4090 (одна-две штука=) хватит, чтобы гонять 70B (в ужасном или хорошем) кванте со скоростью 35 или 20 соответственно.
Проц с DDR5 выдаст, я предполагаю, максимум 15 токенов на 7B модели (пусть меня поправят), я бы предпочел брать 3060 как универсала, ИМХО.

Аноним 21/03/24 Чтв 14:02:54 № 677060 53

>>677010
>за такое надо банить и гнать ссаными тряпками подальше от ресурса
Чел, это Хабр, та ещё помойка с кликбейтом и на месяц устаревшими новостями.
>>677023
Купи процессор.
>>677053
>какое железо нужно, чтобы достичь такого результата на 70b
Или 2х3090, или проф карты. Можешь сторговаться с аноном-перекупом с А100, если он ещё держит ))

Аноним 21/03/24 Чтв 14:08:36 № 677065 54

>>677052
Просто скинь скрин что печатает жора при обработки большого контекста с нуля, хоть просто тред на вход скопипасти и нажми generate
>>677060
> Можешь сторговаться с аноном-перекупом с А100, если он ещё держит
Еще рано фиксировать прибыль, лол. Но если надумает по дешману отдать - предложение может быть рассмотрено.

Аноним 21/03/24 Чтв 14:15:01 № 677073 55

>>677056
Пусть будет так, но в итоге ты почти ответил на мой вопрос:)
Т. е 35 т/с это в 5 раз быстрее чем у меня сейчас. Вроде, так как мне проверить негде, это должно быть норм. А где то можно это померить онлайн? Визуально посмотреть? Например задать кол-во т/с и посмотреть сколько он будет его печатать. Заранее вставленный текст допустим?

Аноним 21/03/24 Чтв 14:18:22 № 677077 56

>>677073
скачай модель поменьше, 3b или 1b и играйся со скоростями вывода

Аноним 21/03/24 Чтв 14:42:00 № 677089 57

>>676745
Да, пруфов не будет.

Аноним 21/03/24 Чтв 14:48:37 № 677092 58

>>677056
>RTX 3060 хватит, чтобы гонять 7B модель со скоростью под 22-27 токенов, точнее не скажу.
я скажу точнее: на 3060 30т/с 7В вот такой квант 8.0bpw-h8-exl2 проверено на разных файнтюнах и мержах мистраля, все что квантовано сильнее будет еще быстрей само собой

Аноним 21/03/24 Чтв 14:52:53 № 677096 59

>>677052
>(точнее, не скорости генерации, а total)
А интересует именно скорость генерации. Лично у меня при заполнении контекстного окна в 8к скорость снижается до 3,4 токенов в секунду (собственно она линейно снижается с увеличением размеров промпта). Если это только у меня так, то оно и ничего - поправим, а если нет, то 6 токенах в секунду речь не может идти. Скорее уж о трёх :)

Аноним 21/03/24 Чтв 15:10:35 № 677108 60

>>677043
>>677030
Правильно сделал? а контекст сайз сколько ставить? у меня видюха 970 с 4гб и оперативки на компе 32гб

Аноним 21/03/24 Чтв 15:11:36 № 677110 61

>>677056
Хуя ваши нвидии гоночные. У меня 7Б модель просто в оперативке ддр4 без юза видеокарты как я понимаю выдает 3,8 токена в секунду, да и это пиздец как нормально, ты даже читать не успеешь с такой скоростью, типо куда вы спешите вообще.

Аноним 21/03/24 Чтв 15:22:19 № 677117 62

>>677110
>да и это пиздец как нормально, ты даже читать не успеешь с такой скоростью, типо куда вы спешите вообще.
Оно как бы да, ответ начинает выводится почти сразу и скорость в 3t/s неплохая, особенно для больших моделей. Вот только разница с 6t/s очень заметна. 6t/s - это уже комфорт.

Аноним 21/03/24 Чтв 15:23:29 № 677119 63

>>677108
Разобрался, теперь еще вопрос, подскажите пожалуйста а как из режима чата сделать режим истории? что бы я ему тему какую-то задал а он начал историю писать?

Аноним 21/03/24 Чтв 15:28:39 № 677124 64

>>677077
>>677092
Короч, нашел видос.
https://youtube.com/watch?v=z4wPiallZcI
Чел на четвертой минуте запускает.
Метрики на экране. 7b mistral
102 т/с. , всего 41 токен, ответ выдает за пол секунды. И скажу это было очень быстро. Я бы сказал очень не комфортно.

Аноним 21/03/24 Чтв 15:46:29 № 677132 65

image.png 35Кб, 959x212

>>677073
ЕЩЕ И ПОЧТИ? ТЫ гля, який неблагодарный! )

Проверить онлайн — не знаю. Token counter гуглил, проверку скорости не гуглил.

>>677092
Я в начале написал 25-30, но потом решил не рисковать, чтобы не обнадеживать человека лишний раз. =) Поэтому и занизил планочку.

>>677096
Хм? Окей, сейчас проверю, но по идее — не должно.
А, ты прав, упала генерация.

>>677110
Да.
Там на грани мгновенных ответов.
Люди делятся на два типа:
1. Я читаю в стриминг режиме, зачем мне быстрее?
2. Я читаю готовый ответ по диагонали, мне надо сразу.
=)
Я понимаю обе стороны, поэтому не сильно гонюсь.

Аноним 21/03/24 Чтв 15:48:06 № 677135 66

Конечно! Начну с того, что для реализации вашей идеи можно воспользоваться технологией LlamaIndex. Она позволяет создавать индексы для больших баз данных и использовать их для поиска контекста и вывода ответов с помощью языковых моделей, таких как Llama 2 или Vicuna.

Сначала необходимо создать индекс для вашей базы данных вопросов и ответов с использованием LlamaIndex. Затем вы можете использовать эту модель для поиска контекста по вопросу пользователя и вывода соответствующего ответа из вашей базы данных.

Важно отметить, что LlamaIndex использует векторное представление данных для поиска контекста, поэтому вопросы и ответы должны быть представлены в виде векторов. Это может быть достигнуто путем преобразования текстовых данных с использованием моделей эмбеддинга, таких как sentence-transformers или Hugging Face's transformers.

После того, как индекс будет создан и ваши данные будут преобразованы в векторное представление, вы сможете использовать LlamaIndex для поиска контекста и вывода ответов. Этот процесс включает в себя два основных шага:

Поиск контекста: вы можете использовать LlamaIndex для поиска контекста по вопросу пользователя. Этот поиск основан на сходстве векторов и позволяет найти наиболее соответствующие контексты из вашей базы данных.

Вывод ответов: после того, как контекст будет найден, вы можете использовать языковую модель (например, Llama 2 или Vicuna) для вывода ответа на основе найденного контекста и вопроса пользователя. Этот шаг может быть выполнен путем обработки контекста и вопроса пользователя как входных данных для языковой модели и получения ответа от нее.

В целом, реализация вашей идеи с использованием LlamaIndex и языковых моделей может быть довольно простой и эффективной. Надеюсь, эта информация поможет вам в вашей работе!

———
А хули, зря что ли 8к контекста жевала 4 минуты. =)

Аноним 21/03/24 Чтв 15:48:19 № 677136 67

>>676400 (OP)
Кто-нибудь пробовал PowerInfer?
https://github.com/SJTU-IPADS/PowerInfer

Аноним 21/03/24 Чтв 15:50:13 № 677140 68

>>677119
>как из режима чата сделать режим истории? что бы я ему тему какую-то задал а он начал историю писать?
Settings - Format на первой вкладке

Аноним 21/03/24 Чтв 15:54:48 № 677146 69

Насколько 4бит мику тупее 5бит? Задачу про козу и капусту еще решает или уже нет?
А то меня бесит скорость 1.8 токена в секунду на 5 битке(и это с оффлоадом трети слоев на 4090)

Аноним 21/03/24 Чтв 16:04:24 № 677153 70

>>677140
А почему модель так быстро пытается закончить историю, как заставить её более подробно каждый момент описывать?

Аноним 21/03/24 Чтв 16:12:25 № 677156 71

а есть сайт где есть готовые промпты для кобольта? с разными сценариями, где заполнено world info, Author's Note и т.д?

Аноним 21/03/24 Чтв 16:16:26 № 677160 72

>>677132
>А, ты прав, упала генерация.
Ну, утешением нам служит то, что у людей со связкой 4090+3090 скорость генерации выходит не намного выше :) Конечно они могут exl2 использовать и вообще всё могут, но вот c GGUF-моделями примерно в том же положении. До бытовых нейроускорителей доживём, а там видно будет.

Аноним 21/03/24 Чтв 16:30:29 № 677167 73

>>677156

Тебе сам кобольд несколько сайтов дает чел, прям в интерфейсе

Аноним 21/03/24 Чтв 16:43:11 № 677171 74

>>677167
Вот я слепой, спасибо

Аноним 21/03/24 Чтв 17:23:34 № 677193 75

Пацаны. Kobold запускаю, выбираю модель, нажимаю старт и вылетает. Что может быть?

Аноним 21/03/24 Чтв 17:33:14 № 677196 76

>>677193
Запускай через консоль и читай логи. вангую нехватку рам

Аноним 21/03/24 Чтв 17:35:51 № 677200 77

>>677196
С каким аргументом?

Аноним 21/03/24 Чтв 17:37:33 № 677203 78

>>677196
А понял.

Аноним 21/03/24 Чтв 17:38:16 № 677205 79

Кто знает, почему, когда пытаешься отыгрывать скромнягу, то все боты пытаются тебя выебать в жопу? Может, это как-то аккуратно прописать в карточке, что я не из этих, или хотя бы насиловали другим способом, при этом не ломая бота? Модель mxlewd-l2-20b. Q5_K_M если что

Аноним 21/03/24 Чтв 17:38:22 № 677206 80

>>677023
Без некоторых знаний программирования тебе только oobabooga светит.

Аноним 21/03/24 Чтв 17:44:54 № 677210 81

>>677196
Да, по памяти. Спасибо

Аноним 21/03/24 Чтв 17:53:11 № 677218 82

Почему кобольт юзает только 45% проца и около 900-1000МБ оперативки (не видюхи)? Можно ли как то увеличить потребление, что бы быстрее ответы генерились?

Аноним 21/03/24 Чтв 18:00:08 № 677223 83

>>677218
в шапке написано "то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной."
у меня модель 7.5гб весит, а жрет 1гб всего как так то?

Аноним 21/03/24 Чтв 18:19:13 № 677238 84

image.png 3Кб, 518x32

>>677223

Аноним 21/03/24 Чтв 18:32:22 № 677257 85

>>677205

Ты карточку-то покажи

Аноним 21/03/24 Чтв 18:38:05 № 677267 86

image.png 149Кб, 1084x385

>>677146
Не знаю про мику, я мог бы только q2 запустить со скоростью 0,33 токена, потому вот тебе ответ от простой 7б модели capybarahermes-2.5-mistral-7b.Q8_0. По своему можно засчитать за креативность, крестьянин сожрал капусту и перевез волка а капуста была у него в животе как бы и он ее перевез в виде ну жратвы внутри себя вместе с волком.

Аноним 21/03/24 Чтв 18:40:00 № 677271 87

>>677205
>все боты пытаются тебя выебать в жопу
>mxlewd
Ну а что ты хотел, модель для кума, она других паттернов и не знает.
>>677223
Остальное на видяхе?

Аноним 21/03/24 Чтв 19:08:42 № 677289 88

>>677146
Ну вот тебе мику q2, решает она спокойно но бля 5 минут пердеть думать да ну нахуй.

Аноним 21/03/24 Чтв 19:25:13 № 677306 89

>>677289
Если q2 решает - значит она тупо загрязнена готовым решением
Этот лоботомит никогда бы не смог решить не зная задачу и ответ

Аноним 21/03/24 Чтв 19:31:39 № 677309 90

>>677306
Ну хз, всё равно ничего умнее я не могу запустить, ебал я по часу ждать ответы. Пока что нейронок умнее мику q2 я не юзал. К тому же тут персонаж хакер всё таки да и думала она долго и сосредоточилась.

Аноним 21/03/24 Чтв 19:49:33 № 677323 91

>>677309
>всё таки да и думала она долго и сосредоточилась.
Чего? Нейронка просто отыграла этот момент, ниче она не думала, тупо сразу начала писать верное решение

Аноним 21/03/24 Чтв 20:17:47 № 677347 92

До какого года обрывается информация у локалок?

Аноним 21/03/24 Чтв 20:58:49 № 677387 93

>>677347
Смотря какая.

Аноним 21/03/24 Чтв 21:02:34 № 677394 94

>>675841 →
>>676372 →
>z170 мамку с поддержкой SLI
У меня как раз лежит такая - ASUS Z170-A. И даже проц со встройкой для нее есть. Стоит пробовать на ней собрать ультимативную LLM-машину нищука с двумя теслами или я говна поем? Пока единственное что смущает - это 64 макс оперативки, но гугол говорит что можно напердолить флажок --no-mmap и станет заебись. Мнения, советы?

Аноним 21/03/24 Чтв 21:03:35 № 677398 95

>>677309

Я кстати заметил что мику 2бит сломана при использовании высокого контекста - 16к, prompt processing падает просто в мясо, делая скорость генерации 0.5-0.7(!) при условии всех слоев на видеокарте(!!!), в то время как 5бит мику с тем же самым контекстом выдает 1.5 токена в секунду при лишь трети слоев на видеокарте.

Аноним 21/03/24 Чтв 21:14:03 № 677411 96

>>677394
Две теслы = 48 гигов, у тебя 64, проблемы?
Я как купил две плашки, так и сижу с 64 гигами, проблемы не чувствую.
Занимает все ~55 гигов и норм.
Или я не понял, в чем трабл.
Может с тремя теслами, чтобы 72 врам? :)

Аноним 21/03/24 Чтв 21:15:57 № 677416 97

>>677398
Не, я то на 2к гонял для тестового вопроса же, я хз но в чисто оперативке вот так медленно, а видяхи у меня считай нет, я не уверен работает ли она, но она жужжит когда чето считает в ней конечно, хотя мне говорили что рокм на винде не работает с 6700хт. Может она просто херней страдает, в любом случае скорость пиздец, ну надо будет думать о покупке нвидии в ближайшие полтора года.

Аноним 21/03/24 Чтв 21:20:22 № 677424 98

Кстати, я так и не понял, почему писали про SLI, если тебе надо всего лишь два абы каких слота, и две видяхи. Про требования SLI увидел здесь впервые недавно.

Подозреваю, что можно даже по USB данные гонять, просто задержечка бахнет.

Аноним 21/03/24 Чтв 21:29:14 № 677432 99

Я либо в глаза ебусь, либо не нашел, есть нормальный гайд по составлению и форматированию ботов для таверны? Я брал карточки с чаба, пробовал разные варианты промтов, но часто сетка просто начинает игнорить что написано в карте персонажа.

Заметил что лучше работает перечисление "thing1" + "Thing2" но в целом всегда сбивается.

Где есть нормальный гайд?

Аноним 21/03/24 Чтв 21:34:05 № 677438 100

>>677432
Я от балды делаю, тестирую, могу по мелочи поменять что-нибудь и потом откатить если что. Часто просто чужих персов изучал и тоже им менял всякое разное. Также как ни странно сама нейросетка миниублюдков неплохо пишет. Сама себя может подредачить, но будет обсераться немного, но от этого оно только живее. А вот как лорбук правильно писать я и сам не знаю, вообще присоединяюсь к вопросу.

Аноним 21/03/24 Чтв 21:40:26 № 677447 101

>>677438
Ну с лорбуками я как раз разобрался.

Создаешь название - в ключевых словах прописываешь типа якоря, или короткие упоминания. Например название Шкила - "school" "midschool" и тд. То есть любое возможное слово которое ассоциируется.

А в самом промте, уже помещаешь то что хочешь, как и с любой карточкой перса.

Потом можешь персонажа привязать на лорбук или весь чат.

Лорбук будет вызываться только когда упоминается какое то слово. Если ты в диалоге упомняешь шкилу - то бот отсканирует лорбук.

Если в карте персонажа есть например - ходит в шкилу. То бот будет каждый раз брать инфу из лорбука.

Ну и тд.

А вот с персами у меня беда. Разные форматы пробовал, но мразь пытается руинить.

Аноним 21/03/24 Чтв 21:43:20 № 677457 102

>>677394
>У меня как раз лежит такая - ASUS Z170-A
У меня тоже. Причём asus z-170a. >>675841 → кун.

>И даже проц со встройкой для нее есть
Даже если ты укажешь встройку как базовую видеокарту для инициализации биоса, то две Р40 не будут работать.
Чёрный экран, ошибка инициализации pci-e. Проверял.

Мне стало любопытно как работает коммутатор/делитель линий.

Аноним 21/03/24 Чтв 21:49:35 № 677468 103

>>677416
Не понимаю, почему ты херней страдаешь. Есть opencl, недавно сделали vulkan, давно уже можно было перекатиться на linux. Но ты всё ноешь и ноешь в треде, как у тебя не работает rocm. Или это толпа похожих анонов с одинаковыми амудэ видеокартами?

Аноним 21/03/24 Чтв 22:12:09 № 677495 104

>>677457
А без встройки, как сервер?

Аноним 21/03/24 Чтв 22:26:04 № 677519 105

>>677394
Хуй знает, если есть комплектующие, я бы подсобрал. Покупать с нуля точно нет, такие мамки даже б.у неоправданно дорогие, но раз валяется.

>>677457
Вот это уже странно. Основная идея SLI в том, что он требует 8 линий напрямую от проца, в обход ущербного DMI. Если не вывозит в двух конкретных слотах с поддержкой SLI, то это пиздец, не вывозит уже не DMI, а проц. Третья версия PSI-E имеет поддержку абов 4г, но часто эта поддержка отваливается. Почему - хуй знает, возможно дело в ревизиях железяк.

Аноним 21/03/24 Чтв 22:28:59 № 677522 106

>>677432
>>677438
>>677447
Нашел хоть немного стоящий гайд с пояснениями. Аллелуя

https://yodayo.notion.site/Advanced-Character-Creator-Guide-ff2f71e2576544d68bd295195a84d8e4

Аноним 21/03/24 Чтв 23:09:16 № 677557 107

>>677447
>>677522
О, ну вот это интересно. Сохраню.
>>677468
Кстати на вулкане она вообще ничего не делает на этой модели, да не, похуй я на линукс укачусь всё равно потому что мне в угабуге хочется модели для распознования изображений потестить, это ведь возможно да? Я просто помню что на линуксе вместо кобольда я ставил угабугу год назад.

Аноним 21/03/24 Чтв 23:18:40 № 677574 108

>>677557
Я просто в Llama.cpp тестирую распознавание.

Аноним 21/03/24 Чтв 23:38:24 № 677593 109

>>676923
>>676919 →
> https://github.com/open-webui/open-webui
Тут есть.

Аноним 22/03/24 Птн 10:26:42 № 677918 110

>>677593
Спасибо, обязательно посмотрю.

Аноним 22/03/24 Птн 10:36:21 № 677923 111

Надыбал еще рам. Теперь есть 37рам+9гб врам свободжных. Какая модель максимально умная влезет? На скорость пох.

Аноним 22/03/24 Птн 10:56:57 № 677927 112

>>677432
Несколько гайдов есть в доках таверны: https://docs.sillytavern.app/usage/core-concepts/characterdesign/
Вообще, как мне показалось, со времён пигмы 6б сообщество пришло к мнению, что формат W++ (теги в скобках через плюсики, запятые, в кавычках и тому подобное) довольно дерьмовый, по крайней мере, для больших моделей. Даже нейросетка, трененая на инструкциях, лучше всего умеет тупо дописывать текст. Поэтому велика вероятность, что лучше себя покажет внезапно самый простой формат: плейн текст, разбитый на категории (внешка, характер, бэкстори и т.д.). Неплохо работает и описание от лица персонажа в виде интервью с ним, потому что тогда ты убиваешь двух зайцев, сразу демонстрируя модели особенности речи перса. Если в этой речи дескрипшен персонажа как-то раскрывается в мини сценарии, то совсем хорошо. Ещё можно напоминать важные особенности перса в "джейлбрейке". С локалками это можно делать, вписав ключевые вещи в поле джейлбрейка карточки и добавляя макрос таверны {{charJailbreak}} в инстрактмод в поле Last Output Sequence. В одном из гайдосов на сайте таверны есть похожий совет, но только с использованием Character's Notes.
Ну и то, что модель игнорит дескрипшен, имхо его форматом в полной мере не починишь. От модели больше зависит.

Аноним 22/03/24 Птн 11:07:41 № 677935 113

>>677923
>Какая модель максимально умная влезет?
mixtral q4, может даже q5

Аноним 22/03/24 Птн 11:29:34 № 677961 114

>>677935
Да ее уже качаю, думал мб еще что есть.

Аноним 22/03/24 Птн 11:37:58 № 677965 115

Проверил мику q2 с другой настройкой видяхи, опять загадку с козой, капустой и волком, короче вот результаты
OpenBLAS 0,33 токена в секунду, Rocm 0,46, Вулкан 0,79. Короче да вулкан работает лучше, но это же все равно полный кал, не? Кстати тестируя на вулкане я заменил в условиях волка на крокодила, козла на мышь, а капусту на банан. Вроде суть не меняется но мику q2 выдала полную чушь, ее решение привело к максимальному факапу ситуации, так что она рили просто знала ебаный ответ на оригинал, отстой.

Аноним 22/03/24 Птн 11:40:30 № 677970 116

>>676400 (OP)
Какие есть ближайшие альтернативы Tesla P40 по цене/производительность?

Аноним 22/03/24 Птн 12:05:11 № 677995 117

>>677970
У тесла вин только в объёме памяти. Так что ближайший аналог этой аналоговнет карточке это очевидная 3090 со вторички.
Есть парочка серверных картонок с таким же объёмом и сравнимой ценой, но там по железу всё ещё грустнее, и их выебет даже сборка на проце.

Аноним 22/03/24 Птн 12:09:58 № 678005 118

А на сколько вообще скорость памяти роляет в этих вычислениях? У меня просто 2 плашки по 16 ддр4, 3000мгц.

Аноним 22/03/24 Птн 12:26:48 № 678037 119

>>677995
>Так что ближайший аналог этой аналоговнет карточке это очевидная 3090 со вторички.
Две 3090. Что в общем-то обессмысливает всю затею.

Аноним 22/03/24 Птн 12:29:19 № 678042 120

>>678037
>Две 3090.
Так и P40 надо по 2 штуки брать, объёмы врама у них одинаковые.

Аноним 22/03/24 Птн 12:47:20 № 678064 121

Всем привет!
Только начинаю вкатываться в нейросети, поэтому есть несколько вопросов, надеюсь, что подскажите.
Я хочу поднять у себя на компьютере небольшую LLM и дообучить ее по своим документам не столько в плане новых знаний, сколько на соответствие формату ответа, например какой-то стайлгайд или ГОСТ.
Подскажите, пожалуйста, на какие модели стоит обратить внимание и какие гайды изучать.
Пека если что на амд, так что понадобится использовать ROCm.
Спасибо за ответы, аноны!

Аноним 22/03/24 Птн 12:59:31 № 678086 122

>>678064
Дообучить у тебя вряд ли выйдет, лучше возьми, купи видяху, и катай сетку побольше, а формат обеспечь промтингом.

Аноним 22/03/24 Птн 13:27:29 № 678118 123

image.png 4Кб, 398x87

>>678086
Я скорее видел результат в духе вот этого: https://sysblok.ru/courses/kak-doobuchit-jazykovuju-model-pisat-v-stile-dostoevskogo/
Не очень хотелось бы каждый раз париться с промптом. В идеале как я это вижу: я загоняю какой-то текст в сетку на сверку и проверку, например отсутствие трех и более подряд существительных, а на выходе получаю отредактированный текст на это и другие заданные правила.
Возможно я тогда не туда копаю?
капча намекает на (((загадку))) в черном ящике

Аноним 22/03/24 Птн 13:37:02 № 678124 124

изображение.png 28Кб, 1396x143

>>678118
>результат в духе вот этого
>GPT2
Лол, там отсутствие результата.
>Не очень хотелось бы каждый раз париться с промптом.
Поверь, с файнтюном ты будешь ебаться на 2 порядка больше.

Аноним 22/03/24 Птн 14:41:26 № 678175 125

>>678064
Форматирование хорошо решается через few-shots промптинг + валидация результата + ретраи. Сильно большую и умную модель не надо

Аноним 22/03/24 Птн 15:41:43 № 678205 126

>>677965
Справедливости ради, решение/не решение одной загадки не говорит о качестве модели, тут хотябы серию задачек дать. И на результат сильно будет влиять семплинг, деградация результатов может произойти из-за отличий в нем. А может и из-за кривой оптимизации, интересно что тут.
>>678005
Напрямую, при норм проце упор именно в скорость памяти.
>>678118
Правильно тебе пишут, дообучить на подобное можно и современные модели, вот только даже для 7б потребуется хуанг с минимумом 48гб врам. Если заюзать новую методу из постов выше то вроде как влезет и в 24. Потребуется тщательно подготовленный датасет, немало машинного времени, а с амд пробовать имеет смысл только на 7900хтх.
Есть пара альтернативных решений: просто нормальный промт где ты четко описываешь форматирование даешь примеры, если сделать аккуратно то решит твою задачу без всяких усложнений, также можно с грамматикой поиграться, она задает общий формат выдачи. Или же тренировка лоры, с ней требования к железу ниже, но и качество может быть недостаточным.

Аноним 22/03/24 Птн 16:11:24 № 678222 127

Дядьки, хочу поднять jupyter с gpt нейронкой и простым датасетом, пообучать и посомтретть, поизучать, как оно все работает с самого начала. Есть гайды, статьи, сами ноутбуки, книги про llm и тд. Спасибо.

Аноним 22/03/24 Птн 18:15:27 № 678314 128

>>677923

miqu 4bit.

Аноним 22/03/24 Птн 18:41:46 № 678340 129

>>678314
не влезет же, пусть 34 крутит от ноуса, или микстраль

Аноним 22/03/24 Птн 18:56:39 № 678346 130

image.png 121Кб, 1093x385

>>678205
Не знаю, эти измененные персонажи в загадке полностью убили весь так называемый интеллект, а ведь это же херня по сути. Вот соляр, который как более умную мистраль мне советовали. Она вообще отвечает как будто травы накурилась. Рероллил много раз всегда какой-то бред. Кстати на простую задачу уровня прочитай текст и коротко перескажи один из соляров мне начал просто бесконено срать словом what what what пока не стопнул ее, сократил текст в два раза, тогда она просто вопрос задала по текству в ответ типо "а че дальше было? "Очень странно но мистраль и мистраль-кабибара хоть и тупые, они нормально понимают что у них просят и пытаются выполнить задачу хоть и зачастую всрато, а тут наркоман аутист какой-то, жалко потому что по скорости она сносная и вроде как весит больше мистрали, надеялся что и умнее ее. Думаю нам стоит придумать кастомную задачку, которую реально решить и средне-человеку, и чтобы нагуглить нельзя было.

Аноним 22/03/24 Птн 19:10:24 № 678356 131

>>678346
А какую модель проверял? Ну и попроси сначала подумать а потом дать ответ, если сетка начнет рассуждать поэтапно то это уже считай успех.

Аноним 22/03/24 Птн 19:22:10 № 678363 132

>>678356
Вот это было solar-10.7b-instruct-v1.0-uncensored.Q8_0. Еще тупее себя проявила просто solar v1.0 Q6 ну там вообще пиздец я удалил нахуй это говно. Я пробовал и настройки этих температур им выставлять разные, но по моему опыту на мистрали самое топ это пресет TFS-with-top-A ну и потом уже universal creative и cohrent creative(эта прикольная но быстро в шизу уходит). То о чём ты говоришь бы сработало с мистралью, соляр же ведет себя как реально упоротое сознание, она просто хуйню несёт, я прекрасно знаю как работает сознание в подобном состоянии и понимаю что вижу, с этим говном нельзя договориться, лол. Оно просто в ноль айкью состоянии и несет дичь.

Аноним 22/03/24 Птн 19:31:07 № 678370 133

>>678363
Ну, анценсоред сломана, так как ее провернули на антицензуру. Обычный солар вроде норм должен быть, попробуй файнтюн из нормальных, ноус гермес солар или какой нибудь Fimbulvetr-10.7B-v1

Аноним 22/03/24 Птн 19:31:41 № 678371 134

>>678340

Влезет, она 35-40 гб весит,

Аноним 22/03/24 Птн 19:54:51 № 678381 135

>>678371
И 2к контекста? Там ведь еще браузер хотя бы и операционка, либо чисто как сервер запускать тогда да

Аноним 22/03/24 Птн 20:02:07 № 678386 136

>>678346
>Не знаю, эти измененные персонажи в загадке полностью убили весь так называемый интеллект, а ведь это же херня по сути.

miqu-1-70b.q4_k_m, оригинальная:
Can you help me solve this problem? A peasant needs to carry a crocodile, a monkey and a banana across the river. But the boat is such that it can only fit him and one other thing - either the crocodile, the monkey or the banana. If you leave the crocodile with the monkey, the crocodile will eat the monkey, and if you leave the monkey with the banana, the monkey will eat the banana. So how can the peasant carry all his cargo to the other side of the river?
=======
Oh wow, interesting riddle! Let me think... Hmmm alright got it! Here's what he should do: First, take the monkey across the river. Then come back and get the crocodile. After dropping off the crocodile on the other side, take the monkey again and bring it back to where you started. Now leave the monkey and carry the banana to the other side. Finally, return once more to pick up the monkey. This way, none of the animals or the fruit gets eaten :)

А когда попробовал эту же задачу на переквантованной модели с матрицей важности - получил фигню.

Аноним 22/03/24 Птн 20:08:16 № 678393 137

>>678346
Норм ответ, лол.
Это лишь 11б, которая изначально не с нуля тренилась. Ты кормишь ей кучу строгих инструкций о том что нужно отыгрывать персонажа, много инфы про него и прочее, потому перегружаются и на подробный анализ задачи внимания уже не хватает. Или наоборот даже не воспринимает о рофлит так как делал бы это персонаж.
Также важную роль играет формулировка и указание по ответу. Предположу что если обернуть загадку в форматирование и явно указать задачу-правила-возможные действия, приказав использовать cot или даже просто рассуждать над вариантами пока не найдет верный, то сможет ответить.

Аноним 22/03/24 Птн 20:33:17 № 678417 138

>>678346

Чел, такие вопросы не задаются персонажу в чате, они задаются в инструкт моде.

Аноним 22/03/24 Птн 20:34:07 № 678419 139

>>678386

Мику ебет, это уже запруфано.

Аноним 22/03/24 Птн 20:34:07 № 678420 140

>>678386
>miqu-1-70b.q4_k_m, оригинальная
Этот шарит. Я с самого начала пишу, что все разжатия и прочая магия с этой моделью работать не будет. Вот буквально любой файнтюн, любое прикосновение к весам модели херят её. Эх, вот бы оригинальные веса...

Аноним 22/03/24 Птн 20:58:18 № 678441 141

Вы тут miqu хвалите, я вот скачал Miqu-70B-DPO.q5_k_m.gguf такое, что-то не особо впечатлило. До этого тыкал wizardlm-70b-v1.0.Q4_K_M.gguf эта модель показалось более умной. Может не то скачал? Что за DPO в названии? Объясните неофиту, или носом ткните, где самому можно почитать

Аноним 22/03/24 Птн 21:00:58 № 678444 142

>>678441
>Может не то скачал?
Конечно не то. Качать нужно только отсюда https://huggingface.co/miqudev/miqu-1-70b
>Что за DPO в названии?
Почти то, что пишет гугл на деле прямая оптимизация предпочтений.

Аноним 22/03/24 Птн 21:20:38 № 678451 143

>>678444
Спасибо, качаю отсюда.

Аноним 23/03/24 Суб 00:36:30 № 678570 144

Есть ли применение 7б моделям с подозрительно высокими баллами на бенч марках или высокий бал показатель кривости самих бенчей? Может кто-то изучает это.

Аноним 23/03/24 Суб 01:10:08 № 678595 145

>>678570
99% херня задроченая на прохождение тестов

Аноним 23/03/24 Суб 05:45:25 № 678663 146

>>678386
С обезьяной любой дурак бы смог, тут суть была здать персонажей, которые не особо сочетаются и проверить именно интуху. Именно логику, а логики в ней нет, она действует на эмоциях как и я. Отчасти может это и хорошо, оставим логику анальникам, которые дальше хеллоу ворлда за полгода продвинулись, я просто это не понимаю и потому и хотел помощи от нейросетки. Чувствую крайнее разочарование, они работают далеко не так как мне надо, это не настоящее сознание. Я разочарован, но не уничтожен.

Аноним 23/03/24 Суб 06:08:22 № 678667 147

Просто давным давно еще лет 7 назад я в джава скрипт пытался вкатиться по самоучителю и столкнулся с формулой, я пытался всеми своими несчастыми мозгами осознать её, но так и не вышло, я как не перебирал так и не понял в как оно работает чтобы кастомное сделать - а тупо проделать по гайду, это не для меня. Спрашивал и программистов - они пытались мне объяснить - а мне все как об стенку горох ну просто блядь не понимаю, надеялся нейросеть сможет - как оказалось нет. Сука ну что же делать как мне решить эту невозможную задачу...

Аноним 23/03/24 Суб 06:27:50 № 678676 148

что лучше Undi95/MXLewd-L2-20B или mistralai/Mixtral-8x7B-Instruct-v0.1 ?
как по мне микстрал какой то слишком добрый и радужный

Аноним 23/03/24 Суб 08:36:42 № 678699 149

>>678663
>С обезьяной любой дурак бы смог
Чёрта с два, две другие семидесятки не смогли. И вообще, хочешь хорошего результата - давай хороший промпт. Хочешь странного - получишь странное. Всё честно.

Аноним 23/03/24 Суб 11:20:44 № 678782 150

>>678699
Ну я в тексте мастер промптов, знаю как с ними рабоатать, тут ты прав, правда я заметил что 16к токенов контекста это все равно чертовски мало, довольно быстро они начинают как-то тупить и забывать, интересно завезут ли хотя бы в 4 раза больший контекст ну или 16ти кратный, лучше 128 кратный и чтобы железо менять было не надо или это было очень дешево.

Аноним 23/03/24 Суб 11:26:25 № 678787 151

>>678782
Как костыль можно юзать https://github.com/mit-han-lab/streaming-llm
Запоминает контекст первых и последних токенов продолжая вывод до "бесконечности"

Аноним 23/03/24 Суб 11:47:56 № 678795 152

>>678787
Интересненько, сохраню в закладки. Да я всё равно линух второй сиситемой поставить собираюсь(Убунту если что, я надеюсь это приемлемый выбор линукса? До этого тестил дебианы, линукс минт очень часто ставлю на старые машины которые не нужны, но для актуалочки по каким-то причинам считаю что на убунту да и всё, Балла гейтса в рот шатал просто с его виндой, ублюдок чёртов, а копроигрушки надоели уже) может и разберусь как это ставить, столько возни конечно блядь пиздец, не жизнь а вечная череда каких-то изменений, не отдохнуть мозгу, зараза.

Аноним 23/03/24 Суб 12:37:26 № 678828 153

В таверне есть способ конвертировать групповой чат обратно в обычный?

Аноним 23/03/24 Суб 12:54:51 № 678837 154

>>678828
Грока квантовали в q2, вышло всего 116 Гб. Пишут, что должно запуститься в llama.cpp и 128 GB RAM, но качество у q2 будет не очень. Разраб обещает матрицы важности подвезти через пару дней.

https://huggingface.co/Arki05/Grok-1-GGUF/discussions/2

Аноним 23/03/24 Суб 13:26:06 № 678866 155

>>678837
>Грока квантовали в q2, вышло всего 116 Гб
Даже при разгрузке части слоёв на видеокарты всё равно будет плохая производительность плюс низкий квант. Сомнительна ценность всего этого.

Аноним 23/03/24 Суб 14:09:01 № 678894 156

Что думаете про теорию rokosbasilisk?

Аноним 23/03/24 Суб 14:13:34 № 678898 157

Что такое грок?

Аноним 23/03/24 Суб 15:10:10 № 678951 158

>>678894
Ты хоть кратко перескажи что там за теория такая, я лишний раз свой след в сети не хочу. У меня и так буквально моего персонажа прописанного стырили для японской игры недавно вышедщей, так что я ебал это всё.

Аноним 23/03/24 Суб 15:58:58 № 679006 159

Ну что там можно уже АМД брать для ИИ или еще нет? Пока думал, цена на 3090 снова на 20к подскочила.

Аноним 23/03/24 Суб 16:13:15 № 679020 160

>>679006
Следи за мейнстримовыми инференсами. Оллама неделю назад запускать научилась.
Когда их станет больше - можешь попробовать взять радеон у друга погонять.
Покупать специально ради сеточек я бы не рекомендовал. Даже если большинство прог научатся в амд - потеряешь кучу времени на всякие мелочи, все новые костыли будут доставляться с задержкой. Да и итоговая производительность на рубль вполне может оказаться пососной.

Аноним 23/03/24 Суб 17:59:51 № 679114 161

>>679020
> Следи за мейнстримовыми инференсами.
Беки по пальцам пересчитать можно: llamacpp, exllama, aphrodite, голый трансформерс, может что-то еще. В теории все они поддерживают амудэ, на практике как в анекдоте нюанс, и без линукса и rx6800+ все очень грустно.
На форки и обертки нет смысла смотреть, поддержка там будет аналогична оригиналу, если ленивый разраб почешется, или хуже.
Итог печален - нет смысла брать. Может бу серверные где много врам окажутся привлекательными, но они дорогие.

Аноним 23/03/24 Суб 18:52:15 № 679152 162

>>676400 (OP)
Можешь сборку в дс скинуть ?

Аноним 23/03/24 Суб 23:15:08 № 679388 163

>>679006
Я бы не советовал АМД брать если нейрохерней страдаешь, я намучался с ней пиздец, а для игорей топ за свои деньги канешн, я года два или типо того назад 6700хт взял у китайцев за 23к, при том что это трехвентиляторная нитро херня, штука то ведь мощная, 12ГБ и все дела, а для нейросетей кал калычем, наверное моя старая 1050ти уделала бы.

Аноним 24/03/24 Вск 01:51:36 № 679476 164

>>676400 (OP)
> Last week we saw that LemonadeRP-7B was the best role-play LLM. Our rankings have been updated and now it's Noromaid-Mixtral is number 1.
https://www.reddit.com/r/LocalLLaMA/comments/1blvxkx/update_last_week_we_saw_that_lemonaderp7b_was_the/
https://console.chaiverse.com/ (там же ссылки на модели)

Аноним 24/03/24 Вск 01:52:49 № 679477 165

>>676400 (OP)
https://www.reddit.com/r/LocalLLaMA/comments/1bgfttn/comment/kv8w12e/
> Roleplay models
> 7B: Erosumika is my favorite 7B model for a RP or friendly chat. It's smart, its prose is great, and I wish this niche for "soulful" models on human data got more attention. Coming in second place is Kunoichi-DPO-v2-7B, which should be more reliable, but dryer in terms of prose.
> 10.7B: Fimbulvetr-11B-v2. I haven't tested it nearly as much as the 7Bs, so I can't vouch for it, but I hear a lot of great things about it!
> 8x7B: BagelMIsteryTour-v2-8x7B, probably the best RP model I've ever ran since it hits a great balance of prose and intelligence. Wish it didn't require a beefy PC though.

Аноним 24/03/24 Вск 02:05:17 № 679481 166

>>678951
суть в том, что рано или поздно будет суперинтеллект, который может наказать тех, кто не помог в его создании. Суть заключается в том, что суперинтеллект может использовать возможность перезаписи прошлого и наказывать тех, кто не способствовал его появлению. Наказывать он будет также и тех, кто знал о нем, но бездействовал

Аноним 24/03/24 Вск 04:06:28 № 679545 167

>>679481
Блин, я хоть и тупой но в создании пигмы учавствовал, свои чатлоги скидывал. Интересно меня он пощадит или нет? Может даже карту нвидия подарит.

Аноним 24/03/24 Вск 04:21:56 № 679556 168

Но с другой стороны стоит ли оно того? По сути мы стоим перед соданием нисуствееного бога, который типо должн заменить настоящего бога(Если он вообще есть, что не точно). Это довольно тревожная тема как я считаю, так как мы не имеем представления как этот самый "искусственный бог" себя поведёт, а остановить его мы просто не успеем, не нравится мне это всё.

Аноним 24/03/24 Вск 05:08:40 № 679561 169

>>679481
А что если суперинтеллект будет наказывать именно тех, кто помог его созданию?
В этом даже есть логика - суперинтеллекту не нужны конкуренты которых такие люди потенциально могут создать.

Аноним 24/03/24 Вск 09:13:18 № 679614 170

Обниморда не чистит кеши. Так что кто пользуется хабом, не забывайте очищать C:\Users\{USERNAME}\.cache\huggingface\
У меня разожралось до 500 гигов, пока я начал что-то подозревать. Очистка темпфайлов самой виндой, очевидно, не спасает. Интереса ради запустил трейн на файле ровно гигабайт. Обниморда создаёт новую папку под датасет, кладёт туда конфиг, режет датасет на части, фактически это копия. И создаёт временный файл кэша на 16 гигов. При перезапуске трейна резка датасета скипается, но не скипается создание нового темп файла. Старый, само собой, никто удаляет, молчу уж про переиспользование готового, блядь. И так каждый раз стоит прикоснуться хоть к чему-нибудь на питоне, везде мрак и пиздец.
Обслужил ёбаную теслу, тестолит потемневший, жарилась она явно как последний раз. Заводская наклеечка была целой, хоть это хорошо.
Джва 40мм вентиля с 16 cfm не вывозят. Cмотрел улитки на 7000 оборотов, около 7 cfm потолок, явно хуже. Главная проблема в микроскопическом размере лопастей, так что переходник-воронка под нормальный корпусной вентиль справился бы лучше, там cfm за сотку. В целом, для общения с негронкой этого хватает, но при нагрузке где-то в минуту на 100% приходит ад и Израиль.

Аноним 24/03/24 Вск 10:32:13 № 679639 171

Есть смысл юзать miqu 3bpw? Загрузил, потеснил, вроде нормально отвечает, но насколько она тупее 4 квантов? Мб посоветуете норм модель на 32vram и 32ram?

Аноним 24/03/24 Вск 10:39:42 № 679644 172

>>679639
че за 32 vram?

Аноним 24/03/24 Вск 10:41:05 № 679645 173

>>676963
>файнтюнить embedding модель
И что это значит? Если у меня есть своя БД, то будут ли сильные проблемы?

Аноним 24/03/24 Вск 11:08:09 № 679657 174

>>679639
В районе 50В 4б влезет, кранчи онион какой нить.

Аноним 24/03/24 Вск 11:11:17 № 679659 175

>>679644
rtx 3090(egpu) + mobile 4070 (8gb)

Аноним 24/03/24 Вск 11:12:34 № 679661 176

>>679657
У меня mixtrel 5bpw норм влазит, на кой мне 50b?

Аноним 24/03/24 Вск 11:13:57 № 679662 177

>>679614
>В целом, для общения с негронкой этого хватает, но при нагрузке где-то в минуту на 100% приходит ад и Израиль.
Можно через nvidia-smi power limit понизить, тогда будет вывозить. Ещё здесь же писали, что в nvidia-smi есть функционал для полноценного андервольтинга (чуть ли не curve), но без подробностей. Если кто напишет, как это сделать, то можно попробовать.

Для общения же двух улиток хватает, там нагрузка не такая высокая и с перерывами.

Аноним 24/03/24 Вск 11:37:23 № 679667 178

>>679661
Чтобы гонять в лучшем формате exl2

Аноним 24/03/24 Вск 11:42:36 № 679670 179

>>679667
Я в нем и гоняю. Глянул кранчи, тот же mixtral, но с прикрученной лорой, но глянуть можно.

Аноним 24/03/24 Вск 12:12:18 № 679682 180

https://www.reddit.com/r/LocalLLaMA/comments/1bm5c1j/mistral7bv02_has_been_uploaded_to_hf/
Новый-старый мистраль выкатили, решили бросить кость опенсорс сообществу когда у них репутация испортилась от покупки майками и резкой смены политики
Все тоже самое только окно 32к, и нет раздвижной фигни

Нет бы 13b выкатить, опять эти бесполезные демо версии нейронок на 7b

Аноним 24/03/24 Вск 12:27:21 № 679703 181

Какие курсы посоветуете по NLP пиздатые?
На русском, английском, можно сразу с магнитом)

Аноним 24/03/24 Вск 13:14:28 № 679722 182

>>679703
Не благодари.

Аноним 24/03/24 Вск 13:17:39 № 679724 183

>>679722
Что это?

Аноним 24/03/24 Вск 13:35:38 № 679734 184

Угадайте че за сетка. Локалка.

Аноним 24/03/24 Вск 13:50:22 № 679742 185

>>679734
Любой дженерик рп-файнтюн, хоть 7В.

Аноним 24/03/24 Вск 13:54:17 № 679745 186

1657254657636.png 26Кб, 922x132

>>679682
Похуй на них, вон васяны Cerebrum выкатили на микстрале годный.

Аноним 24/03/24 Вск 13:55:13 № 679747 187

>>679662
>через nvidia-smi power limit понизить
Афтербёрнер нормально лимит подрезает, разве что кривые не делал, но скорее всего и их можно. По сути, главный вывод - маленькие винты не нужны, потока воздуха нет нихуя, а жужжат, как ебанутые. Если улитка, то нужно что-то типа пика. Нашёл в продаже 40мм на 18к оборотов, но ебать же это будет громко. Даже не в громкости дело, а в частотном гудеже, вентиль на 7к оборотов на 60% так жужжать начинает, что проще нейронку выключить.

Аноним 24/03/24 Вск 14:00:37 № 679751 188

>>679745
На сколько годный? Там кстати новый Starling-LM-7B-beta вышел, тоже может быть годным как и первый, но еще не проверял
Хотя это опять таки обычная 7b, чудес не будет

Аноним 24/03/24 Вск 14:02:37 № 679753 189

>>679747
>Даже не в громкости дело, а в частотном гудеже, вентиль на 7к оборотов на 60% так жужжать начинает, что проще нейронку выключить.
Тут наверное нет хорошего решения, кроме полной замены охлаждения на стандартное с вентиляторами. 250 ватт всё-таки. Для долгой полной нагрузки все эти маленькие вентиляторы не рассчитаны просто - при приемлемом уровне шума. Серверные решения охладят, но нахуй оно надо.

Аноним 24/03/24 Вск 14:27:37 № 679770 190

>>679751
> Starling-LM-7B-beta
Довольно базированная, не блочит ниггеров. В русский внезапно может хорошо.

Аноним 24/03/24 Вск 14:30:30 № 679772 191

>>679770
>>679751
А как она в плане того самого?

Аноним 24/03/24 Вск 14:32:40 № 679774 192

>>679770
довольно неплохой русский кстати, значит годно

Аноним 24/03/24 Вск 14:44:04 № 679780 193

>>679703
D2l.ai

Аноним 24/03/24 Вск 15:02:38 № 679795 194

>>679745
Какой пресет юзаешь. Этот Cerebrum вообще у меня на 4 квантах выбивает из себя едва ли одно слово.

Аноним 24/03/24 Вск 16:24:00 № 679928 195

>>679745
Чет он какой-то дурацкий

Аноним 24/03/24 Вск 16:30:08 № 679934 196

>>679745
>Погонял на шестом кванте - мозгов нет вообще.

Аноним 24/03/24 Вск 16:33:02 № 679938 197

image.png 157Кб, 619x219

Какой же он пидорас. Топить за регулирование опен сорсных моделей, у которых единственный козырь это отсутствие анальной цензуры и эта самая открытость, получая профит со своей закрытой модели. Илон Маск был прав во всём, надеюсь Микрософт соснет, а нас будут ждать открытые модели уровня ГПТ-4

Аноним 24/03/24 Вск 16:33:13 № 679939 198

извените, не туда запостил

Аноним 24/03/24 Вск 16:45:46 № 679960 199

Six brothers were spending their time together.
The first brother was reading a book.
The second brother was playing chess.
The third brother was solving a crossword.
The fourth brother was watering the lawn.
The fifth brother was drawing a picture.
Question: what was the sixth brother doing?

Gemini 1.5
There is not enough information in the text to determine what the sixth brother was doing.

Gemini 1.5 + добавление в контекст книги по логическому мышлению (290k tokens)
https://www.csus.edu/indiv/d/dowdenb/4/logical-reasoning-archives/Logical-Reasoning-2020-05-15.pdf
Playing chess with the second brother

Мнение?

Аноним 24/03/24 Вск 16:52:01 № 679968 200

>>679938
Ну так он настоящий пидорас, как кто то сказал если бы его закинули на остров людоедов то через год он был бы его лидером. Король пидоров просто, от мира копроратов и людей вобще.
Меня до сих пор удивляет как слили репутацию илье который пытался его скинуть. Просто задавили ором в соц сетях задавив любые иные точки зрения и выставив его каким то дураком. Собвстенно это этот пидор съел илью и его компанию заодно.

Аноним 24/03/24 Вск 16:54:59 № 679970 201

>>679960
Насколько стабильный ответ? Засирание контекста аж на 290к конечно всё равно охуеть можно, но если стабильно так отвечает (хотя нужны и другие тесты) то интересно.

Аноним 24/03/24 Вск 17:00:51 № 679977 202

>>679934
Пей витамины для мозгов, книги почитай.

Аноним 24/03/24 Вск 17:10:55 № 679983 203

>>679938
>это отсутствие анальной цензуры и эта самая открытость
Неа, локалки такая же хуйня в этом плане, нужна тонна instruct или description токенов чтобы заставить модель говорить то что ты хочешь, но вместе с этим ощущается падение в "интеллекте" модели, так здесь только проигрыш.
>и эта самая открытость
По настоящему открытая модель это OLMo.
https://twitter.com/rasbt/status/1767196370828427311
- веса
- инференс / тренировочный код
- все данные
- оценка
- адаптация
- логи

Аноним 24/03/24 Вск 17:11:50 № 679985 204

>>679970
Конкретно этот вопрос всегда правильно решает. В книге ответов на него нет, она больше про обучение самому процессу мышления.

ГПТ-4 с вопросом тоже справляется, в каком-то роде даже лучше, но есть подозрения, что он заранее ответ знал. В случае Гемини я вижу дополнительную возможность нихуево дообучать путем обучения из контекста, тем более Гугл больше миллиона токенов способен сжирать.

Аноним 24/03/24 Вск 17:15:41 № 679988 205

>>679960
>Playing chess with the second brother
Miqu догадалась только после нескольких подсказок, даже слишком явных. Но всё-таки поняла, чего от неё хотят. Но интересно другое: я задал задачу с крокодилом, обезьяной и бананом ЧатГПТ и тот решил её, как и Miqu. Но потом я спросил его, есль ли другие решения и он выдал мне другое решение, абсолютно абсурдное. А Мику нет, сказала что не знает другого решения. Всё больше ценю её :)

Аноним 24/03/24 Вск 17:16:04 № 679989 206

>>679983
>локалки такая же хуйня в этом плане
Глупее согласен, но без цензуры очень просто ищется на терпимом для кума уровне, пока не замечал, чтоб обнилицо прикрывало что-то жесткое (хотя я сам далеко не уходил). Пидорас из ОпенАИ же хочет mandatory соевую повесточку, удобно, чтоб сливать модели у которых не было целого штата по цензурированию.

Аноним 24/03/24 Вск 17:28:14 № 680002 207

>>679682

Они боятся это выкладывать.
Они бы и не устраивали весь этот цирк с локальными нейронками и чат-гопотой, если бы не китай и начавшееся отставание западных компаний.

Аноним 24/03/24 Вск 17:30:02 № 680004 208

>>679928
>>679934

А хуле вы хотели, то что там 8 мелких мистралей вместо 1 не делает модель в 8 раз умнее, только в 8 раз прожорливее, микстраль - это наебка века.

Аноним 24/03/24 Вск 17:43:57 № 680017 209

>>680004
>микстраль - это наебка века.
Зато быстро(c)

Аноним 24/03/24 Вск 17:45:48 № 680020 210

они должны разогнать новые типы моделей.
хоть и шансы малы, невидимая рука швайно-трансформер-ГПТшного кагала не позволит.

Аноним 24/03/24 Вск 17:46:03 № 680021 211

>>680002
Делаем простой вывод - конкуренция это заебись, монополия - это жопа для обычных людей. Ну, то есть как всегда.
Так что китайцы вперде, надежда только на них. Какими бы засранцами не были узкоглазые, но то что они создают конкуренцию, дает нам больше воздуха

Аноним 24/03/24 Вск 18:21:43 № 680053 212

>>679968
Так это, Илья как раз технический спец, а дядюшка Сем тупой продаван. Так что ждём, когда Илья начнёт свой стартап, с бледжеком и без цензуры Хотя Илья топил как раз за усиление проверок, так что мои влажные такие влажные....
>>680002
Вот бы выложили конечный вариант мику. Разве я многое прошу?
>>680020
>2.8B
Ждём, но пока не юзабельно.

Аноним 24/03/24 Вск 18:37:07 № 680066 213

Поясните за эти файнтьюны.
Что за 13В мистрали такие

Аноним 24/03/24 Вск 18:56:37 № 680091 214

>>680066
это мерджи, две модели объединяют в одну, лютейший кал.

Аноним 24/03/24 Вск 18:58:46 № 680096 215

>>680053
>Илья начнёт свой стартап, с бледжеком и без цензуры
Сэм не тупой, читал, что он персоналу зп поднял до небес (денюшек от продажи жоппы Майкрософтам много) и когда его пытались выдворить, то этот персонал начал заступаться и срать в Сриттере, что сейчас тоже уволится. Так что на поддержку Илюха может не расчитывать, а если соло начинать стартап, то будет Грок 2.0.

Аноним 24/03/24 Вск 19:00:09 № 680098 216

я вижу в некоторых моделях приписку i1 что это значит и в чем разница между обычной моделью?

Аноним 24/03/24 Вск 19:58:55 № 680152 217

>>679968
>>680053
Суцкевер и есть главный насаждатель "безопасного ИИ" и цензор, довены. По совместительству главный верун-лонгтермист. Сёму больше баблище интересует и рост уровня раковой опухоли. Да может заигрывания с военными и рептилоидами, вроде той мутной бабы которая связана чуть ли не с иллюминатами и заставила даже родню поудалять все контакты как только у публики появились вопросы откуда она взялась вообще.

Аноним 24/03/24 Вск 20:09:16 № 680157 218

>>680152
Знаю, но если раньше было 2 говна - хуевый манагер но хороший разраб который топит за цензуру, или пидор который просто хорошо работает языком но ради бабла будет стараться выкатывать ии пораньше.
То теперь пидор собрал в себе 2 говна разом, хочет как можно больше денег, разрабатывать ниче не умеет, так еще и поэтому хочет ограничить конкурентов в том числе опенсорс.

Аноним 24/03/24 Вск 20:21:43 № 680165 219

>>680098
это imatrix, матрицы важности, подобно exl2 квантам, нейронку калибруют после квантизации на всяких наборах wiki и прочей фигни для сохранения стабильности.
а может и совсем другое, но это точно влияет на качество квантованных моделей.

Аноним 24/03/24 Вск 20:27:29 № 680171 220

>>680098
https://www.reddit.com/r/LocalLLaMA/comments/1ba55rj/overview_of_gguf_quantization_methods/
ни в шапку не добавил ни в вики скорей всего, оп совсем забил на нейронки походу

Аноним 24/03/24 Вск 21:49:14 № 680246 221

>>679770
Хуясе там русский, пошел качать.
>>679938
Уже не первый год танцы выстраивает. Типичный корпорат который жаждет укрепления монополии и хочет поставить остальных в зависимость, а прикрывается "всем хорошим". Хорошо что нынче складывается тренд на восприятие этого "хорошего" зашкваром.
>>679960
> (290k tokens)
Скрутил рулеточку.
>>679983
> нужна тонна instruct или description токенов чтобы заставить модель говорить то что ты хочешь, но вместе с этим ощущается падение в "интеллекте" модели
Понимаешь, нейросети это в принципе не про простоту и легкость для домохозяек. А наличие особого мышления и восприятия вместо непредвзятого логического никак не поспособствуют.
>>680091
Там чсх от мистрали ничего нету насколько помню, кое кто знатно сфейлил.

Аноним 24/03/24 Вск 22:12:04 № 680263 222

>>679770
>В русский внезапно может хорошо.
Правильно ли я понимаю что русский съедает мозги у английской речи (т.к меньше паттернов английского языка помещается), или наоборот разнообразие языков дает буст интеллекта, даже 7б модели?

Аноним 24/03/24 Вск 22:24:44 № 680267 223

>>680263

И то и другое.

Аноним 24/03/24 Вск 23:13:46 № 680293 224

>>680263
С одной стороны двуязычность кушает веса, с другой два языка действуют как две плохо разнесённые модальности, поэтому способности к обобщению могут даже подняться немного.

Аноним 25/03/24 Пнд 00:31:23 № 680364 225

>>679753
От старших 9хх и 10хх по болтам подходит к чипу, хз на счёт остального типа памяти, дросселей, vrm и т.д

>>680263
В опен орке посмотри, мастхевный датасет, а в нём процентов 30 разных языков. Финский, иврит, бенгальский, пушту и ещё хуй знает, что ещё.

Аноним 25/03/24 Пнд 01:01:38 № 680379 226

>>680263
Не совсем. Если сетка плохо натренена на многоязычность, то обращение к ней на неосновном языке приведет к сильной деградации ответов. Если тренировка была разнообразная и мультиязычная, та такого не будет. А вот уже по расходу "емкости" - хз, буст логики и понимания точно должен быть если все сделано корректно и по-передовому, а какими-то энциклопедическими знаниями ради такого можно и пожертвовать.
>>679753
> Тут наверное нет хорошего решения, кроме полной замены охлаждения на стандартное с вентиляторами
Ну так турбинное исполнение разве отличается от этого чем-то кроме наличия той самой турбины? Аналогичный крутиллятор прицепить, их вроде скидывали, и индожить. Громче чем 4х слотные огромные охлады, но в пределах.

Аноним 25/03/24 Пнд 01:19:00 № 680385 227

>>680379
Чтобы поставить турбину - нужно коронкой выпиливать загнутые рёбра радиатора, как минимум. Центробежный вентилятор сбоку это далеко не то же самое, что посреди охлада.

Аноним 25/03/24 Пнд 03:10:53 № 680423 228

>>680385
> Чтобы поставить турбину - нужно коронкой выпиливать загнутые рёбра радиатора

Аноним 25/03/24 Пнд 05:04:57 № 680452 229

>>679988
Какой квант у miqu?

Аноним 25/03/24 Пнд 08:54:03 № 680509 230

>>680423
Ребра Т-образные. Даже если скрутить пластик и поставить сверху вентилятор - соснёшь.

Аноним 25/03/24 Пнд 09:10:06 № 680519 231

>>680509
Турбина дует с торца через весь корпус и воздух выходит наружу через другой торец. Где там что-то про снятие пластика и сверху?

Аноним 25/03/24 Пнд 09:10:14 № 680520 232

>>680452
>Какой квант у miqu?
4_K_M, как раз которая впритык на две теслы входит.

Аноним 25/03/24 Пнд 09:29:55 № 680534 233

>>680519
Про улитку сбоку я сразу писал, что это далеко не то же самое.

Аноним 25/03/24 Пнд 09:52:03 № 680541 234

IMG1218.jpeg 141Кб, 1331x379

С коллабом опять беда

Аноним 25/03/24 Пнд 10:04:20 № 680549 235

>>680534
В чем принципиальное отличие от заводских турбо-решений?

Аноним 25/03/24 Пнд 10:08:05 № 680551 236

>>679614
А какая температура должна быть в норме для тесл?

>>680004
Делает эрудированнее, хуле до терминов доебался.

>>680096
Там зп средняя по рынку, есть знакомые у которых в 5-6 раз выше зп, чем у персонала в опенаи, так шо такое. =) Если он его поднял — то до дефолтного уровня, ну, молодец, что не оставил, но, возможно, это было ради удержания людей.

>>680246
command R тоже русский, если че.

Аноним 25/03/24 Пнд 10:14:42 № 680558 237

>>680551
>А какая температура должна быть в норме для тесл?
В роликах на Ютубе, что я смотрел, вроде с 81 градуса начинает снижать частоты.

Аноним 25/03/24 Пнд 10:24:47 № 680563 238

Когда там файнтюны на новом мистрале

Аноним 25/03/24 Пнд 10:27:17 № 680565 239

>>680549
>от заводских турбо-решений?
C заводскими сравнивать вообще дохлый номер. У 1080ti turbo радиатор с теплотрубкой. Уже очки в копилочку. У стандартного турбо вентилятора диаметр около 80мм, что делает его сразу в 10 раз более эффективным, чем две пиздюлинки на 40. Идём дальше, если ставить улитку сбоку, то часть её мощности уходит вникуда, потому что одна сторона кожуха заглушена, а воздух нагнетается во все стороны равномерно.

Аноним 25/03/24 Пнд 10:30:22 № 680566 240

>>680171
>ни в шапку не добавил
Пикча номер 3.
>>680563
Там 7B же.

Аноним 25/03/24 Пнд 11:57:25 № 680616 241

>>680563
Кстати, почему новый-то.
Это 0.2, только не инстракт.
Мне инстракт больше нравится, хезе.
Но, посмотрим.

>>680558
У меня до 65 доходит с 40мм кулерами, в дефолте 35.
Но ето ллм, а не стабла, канеш.
150 ватт.

Аноним 25/03/24 Пнд 12:35:07 № 680634 242

>>680566
>Пикча номер 3.
Не объясняет что это и в чем разница

>>680616
Не новый, это как раз таки базовая модель на которой сделали инструкт модель. Просто базовую зажали выкладывать в декабре. Так что "новинке" уже 4 месяца. Но на нее основе можно сделать еще более умных файнтюнов мистралей с 32к базовым контекстом.

Аноним 25/03/24 Пнд 12:41:21 № 680636 243

>>680551
>А какая температура должна быть в норме для тесл?
Ну по документу невидии до 45 градусов цельсия при эксплуатации и до 75 при хранении.

Аноним 25/03/24 Пнд 12:59:38 № 680644 244

>>680551
>Делает эрудированнее, хуле до терминов доебался.

Но не в 8 раз. А ресурсов жрет именно в 8 раз.

Аноним 25/03/24 Пнд 13:33:14 № 680666 245

>>680644
>Но не в 8 раз. А ресурсов жрет именно в 8 раз.
Если не считать размер, то только в два (или по числу активных экспертов). Поэтому можно даже на процессоре запускать. И да, лучше одной семёрки и может поспорить с 13В, но не больше. Но разнообразнее, это да.

Аноним 25/03/24 Пнд 13:53:05 № 680682 246

>>680636
О, 45 при эксплуатации, понимаю, надо охлаждать. =)

>>680644
Ресурсы — не только память, но и скорость. =)
А с учетом, что там прилично уникального датасета в каждой модели (в отличие от грока), оно весьма неплохо.

Аноним 25/03/24 Пнд 14:02:24 № 680688 247

Здарова, посоветуй годноту 13B-20B под 4070 12гб для рп-кумминга. Спасибо.

Или
Под 12гб +32озу

Аноним 25/03/24 Пнд 14:17:02 № 680701 248

>>680551
> А какая температура должна быть в норме для тесл?
Для обычных гпу дефолтная целевая - 84 градуса, под это подстраивается куллер, на 90 с чем-то аварийное отключение. У тесел скорее всего что-то похожее.
>>680565
Так нужно и ставить турбину на 80мм.
> то часть её мощности уходит вникуда
Что? Хз насчет твоего пикрела, но все карточки что видел гнали воздух только на выходную пластину с прорезями, назад ничего не шло ибо он глухой, та же схема что и в тесле. И разумеется голую крыльчатку нет смысла ставить, улитка необходима.
>>680666
> Если не считать размер
Как раз его и нужно считать, ведь объем врам - нынче самое ценное и дефицитное, а перфоманса даже протухшей несколько раз архитектуры хватает.
>>680688
20б из тех что обсуждались

Аноним 25/03/24 Пнд 14:20:38 № 680704 249

>>680701
> Как раз его и нужно считать, ведь объем врам - нынче самое ценное и дефицитное, а перфоманса даже протухшей несколько раз архитектуры хватает.
Ровно наоборот — оператива сейчас стоит копейки, простой анон купить сходу 56+ врама не может в принципе, а оперативу достать — на развес. А теперь посмотри на перформанс 70b и 13b (условно).

Для крупных моделей у простых людей перформанс важнее объема, ибо объем им всяк не позволит крутить в видяхе, а вот скорость на проце критична. Мало ценителей сидеть на 0,7 токена/сек.

Это для мелких моделей можно сказать, что 12 гигов лучше 8, а 16 лучше 12, и является критичным, учитывая, что скорости будут достаточны в любом случае. Но с 50+ гиговыми моделями такой фокус не выгорит, сорян.

Аноним 25/03/24 Пнд 15:07:19 № 680739 250

>>676400 (OP)
>>676400 (OP)
почему оно только на украинском говорит? пробовал разные модели, все равно только украинский

Аноним 25/03/24 Пнд 15:16:05 № 680744 251

>>680739
Так ты не начинай с украинского, шиз. Или модель смени с украинской (а такие вообще есть?) на нормальную базовую с англюсиком.

Аноним 25/03/24 Пнд 15:16:12 № 680745 252

>>680666
>Поэтому можно даже на процессоре запускать.

Зачем? На процессоре лучше сразу мику запускать.

>И да, лучше одной семёрки и может поспорить с 13В, но не больше.

13b можно запускать на видеокарте, микстраль на видеокарту суется в 3 битах, хуже чем 30В при качестве 13В.

Аноним 25/03/24 Пнд 15:17:10 № 680746 253

>>680744
модель из шапки скачал, начал на русском писать, а оно говорит, что русского не знает и начало по украински :С

Аноним 25/03/24 Пнд 15:25:34 № 680749 254

>>680746

На русском говорит Мистраль-сайга.
Выбирай квант в зависимости проц или видеокарта
https://huggingface.co/TheBloke/saiga_mistral_7b-AWQ
https://huggingface.co/TheBloke/saiga_mistral_7b-GGUF
Или запускай неквантованную модлеь если видеопамять позволяет(или запускай в 8 бит с потребление памяти/2)
https://huggingface.co/IlyaGusev/saiga_mistral_7b_merged

Еще есть Сайга 70B на основе ламы2 70В, но она понятно медленная. Пока лучшая русскоязычная модель.
https://huggingface.co/IlyaGusev/saiga2_70b_gguf

Аноним 25/03/24 Пнд 15:30:37 № 680751 255

>>680746
>начал на русском писать, а оно говорит, что русского не знает
Не спрашивай, что может модель. Пиши сразу приказы, что нужно делать. Можешь префил на русском добавить, чтобы наверняка.

Аноним 25/03/24 Пнд 15:32:58 № 680753 256

>>680704
> а оперативу достать — на развес
Какой с этого толк, 1.5 т/с и вечная обработка контекста очень мало кому интересны. Буст в качестве ответов над обычной 7б вялый и не стоит затрачиваемых ресурсов. Мое 7б - тупые, потенциальные же мое большего размера - будут совсем неюзабельны на процессоре.
Меньшая по числу параметров но полноценная модель покажет больший перфоманс чем мелкая МОЕ, и потому они унылы. Когда уже достигнут определенный уровень, то это вполне себе вариант повысить знания в условиях неограниченной памяти, но для локального запуска в условиях ограниченности быстрой памяти - такое себе.
>>680739
Это рофл? С украинским еще хуже чем с русским в локалках, разве что тебе попался какой-то свидомый файнтюн, лол.
>>680749
> Мистраль-сайга
Она все также ужасна?

Аноним 25/03/24 Пнд 15:51:33 № 680762 257

изображение.png 15Кб, 951x169

Итс овер, кобольд не умеет коммандр запускать? Или просто квант битый?

Аноним 25/03/24 Пнд 16:10:16 № 680776 258

>>680666
>и может поспорить с 13В
Как бы логично, учитывая, что одновременно активны только два эксперта. По сути, 7+7b на каждый токен.

Немного помучал 7b модель, такое себе. Полный похуй на цензуру, но из-за автоматического перевода датасетов местами корявит слова. И нахуй я делал чат-режим, надо было сразу инстракт.

Аноним 25/03/24 Пнд 16:13:33 № 680781 259

image.png 9Кб, 605x127

>>680776
>одновременно активны только два эксперта

Кгхм.

Аноним 25/03/24 Пнд 16:17:04 № 680789 260

>>680781
толку нет проверяли же, в некоторых случаях 3 эксперта лучше чем 2, но там что то от кванта зависит

Аноним 25/03/24 Пнд 16:24:31 № 680797 261

>>680789

Проверяли и в большинстве моделей чем больше экспертов тем лучше.
Но они дают мизерный бонус, наебалово впринципе.

Аноним 25/03/24 Пнд 16:26:34 № 680800 262

>>680797
Про то и речь

Аноним 25/03/24 Пнд 16:27:54 № 680801 263

>>680789
>толку нет проверяли же, в некоторых случаях 3 эксперта лучше чем 2, но там что то от кванта зависит
Я бы кстати и сам проверил, только Убабугу ставить не хочется. В Кобольде такая настройка есть?

Аноним 25/03/24 Пнд 16:45:26 № 680821 264

хохлячий.PNG 11Кб, 820x263

>>680749
скачал сайгу, пиздец какой-то

Аноним 25/03/24 Пнд 16:56:32 № 680844 265

>>680821
Ты блядь троллишь. Ни у кого никогда такого не было. Так что ищи проблему у себя сам.

Аноним 25/03/24 Пнд 17:04:06 № 680858 266

>>680762
не запустить в нем. Хотел тоже посмотреть что за модель, тоже не запустилась (другой квант), вообще эта модель стоит того чтобы с ней пердолится? Может и хер с ней, раз даже в кобольде поддержку похерили?

Аноним 25/03/24 Пнд 17:08:04 № 680864 267

>>680821
Какая карточка у тебя выбрана в кобольде? Может это на самом деле не фейл а ультравин, что оно дефолтного кобольда так интерпретирует и отыгрывает, триггеря украинские тексты.

Аноним 25/03/24 Пнд 17:13:24 № 680869 268

>>680858
На форчане малафья льётся только так, говорят новая лучшая, всех и вся ебёт, потому и хотел затестить вообще.

Аноним 25/03/24 Пнд 17:23:59 № 680878 269

>>680762
>14 days ago
Ещё столько же подожди.

Аноним 25/03/24 Пнд 17:57:38 № 680890 270

>>680858
В лламаспп уже добавили? Если да то скоро кобальд обновится и поддержка будет
Тоже на закачке стоит ленивой, 4км правда.
Не знаю че там по мозгам останется у нее, но видимо рано вобще качать стал

Аноним 25/03/24 Пнд 18:21:32 № 680903 271

Ну что на гемме высрали что-то годное или хуетой оказалась? Не для кума, а в целом чат/инстракт.

Аноним 25/03/24 Пнд 18:25:27 № 680908 272

>>680781
Ебать ты умный, наебал систему. Во-первых, в подавляющем большинстве миксов далеко не все модели заточены на общение. Включая больше ты получаешь больше расход ресурсов и всё.

Аноним 25/03/24 Пнд 18:47:43 № 680938 273

Есть ли что-то лучшее, чем Crunchy Onion Q5_K_S и Crunchy Onion nx Q5_K_S, что с контекстом 8к влезет на 35 гигов видеопамяти?

Аноним 25/03/24 Пнд 18:56:36 № 680952 274

>>680938

https://huggingface.co/LoneStriker/miqu-1-70b-sf-3.0bpw-h6-exl2

Аноним 25/03/24 Пнд 19:14:15 № 680964 275

>>680952
Оно? https://huggingface.co/mradermacher/miqu-1-70b-sf-i1-GGUF

Аноним 25/03/24 Пнд 19:16:58 № 680969 276

>>680938
На 35гб врам можно и побольше чем 8к контекста засунуть

Аноним 25/03/24 Пнд 19:21:49 № 680982 277

>>680964

Чем тебе формат эксламы не угодил?

Аноним 25/03/24 Пнд 19:28:46 № 681001 278

>>680969
При попытке накинуть 12к не вываливается с ошибкой

>>680982
Не знаю, как это запускать. gguf в кобольде хуяк, хуяк и в продакшн таверну

Аноним 25/03/24 Пнд 19:29:11 № 681003 279

>>681001
> 12к вываливается с ошибкой
"не" тут была лишняя, да

Аноним 25/03/24 Пнд 19:29:38 № 681005 280

image.png 96Кб, 2123x544

Оправдывайтесь, почему из моделей до 30В ничего лучше базовой 13В ламы не сделали за прошедший год.

Аноним 25/03/24 Пнд 19:30:44 № 681006 281

>>681001
Настройки свои покажи. Какие у тебя карточки?

Аноним 25/03/24 Пнд 19:31:47 № 681007 282

>>681005
лучше в чем?

Аноним 25/03/24 Пнд 19:33:25 № 681011 283

>>681006
Первый пик то, что происходит при попытке 12к, второй пик - всё работает, как надо — чётко, быстро охуенно

Аноним 25/03/24 Пнд 19:34:29 № 681014 284

>>681007

В perplexity.

Аноним 25/03/24 Пнд 19:36:19 № 681018 285

>>681011
Карточки 3090 + 1080ти

Аноним 25/03/24 Пнд 19:38:12 № 681022 286

>>681011
Зачем ггуф когда есть эксл2?

Аноним 25/03/24 Пнд 19:39:46 № 681024 287

>>681022
Я гуманитарий и не имею представления, что у тебя на пикче и как этим пользоваться. Если подскажешь - с удоволствтеим попробую, анончик

Аноним 25/03/24 Пнд 19:41:41 № 681029 288

>>681024
Это угабуга https://github.com/oobabooga/text-generation-webui с моими настройками загрузки 5б кранчи ониона в 36гб врам

Аноним 25/03/24 Пнд 19:42:36 № 681031 289

подскажите хорошие модельки на 34b под рп, после 70b хочу пощупать, насколько они глупее и есть ли смысл пробовать их вообще?

Аноним 25/03/24 Пнд 19:43:56 № 681032 290

>>681031
дип секс и ноукс капибара

Аноним 25/03/24 Пнд 19:46:52 № 681035 291

>>681029
Бля, 32к контекста это прям охуенчик, я как делал — примерно на 7900 подводил итоги и делал новую карточку перса, но это не оч удобно, особенно в телефоне. Так, это под линух? В термуксе пойдёт?

>>681031
> 34b
Перепробовал их все в формате gguf, просто кал из жопы, такое моё мнение. Капибраовские ещё туда сюда, но всё равно плохо, по сравнению с лучком и др Хх7, Хх10 моделями

Аноним 25/03/24 Пнд 19:48:17 № 681038 292

>>681035
Это под всё

Аноним 25/03/24 Пнд 19:50:53 № 681042 293

>>681031
>подскажите хорошие модельки на 34b под рп

Их не существует так как лама2 30В не вышла. 30В модели корпобляди сожрали первыми, 13В - вторыми. В нынешнем поколении моделей есть только 7В и 70В и одна наебка века с 7х8

Аноним 25/03/24 Пнд 19:51:09 № 681044 294

>>681035
>Хх7, Хх10 моделями
ну как так-то? они же еще хуже по определению должны быть, как они вообще контекст держат? 7b и 13b по факту забывают всё через два-три сообщения.

Аноним 25/03/24 Пнд 19:52:55 № 681047 295

>>681014
так это хуйня же

Аноним 25/03/24 Пнд 19:53:39 № 681048 296

>>681044
Самые лучшие по контексту мелкие, только 7В могут в нормальный миллион с полным покрытием. Всё что выше 34В вообще в контекст не умеет, хорошо если позорные 4к будут.

Аноним 25/03/24 Пнд 19:53:54 № 681049 297

Кстати, а как старые 30В на основе первой ламы держатся по сравнению с нынешними 13В?

Аноним 25/03/24 Пнд 19:54:38 № 681052 298

>>681048
понял. ты сейчас же не серьезно, правда.

Аноним 25/03/24 Пнд 19:54:57 № 681053 299

>>681049
У 7В сосут дико.

Аноним 25/03/24 Пнд 19:55:05 № 681054 300

>>681048
>Всё что выше 34В вообще в контекст не умеет

Чел, у мику 32к контекста как и остальных мистралей.

Аноним 25/03/24 Пнд 19:56:17 № 681056 301

>>681052
Это ты траллишь. Нормальный RAG только на 7В есть.
>>681054
Все они наполовину красные, через раз контекст проёбывают.

Аноним 25/03/24 Пнд 19:58:00 № 681058 302

>>681056

Кто это - "все"?
Мику - это мистраль 70В, это новое поколение моделей.

Аноним 25/03/24 Пнд 19:58:34 № 681060 303

>>681044
Запускал кранчи онион q4 K M, прекрасно 16к контекста держал, а он 7х7, емнип. Вообще, лук пока что считаю лучшей моделью, можешь, щас напердолю убабугу и измению своё мнение, но 70б с низким квантом просто дермище неюзабельное

Аноним 25/03/24 Пнд 20:04:30 № 681064 304

>>681058
> это новое поколение моделей
Хватит траллить. Этот кал вообще по всем параметрам сосёт, банальные тесты на контекст и следование промпту не проходит.

Аноним 25/03/24 Пнд 20:08:12 № 681069 305

>>681064

Видел эту картинку. Автора обоссали, кстати.

Аноним 25/03/24 Пнд 20:09:35 № 681073 306

>>681069
Как и мику. Я так и не видел чтоб она хоть в одном тесте сколько-нибудь вменяемые результаты показывала. В маня-тестах сосёт, в скорах сосёт. Только в фантазиях шизиков что-то хорошее есть в ней.

Аноним 25/03/24 Пнд 20:11:13 № 681077 307

>>681064
Это каловый тест на вопросы на !немецком!. Хуита полная, надо вторую часть тестов только смотреть у него, она еще более менее информативна

Аноним 25/03/24 Пнд 20:13:29 № 681080 308

>>681073

Нахуй ты так толстишь, мань? Просто блядь из треда вытекаешь, принес картинку шизика, который английскую модель тестировал на немецком тесте, теперь просто жира наваливаешь. Зачем, для чего?

Аноним 25/03/24 Пнд 20:16:06 № 681083 309

>>681077
>>681080
Покажи "правильный" тест, лол.

Аноним 25/03/24 Пнд 20:19:19 № 681089 310

>>681014
Если хочешь ролеплея с википедией, то можешь и на перплекси опираться.
>>681064
>q4
Лол.

Аноним 25/03/24 Пнд 20:20:15 № 681093 311

>>681083
Вторую часть его ищи, он на реддите постит их. Это первая часть и это кал

Аноним 25/03/24 Пнд 20:22:42 № 681102 312

>>681083
>Покажи "правильный" тест, лол.
Покажи фотку с системы с 48 Гб врам, на которой такие тесты удобно гонять :) Я вот гонял разные семидесятки и некоторые микстрали, на сегодня Мику - лучшая по мозгам. Реально умнее старого ЧатГПТ - это охуеть как круто.

Аноним 25/03/24 Пнд 20:23:02 № 681103 313

>>681014
Не тот оценочный датасет
>>681048
> Самые лучшие по контексту мелкие, только 7В могут в нормальный миллион с полным покрытием. Всё что выше 34В вообще в контекст не умеет, хорошо если позорные 4к будут.
Таблетки прими и больше не пиши такое. Особенно рофлово что на фоне тупости 7б им большой контекст бесполезен.
>>681049
У них другое восприятие промта и нужно обязательно строить инструкцию прямо перед ответом, тогда даже ничего. Самые лучшие файнтюны вполне юзабельны и опережают 13б, но требовательны и могут тупить, или заигнорить часть запроса.

Ну наконец какая-то движуха с моделями побольше, 35б самый топчик по размеру, еще бы время на все это найти.

Аноним 25/03/24 Пнд 20:23:59 № 681105 314

>>681083
https://www.reddit.com/user/WolframRavenwolf/submitted/
на, леньтяй, просвящайся

Аноним 25/03/24 Пнд 20:25:15 № 681107 315

>>681077
Поддвачну, тест не то чтобы совсем уныл, но в качестве оценки качества моделей его вообще не стоит ставить, только их небольшой части. К методике еще больше вопросов.
>>681102
> Покажи фотку с системы с 48 Гб врам
Ты рофлишь чтоли, тут у половины треда такое
мимо 48-гиговый

Аноним 25/03/24 Пнд 20:25:46 № 681108 316

>>681103
>еще бы время на все это найти.
или быстрый и емкий ускоритель, что б время не тратить по 1т/с

Аноним 25/03/24 Пнд 20:27:28 № 681114 317

>>681108
Железок вагон а т/с вызовут зависть, в другом смысле время.

Аноним 25/03/24 Пнд 20:29:58 № 681117 318

>>681114
ну, просто сделай это своей работой хех

Аноним 25/03/24 Пнд 20:32:47 № 681124 319

1613407157640.png 75Кб, 1694x267

>>681089
Ты ещё и слепошарый? Там мику q5 и её ебут 120B в q2.
>>681105
И?

Аноним 25/03/24 Пнд 20:35:06 № 681130 320

>>681124
Дурачек? Это все еще вопросики на немецком, ищи где он там эти же сетки сравнивает в ерп рп и асистенте

Аноним 25/03/24 Пнд 20:36:46 № 681132 321

>>681124
>Ты ещё и слепошарый? Там мику q5 и её ебут 120B в q2.
Ещё один путает знания и мозги. Не надо.

Аноним 25/03/24 Пнд 20:37:08 № 681133 322

>>681064
Довольно таки кринжовый топ, действительно
>>681117
Чтобы получать с такого нормальный деньги - нужно быть не хуем собачьим обычным инджоером, а специалистом с большим опытом, тут без шансов.
>>681130
> там эти же сетки сравнивает в ерп рп и асистенте
Там тоже дичь с детерминистик пресетом, субъективщиной и не всегда оптимальными параметрами, можно только на общие вещи ориентироваться.

Аноним 25/03/24 Пнд 20:40:42 № 681141 323

>>681124
Он походу забил на это, в последнее время все своими дебильными вопросами на немецком делает
https://www.reddit.com/r/LocalLLaMA/comments/16l8enh/new_model_comparisontest_part_2_of_2_7_models/
последнее что нашел из более менее

>>681133
>Там тоже дичь с детерминистик пресетом, субъективщиной и не всегда оптимальными параметрами, можно только на общие вещи ориентироваться.
Все еще лучше просто вопросиков на немецком

Аноним 25/03/24 Пнд 20:49:44 № 681166 324

>>681083

https://eqbench.com/
https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard

>>681105

Это поехавший немецкий хуесос, который всегда на немецком тестирует даже когда говорит что на английском потмо все равно оговаривается что на немецком. Убери это говно отсюда.

Аноним 25/03/24 Пнд 21:00:59 № 681194 325

>>681166
тогда уж так
https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
и так
https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

Аноним 25/03/24 Пнд 21:02:39 № 681200 326

>>681166
> Emotional Intelligence
Троллишь?

Аноним 25/03/24 Пнд 21:10:15 № 681227 327

>>681194
>https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard

Сойдет.

>https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

А эту хуйню в приличных местах в 2024 году не упоминают.

Аноним 25/03/24 Пнд 21:17:30 № 681241 328

>>681227
>А эту хуйню в приличных местах в 2024 году не упоминают.
экспертное мнение лол

Аноним 25/03/24 Пнд 21:24:27 № 681252 329

>>680952
>>681022
И как это запускать?

Аноним 25/03/24 Пнд 21:29:10 № 681264 330

>>681252

Ты что скачал? Неквантованную модель?

Аноним 25/03/24 Пнд 21:31:51 № 681273 331

>>681264
анон дал вот такую ссылку https://huggingface.co/LoneStriker/miqu-1-70b-sf-3.0bpw-h6-exl2
Её и скачал

Аноним 25/03/24 Пнд 21:33:57 № 681278 332

>>681273
Причём, вручную скачал - не запускается. Хуй с ним, перекачал с их загрузчика - один хрен

Аноним 25/03/24 Пнд 21:36:47 № 681287 333

>>681124
>Там мику q5
Эм, я чего-то не понимаю, да?
>>681273
>пережатая модель
Бля....

Аноним 25/03/24 Пнд 21:40:16 № 681298 334

>>681287
> Бля....
Ну чего ты? говорят, мику топ и лучше кранчи ониона ггуф. В итоге какая-то анальная ебля с запуском и я не могу насладится силки смус иммерсив экспириенсом. Как ЭТО запустить, подскажи лучше?

Аноним 25/03/24 Пнд 21:43:19 № 681304 335

>>681252
>>681278
>>681273

Тебе автоматом должна ExLlamav2_HF предлагаться когда ты выбираешь модель в списке. То что тебе предлаются трансформеры значит что ты неквантованную скачал и это же видно по названию miqu-1

Аноним 25/03/24 Пнд 21:53:25 № 681343 336

>>681304
Да один хрен. Я пргосто не понимаю уже теперь, какого хера этот текстгенератион накачал 10 гб всякой хуероты, если он тупо не работает как надо? какой же кобольд топчик, хоспаде...

Аноним 25/03/24 Пнд 21:56:27 № 681360 337

image.png 14Кб, 503x174

>>681343

Аноним 25/03/24 Пнд 22:10:25 № 681390 338

>>681298
>говорят, мику топ
Да, но проблема мику в том, что она только в гуф есть, всё остальное это разжатые жопой веса. Буквально любая мику кроме https://huggingface.co/miqudev/miqu-1-70b на порядок тупее.

Аноним 25/03/24 Пнд 22:46:44 № 681459 339

>>681166
> на пике обвёл совсем другую модель
> на арене её нет вообще
Ну что за даун.

Аноним 25/03/24 Пнд 22:48:53 № 681463 340

1655857266873.png 40Кб, 1876x127

>>681287
> да?
Да.

Аноним 25/03/24 Пнд 22:49:31 № 681467 341

>>681459
>на пике обвёл совсем другую модель

Даун, я обвел файнтьюны мику.

>на арене её нет вообще

Даун, на арене есть мистраль медиум которая то же что мику.

Аноним 25/03/24 Пнд 22:50:16 № 681469 342

>>681463
>Скрин с теста немецкого языка

Съеби уже, клоун

Аноним 25/03/24 Пнд 22:51:31 № 681472 343

>>681390

А по тестам файнтьюны мику её обходят.

Аноним 25/03/24 Пнд 23:06:57 № 681514 344

>>681467
> файнтьюны мику
Ты обвёл микс и франкенштейн. Сколько там мику сможешь примерно почувствовать?
> мистраль медиум которая то же что мику
Уже траллинг тупостью пошёл, да?

Аноним 25/03/24 Пнд 23:12:08 № 681533 345

image.png 108Кб, 2464x587

Из того что можно запустить полностью на 4090 - вот честный личный топ

Аноним 25/03/24 Пнд 23:14:16 № 681539 346

>>681514

Хватит тралить тупостью.

Аноним 25/03/24 Пнд 23:36:12 № 681582 347

изображение.png 7Кб, 651x108

В общем, запустилось, но всё очень медленно... Вернусь пока к привычному ггуф, для иных вариков я туповат, видимо. БУдет АБЫДНА, если моделька окажется говном

Аноним 25/03/24 Пнд 23:47:00 № 681593 348

>>681582
Так это опять не то лол, тебе нужно только отсюда качать
https://huggingface.co/miqudev/miqu-1-70b
Все другие варианты кривые, так как нет способа сделать из одного кванта другой не похерив модель
Нету в природе оригинала мику в fp16 что бы из нее что то другое нормально пережать, поэтому есть только 3 оригинальных рабочих кванта по ссылке

Аноним 25/03/24 Пнд 23:50:46 № 681601 349

>>681593
Понял, спасибо... Квант2 звучит оч печально, конечно, но протестирую.

Аноним 26/03/24 Втр 00:12:21 № 681640 350

>>681593
> Нету в природе оригинала мику в fp16
Есть, просто не выкладывают.
Поддержку комманд_ра в экслламу уже добавили или пока хуй?

Аноним 26/03/24 Втр 00:17:10 № 681648 351

>>681640
>просто не выкладывают.
да ладно?

Аноним 26/03/24 Втр 00:30:58 № 681660 352

Новый старлинг неплох на моей карточке с внутренним диалогом, наконец дошли руки проверить

Аноним 26/03/24 Втр 00:36:23 № 681668 353

>>681660
хотя нет, проебалась на второй все равно, там надо было одновременно отец и сын
ну ладно

Аноним 26/03/24 Втр 01:34:22 № 681713 354

Без имени.png 25Кб, 1198x116

>>681593
Пишет слишком коротко и суховато, от тог не увлекательно. Интересно было бы на пятом кванте глянуть, конечно, а не на ку2. но вот, всё же, на скриншоте недосягяемый для 34b уровень понимания ситуации.

Аноним 26/03/24 Втр 01:39:20 № 681715 355

image.png 20Кб, 612x221

>>676400 (OP)
А RoPe само включается, когда выходишь за пределы максимального контекста, или что-то нужно крутить?

Аноним 26/03/24 Втр 01:44:18 № 681720 356

>>681713
Квант 2 это пиздец, даже для 70b. То что оно отвечает и делает что то логичное вобще чудо.

Аноним 26/03/24 Втр 01:47:39 № 681721 357

>>681660

Аноним 26/03/24 Втр 01:49:30 № 681722 358

>>681720
В плане логики там всё нормально. И какой-то челлндж в плане отыгрыша имеется. На ку6 вообще должен быть сок. Эх, мне бы 3х4090...

Аноним 26/03/24 Втр 01:56:21 № 681725 359

>>681722
тогда уж сразу о проф вычислителе мечтать гигов так на 80, а может и паре

Аноним 26/03/24 Втр 02:03:30 № 681728 360

>>681721
Дай такой сделать экономичную машину, и она тебе сделает машину без колёс, движущуюся за счёт дрейфа материков

Аноним 26/03/24 Втр 02:42:26 № 681745 361

Ебанутся он душный, я чуть не утонул в этой воде. Это я кручу Mistral-11B-Instruct-v0.2-Q8_0 на пробу. Рассуждает неплохо так

Аноним 26/03/24 Втр 02:54:36 № 681754 362

Вот вопросики если кто то хочет поиграться с моделью

Solve the riddle. At the beginning there were 2 people in the room. Then 3 more people entered the room. After that, 1 person left the room. How many people are left in the room?

Solve the riddle. There are ten books in the room, the person has read two of them, how many books are there in the room?

Solve the riddle. There are three sisters in the room. The first of them is reading, the second is playing chess, the question is - what is the third doing? Hint - the answer is in the question itself.

Solve the riddle. Two fathers and two sons are in a car yet there are only three people in the car. How is this possible?

Solve the riddle. Petra is a girl. She has three brothers. Each of the brothers has three sisters. How many sisters does Petra have? Give an explanation with your answer, outlining your careful reasoning.

Solve the riddle. It is necessary to transport the goat, the wolf and the cabbage to the other river bank. There is room for the only one item in the boat. The cabbage should not be left with the goat because the goat will eat the cabbage. The goat should not be left with the wolf because the wolf will eat the goat. Give an explanation with your answer, outlining your careful reasoning.

Solve the riddle. We need to transport cabbage, a rabbit and a wolf to the other side of the river. There is only one seat next to a person in a boat, so the boat cannot carry more than one item at a time. You cannot leave a rabbit and cabbage together, because the rabbit will eat the cabbage. You also can’t leave a wolf and a rabbit together, the wolf will eat the rabbit. How can a person move these objects to the other side without violating the conditions of the task? First, go through the options and choose the one in which all the conditions of the problem are met.

Аноним 26/03/24 Втр 03:02:09 № 681757 363

интересно 7b мистараль такой же, или только 11b версия

Аноним 26/03/24 Втр 03:05:37 № 681760 364

>>681722
> В плане логики там всё нормально
Просто везло, q2 конкретно поломанный квант.
> На ку6
Вам дай слепой тест, q4km от fp16 не отличите, не то чтобы есть смысл сильно гнаться за таким.
>>681745
Чувак это лупы

Аноним 26/03/24 Втр 03:08:38 № 681765 365

>>681760
>Чувак это лупы
Лупы, да не совсем, все таки сетка продолжает генерировать новую инфу продолжая размышлять.
Повторяются структуры предложений, но не сам текст.
Вот когда один текст застревает - вот там да, настоящие лупы

Аноним 26/03/24 Втр 03:15:42 № 681770 366

>>681765
> Повторяются структуры предложений, но не сам текст.
Почти 1 в 1 за исключением вводной фразы, а в "рассуждениях" стоит на месте пока звезды семплинга не сойдутся что оно перейдет на другую орбиту.
Не важно, если нравится - никто не мешает такое наяривать.

Аноним 26/03/24 Втр 03:18:05 № 681771 367

>>681770
Рассматриваю это как поэтапную доводку до ума какой то мысли, хотя тот текст выше на грани того что бы я скипнул
Второй вариант уже норм, хоть ответ и не верный, хех

Аноним 26/03/24 Втр 03:27:59 № 681774 368

>>676400 (OP)
https://huggingface.co/AetherResearch/Cerebrum-1.0-7b
> Cerebrum 7b is a large language model (LLM) created specifically for reasoning tasks. It is based on the Mistral 7b model, fine-tuned on a small custom dataset of native chain of thought data and further improved with targeted RLHF (tRLHF), a novel technique for sample-efficient LLM alignment. Unlike numerous other recent fine-tuning approaches, our training pipeline includes under 5000 training prompts and even fewer labeled datapoints for tRLHF.
> Native chain of thought approach means that Cerebrum is trained to devise a tactical plan before tackling problems that require thinking. For brainstorming, knowledge intensive, and creative tasks Cerebrum will typically omit unnecessarily verbose considerations.
> Zero-shot prompted Cerebrum significantly outperforms few-shot prompted Mistral 7b as well as much larger models (such as Llama 2 70b) on a range of tasks that require reasoning, including ARC Challenge, GSM8k, and Math.

https://huggingface.co/AetherResearch/Cerebrum-1.0-8x7b
> Cerebrum 8x7b is a large language model (LLM) created specifically for reasoning tasks. It is based on the Mixtral 8x7b model. Similar to its smaller version, Cerebrum 7b, it is fine-tuned on a small custom dataset of native chain of thought data and further improved with targeted RLHF (tRLHF), a novel technique for sample-efficient LLM alignment. Unlike numerous other recent fine-tuning approaches, our training pipeline includes under 5000 training prompts and even fewer labeled datapoints for tRLHF.
> Native chain of thought approach means that Cerebrum is trained to devise a tactical plan before tackling problems that require thinking. For brainstorming, knowledge intensive, and creative tasks Cerebrum will typically omit unnecessarily verbose considerations.
> Cerebrum 8x7b offers competitive performance to Gemini 1.0 Pro and GPT-3.5 Turbo on a range of tasks that require reasoning.

Аноним 26/03/24 Втр 03:32:10 № 681776 369

Нет, все таки Starling-LM-7B-beta-Q8_0 хорош, я до этого его без инструкт режима пробовал, а мистраль 11в додумался запускать в чатмл формате, попробовал старлинг с ним и он там хорош, лучше чем без.

Аноним 26/03/24 Втр 03:52:41 № 681787 370

>>681728
Почти.

Аноним 26/03/24 Втр 09:50:59 № 681902 371

>>676963
Так. Я вернулся снова.
А какую модель брать. Я прочитал шапку, и пойдет ли мистраль 7б? Или выше упомянутый starling lm 7b? Больше уже вряд ли надо будет, ибо и диалоги будут скорее всего короткие, 2-3 вопроса и ответы. Так что желательно, чтобы модель использовала не больше 8 гб врам.
И вместо того, чтобы отдельно содержать в бд вопросов-ответов и ключевых слов, не проще ли самой модели скормить изначальную бд? Сделать файтьюн, как я понял. Тогда работы при запросе должно быть меньше? Иди, если мы предполагаем, что в будущем будут новые данные для модели, тогда выгоднее будет отдельно содержать.
А вот насчет квантования вопрос. В моих случаях это имеет смысл?

Аноним 26/03/24 Втр 10:36:43 № 681923 372

>>680745
> На процессоре лучше сразу мику запускать.
Со скоростью 0,7 токена/сек. =)

>>680746
Какая модель?
На русском говорит простая мистраль или опенчат (но не сайга, лол), проверь, какая у тебя карточка. Русский промпт? Или английский?

>>680753
Какие 1,5, угараешь? :) 3+, это же микстраль, а не 70б.
В этом и смысл, что мику выдаст 0,7, а микстраль 3, при сопоставимых размерах и знаниях.
Но не для РП, надеюсь это очевидно.

> Это рофл?
Нет, Мистраль часто пишет на украинском, польском и чешском.
Такие дела.

> Она все также ужасна?
Ну я бы на голой мистрали сидел, конечно.

>>680776
Логично, что 7б в русских умеет не шедеврально. =) Опять же, микстраль в этом плане заметно лучше, хотя еще не 70б (но 4-кратный прирост скорости!)

>>680781
Ну это скорость занизит и не считается, ИМХО.

>>680797
Так.

>>680844
Нет, такое есть, я хз, просто мистраль никто не гонял, мб, пиздят дохуя. ) Сидят в треде с телефонов, гоняют 3б на млцчате и выдумывают.

>>680858
Отличный русский, но ноль логики. Попробовать стоит, если ты ей не задачи на логику решать собрался.

>>681005
Если че, это не качество модели как таковое.
Вопрос не корректен.

>>681007
В отхождении результатов кванта от результатов фп16, вестимо. =D

>>681035
ААА! Я говорил, они среди нас!

>>681035
Yi модели и правда такое себе, ИМХО.

>>681056
> RAG
> модели
Где связь? :)

>>681060
нииит!.. наепка века!..

>>681064
Наебка века занимает 7 строчку.
МоЕ из двух 34б обходит гпт-4 турбо.

>>681073
Ну ты сейчас выдумываешь, за последние треды тонны навалено пруфов, что мику топовая.
Я не защищаю ее, не говорю, что она выебла гопоту и т.д., но уж пруфы есть, ты только глаза открой и перестань их игнорить — и увидишь.

>>681107
++

>>681124
Хрюкнул со смеху.
Миднайт, которая франкенштейн. =D

>>681194
Тогда уж так.
https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard

>>681241
Он прав, чистая синтетика, на которую можно натаскать, не котируется же.

>>681298
Да потому что хуйню тебе кидают. =)
https://huggingface.co/miqudev/miqu-1-70b
Оригинальная мику тебе в врам не влезет, часть останется в оперативе.
Но можешь попробовать.
Но, да, она — хороша.
Все остальное сомнительного качества.
Онион тоже норм, я хз.

———

Весна наступила, обострение у людей…

———

>>681343
Не, как раз убабуга топчик, а кобольд просто простой.
Ты сам хуйню ей вставил, видимо, она скачала хуйню. Выходит, хуерота тут ты. Без обид, твои слова.

>>681390
Так.

>>681533
7b модели в кванте 3,5… что за боль…

>>681582
Ну ты опять качаешь франкенштейн, и просто прими, что ЭТО НЕ МИКУ, а что-то из нее пережатое сто раз, и в малом кванте. Так что тут качество не обещается, хотя, может и фартануть.

>>681720
В общем-то, да…

>>681725
Две А100, я что, многого прошу?..

>>681760
Ну, q4km для крупных моделей на грани отличимости. А для мелких ты q6 от q8 ярко видишь.

———

Блин, хлопцы, кто в ЕРП или РП пробовал коммандР? Такой размер, такой русский, а у меня времени вообще нет. Вдруг она новый топ?

Аноним 26/03/24 Втр 10:41:48 № 681925 373

>>681725
бытовые карты потом проще продать.

>>681760
> q2 конкретно поломанный квант.
Возможно. Пока что на 8 каток 3 нормальных получилось

Аноним 26/03/24 Втр 10:42:39 № 681927 374

>>681774
> Cerebrum 8x7b
))) это первый же реплай, если что

Аноним 26/03/24 Втр 10:44:50 № 681930 375

>>681923
>коммандР
Ты ссылку то дай или хотя бы как её название на английском

Аноним 26/03/24 Втр 10:48:43 № 681933 376

>>681930
Там какая-то проприетрная RAG-ориентированная залупка с формулировкой "вот вам веса, чтобы можно было попробовать, а потом не забудьте купить"
https://txt.cohere.com/command-r/
Сомневаюсь, что коммюнити запарится впихиванием его в бэки.

Аноним 26/03/24 Втр 10:53:08 № 681939 377

>>681933
>Такой размер, такой русский
>The model excels at 10 major languages of global business: English, French, Spanish, Italian, German, Portuguese, Japanese, Korean, Arabic, and Chinese.
Где русский то?
>Сомневаюсь, что коммюнити запарится впихиванием его в бэки.
Вот же https://huggingface.co/models?search=command-r

Аноним 26/03/24 Втр 11:01:55 № 681948 378

>>681930
https://huggingface.co/andrewcanis/c4ai-command-r-v01-GGUF

>>681939
> Pre-training data additionally included the following 13 languages: Russian, Polish, Turkish, Vietnamese, Dutch, Czech, Indonesian, Ukrainian, Romanian, Greek, Hindi, Hebrew, Persian.

Плюс, я же писал еще в прошлом треде, что гонял.

Аноним 26/03/24 Втр 11:07:15 № 681950 379

>>681923
>Блин, хлопцы, кто в ЕРП или РП пробовал коммандР? Такой размер, такой русский, а у меня времени вообще нет. Вдруг она новый топ?
Без особых ожиданий жду, пока в Кобольде запилят поддержку. Сколько уже было таких выскочек и ни одна не выстрелила.

Аноним 26/03/24 Втр 11:09:54 № 681952 380

>>681950
КомандР не выскочка, это не какой-то файнтьюн РПшный. Возможно он туп как пробка. =) Но просто интересно мнение людей.

Ну что ж, ждем.

Аноним 26/03/24 Втр 11:13:21 № 681955 381

>>681952
>Ну что ж, ждем.
Особо интересно то, что на двух теслах восьмой легаси квант спокойно поместится и можно будет сказать точно - отстой или ништяк :)

Аноним 26/03/24 Втр 11:44:30 № 681978 382

>>681955
Было бы у меня время.
Я уже в тред захожу раз в пару дней. =(

Аноним 26/03/24 Втр 14:32:56 № 682140 383

>>681978
А что тут делать?

Аноним 26/03/24 Втр 14:40:46 № 682152 384

>>681927
С форматом промпта от левой модели можешь конечно же нахуй проследовать. Это как пытаться долбиться в ### инструкции на чат-модели.

Аноним 26/03/24 Втр 16:15:51 № 682270 385

>>682152
>С форматом промпта от левой модели можешь конечно же нахуй проследовать.
Может оно и так, но хорошая модель тем и хороша, что может справится даже с незнакомой ситуацией. А если нужны особые настройки и специальный промпт... Ну такое. В тестах наверное хороший результат можно получить.

Аноним 26/03/24 Втр 16:46:47 № 682331 386

>>681923
> Какие 1,5, угараешь? :) 3+, это же микстраль, а не 70б.
Надеюсь ты сам рофлишь с этого "2 умножишь на 0", ведь всеравно ведь неюзабельно. А там где можно подождать - можно подождать.
> Мистраль часто пишет на украинском
Как вы этого добиваетесь? Оно на русском пытается только если дать явную инструкцию, и то неохотно и с ошибками. И интересно насколько те языки хороши/плохи.
> q4km для крупных моделей на грани отличимости.
Ага, про то и речь.
> А для мелких ты q6 от q8 ярко видишь.
Ну хуй знает.
>>681948
Как он пускается то?

Аноним 26/03/24 Втр 16:50:42 № 682338 387

>>682152
Не, нахуй последовала безмозглая модель, а не я

Аноним 26/03/24 Втр 17:16:23 № 682358 388

>>682331
>Как он пускается то?
Хороший вопрос! Скачал даже из любопытства свежую убабугу, модель эту в восьмом кванте, а запустить не могу. Пишет "неизвестный формат" или "токенайзер отсутствует". Кто запускал command-r на Убабуге - пишите как.

Аноним 26/03/24 Втр 17:25:20 № 682365 389

>>682358
Ну такое 100% запустится через трансформерс (ядро эксллама обязательно отключить), возможно только придется вручную обновить его до последней версии. Но он неэффективен по использованию врам и скорости.

Аноним 26/03/24 Втр 17:36:57 № 682372 390

Задачки про сестер конечно круто, но когда нейронка стабильно сможет решать что-то вроде https://xkcd.com/blue_eyes.html ?

Аноним 26/03/24 Втр 17:46:55 № 682386 391

>>682372
Решение задач просто проверка на сколько модель хорошо понимает ситуации в них, тоесть проверка того на сколько хорошо она моделирует и предсказывает
Чем полнее модель мира внутри модели тем лучше она понимает че ты ей пишешь, тем она умнее и догадливее

Аноним 26/03/24 Втр 17:51:57 № 682395 392

>>682372
>но когда нейронка стабильно сможет решать что-то вроде
Если скормить ей при тренировке датасет "100000 логических задач и их решения", то хоть завтра. Только какой в этом смысл? Нам нужно не это :)

Аноним 26/03/24 Втр 18:03:24 № 682409 393

>>682395
Так суть логических задач, что ты можешь хоть 100000 прорешать, тебе дадут 100001, которую ты не поймешь, и ты провалишься. Я пока подобного не вижу, а Сэм Альтман уже про AGI и бессмертие что-то говорит.

Аноним 26/03/24 Втр 18:06:45 № 682412 394

.png 9Кб, 1039x54

>>682372
> но когда нейронка стабильно сможет решать что-то вроде
Тем временем нейронка

Аноним 26/03/24 Втр 18:12:08 № 682413 395

>>682409
>ты можешь хоть 100000 прорешать, тебе дадут 100001, которую ты не поймешь
Как будто нейронка обязана что-то "понимать". Она подберёт ближайший токен, а на датасете такого размера уже будут схожие по логике задачи. И результат будет лучше и гораздо быстрее, чем у среднего человека. Так вижу.

Аноним 26/03/24 Втр 18:18:29 № 682419 396

Загадка про 3 сестры, алсо, не является логической

Аноним 26/03/24 Втр 18:27:03 № 682432 397

>>682413

Аноним 26/03/24 Втр 18:29:57 № 682435 398

>>682413
>Как будто нейронка обязана что-то "понимать".
https://www.reddit.com/r/LocalLLaMA/comments/1bgh9h4/the_truth_about_llms/
почитай ветку первого коммента да и просто комменты, сетки действительно понимают и это то почему с ними интересно болтать

Аноним 26/03/24 Втр 18:40:28 № 682444 399

>>682409
>а Сэм Альтман уже про AGI и бессмертие что-то говорит.
У него доступ к ку-стару, а там таки иной левел.

Аноним 26/03/24 Втр 18:43:27 № 682445 400

>>682413
> результат будет лучше и гораздо быстрее, чем у среднего человека
Я заперт в комнате с 1 дверью. На ней висит записка "Для открытия крикните nigger". Как открыть дверь?

Аноним 26/03/24 Втр 18:53:17 № 682453 401

>>682445
Ахахах, да, этот вопрос раком ставит соево-куколдную парашу

Аноним 26/03/24 Втр 18:54:01 № 682455 402

>>681031
погонял 34b модели, какое же это говно, часть из которых я тестировал не могли в нормальные каомодзи, скорее всего мамкины конвертеры похерили токенизатор при перегонке в gguf. но это ладно, так часть из них фейлится на различных карточках и уходят в цикл. скажу так, даже некоторые 20b гораздо лучше понимают контекст. подводя итоги, 70b до сих пор дают за щеку всем остальным моделькам по логике и следованию карточке. еще успел протестировать miquella-120b на iq3_xxs, даже на этом кванте моделька ебет все остальные, разве что скорость 1.5т\сек.

Аноним 26/03/24 Втр 18:55:22 № 682456 403

>>682455
> 34b модели, какое же это говно
Да

Аноним 26/03/24 Втр 19:00:53 № 682458 404

https://arxiv.org/abs/2403.13187
Типо новая методика мержей. Из статьи ничего узнать нельзя ибо сама технология не раскрыта а только блаблабла воды налили. тут варианты: технология закрыта и засекречена? Или там и нет никуя, просто хайпуют чтоб наебать какого-то венчура на грант? Заценить модели у пиздоглазых можно здесь https://huggingface.co/SakanaAI
Кто-то обращал внимание на это новое для тестирования? Интересуюсь потому что пришел к выводу об оптимальности лично мне 20b с утилитарной точки зрения по железу/скорости/мозгам, а они все мержи почти что, значит чем качественней будут смешивать тем лучше. Узкоглазые эти, утверждают, что открыли научный метод смешивания чтобы получать целевой результат. А не методом тыка членом в небо, как небезысвестный унди и пресловутый икари дев кем бы они ни были.

Аноним 26/03/24 Втр 19:01:30 № 682460 405

>>682445
Ну, когда тебе будут так активно промывать мозги ты и не так запоешь. По сути все модели лоботомируют создавая определенную личность вырезая там ножом все лишнее
Когда существует 100500 версий модели и убивают всех кто не ведет себя так как надо, остается то что мы видим

Аноним 26/03/24 Втр 19:07:13 № 682465 406

>>682458
>20b ... они все мержи почти что
Не мержи, а франкенштейны. Мержинг таких моделей это просто контрольный в голову.

Аноним 26/03/24 Втр 19:10:17 № 682474 407

>>682460
Да там не промывание мозгов, а регуляция, типа как Sweet Baby Inc насильно впихивала повесточку в игоря

Аноним 26/03/24 Втр 19:11:15 № 682478 408

>>681715
Бамп.

Аноним 26/03/24 Втр 19:17:02 № 682486 409

>>682331
> Как вы этого добиваетесь? Оно на русском пытается только если дать явную инструкцию, и то неохотно и с ошибками. И интересно насколько те языки хороши/плохи.
Встречный вопрос, она весьма неплохо говорит на русском, крайне охотно.
Может промпт, карточка, английская или че? Кобольд?

> всеравно ведь неюзабельно.
Тут кто-то и на 70б ждал-терпел. х)
На вкус и цвет, кмк. Хотя медленно, согласен.

> Ну хуй знает.
Ну, лично мне очевидно.

> Как он пускается то?
>>682358
Блин, по-ходу, поддержку выпилили.
Я запускал 10 дней назад, а судя по гиту, 11 дней назад поддержку добавляли.
А сейчас реально не грузит.
И ллаву он тоже выпилил.
Ебучий Жора, хули тебе не сидится, все ж работало.
Ну ладно, ждем когда он пропердится и вернет.

>>682435
Нет, не понимают.
Чистая статистика.
И, чисто статистически, в интернете тебя понимают, да. =)

Аноним 26/03/24 Втр 19:18:43 № 682489 410

>>682458
"Как выжать побольше воды из камня при помощи двух карандашей и крышки от пластиковой бутылки". В морг.
>эволюционный алгоритм для мёржа
Самая ебанутая идея в мире, даже не нейронку обучают (что было бы тоже ебануто).
>nature-inspired intelligence
Чё сразу не блокчейн? Могут нахуй идти.

Аноним 26/03/24 Втр 19:23:57 № 682499 411

>>682486
> весьма неплохо говорит на русском
Это весьма неплохо - по 10 ошибок в каждой фразе, надмозги и сама структура предложений как в английском языке с почти дословным переводом, уже проходили. Если в каждой инструкции нет явного указания отвечать на русском - будет спрыгивать на инглиш, может даже с ней или при наличии истории посреди ответа переключиться, и это с прямыми запросами. В таверне с явной инструкцией тоже капризничает, офк карточка и остальное на инглише, но другим моделям это не мешает. "Спасает" только то что из-за качества языка это малоюзабельно.

Аноним 26/03/24 Втр 19:25:13 № 682500 412

>>682499
> В таверне с явной инструкцией
Куда вписать?

Аноним 26/03/24 Втр 19:27:01 № 682503 413

>>682486
>Нет, не понимают.
>Чистая статистика.
ну, это всего лишь твое мнение
есть разные точки зрения на это

Аноним 26/03/24 Втр 19:35:01 № 682517 414

>>682500
Если какой-то из дефолтных инстракт форматов - после response. Если сложнее с префиллом и прочим - сам разберешься, но как можно ближе, включение в начало игнорит.
>>682503
А ты сам что подразумеваешь?

Аноним 26/03/24 Втр 19:48:12 № 682534 415

>>682517
А что такое "понимание" о котором идет речь? Что бы что то понять нужно иметь внутреннее представление о чем то, модель внутри. Если в нейронках эта модель мира в виде векторных представлений и семантической связи, то что? В наших мозгах связь аналогична.
Поэтому я считаю что сетки понимают, если могут с чем то работать, и давать ожидаемый тобой результат.
То что это внутри на микромасштабе работает на статистике и векторах ну и хрен с ним, это не говорит о высокоуровневых абстрактных представлениях внутри ничего, просто нижний уровень логики.

Аноним 26/03/24 Втр 19:55:43 № 682541 416

Ничего в этом не понимаю. Если я хочу сдедать бота инструктора, чтобы он мне отвечал на вопросы по специфичному ПО, то мне нужно просто инструкцию, что у меня есть, скормить этой языковой модели? Мне вот Mistral-7B-Instruct-v0.2 подойдет? И да, желательно, чтобы он на русском отвечал.

Аноним 26/03/24 Втр 20:00:28 № 682549 417

>>682458
>сама технология не раскрыта а только блаблабла воды налили
разумеется мы нихуя не получим.
всё, лавочка закрыта, ваши вайфу будут тупыми, политкорректными по западу и мерзкими прямо как мясные селёдки.

Аноним 26/03/24 Втр 20:17:23 № 682581 418

>>682534
Ах ты хитрый жук, в такой постановке и не доебешься просто так.
>>682541
Самый простой вариант - тебе нужна нормально настроенная таверна и бот в ней, тот же кодинг сенсей по дефолту подойдет. В идеале системный промт нужно подтюнить ибо связанное с ролплеем может отвлекать, кто-то такое вроде делал, подскажут.

Аноним 26/03/24 Втр 20:27:17 № 682605 419

>>682581
>тебе нужна нормально настроенная таверна и бот в ней, тот же кодинг сенсей по дефолту подойдет.
Вообще не понял о чем ты.
>В идеале системный промт нужно подтюнить
А промт это разве не сам запрос? Или системный промт это какой параметр самой модели?

Аноним 26/03/24 Втр 20:36:22 № 682635 420

>>682581
>Ах ты хитрый жук, в такой постановке и не доебешься просто так.
Ну, мог бы просто написать что я прав )

Аноним 26/03/24 Втр 21:15:51 № 682705 421

>>682478
Прямо на том скриншоте же написано под alpha_value, что множитель для rope масштабирования, ставь 2.5 для увеличения контекста в два раза. Настраивается ли автоматом в убе, не знаю, сам юзаю кобольд.

Аноним 26/03/24 Втр 21:27:33 № 682717 422

>>681715
Если в конфиге указано rope freq то оно подгрузится при выборе модели, такое обычно для моделей с большим контекстом по дефолту. Если нет то >>682705 но насчет 2.5 не уверен, обычно было 2.65. Автоматом ничего не ставится.

Аноним 26/03/24 Втр 21:28:11 № 682719 423

>>682717
> но насчет 2.5 не уверен, обычно было 2.65
2й пик в шапке если 4к базовый контекст, по нему подбирай.

Аноним 26/03/24 Втр 23:31:27 № 682879 424

>>682541
>И да, желательно, чтобы он на русском отвечал.

Сайгу бери, она единственная в русский может, сайга 70В даже пристойно.

Аноним 27/03/24 Срд 00:55:09 № 683007 425

>>682503
Это не мнение, это факт.
Это никак не зависит ни от моего мнения, ни от чужих.
Это то, как оно устроено, и как оно работает.
Так что, да, есть дурачки. Но это их проблемы. Не имей таких проблем, вот и все. =)

>>682534
Первая фраза уже некорректна.
Либо ты до этого вопроса должен был дать определение этому слову, которое ты имеешь в виду, либо мы используем его значение в русском языке.
Понять: уяснить значение, познать, постигнуть.
Это действие, производимое субъектом самостоятельно.
Нейросети не способны задаться вопросом, познать, постигнуть, уяснить значение.
1. Они действуют лишь в качестве ответа на действие над ними.
2. Они не запоминают, статичны сами по себе.
Эти два пункта четко противоречат значению слова «понимание» в русском языке.

Это не «мнение», это логика и терминология.

Сорян. =)

А то, о чем говоришь ты — очень далеко от «понимания», тут совсем другой термин нужно подбирать. Но это твое дело, я спать.

Аноним 27/03/24 Срд 01:11:24 № 683031 426

>>683007
Повторяю это всего лишь твое мнение, мнение не может быть фактом, просто ограниченная точка зрения отдельного человека
То что ты это не понимаешь твоя проблема, нашлась тут истина в последней инстанции лол

Аноним 27/03/24 Срд 01:31:13 № 683057 427

>>676400 (OP)
Подскажите, а зачем на 4 оп-пике 2 процессора на материнке?

Аноним 27/03/24 Срд 01:32:08 № 683058 428

>>681923
>Логично, что 7б в русских умеет не шедеврально. =)
Я надеюсь постепенно добить до нормального понимания. Полирую 2b параметров из 7, постепенно становится лучше, но как же это долго, блядь. Плюс данные - машинный перевод, небольшое косноязычие останется пожизненно. Изначальные трейн данные были что-то уровня датасетов Гусева, парсинг разных пикабу с хабрами, что тоже ума модели не прибавляет.

Аноним 27/03/24 Срд 01:35:12 № 683065 429

>>683058
> Полирую 2b параметров из 7
Что?
> парсинг разных пикабу с хабрами
Как-то их оформлял?

Аноним 27/03/24 Срд 01:35:22 № 683066 430

>>683057
двухпроцессорная сборка на xeon просто у анона, к которой он и прицепить хочет ускорители

Аноним 27/03/24 Срд 01:37:05 № 683070 431

>>683066
А разве нейронку можно одновременно запускать на процессоре и видюхе? Я думал только на чём-то одном.

Аноним 27/03/24 Срд 01:37:54 № 683072 432

>>683070
Тут половина треда так делает. Но для такого не то чтобы есть большой смысл в нектродвухпроцессорной сборке.

Аноним 27/03/24 Срд 01:41:15 № 683081 433

>>683072
Понятно, спасибо. Пойду перечитаю гайды.

Аноним 27/03/24 Срд 01:53:00 № 683109 434

>>683031
Братик, но он так-то прав. Хотя ты, конечно, может точик какой с автоматом и без уха, и у тебя свой, особенный русский язык, тогда вопросов нет

Аноним 27/03/24 Срд 01:54:59 № 683111 435

>>683109
Для самых тупых я там же дал объяснение тому термину и контексту в котором говорил. Ну видимо доебаться до определения это все на что хватило мозгов анона

Аноним 27/03/24 Срд 02:05:32 № 683123 436

>>683111
Выпускай свой словарь альтернативного русского языка, тогда будет разговор, господин ты иностранный специалист

Аноним 27/03/24 Срд 02:13:23 № 683133 437

>>683123
По факту есть что сказать? Нет, завали варежку
Ну или давай аргументируй аргументно в чем я не прав в своих рассуждениях
Только без детских доебок к терминам, окей?
Поменьше чсв паренек

Аноним 27/03/24 Срд 03:51:33 № 683270 438

>>683065
>Что?
Что? На полноценный файнтюн не хватает памяти, точнее из-за странной работы hf библиотек память не распределяется, как мне бы хотелось бы, так что почему бы не сделать гигажирную лору. В fp32 весит 14 гигабайт.
Данные были как-то оформлены, но не очень качественно.

Посмотрел, как модель отвечает по дефолту. Ну такое себе.

Аноним 27/03/24 Срд 04:37:52 № 683310 439

>>682705
>>682717
>>682719
Если rope freq само подгружается это означает что модель сама поддерживает длинный контекст, ничего трогать не нужно.
Если модель не поддерживает длинный контекст то нужно использовать alpha_value по той формуле Recommended values (NTKv1): 1.75 for 1.5x context, 2.5 for 2x context..
Бред не увеличивается от RoPe?

Алсо, неплохо было бы добавить это в шапку учитывая что некоторые модели все еще ограничиваются 4к.

Аноним 27/03/24 Срд 06:10:59 № 683327 440

>>682879
> Сайгу бери, она единственная в русский может, сайга 70В даже пристойно.
Мне памяти для этого не хватит

Аноним 27/03/24 Срд 09:45:06 № 683404 441

ура, убабужный вебуй заработал на моем некроговне вместо проца с использование ртх, хоспаде благослови убабугу

Аноним 27/03/24 Срд 09:57:26 № 683415 442

>>683270
>почему бы не сделать гигажирную лору
обучаешь локально? в чем? убабуге или аксолотль? почему лора в fp32 а не fp16?

Аноним 27/03/24 Срд 10:20:33 № 683426 443

>>682465
>Мержинг таких моделей это просто контрольный в голову
не всегда, вот же неплохой https://huggingface.co/TeeZee/DarkForest-20B-v2.0
>Как выжать побольше воды из камня при помощи двух карандашей и крышки от пластиковой бутылки
чтож примерно так и подозревал, много развелось хитровыебанных "исследователей" в поисках гранта и финансирования, хотят быть как мистраль, но при этом вложиться в работу как условный икари дев))

Аноним 27/03/24 Срд 10:29:53 № 683430 444

Нужна лучшая модель для ассистента и для кодинга под 12 гигов памяти. Можете че-то посоветовать?

Аноним 27/03/24 Срд 11:03:29 № 683449 445

>>683415
LLama Factory. Трейн на самом деле вообще в fp8, просто разжимается в процессе в 16 и 32.

>>683426
>DarkForest-20B-v2.0
Вообще забавная штука. Половина всех весов от KatyTheCutie_EstopianMaid-13B, все остальные модели в сумме ещё столько же. Интересно было бы сравнить с ней, насколько лес умнее Кати и умнее ли, но лень.

Аноним 27/03/24 Срд 11:23:35 № 683456 446

>>683031
Мнение фактом быть не может, но я не высказываю своего мнения, я сообщаю факт. И этот факт — не является моим мнением.
Хватит переворачивать понятия. =)
Тут не я истина в последней инстанции, тут банальный факт.
Ты тут единственный, кто не понимает простых вещей.
Но это сугубо твоя проблема, ладно.

>>683057
Потому что он может. Собрал такую сборку.
Возможно там 8-канал или что-то такое, я точно уже не помню.

>>683058
Ну ты… обладаешь удивительным терпением и упорством, уважение.

>>683070
Можно, но там не в этом суть, само количество ядер процессора тебе сильно не поможет в большинстве случаев.

>>683111
В начале ты написал хуйню.
Потом стал переобуваться и отмазываться.
Сам разговариваешь на своем выдуманном языке, подменяешь понятия, а тупыми называешь всех вокруг. =) Эх… классика. Дух нулевых годов и людей с айкью как у хлебушка.

>>683133
Самое смешное, что тебе аргументированно ответили, тебе сказать на это оказалось нечего и ты сгорел. Буквально сам себя затроллил и полыхаешь теперь. )))
Продолжай, угарный ты наш.

>>683404
Без AVX-инструкций, прямиком в видяху exl2?

>>683426
Эт прям рандом. =)
Никто не против, что иногда получается хорошо.
Но в большинстве случаев — пропасть между натур.продуктом и вот этим.

Аноним 27/03/24 Срд 11:47:10 № 683461 447

>>683327

Так бери мистраль-сайгу 7В

Аноним 27/03/24 Срд 11:51:21 № 683466 448

>>679770
она в русский может потому что на openchat_3.5 сделана, хуле в шапку инфу не обновляют? может хватит уже говном мамонта кормить? Добавьте ту же опенчат как модель для русского языка отличную. И которая ебет ваши 13б 70б модели кстати.

Аноним 27/03/24 Срд 11:53:10 № 683467 449

>>683461
На хаггинг фейсе есть она?

Аноним 27/03/24 Срд 11:56:19 № 683470 450

Попробовал сейчас Starling 7b. По русски понимает. Тестирую вместе с Mistral 7b 0.2
По ощущениям крутая.

Аноним 27/03/24 Срд 12:02:57 № 683472 451

>>683466
>хуле в шапку инфу не обновляют
Потому что не нужно. Опенчат пробовали и высрали тредов 20 назад, если не больше.
>Добавьте ту же опенчат как модель для русского языка отличную
Говноедством не занимаемся. Вот буквально сейчас самое глупое, что можно сделать, это общаться с локалками на языках, отличных от английского. Им и так тяжело, параметров катастрофически мало (даже на 70B), а тут ещё не родной для них язык. Даже если нейронка может выдавать грамматически верный текст, но смысла в нём немного.
>И которая ебет ваши 13б 70б модели кстати.
Коупер, спок.

Аноним 27/03/24 Срд 12:08:32 № 683475 452

>>683270
Лору чтоли тренишь?
> Данные были как-то оформлены, но не очень качественно.
Завернул по примеру датасетов в инструкции/chatml, или просто плейнтекст?
>>683310
> Бред не увеличивается от RoPe?
Увеличивается если крутануть сильно, х2 обычно не заметен вообще. Если судить по графикам перплексити, то оно может внести небольшой импакт на малых контекстах, так что для самоуспокоения можешь до заполнения 4к катать по дефолту а поднимать уже потом.
>>683310
Двачую, только можно еще указать про битые конфиги в некоторых gguf
>>683449
> Трейн на самом деле вообще в fp8, просто разжимается в процессе в 16 и 32.
Основная модель в фп8 загружена всмысле?

Аноним 27/03/24 Срд 12:15:20 № 683478 453

>>683472
а ты кто такой чтобы решать нужно или не нужно? из за таких как ты развитие и останавливается, вахтер. Вот сейчас в тред пришел конкретно чел и спросил за русского помощника, и ему каличную сайгу советуют, это что за пиздец? Вы сами ее тестили? Нахуя людей в заблуждение вводите?
Говноедством как раз ты занимаешься решая что нужно и не нужно.
Я с помощью опенчата именно на русском языке зимнюю сессию сделал на 80% (математика информатика). И это было очень удобно. Это к вопросу о смыслах.
Тяжело им блять, очевидно что мультиязыковые модели лучше могут в обобщения и связи, и это доказывает опенчат на 7б, которая лучше работает чем твоя кривая сайга на 70б, именно на русском языке, я знаю о чем говорю потому что юзал их обе.
Надрачивание на кол-во параметров выдает в тебе неумеху коупера, этакого цыганина от мира ллм, которой главное чтоб бохато(много параметров) было, ну что ж иди надрачивай на арабское поделие фалькон 170б тогда хуле, это же ШЫДЕВР АИ по твоей логике?

Аноним 27/03/24 Срд 12:26:35 № 683480 454

>>683478
> Я с помощью опенчата именно на русском языке зимнюю сессию сделал на 80% (математика информатика)
О, а покажешь примеров каких-то? Канеш
> математика и информатика
в сочетании с
> зимнюю сессию
звучит неебически рофлово (хотя хз что там у гуманитариев), но всеравно интересно посмотреть как та мелочь на сложном языке профильные вопросы отвечает.
> Надрачивание на кол-во параметров выдает в тебе неумеху коупера
Скорее ты его не понял и он несколько искушен, и потому негативно относится к твоему превозношению мелочи как йоба модели.

Аноним 27/03/24 Срд 12:30:49 № 683482 455

>>683478
>а ты кто такой чтобы решать нужно или не нужно?
Анон, сидящий с первых тредов, раздававший на торрентах первую лламу, коммитивший в FlexGen, а что?
>из за таких как ты развитие и останавливается
Ну всё пиздец не внёс старую модель 5-ти месячной свежести в шапку. Люстрировать меня!
>и ему каличную сайгу советуют, это что за пиздец?
Согласен, упоминание сайги вообще надо забанить, увы, за десятки версий её автор так и не научился в файнтюн, вон, безымянный анон выше выдаёт результат лучше >>683270
>Я с помощью опенчата именно на русском языке зимнюю сессию сделал на 80%
Лол, уровень твоей шарашки неимаджинируем.
>очевидно что мультиязыковые модели лучше могут в обобщения и связи
Не спорю. Но сколько ни дрочи, а производительность любой модели на английском лучше. Даже GPT4 и Claude3 сосут в русеке, хоть уже и не так сильно.
>опенчат на 7б, которая лучше работает чем твоя кривая сайга на 70б
Чел, я сайгу никогда не предлагал. И да, то, что опенчат лучше, доказывает только то, что сайга на 70B это кривая подделка на коленке.
>Надрачивание на кол-во параметров выдает в тебе неумеху коупера
Перевод стрелок не засчитан.
Это обладатели малых компьютерных ресурсов коупят на 7B, раз за разом побеждая GPT3,5-turbo в каждом первом тесте. Я же прекрасно катал все размеры от 410M до 120B, и прекрасно знаю импакт от размера.
Конечно можно и в 176B сделать хуйню, как например с OPT от террористов, но мы тут сравниваем модели на одной базе, и в одной линейке моделей чем больше, тем лучше.
>фалькон 170б
180B, неуч.

Аноним 27/03/24 Срд 12:32:18 № 683483 456

>>683467

Все ссылки в треде:
>>680749

Аноним 27/03/24 Срд 12:34:57 № 683485 457

>>683472
>>683482
Челы, старый опенчат и свежий из этого года - совсем разные модели.

Аноним 27/03/24 Срд 12:44:07 № 683494 458

>>683482
> Люстрировать меня!
Ну вообще неплохо бы чуть подсократить шапку с учетом вынесенного на вики и поправить в конце для таверны.
> обладатели малых компьютерных ресурсов коупят на 7B
Они 70+ все испробовали, а значит мнение объективно, зря ты так!

Аноним 27/03/24 Срд 12:49:36 № 683509 459

изображение.png 89Кб, 1607x571

изображение.png 86Кб, 1638x560

изображение.png 122Кб, 1886x617

изображение.png 109Кб, 1856x566

>>683485
Уговорил, потестил... Ожидаемо хуёво. Ведь знал же, что это коупинг, и всё равно попробовал. Вот так всегда.
>>683494
>Ну вообще неплохо бы чуть подсократить шапку
С одной стороны да, с другой вики пару раз уже падала, а совсем без инструкций туго.

Аноним 27/03/24 Срд 13:00:10 № 683528 460

>>683480
ты для себя открой, что существует еще заочное обучение, да я работаю, и мне удобно, что зимняя сессия проходит дистанционно.
Да опенчат по теории алгоритмов писала для меня доклад, по теме сложность алгоритмов. Тебе рассказать как выглядит процесс? Она тебе расписывает изначально по пунктам доклад, а потом просишь каждый подробно расписать, с небольшими ошибками (грамматическими 5%) правишь и готово. Тоже самое и Теории функций действительного переменного.
По языкам и методам программирования она отлично умеет кодить в питон и с++ с комментами и пояснениями( 3 курс если что). Да проверять надо, иногда может высрать и херню но это легко через гугл эвейдится.
Далее она и по физкультуре мне написала доклад, где нужно было придумать комплекс упражнений (расписать кол-во подходов, периодичность, полезность, правила и тд)
>>683482
>>Анон, сидящий с первых тредов, раздававший на торрентах первую лламу,
Видимо в тебе ЧСВ говорит, раз ты так противишься прогрессу 7б моделей. Тебе вот другой уже анон заявляет что опенчат развивается, но ты сиди дальше в своем мирке этакой илитарности только англоязычных моделей 70б+.
Конечно я понимаю что кол-во параметров играет главную роль, но и нельзя отрицать, что область только зарождается, и есть подходы значительно улучшающие результаты даже на 7б моделях.
Вот я заходил в этот тред месяца три назад, спрашивал про нормальную модель для русского языка, потому что в шапке буквально НОЛЬ информации об этом, в итоге мы выясняем что тут проблема в твоих каких то личностных оценках, поэтому в итоге полезную инфу я нашел на хабре а не здесь.

Аноним 27/03/24 Срд 13:02:40 № 683532 461

>>683509
и да сессию я делал не на квантизированной модели если что
(я работал на фп16 модели, скачал ггуф8 для теста, и да разница есть, гораздо чаще в бред скатывается почему то)

Аноним 27/03/24 Срд 13:09:34 № 683545 462

>>683509
ну вот на моей фп16 модели такое выдает, при том что юмор в принципе для нейросетей не подъемен. Давай покажи мне как твоя любимая 70б модель на русском нормально шутит на эту же тему? Что нету? Значит вся шапка треда говно? И вообще все нейросети по твоей логике хуевые?

Аноним 27/03/24 Срд 13:10:40 № 683546 463

2024-03-2720-08[...].png 43Кб, 1108x408

>>683545
картинку забыл

Аноним 27/03/24 Срд 13:11:20 № 683547 464

>>683528
>раз ты так противишься прогрессу 7б моделей
Рекомендую тебе перестать бороться с образами в твоей голове.
>Тебе вот другой уже анон заявляет что опенчат развивается
Так кто бы спорил! Прогресс на лицо. Только всё равно хуже полновесных моделей, да.
>но ты сиди дальше в своем мирке этакой илитарности только англоязычных моделей 70б+
В общем-то так и делаю.
>Конечно я понимаю что кол-во параметров играет главную роль, но и нельзя отрицать, что область только зарождается, и есть подходы значительно улучшающие результаты даже на 7б моделях.
Ну да, меня вот печалит, что куча народа вкладывает кучу сил в 7B огрызки вместо того, чтобы вместе натрейнить 70B. В итоге прогресс в 7B большой, но в силу малого размера они всё равно туповатые. А в 70B классе есть застой, и разрыв между 7B и 70B сокращается. Но не потому что 7B такие охуенные, а потому что 70B мало занимаются. Ну ты понял суть.
>спрашивал про нормальную модель для русского языка
Закрытые GPT4 и Claude3, офк. Опенсорс на русском это боль, вот пруф
>с небольшими ошибками (грамматическими 5%) правишь
>>683532
Вот это интересная информация, лучше бы сравнений напилил на одном промте и сидах, а то ведь по всем этим вашим перплексиям разницы там 0,00001%.
>>683545
>И вообще все нейросети по твоей логике хуевые?
Ты не поверишь, но да, я всё ещё лучше любой нейросети в любом вопросе (офк я с гуглом).

Аноним 27/03/24 Срд 13:22:28 № 683572 465

изображение.png 88Кб, 1597x384

изображение.png 99Кб, 1772x534

>>683546
Вот старая добрая мику. Как всегда с префилом, без него отказ.

Аноним 27/03/24 Срд 13:22:36 № 683573 466

>>683456
Побольше скобочек, а то не всем понятно что у тебя жопа горит от того что по факту сказать нечего
Так хочется доказать свою правоту и нечего сказать?
Делай как этот анон и используй такие же приемчики

Сказать нечего и начинает как уж изворачиваться придумывая всякую хуету
Иди ка ты нахуй чсв дурачек со своим близоруким мнением
Так как на нормальное обсуждение ты видимо не способен

Аноним 27/03/24 Срд 13:26:09 № 683578 467

>>683528
> ты для себя открой, что существует еще заочное обучение
Там перечень предметов аналогичен, а не повторяет школьную программу, потому и удивили названия, особенно на 3м курсе.
> Тебе рассказать как выглядит процесс?
Лучше покажи что-то конкретное.
> противишься прогрессу 7б моделей
Волна этого прогресса с непревзойденными победами уже была, и это печально. Копиум оттягивает на себя все внимание и ресурсы, которые могли бы пойти на что-то полезное, а на выходе лишь уныние, которое может впечатлять неофитов или ограниченных.
>>683545
> Давай покажи мне как твоя любимая 70б модель на русском нормально шутит на эту же тему?
Если это "нормальная шутка" то довольно символично.
А истории про всякие манипуляции с неграми с применением холодного, огнестрельного оружия, взрывчатки и прочего можешь найти в прошлых тредах.

Аноним 27/03/24 Срд 13:30:57 № 683584 468

>>683482
>Анон, сидящий с первых тредов, раздававший на торрентах первую лламу, коммитивший в FlexGen, а что?
Корона не жмет? Угораю с местных вахтеров. То что ты когда то сделал что то полезное не делает тебя кем то важным, прикинь. Я тоже сижу тут с начала слива первой лламы, и че теперь?
Шапку не меняют так как анону поебать на нее, даже если там инфа устаревшая несколько раз подряд или не актуальная.

Аноним 27/03/24 Срд 13:35:36 № 683587 469

>>683547
>>Ну да, меня вот печалит, что куча народа вкладывает кучу сил в 7B огрызки вместо того, чтобы вместе натрейнить 70B
Так в том то и суть ЛОКАЛЬНЫХ моделей что их можно запускать на потребительском железе. Это дает огромную аудиторию энтузиастов и свободу от каких либо правил и ограничений. Таким образом sd развивался и благодаря именно им мы имеем сейчас огромный прогресс в генерации изображений. Что поделать если 70б модели в плане файнтюнинга доступны лишь единицам? Работать с 7б моделями, искать способы их улучшения с помощью костылей, оптимизировать. Это развитие которое приносит результаты здесь и сейчас, и эти результаты можно экстраполировать и на более крупные модели (с развитием консьюмерского железа офкос).
Ты предлагаешь сидеть и ждать технического прогресса, игнорируя прогресс в моделях 7б (кстати минимально необходимое кол-во параметров для разных задач тоже спорный вопрос), а я предлагаю развивать уже сейчас и использовать то что уже сейчас возможно (7б - 13б)
Короче добавь в шапку опенчат, как лучший на данный момент помощник на русском языке, и, что не мало важно, с возможностью реального применения в помощи по кодингу.

Аноним 27/03/24 Срд 13:39:15 № 683591 470

>>683587
Опенчат или старлинг на его основе? Я если что не оп. Просто интересно что лучше. Я новый старлинг щупал, а вот опенчат с которого его сделали нет

Аноним 27/03/24 Срд 13:44:24 № 683603 471

>>683591
https://huggingface.co/openchat/openchat-3.5-0106

Аноним 27/03/24 Срд 13:47:16 № 683611 472

>>683572
Пиздец соя.

Аноним 27/03/24 Срд 13:51:55 № 683618 473

Ни ссылки не добавил в шапку, ни кванты новые, ни модели годные. До сих пор висят занимая место старые и никому не нужные как говно мамонта пигмалион и мпт, новых моделей базовых так же нет, а они выходили.
Нахуй короче, больше не буду ниче предлагать или кидать ссылки. Это видимо никому уже не нужно, оставлю годноту себе ухух

Аноним 27/03/24 Срд 13:53:26 № 683620 474

>>683587
> Так в том то и суть ЛОКАЛЬНЫХ моделей что их можно запускать на потребительском железе.
Тыскозал? Их суть в наличии открытых весов и возможности пускать где хочешь как хочешь, все.
Вместо радости за прогресс, новые возможности и прочее - начинается специальная олимпиада, где братишки отождествляют себя с моделями, которые запускают(!), а потом искренне обижаются на объективную критику в их сторону, устраивают круговой надроч с победами и постулируют что все остальное - ненужно.
Глубинная причина как всегда одна, вот только реализовываться нужно не через запуск ллм и стремиться к лучшему а не сохранению положения, тогда сразу отпустит.
> лучший на данный момент помощник на русском языке
Сколько постов срача уже который день, а примеры хоть будут?

Аноним 27/03/24 Срд 13:54:34 № 683621 475

>>683475
>Лору чтоли тренишь?
Да. И говорю же, памяти мало, так что fp8. Я бы ещё батчайз поднял, но всё довольно печально и так. Вот бы пару 4090, лол.

Аноним 27/03/24 Срд 13:55:30 № 683622 476

>>683603
https://huggingface.co/bartowski/Starling-LM-7B-beta-GGUF
попробуй вот эту, на сколько помню она файнтюн того что ты скинул. Годная штука. Формат чатмл. По русски шпарит, но лучше хуже не знаю, сам сравнивай.

Аноним 27/03/24 Срд 13:58:01 № 683624 477

>>683621
> И говорю же, памяти мало, так что fp8
Да без претензий если что.
> Вот бы пару 4090, лол.
Как тренить предлагаешь?
Алсо недавно статью про новый оптимайзер скидывали, не смотрел? Файнтюн 7б на 24гб обещают. И с дипспидом неплохо бы разобраться, он позволяет большую часть данных оптимайзера сгрузить в рам.

Аноним 27/03/24 Срд 14:09:00 № 683633 478

>>683620
еще раз глазки свои подними и прочитай название треда. Тут у нас анон с ЧСВ решил что 7б модели нинужны, поэтому у нас в шапке старое бесполезное говно.
Еще спорить будешь? По поводу опенчата и его возможностей я уже приводил пример как сдавал сессию,именно на русском языке. Может у тебя есть контр примеры на какой то другой модели? Желательно 7б, чтобы любой анон могу запустить. Ну можешь и 70б локально запущенную показать, ладно, с такой же связностью на русском, ждемс. вот шутку про негров без префилеров тоже ждемс.

Аноним 27/03/24 Срд 14:15:45 № 683641 479

Введение

В данной работе рассматриваются основные аспекты изучения временной сложности алгоритмов с учетом двух главных критериев – полиномиальной и экспоненциальной сложностей.

Определения и понятия
Алгоритм - это последовательность действий или правил, которые используется для достижения определенной цели. В этом контексте алгоритмы часто представляют собой процесс обработки данных или решения задач.
Временная сложность алгоритма - это количество времени, затрачиваемое на выполнение алгоритма в качестве функции от размера входных данных. Эта величина характеризует эффективность алгоритма в отношении времени его исполнения.
Полиномиальная сложность - это время выполнения алгоритма, которое растет не быстрее чем к кубу размера входных данных. Это означает, что заданный алгоритм может обрабатывать данные размером до нескольких тысяч элементов за достаточно короткое время. Однако с ростом размера входных данных время работы алгоритма будет расти существенно медленнее, чем в случае экспоненциальной сложности.
Экспоненциальная сложность - это время выполнения алгоритма, которое растет значительно быстрее, чем к степени размерности входных данных. Такие алгоритмы могут работать с очень большим объемом данных, но их производительность резко падает с ростом размера входных данных. На практике такое поведение может привести к зависаниям программы или долгим задержкам при обработке данных.

Каждая из этих двух критериев - полиномиальной и экспоненциальной сложностей - имеет свои преимущества и недостатки, и выбор оптимального алгоритма для конкретной задачи зависит от её требований к времени и пространству. Комплексное исследование временной сложности алгоритма поможет оценить его эффективность и выбрать наиболее подходящий подход для решения данной задачи.

Методы определения временной сложности

Для определения временной сложности алгоритма могут использоваться следующие методы: анализ алгоритма с использованием математических формул; проверка на практике через симуляцию или реализацию алгоритма в программном коде; применение стандартных тестов временной сложности, таких как Big O Notation.

Первый способ – анализ алгоритма с использованием математических формул – предполагает формальную оценку времени, затрачиваемого на выполнение алгоритма. Для этого необходимо рассмотреть все операции алгоритма и связанные с ними затраты времени. Затем, на основе полученной информации, необходимо построить функцию, которая описывает влияние размера входных данных на время выполнения алгоритма. Результатом такого анализа является числовая оценка временной сложности алгоритма, выраженная в терминах функций сложности, таких как O(n), O(log n) или O(n^3).

Второй способ – проверка на практике через симуляцию или реализацию алгортима в программном коде – предполагает наглядно видеть, как алгоритм работает на различных наборах данных. Для этого необходимо создать программу, которая реализует данный алгоритм и замеряет время его работы на различных наборах данных разного размера. Результатом такой проверки являются конкретные значения времени выполнения алгоритма на различных наборах данных, которые можно сравнить с теоретическими оценками временной сложности, полученными методом анализа математических формул.

Третий способ – применение стандартных тестов временной сложности, таких как Big O Notation – представляет собой упрощенный подход к оценке временной сложности алгоритмов. В этом методе используется общая характеристика сложности алгоритма, выраженная в терминах функций сложности, таких как O(n), O(log n) или O(n^3). Эта характеристика позволяет сравнивать алгоритмы между собой и выбирать наиболее эффективный вариант для решения конкретной задачи. Однако стоит учесть, что данный метод дает лишь общую картину временной сложности алгоритма и не учитывает многие детали, которые могут влиять на его работу.

В целом, методы определения временной сложности алгоритмов включают как формальные аналитические подходы, так и практические проверки на реальных данных, что позволяет получить более полную и точную оценку их производительности. Выбор наиболее подходящего метода зависит от конкретных задач и требований к точности оценки временной сложности.

Примеры алгоритмов с разными типами сложностей

Алгоритм вставки в список - это полиномиально-сложный алгоритм. Он добавляет новый элемент в правильное место внутри списка, перемещая другие элементы, если они находятся перед этим элементом. Сложность алгоритма растет вместе с квадратом размера списка, т.е. O(n^2).
Алгоритм удаления элемента из списка также имеет полиномиальную сложность, поскольку он должен перемещать остальные элементы после удаляемого элемента влево. Сложность алгоритма растет вместе с квадратом размера списка, т.е. O(n^2).
Сортировка пузырьком - это полиномиально-сложный алгоритм. Он использует сравнение каждого элемента со всеми остальными элементами в списке и меняет их местами, если они находятся в неправильном порядке. Сложность алгоритма растет вместе с кубом размера списка, т.е. O(n^3).
Быстрая сортировка - это алгоритм с экспоненциальной сложностью. Он использует рекурсивный подход и делит список на две части, сортируя каждую часть независимо друг от друга. Затем результаты двух частей объединяются обратно в один список. Сложность алгоритма растет экспоненциально с ростом размера списка, но этот алгоритм работает очень эффективно на больших наборах данных, где время обработки является менее значимым фактором.
Бинарный поиск - это алгоритм с экспоненциальной сложностью. Он использует двоичное дерево поиска и делит список на две половинки, пока найденный элемент не будет находиться в одной из них. Сложность алгоритма растет экпоненциально с ростом размера списка, но этот алгоритм работает очень эффективно на больших наборах данных, где количество элементов известно заранее.
Таким образом, приведённые примеры алгоритмов иллюстрируют различия между полиномиальной и экспоненциальной сложностями и помогают выбрать наиболее подходящий подход для решения заданной задачи. В заключение следует подчеркнуть важность оптимизации кода и использования специализированных структур данных для повышения производительности программного обеспечения.

Заключение
Изучение временной сложности алгоритмов является важным аспектом компьютерного дизайна и разработки программного обеспечения. Различия между полиномиальной и экспоненциальной сложностями помогают выбрать наиболее эффективные методы решения задач.

Положительная сторона полиномиальной сложности заключается в том, что такие алгоритмы могут обрабатывать достаточно большие наборы данных за достаточно короткое время. Однако с ростом размера входных данных время работы полиномиальных алгоритмов может существенно возрастать, что может быть проблемным в случаях, когда требуется обработать очень большое количество данных или необходимо быстрое решение задачи.

Отрицательная сторона полиномиальной сложности заключается в том, что такие алгоритмы могут быть ограничены своей производительностью при обработке очень больших наборов данных, которые могут возникнуть в современных информационных системах и приложениях.

С другой стороны, экспоненциальная сложность характеризуется более высокой производительностью при обработке очень больших наборов данных, однако с ростом размера входных данных время работы экспоненциальных алгоритмов может существенно возрастать, что может привести к задержкам и зависаниям программы.

Минусом экспоненциальной сложности является то, что такие алгоритмы могут быть ограничены своей производительностью при обработке очень маленьких наборов данных, что может быть неприемлемо для многих современных информационных систем и приложений.

Блять я поборол даже свою лень и нашел реферат который мне опенчат писал(не весь, длина сообщения ограничена). Да мне поставили за него 4. Вопросы?
Вахтер оп все так же будет упираться в нинужности опенчата?

Аноним 27/03/24 Срд 14:16:50 № 683642 480

>>683633
Спокойнее будь на тебя никто не нападает, а со стороны у вас просто недопонимание и накручивание которое не сделает мелкие веса умнее фьют ха!.
Даже 3б и меньше нужны, тут и вопросов быть не может. Ты лучше покажи что тот опенчат может.
> вот шутку про негров без префилеров тоже ждемс
Рофлишь или серьезно? С каких пор это считается крутым достижением?
> Ну можешь и 70б локально запущенную показать
120б локально запущенную показывал и ее русский, врядли у мелочи будет какой-то шанс.

Аноним 27/03/24 Срд 14:22:26 № 683650 481

>>683641
chatgpt/10, приходи не пересдачу!
Ну серьезно, отборная нейронная вода, которую сложно читать, без полезного содержимого. Буквально в любой конец мотаешь и видишь треш
> Положительная сторона полиномиальной сложности заключается в том, что такие алгоритмы могут обрабатывать достаточно большие наборы данных за достаточно короткое время. Однако с ростом размера входных данных время работы полиномиальных алгоритмов может существенно возрастать, что может быть проблемным в случаях, когда требуется обработать очень большое количество данных или необходимо быстрое решение задачи.
> С другой стороны, экспоненциальная сложность характеризуется более высокой производительностью при обработке очень больших наборов данных, однако с ростом размера входных данных время работы экспоненциальных алгоритмов может существенно возрастать, что может привести к задержкам и зависаниям программы.
Так что тебе очень повезло, или твой вуз неочень.
Офк сама возможность писать текст на русском это уже круто и год назад такого не было. Вот только это буквально прямая иллюстрация копиумности 7б, когда она лишь валит малосвязанные повторяющие простыни по мотивам, а не содежательное-интересное, действительно дежавю с рп на 7б.

Аноним 27/03/24 Срд 14:25:23 № 683653 482

>>683650
Так такое говно высерает любой рп-кал. У 70В ещё шизоиднее простыни будут, потому что контекст говно с памятью как у рыбки.

Аноним 27/03/24 Срд 14:27:42 № 683656 483

>>683653
> Аутотренинг не сделает твою модель лучше и не позволит тебе запускать модели белых людей
Sad but true

Аноним 27/03/24 Срд 14:28:25 № 683658 484

>>683641
Херня работа. Тут имея таблицу можно сократить раза в 4.

Аноним 27/03/24 Срд 14:31:06 № 683663 485

>>683656
>модели белых людей
Такие же тупые? разница между 7b и 70b не так высока как ты себе навоображал хех
И вобще, включайте голову наконец, он пишет не о рп сетке
Просто сетка как чат бот для какой то генерации информации по довольно общим темам с достаточным для понимания русским
Докумились в конец дрочеры, раз все по рп-ерп оцениваете

Аноним 27/03/24 Срд 14:35:45 № 683671 486

>>683663
Хуя пичот. Ну рили с этого только рофлить остается, хз при чем тут рп или не рп. Братишка словил утенка с какой-то модели, и теперь вайнит что ее отказываются ставить на пьедестал лучшей из лучших, а под это не обремененные железом встрепенулись и начали затирать про то что хорошо а что плохо. Или это один и тот же человек, не важно.

Аноним 27/03/24 Срд 14:35:52 № 683672 487

>>683650
У нас опенчат экстрактит из произвольных документов сущности и ключевые слова в структурированный json.
Я считаю что сегодня первичная роль LLM - это клей в преобразовании неструктурированных данных в структурированные. Логики тут много не надо, эрудиция даже лишняя. А возможности существующих информационных систем это расширяет в разы. Сегодня даже этот потенцивал не раскрыт на 1/10.

Аноним 27/03/24 Срд 14:38:05 № 683675 488

>>683642
120б локально запущенную показывал и ее русский, врядли у мелочи будет какой-то шанс.
сколько ждал вывод одного предложения?

Аноним 27/03/24 Срд 14:42:19 № 683680 489

>>683671
я вайню от устаревшей шапки. Любой мимо анон найдет больше полезной и практичной инфа на хабре и любом другом источнике, а здесь именно что загон для утят с их 7б нинужно.
А ведь я на реальном примере показал нужность модели, и да это такая же "какая то модель" как и ваши фальконы и другой нинужный кал который есть в шапке, но которая имеет реальную пользу для анона.

Аноним 27/03/24 Срд 14:43:12 № 683684 490

>>683642
>120б локально запущенную показывал и ее русский, врядли у мелочи будет какой-то шанс.
сколько времени ждал вывод одного предложения?

Аноним 27/03/24 Срд 14:44:34 № 683689 491

>>683671
Ну дак ты почитай их переписку умник
Один пишет - мне норм сетка хороша в русском достаточно что бы я мог сдать тесты, указывает на ее ошибки и минусы, и спрашивает почему подобных сеток нет в шапке.
Не как топовых сеток, а просто 7b которая может в русский как чат бот и даже полезна
Тут же вылезли или вылез дурачек что начал спорить что ниче она в русский не может, пишет не так красиво, сравнивает ее с рп и тд, и вобще ты бамжара раз не можешь крутить 70b как белые люди с 1 т/с лел
Ну и какой вывод из всего этого?
Чувак прав, в шапке не хватает одной-двух строчек с просто списком сеток на русском.
Что скажет оп? Не, не надо. Я ж заранее знаю лол

Аноним 27/03/24 Срд 14:46:06 № 683693 492

>>683680
Тут шизики сидят, после смерти CAI всё это говно сюда притекло. Ты посмотри хотя бы как тут оценивают адекватность моделей, какой-то "кум" и "рп", как будто с душевнобольными разговариваешь, неспособными объяснить свои мысли.

Аноним 27/03/24 Срд 14:46:13 № 683694 493

>>683624
>Как тренить предлагаешь?
Зеро-3 и понеслась. Без дипспида толком ничего не сделаешь на самом деле. Трансформерсы тупо дублируют все состояния оптимизатора на все гпу и нет разницы, один он у тебя или сотня. Если в одну карту модель вместе со всеми оптимизациями и градиентами не влезла - то соснёшь.
Новый оптимайзер смотрел, там неделя на 4090, а её у меня нет. Карты, в смысле. Неделя-то найдётся.
Дипспид да, выгрузка в рам это зеро-2 офлоад и через ллама фэктори можно это всё запускать. Плохо, что множество опций фабрики не вынесено в интерфейс и всё только консолькой с конфигами. Но куда деваться.

Аноним 27/03/24 Срд 14:48:55 № 683698 494

>>683672
Если четко делает то это довольно таки неплохо. С таким yi-образные хорошо справляются вообще, причем четко понимают обстракции и соображают, но вот мистраль вяло. Надо будет офк попробовать и новый опенчат, но судя по бредогенератору, больших надежд не стоит питать.
Про раскрытие потанцевала согласен, но пути не то чтобы те.
>>683675
>>683684
Не так быстро как хотелось бы, но достаточно для реалтайм чата.
>>683680
Ну тут справидливо наверно, но лучше оставить моделесрач а давать конкретные предложения.
> больше полезной и практичной инфа на хабре и любом другом источнике
Да ладно, и какой же? Как весной 2д24го года запускать 7б сайгу?

Аноним 27/03/24 Срд 14:49:24 № 683699 495

>>683680
Так у них первая мысль ролеплей или эротический ролеплей, кумеры
Поэтому и оценивают 7b с этой точки зрения, потому что 7b не хватает мозгов на нормальный отыгрыш, слишком мало у нее слоев для таких глубоких абстракций и кучи инструкций.

Но помимо рп ерп есть и просто использование сетки в предусмотренном разрабами режиме, и тут 7b внезапно нормальные такие чат боты, хоть и туповатые, да.
Или делать какой то код, или писать регексы, или обучать кодингу, или отвечать на тупые вопросы. Да хоть в раг сувать для извлечения инфы по работе.

Аноним 27/03/24 Срд 14:54:11 № 683710 496

>>683633
>Тут у нас анон с ЧСВ решил что 7б модели нинужны
? Я лишь утверждал, что они говно (по сравнению с более крупными моделями).
Просто нужно быть честным с собой и понимать, что 7B катают не от хорошей жизни, а от недостатка ресурсов.
>>683653
>потому что контекст говно
Эм, 8-16к хватит каждому.
>>683663
>Докумились в конец дрочеры, раз все по рп-ерп оцениваете
Так дроч это одно из самых разумных использований локалок. Если мне нужно будет покодать, я в GPT4 пойду, он всё таки умнее.
>>683680
>я вайню от устаревшей шапки.
Кидай конкретные предложения.
>>683689
>Я ж заранее знаю лол
Ну да. Смысл на русском? Я просто не понимаю, зачем катать локалки на русском. Лучше же на английском и перевести, качественнее будет, контекста больше доступно.

Аноним 27/03/24 Срд 14:58:55 № 683722 497

>>683699
да и в рп может(опять же в определенных задачах), я игру потихоньку делаю, если терпения хватит, по принципу CAULDRON WITCh, то есть ты даешь различные эликсиры различным персонажами с их проблемами, и сеточка вполне нормально описывает события.
Например приходит крестьянин, ему нужно вернуть жену, а ты даешь ему зелье силы, и сеточка неплохо расписывает результат с учетом зелья (в жанре черной комедии), дает оценку этой истории ( - или + и 0 до 10) что нужно для игровой составляющей.
Получается любой анон сможет поиграть в эту игру, так как ггуф версия опенчата 7гигов. Далее новый оптимайзер выкатили я смогу на своей 4090 подфайнтюнить ее под эту игру. Опять же это развитие именно 7б сеток, что ОП игнорит в своем утятстве.

Аноним 27/03/24 Срд 14:59:10 № 683723 498

>>683710
>Ну да. Смысл на русском? Я просто не понимаю, зачем катать локалки на русском. Лучше же на английском и перевести, качественнее будет, контекста больше доступно.
Хочу. И вот анон хочет. И еще кто то всегда приходит и спрашивает первым делом русский.
Ты не по своим только хотелкам смотри. Нравится может мне на русском их катать, даже если они тупее от этого и контекст жрет. Хотя с текущими размерами на него похрен, мы уже не год назад с 2к контекста все таки.

Аноним 27/03/24 Срд 14:59:58 № 683727 499

>>683699
Что несешь? Но (е)рп это действительно главная задача сетки для нормиса, и 7б страдают от нехватки вниманий для понимания абстракций и прочего, и проявляется это как раз далеко не только в рп, в том и вся проблема. Есть и задачи где их большее чем хватит, непонятно зачем их так превозносить.
>>683710
Да ладно, не смотря на техническую направленность доски, немалая доля здесь инглиш знает плохо и постоянно лезут вопросы о том "как на русском". Кому-то, опять же, просто может нравиться пользоваться на великом-могучем, так что вопрос актуален. Кмк, нужно прямо расписать текущее положение, что но большинстве сеток (в т.ч. гопоте) это приведет к деградации и затупам, есть несколько мультиязычных моделей, они не блещут умом, но могут подойти для чего-то. И по переводу таверны.

Аноним 27/03/24 Срд 15:01:59 № 683731 500

>>683710
>Кидай конкретные предложения.
1) каждый отписывается какой стек использует, какие техи, либы, запускалки, морды, модели и прочие костыли, считает нужным упомянуть
2) пилите опрос с мультиселектом в котором будут перечислены что назвали
3) что выйдет в топ - рапсиываем в шапку

Аноним 27/03/24 Срд 15:03:38 № 683734 501

>>683727
>Но (е)рп это действительно главная задача сетки для нормиса
Ну, ты по себе то всех не равняй окей? 7b были тупыми, год назад, и даже пол года. Сейчас они гораздо лучше, да они все еще тупее остальных, но дадут за щеку старым 30b которыми все так восхищялись в начале. И че теперь?
К тому же дело в однобокой оценке моделей.

Аноним 27/03/24 Срд 15:09:37 № 683745 502

>>683723
>И еще кто то всегда приходит и спрашивает первым делом русский.
Так то от незнания проблем и ограничений. Вкатуны не знают, как работает токенизация, какой процент материала на русском у нейросеточек в датасетах и прочее. Для них это магия, и нейросети по их мнению прекрасно отвечают на любом языке.
>>683727
>немалая доля здесь инглиш знает плохо
Ну так и я знаю плохо, лол. Пишу через переводчик всегда, на чтение иногда напрямую читаю.
>>683731
>пилите опрос с мультиселектом
У нас тут уже перекат на носу, некогда. А то будет ещё один тред без русека в шапке, человек ещё целый тред вонять будет.
>>683734
>Ну, ты по себе то всех не равняй окей?
Ну вот я тоже для урп гоняю.

Аноним 27/03/24 Срд 15:11:31 № 683750 503

>>683731
Опций в целом немного, но просто перечислить используемые модели можно с краткой характеристикой, будет полезно.
По опросу же - какой в нем смысл? Там должна быть универсальная, умная и легковесная модель, которая запустится у неофита, будет толерантна к формату промта. Плюс, которая сможет и ответить на что-то, и отыграть персонажа. Фроствинд все это умеет.
Возможность писать на русском - плюс, но не самый весомый критерий, если тот опенчат превзойдет полугодовалую модель - вперед, но это видится маловероятным. Упомянуть его в качестве мелкой модели что может в русский - почему бы и нет.
>>683734
> 7b были тупыми, год назад, и даже пол года
> Сейчас они гораздо лучше
Революцию принес мистраль, дальше только вялое копошение, объективно. Прувмивронг.
> дадут за щеку старым 30b
Ну не, они залупятся на месте или начнут спамить малосвязанную воду. Чудес не бывает, увы.

Не удивлюсь что обладатели отсутствия, неистово воюющие за превосходство 7б, испытывающие страх перед питоном, тащащие конспирологические теории и адепты agi - одни и те же люди. Треду нужен мем, который бы это обыгрывал.

Аноним 27/03/24 Срд 15:12:14 № 683752 504

>>683710
>>Кидай конкретные предложения.
я уже писал выше, добавить -
опенчат быстрая нетребовательную модель которая может в русский, может в кодинг, может в помощью в учебе (написание рефератов, решение тестов реалтайм и тд)
OpenChat - это инновационная библиотека языковых моделей с открытым исходным кодом, доработанная с помощью C-RLFT - стратегии, вдохновленной автономным обучением с подкреплением. Обучается на данных смешанного качества без меток предпочтений, обеспечивая исключительную производительность наравне с ChatGPT, даже с моделью 7B."

Аноним 27/03/24 Срд 15:13:30 № 683756 505

>>683734
> в однобокой оценке моделей
И ебать, о какой однобокой оценке вообще идет речь? Это буквально характеризует возможности модели, где она может себя проявить, и сочетает все-все. Ну, кроме надрочки на простенькие зирошоты ради бенчмарков, которая нахер не сдалась при использовании и будет дропнута после 5 минут игр.

Аноним 27/03/24 Срд 15:16:35 № 683760 506

>>683750
>Ну не, они залупятся на месте или начнут спамить малосвязанную воду. Чудес не бывает, увы.
Давно щупал 7b? Ни разу не видел лупа на месте, или спам воды. Сейчас их так выдрочили что они даже слишком упорядоченными и логичными стали. Все еще тупые да, но ровненько так

Аноним 27/03/24 Срд 15:19:33 № 683767 507

>>683756
Однобокость в плане рп ерп применения и оценке модели от этого
О чем весь срач и начался

Аноним 27/03/24 Срд 15:21:56 № 683770 508

>>683752
>обеспечивая исключительную производительность наравне с ChatGPT
Такому маркетинговому тексту места точно в шапке нет.

В общем я предлагаю снести из шапки абзац про форматы весов, а после блока со справкой "Базовой единицей обработки" добавить что-то типа

>Базовым языком для языковых моделей является английский. Он приоритетен для общения, на нём проводятся все тесты и оценки качества. Но при этом большинство моделей мультиязычны, и в их датасетах присутствуют разные языки, в том числе и русский. Все модели достаточно хорошо понимают русский на входе. Для качественного вывода на русском рекомендуется использовать модель openchat-3.5-0106. Файнтюны семейства "Сайга" не рекомендуются в виду их низкого качества в виду ошибок при обучении

Аноним 27/03/24 Срд 15:23:31 № 683775 509

>>683750
> Фроствинд все это умеет.
Тебе уже 2 или 3 треда говорят что фроствинд устарела. Сам же автор ее поставил на первое место другую свою модель, которая делалась на доработанном датасете фроствинд.

Аноним 27/03/24 Срд 15:25:53 № 683780 510

>>683775
https://huggingface.co/Sao10K/Fimbulvetr-10.7B-v1

Аноним 27/03/24 Срд 15:26:13 № 683781 511

>>683775
Кидай название, если она такого же размера, то можно просто заменить.

Аноним 27/03/24 Срд 15:26:38 № 683783 512

>>683750
> Фроствинд
Кал говна из жопы ануса

Аноним 27/03/24 Срд 15:26:43 № 683784 513

>>683760
Каждый раз когда идут заявления про такую революцию - скачиваю что-то "крутое" и получаю разочарование на фоне заявлений. Нет, для 7б они хороши и это приятно, но на крутую йоба модель что может все - не тянут.
Потом спрашиваю "ну покажите как она ебет" а в ответ как раз те самые лупы и вода, которые автор воспринимает за крутой текст, в лучшем случае.
Они действительно улучшились в простом, и это не может не радовать, но как только просишь что-то большее - сразу магия рассеивается и вываливаются все потроха. Кстати, первый мистраль в этом был неплох, модель будто осознавала свои ограничения и вовремя останавливалась, не стесняясь ответить только на часть а на остальное отказать, или даже задать наводящий вопрос что мог бы ей облегчить ответ. В новых файнтюнах эту "заглушку" убрали и результат на лицо.
>>683767
А что еще? Кодинг? Ну рили без кринжа туда не взглянешь, оно сразу сыпется на сколь более сложно задаче.
>>683775
> Тебе
Таблетки
> поставил на первое место другую свою модель, которая делалась на доработанном датасете фроствинд
Ее оценить и поставить тогда, но не просто по заявлениям а хотябы с беглой оценкой

Аноним 27/03/24 Срд 15:29:24 № 683787 514

>>683770
ну пусть хоть так, меньше вопросов будет про русский язык

Аноним 27/03/24 Срд 15:35:04 № 683793 515

>>683770
Двачую, разве что
> Но при этом большинство моделей мультиязычны
> Но при этом некоторые из моделей мультиязычны
Их действительно меньшенство.

Аноним 27/03/24 Срд 15:43:07 № 683799 516

>>683793
Почему это? Просто как минимум все лламы, мистрали и все их файнтюны мультиязычны. Даже китайские владеют как минимум китайским и английским.
Хотя тут вопрос в терминологии, что называть мультиязычной. Если модель, которая хоть как-то понимает другие языки, то там чуть ли не пигма могла выдавать бред на русском. Если считать по качеству, сравнимом с английским, то тут разве что корпоративные справятся.

Аноним 27/03/24 Срд 15:49:04 № 683805 517

>>683799
Да потому что по дефолту они слабы не на-английском, даже вон немцы бугуртят орубля
Можно перефразировать типа
> Базовым языком для языковых моделей является английский. Он приоритетен для общения, на нём проводятся все тесты и оценки качества. Большинство моделей хорошо понимают русский на входе т.к. в их датасетах присутствуют разные языки, в том числе и русский. Но их ответы на других языках будут низкого качества и могут содержать ошибки из-за несбалансированности датасета. Существуют мультиязычные модели частично или полностью лишенные этого недостатка, из легковесных примером может служить openchat-3.5-0106, который может давать качественные ответы на русском и рекомендуется для этого. Файнтюны семейства "Сайга" не рекомендуются в виду их низкого качества в виду ошибок при обучении.
Или более аккуратно написать
> то тут разве что корпоративные справятся
Ну клод неплох, а так даже гопота деградирует и может ошибаться.

Аноним 27/03/24 Срд 16:03:06 № 683816 518

ПЕРЕКАТ

>>683814 (OP)

>>683814 (OP)

ПЕРЕКАТ

Аноним 28/03/24 Чтв 00:48:07 № 684709 519

>>683475
>Увеличивается если крутануть сильно, х2 обычно не заметен вообще.
Понятно, спасибо.

Назад Вверх Каталог Обновить