/ai/ - Исследования ИИ тред #2

Исследования ИИ тред #2 /research/ Аноним 08/10/23 Вск 02:45:17 № 511426 1

Обсуждаем развитие искусственного интеллекта с более технической стороны, чем обычно.

Я ничего не понимаю, что делать?
Без петросянства: смотри программу стэнфорда CS229, CS231n https://see.stanford.edu/Course/CS229 (классика) и http://cs231n.stanford.edu (введение в нейроночки) и изучай, если не понятно - смотри курсы prerequisites и изучай их. Как именно ты изучишь конкретные пункты, типа линейной алгебры - дело твое, есть книги, курсы, видосики, ссылки смотри ниже.

Где узнать последние новости?
https://www.reddit.com/r/MachineLearning
https://datatau.net
https://twitter.com/ylecun

На реддите также есть хороший FAQ для вкатывающихся.

Какая математика используется?
В основном линейная алгебра, теорвер, матстат, базовый матан и matrix calculus.

Как работает градиентный спуск?
https://cs231n.github.io/optimization-2

Почему python?
Исторически сложилось. Поэтому давай, иди и перечитывай Dive into Python.

Можно не python?
Никого не волнует, где именно ты натренируешь свою гениальную модель. Но при серьезной работе придется изучать то, что выкладывают другие, а это будет, скорее всего, python, если работа последних лет.

Что почитать для вкатывания?
http://www.deeplearningbook.org
https://d2l.ai/index.html
Николенко "Глубокое обучение" — на русском, есть примеры, но меньше охват материала
Франсуа Шолле — Глубокое обучение на Python

Все книги и статьи фактически устаревают за год.

В чем практиковаться нубу?
http://deeplearning.stanford.edu/tutorial
https://www.hackerrank.com/domains/ai
https://github.com/pytorch/examples
https://github.com/ChristosChristofidis/awesome-deep-learning#tutorials

Где набрать первый самостоятельный опыт?
https://www.kaggle.com

Стоит отметить, что спортивный deep learning отличается от работы примерно так же, как олимпиадное программирование от настоящего. За полпроцента точности в бизнесе борятся редко, а в случае проблем нанимают больше макак для разметки датасетов. На кагле ты будешь вилкой чистить свой датасет, чтобы на 0,1% обогнать конкурента.

Где работать?
https://www.indeed.com/q-deep-learning-jobs.html
Вкатывальщики могут устроиться программистами и дальше попроситься в ML-отдел

Есть ли фриланс в машобе?
Есть, https://www.upwork.com/search/jobs/?q=machine+learning
Но прожить только фриланся сложно, разве что постоянного клиента найти, а для этого нужно не быть тобой

Где посмотреть последние статьи?
http://www.arxiv-sanity.com
https://paperswithcode.com
https://openreview.net
Версии для зумеров (Килхер): https://www.youtube.com/channel/UCZHmQk67mSJgfCCTn7xBfew

Количество статей зашкваливающее, поэтому все читают только свою узкую тему и хайповые статьи, упоминаемые в блогах, твиттере, ютубе и телеграме, топы NIPS и прочий хайп. Есть блоги, где кратко пересказывают статьи, даже на русском

Где посмотреть must read статьи?
https://github.com/ChristosChristofidis/awesome-deep-learning#papers
https://huggingface.co/transformers/index.html
То, что обозревает Килхер тоже зачастую must read

Где ещё можно поговорить про анализ данных?
http://ods.ai

Нужно ли покупать видеокарту/дорогой пека?
Если хочешь просто пощупать нейроночки или сделать курсовую, то можно обойтись облаком. Google Colab дает бесплатно аналог GPU среднего ценового уровня на несколько часов с возможностью продления, при чем этот "средний уровень" постоянно растет. Некоторым достается даже V100.
Иначе выгоднее вложиться в GPU https://timdettmers.com/2019/04/03/which-gpu-for-deep-learning заодно в майнкрафт на топовых настройках погоняешь.

Когда уже изобретут AI и он нас всех поработит?
На текущем железе — никогда, тред не об этом

Кто-нибудь использовал машоб для трейдинга?
Огромное количество ордеров как в крипте так и на фонде выставляются ботами: оценщиками-игральщиками, перекупщиками, срезальщиками, арбитражниками. Часть из них оснащена тем или иным ML. Даже на швабре есть пара статей об угадывании цены. Тащем-то пруф оф ворк для фонды показывали ещё 15 лет назад.
Так-что бери Tensorflow + Reinforcement Learning и иди делать очередного бота: не забудь про стоп-лоссы и прочий риск-менеджмент, братишка

Список дедовских книг для серьёзных людей
Trevor Hastie et al. "The Elements of Statistical Learning"
Vladimir N. Vapnik "The Nature of Statistical Learning Theory"
Christopher M. Bishop "Pattern Recognition and Machine Learning"
Взять можно тут: https://www.libgen.is

Напоминание ньюфагам: немодифицированные персептроны и прочий мусор середины прошлого века действительно не работают на серьёзных задачах.

Disclaimer: Шапка сгенерирована нейросетью и нуждается в чистке.

Аноним # OP 08/10/23 Вск 02:59:25 № 511433 2

Прошлый тред: >>2320 (OP)

Аноним 11/10/23 Срд 09:12:13 № 514981 3

>>511426 (OP)
У меня есть вопрос про object detection, мб кто шарит.
Сейчас sota это «one-stage» детекторы типа yolo, center net-а. Но также есть так называемые two-stage детекторы типа rcnn, fast-rcnn. Собственно вопрос: в чем смысл 2 стэйдж детекторов? Типа там сначала ищутся области интереса, это типа делает отдельная сетка с отдельным лоссом?

Аноним 11/10/23 Срд 23:24:22 № 515826 4

robotics-futuri[...].jpg 206Кб, 2140x940

Я тут пролистал быстро прошлый тред и сюдя по всему там разговоры шли про текстовые нейросети, но я бы хотел поинтересоваться на счёт двух других типов, как почти полный нуб.

Я достаточно давно тематикой роботов интересуюсь, пускай и знания у меня до сих пор поверхностные и лет пять назад я натыкался на древние видосы с ютаба, где "организмы" учили ходить в симяляционном 3д пространстве с помощью нейросетей и что интересно, аналогичные эксперименты до сих пор проводят. И вот я заинтересовался: а насколько это в принципе сложно обучить робота ходить в компе и после перенести нейросетку в металлическую оболочку ирл.
По идее нам потребуется обучить два вида нейросетей и объединить их в одной машине: двигательную нейросеть и зрительную. Допустим что робот создаётся с целью имитировать фауну, курицу какую-нибудь, соответственно из цель у него будет только свободно бродить, ну и избегать поломок. Да, предназначение дебильное, но это лучше чем начинать с робота универсального заводчанина.
В то время, как с двигательной нейросетью всё ещё более менее понятно, то в тех симуляциях, что я наблюдал, зрительная часть либо вообще отсутствует, либо представлена простым скриптом, потому что сами симуляции достаточно примитивны. Когда речь же идёт о ирл, то нужен мощный инструмент, который отличит статичные объекты от движущихся, будет предсказывать их направление движения и скорость, а так же отличать различные типы поверхности для ходьбы и всё это в различных погодных условиях от ясного солнца до дождя с туманом. Кроме этого нужно ещё определять куда идти, эта курица бродить же должна всё-таки, поэтому нужен то ли скрипт для этого, то ли определялка интересных мест.
Двигательную же нейросеть предстоит обучать ходить и прыгать не только по твёрдому асфальту, но и по грязи, песку, нестабильных камушках и льду. Мне кажется, что из-за этого придётся сетку как-то подразделять, чтобы разные паттерны ходьбы использовались. Слава богу, что сейчас есть игровые движки, в которых можно будет воссоздать робота один в один зная детали и их характеристики заранее и получив репрезентацию с таким же весом и балансом, а потом симулировать реалистичную грязь, песок и т.д. вместе с реалистичным окружением, а не коробками, двигающимися объектами, препятствиями, ветром, шаткие поверхности и т.п.

Как бы это всё самоуверенно не звучало, я ни черта в этом всём не понимаю и в сущности то что сверхну написано нужно для контекста. Я лишь спрашиваю о том, насколько хороши нейросетки в разновании видеосигналов в реальном времени на данный момент и что вы думаете на счёт того как двигательная нейросеть должна справляться с различными типами земли под ногами?
А и да, все нейросетки, что учились ходить движутся как дёрганные паралитики какие-то. Полюбому же есть вариант запилить изначальную анимацию вручную или процедурно и научить сначала нейросеть на этой базовой анимации, а потом уже чтобы сама доучивалась в усложнённых условиях?

Аноним 11/10/23 Срд 23:25:05 № 515828 5

Блять опечатался.

Аноним 13/10/23 Птн 00:03:25 № 517175 6

>>514981
Да типа того. Точно на вопрос не отвечу но в 2 stage сверточная сетка сначала ищет области интереса, конечно если мы хотим наиболее подходящие области она должна это научиться поэтому и лосс у неё будет (надо повышать вероятность того, что она содержит объект) иначе как её учить? То-есть одну часть можно научиться хорошо находить области интереса а вторую правильно классифицировать объекты в этих областях. Работает не так быстро но окупается точностью по сравнению с YOLO.

п.с. обучал и то и то

Аноним 13/10/23 Птн 09:45:36 № 517495 7

>>517175
Понял. По идее у какого нибудь faster-rcnn должна быть выше точность на датасете с мелкими объектами, чем у той же yolo?

Аноним 13/10/23 Птн 14:55:35 № 517745 8

>>517495
Да, yolo плохо находит маленькие объекты но у него есть разные модели, pose detection, object detection... Pose detection например для нахождения положения тела человека (не только), сначала находит большой объект (человека) (region of interest) и внутри RoI оценивает где могут находиться маленькие объекты типа суставы рук и ног, голову.

Аноним 14/10/23 Суб 22:38:34 № 519463 9

Пересылаю пост сюда.
Вопрос - как тренировщики всяких лам-2 делают reward модель для тренировки основной языковой модели? И шире - те же ПопенАИ что, тренировали GPT-4 на 1.3 триллиона параметров, а рядом на соседнем сервере тренировалась такая же по размеру модель чисто под оценку reward-а? Не жирно ли? Можно ли тренируя ламу в домашних условиях сократить потребление памяти, вызваное необходимостью держать еще один инстанс этой ламы в памяти? Может можно как-то переиспользовать слои тренируемой модели, добавляя в качестве выхода не LM Head а персептрон с оценкой реварда?

Аноним 15/10/23 Вск 19:09:09 № 520136 10

Вот скажите мучает вопрос, если 80% связей в языковых моделях не особо нужны, не особо активны.То почему при обучении или тонкой настройке не блокировать для обучения активные нейроны, а обучать только пассивные. Чтоб впихнуть в модель гораздо больше.
Или почему не используют дистилляцию на тех же ламах 70, чтоб сделать мелкие модели, вместо этого их обучают отдельно?

Аноним 15/10/23 Вск 19:56:27 № 520185 11

>>520136
Как я уже отписывался, скорее всего первое просто вычислительно сложно.
Про второе- отдельное обучение всё же качественнее. Впрочем, никто тебя не сможет остановить от того, чтобы дистилировать самому хоть 70B -> 7B и выебать своей моделькой на скорах все новомодные мистрали и лламы 2.

Аноним 15/10/23 Вск 21:19:49 № 520266 12

>>520185
Ну что ж понятно, но странно почему дистилляция не дает лучшего эффекта. Может и попробую по описаной методе что я скидывал в локальных ЛЛМ.

Аноним 15/10/23 Вск 21:43:15 № 520293 13

>>520136
Потому что у селф-аттеншенов принцип работы не как у секвентальных слоёв. Ты не можешь так просто понять какие веса нужны, а какие нет. У одного селф-аттеншена на разные q и k выдаются разные v, а порядок токенов в тексте для нейросети допизды, в итоге там слишком хаотично активации идут чтоб можно было точно определить что вот этот аттеншен не нужен потому что не используется - они все используются. Такое ты ещё можешь провернуть со старыми encoder-decoder текстовыми моделями, Т5 например, вот там можно таким побаловаться, но они говно и не могут в контекст.

Аноним 16/10/23 Пнд 02:24:45 № 520560 14

Тред не читал, поясните: почему машоб развивают экстенсивно (все более жирные модели) а не интенсивно (такие же модели но для трейнинга + исполнения на кофеварке)

Аноним 16/10/23 Пнд 03:14:42 № 520586 15

>>520560
Это классика, это знать надо.
http://www.incompleteideas.net/IncIdeas/BitterLesson.html

Аноним 16/10/23 Пнд 09:10:49 № 520671 16

>>520560
> почему
Потому что это ты придумал, на деле ничего подобного нет.

Аноним 16/10/23 Пнд 13:44:47 № 520838 17

>>520293
Спасибо за ответ. А тогда такой вопрос, а почему rope или alibi не используют для t5 и подобных. Ведь в теории можно нарастить контекст довольно сильно.

Аноним 16/10/23 Пнд 14:03:51 № 520852 18

>>520838
>а почему rope или alibi не используют для t5 и подобных
Всем похуй ©
Просто не те модели, что стоят на переднем крае науки. Судя по числу всякого говна на хайгинфейсе на этих сетках раньше всякая студентота пилила свои дипломные проекты, да бизнес классификаторы. А там похуй на контекст, лишь бы твит очередной влез, им проще ограничить длину текста, нежели чем считать очередной 128к контекст спама.

Аноним 16/10/23 Пнд 14:10:58 № 520859 19

>>520838
База - это decoder-only сетки. Остальное не нужно. Т5 обычно, так же как и BERT, к мелким мультимодалкам пришивают, там не нужен контекст.

Аноним 16/10/23 Пнд 17:15:09 № 521151 20

>>520671
>пук
Сравни DALL-e 3 со вторым, SD XL с 1.5, GPT4 с ранними вариантами. Есть конечно и аналоги с дистилляцией и сжатием латента, но они сделаны на коленке, чтобы доказать что это возможно.

Аноним 16/10/23 Пнд 17:24:45 № 521166 21

>>521151
Зачем ты пукаешь? У текстовых моделей тенденция к уменьшению, уже никто не делает 540В-высеры, как пару лет назад. При этом 7В уже ебёт это 540В-говно. GPT4 состоит из нескольких мелких моделей, говорят их там 6 штук последовательно держат. Огромную модель GPT3.5 уже выебали опенсорс-модели меньших размеров.
> SD XL с 1.5
То что SDXL сделали жирнее - это вопросы к говноделам из Стабилити. Достаточно было текстовый энкодер нормальный поставить вместо убожества как на полторашке, чтобы следование промпту улучшилось. Он жирного UNET профитов как-то не видно, хорошие полторашки всё ещё ебут по качеству картинки.

Аноним 16/10/23 Пнд 18:33:32 № 521319 22

>>521166
>Огромную модель GPT3.5 уже выебали опенсорс-модели меньших размеров.
По скорам в манятестах? По факту как сосали у давинчи, так и сосут, притом меньшие это 70B, что меньше лишь в 3 раза.

Аноним 16/10/23 Пнд 18:40:26 № 521337 23

>>521319
> По скорам в манятестах?
Даже по РП-тестам, где чекают насколько сетка проёбывает ролеплей и не забывает ли контекст. Недавний Мистраль даже в 7В умудряется разъёбывать Турбу по адекватности. Как бы турбо-боты не дефали свой кал, но уже невозможно отрицать факты что 70В ебёт во все щели её, Клауда следующая на очереди.

Аноним 16/10/23 Пнд 18:55:21 № 521367 24

>>521337
Кал это мистраль конечно же. Ты так надраиваешь на какой то нонейм тест, с непонятным контекстом и форматом промпта. При том что уже куча анонов отписалась что мистраль лютое говно и проебывает контекст через 5 сообщений.

Аноним 18/10/23 Срд 11:06:26 № 522955 25

Какие сейчас датасеты для NSFW ролиплея самые лучшие? Либо датасеты откуда ролиплея можно много отфильтровать.

Аноним 18/10/23 Срд 11:47:58 № 522980 26

>>522955
А еще вопрос на кагле за такие датасеты не банят? :)

Аноним 19/10/23 Чтв 23:01:15 № 524476 27

>>521367
>При том что уже куча анонов отписалась что мистраль лютое говно и проебывает контекст через 5 сообщений.

квантованный, так как он ломается при сжатии с потерями

Аноним 22/10/23 Вск 17:15:51 № 526694 28

>>524476
> ломается
Уже и сюда шизы пробрались...

Аноним 22/10/23 Вск 23:40:20 № 527055 29

>>526694
ты как из палаты сбежал

Аноним 23/10/23 Пнд 01:24:52 № 527154 30

Аноны я конечно не нашел подходящего треда.

Обман нейросети по обнаружению обьектов в изображении.

Когда еще в 2016 начали стрелять первые сверточные нейросети в распознавании, я слышал что они терялись стоило только добавить в фото легкие незаметные для глаза артефакты. Как дела обстоят сейчас?

Можно ли наложить незаметные артефакты на изображение чтобы алгоритмы площадок просто видели белый шум вместо моих изображений а нормальный человек видел их нормально?.

Аноним 23/10/23 Пнд 18:12:07 № 527583 31

>>515826
Тоже интересуюсь подобной темой, тебе нужно копать в сторону обучения с подкреплением, где за определенные правильные действия агент будет награждаться, так же тебе нужно будет найти правильную стратегию награждения награждать сейчас или награждать в долгосрочной перспективе, это все достигается путем проб и ошибок.

>Двигательную же нейросеть предстоит обучать ходить и прыгать не только по твёрдому асфальту, но и по грязи, песку, нестабильных камушках и льду.
Это тоже можно сделать, только тебе в перспективе понадобится много видях которые смогут обработать огромные массивы данных, ведь чем больше степеней свободы тем больше данных нужно обработать что бы агент мог реагировать на любые сложности этого мира.

>Слава богу, что сейчас есть игровые движки, в которых можно будет воссоздать робота один в один зная детали и их характеристики заранее и получив репрезентацию с таким же весом и балансом, а потом симулировать реалистичную грязь, песок и т.д. вместе с реалистичным окружением, а не коробками, двигающимися объектами, препятствиями, ветром, шаткие поверхности и т.п.
Обучив агента в игровых движках ты не сможешь его перенести что бы он так же двигался в реальности, игровые движки лишь упрощено моделируют реальность, наша реальность работает по иным законам и тебе нужно приучать агента к этим законам мироздания, тогда он сможет корректно и правильно работать. Ты можешь лишь потренироваться в игровых движках создавая простые ограниченные пространства и там обучать своего агента.

Начинай с вот этого, это самый просто материал который я смог для себя найти на эту тему.
https://www.youtube.com/watch?v=XX-syZhN4WU
Моралес М. - Грокаем глубокое обучение с подкреплением (Библиотека программиста) - 2023
https://github.com/mimoralea/gdrl/tree/master

Аноним 23/10/23 Пнд 22:14:36 № 527744 32

А как вкатиться в ваше это ИИ?
Мимо вкатун

Аноним 23/10/23 Пнд 22:36:19 № 527762 33

00145.png 0Кб, 28x28

00208.png 0Кб, 28x28

00278.png 0Кб, 28x28

00340.png 0Кб, 28x28

Анончики решил приобщиться к нейросетям и начал, казалось бы, с простейшей задачи.
На входе нейросеть получает картинку 28 на 28 пикселей, где на черном фоне нарисован белый круг, полностью влезающий в это изображение (пикрелейтед).
На выходе я хочу получить 3 параметра - координаты и радиус этой окружности.

Ниже пример нейросети которую я пробовал обучать. Я менял и количество слоев и функции, она конечно обучается если дать 20-50к примеров, но даже в этом случае точность определения довольно хуевая +- пиксель.
Что я делаю не так, как изменить архитектуру сети? Я понимаю, что задача решается и без нейросетей, но мне хочется использовать именно нейросеть для ее решения.

[code]
model = tf.keras.Sequential([
# Слой для обработки изображения
tf.keras.layers.Conv2D((28-3)*(28-3), (3, 3), activation='relu', input_shape=(IMAGE_HEIGHT, IMAGE_WIDTH, 3)),
tf.keras.layers.MaxPooling2D((2, 2)),
tf.keras.layers.Conv2D(81, (3, 3), activation='relu'),
tf.keras.layers.MaxPooling2D((2, 2)),
tf.keras.layers.Flatten(),

# Слой для обработки числовых данных
tf.keras.layers.Dense(128, activation='relu'),
tf.keras.layers.Dense(64, activation="relu"),
# Выходной слой с тремя нейронами
tf.keras.layers.Dense(3)
])
[/code]

Аноним 24/10/23 Втр 03:40:30 № 527943 34

>>527744
Тоже хочу, пока только с yolov8 разобрался, дальше хз куда

Аноним 24/10/23 Втр 13:48:19 № 528184 35

>>527762
>но даже в этом случае точность определения довольно хуевая +- пиксель
Ты же понимаешь нейросеть дает лишь вероятностный ответ а не точный?

Аноним 24/10/23 Втр 17:55:53 № 528391 36

>>528184
Пусть вероятностный, но точность то совсем плохая получается. Да и для простых случаев вполне может и точный выдавать.

Аноним 24/10/23 Втр 20:37:23 № 528561 37

>>527762
> tf
Ты из 2015 капчуешь? Только торч, других вариантов нет и не может быть.
> activation='relu'
И вот сразу же говняк какой-то. Не должно быть активаций на конволюшене. В 2023 году активации должны быть только после селф-аттеншена или кросс, соответственно в фид-ворварде. Есть ещё особо извращённые варианты с GeLU на линейных слоях, но тебе точно их не стоит трогать не понимая зачем. А ещё relu говно мамонта.
Всё остальное из-за активаций нахуй идёт. Вместо MaxPooling лучше AvgPooling, сам загуглишь от макса какие проблемы могут быть.
> 20-50к примеров
Такие простейшие задачи максимум за 1000 итераций тренятся на lr около 1е-3.

Аноним 24/10/23 Втр 21:52:25 № 528636 38

>>528561
>Только торч, других вариантов нет и не может быть.
Можешь обосновать почему?

Аноним 24/10/23 Втр 22:27:29 № 528670 39

>>528636
Какой-то кринжовый вопрос. TF не развивается за пределами мобилок уже давно. Никакие современные либы его не поддерживают, никакой код на нём не пишется, производительность говно. Торч - это стандарт индустрии, со всем остальным даже не приходи, это просто база.

Аноним 24/10/23 Втр 22:52:47 № 528697 40

>>528561
>Не должно быть активаций на конволюшене. В 2023 году активации должны быть только после селф-аттеншена
Специалист в треде, уважаемо. Где знаний набирался?

Аноним 24/10/23 Втр 22:56:56 № 528704 41

>>528697
Любой код посмотри, даже веб-макака должна справиться с этим.

Аноним 24/10/23 Втр 23:22:55 № 528728 42

>>528391
>то совсем плохая получается
Насколько плохая, насколько сильно результаты различаются?

Аноним 24/10/23 Втр 23:25:47 № 528730 43

>>528670
Мне казалось что гугл его активно поддерживает и развивает.

Аноним 24/10/23 Втр 23:46:17 № 528743 44

>>528704
>Любой код посмотри
Даже писал, но у меня почему-то рандом тоже на tf остановился. Не специально. Но до ковыряния отдельных слоёв я пока не дошёл. Этот код вообще у гопоты выпытал.
>даже веб-макака
Да ёб, это так заметно?

Аноним 24/10/23 Втр 23:47:43 № 528745 45

>>528730
Лол, сам Гугл все модели уже на Торче тренирует, слишком большой отрыв по функционалу и скорости. Он только активно поддерживает рантаймы типа TF Lite и прочие ответвления для запуска моделей на всяких мобильных устройствах на Арме, причём там код даже не пишется, оно в большинстве случаев конвертируется из Торча. Ты можешь открыть Hugging Face и попробовать поискать модели под TF, но даже Гугл часто свои только под Торч выкладывает.

Аноним 25/10/23 Срд 11:54:12 № 528955 46

Бля, тут кто-нибудь видел что происходит в r/singularity ? Концентрация копиумных долбоебов в сабреддите просто зашкаливает, они реально думают что какой-нибудь условный мультимодальный llm нового поколения будет AGI/ASI. А некоторые уже верят что в принципе gpt4 можно назвать AGI. Термин AGI умер нахуй

Аноним 25/10/23 Срд 12:03:36 № 528964 47

>>528955
>r/singularity
Что за шлак? Не знаю такой доски. И вообще, доски пишут через /доска/.
>Термин AGI умер нахуй
Ожидаемо, хули. С другой стороны, текущие даже текстовые действительно дженерал по сравнению со старыми сетками, которые нужно трейнить под каждую задачу. Тут можно взять сраную лламу, написать сраный промт и она может выполнять целую кучу задач.

Аноним 25/10/23 Срд 18:12:09 № 529249 48

>>528964
>И вообще, доски пишут через /доска/.
Так это и написано так
https://www.reddit.com/r/singularity/

Аноним 25/10/23 Срд 21:44:24 № 529436 49

>>520293
Обычно же вроде под "прунингом атеншена" имеется ввиду не заморозка или обнуление весов внутри матриц какого-то одного атеншена а выкидывание целиком лишних голов, от которых качество не страдает как заявляется

Аноним 26/10/23 Чтв 17:05:41 № 529867 50

>>528955
Зато они генерируют забавные идеи, че тебе еще нужно собака

Аноним 26/10/23 Чтв 18:27:31 № 529939 51

>>529249
На имиджбордах поддосок нет. А на средите сидят соевые западные дурачки.

Аноним 26/10/23 Чтв 19:27:56 № 529983 52

>>529939
Бля иди нахуй

Аноним 28/10/23 Суб 15:14:00 № 531118 53

Как кстати gpt могут так быстро контекст отрабатывать? Если ответ они пишут сразу же, тогда почему они ответ посылают по кускам, если они так быстро высчитывают контекст то и ответ должны давать моментально. Особенно интересно как дела с этим у гпт4 ведь там оркестр с множеством запросов. Либо они сначала отправляют первое предложение без оркестра, за это время все там просчитывают и посылают остальное.

Аноним 28/10/23 Суб 23:11:12 № 531374 54

>>531118
>если они так быстро высчитывают контекст то и ответ должны давать моментально
В смысле? У тебя один прогон сетки с "вычислением контекста" даёт один токен ну или топ-сколько-то, как настроишь Чтобы сформировать текст надо постоянно перепрогонять для получения каждого следующего токена

Аноним 29/10/23 Вск 02:40:15 № 531471 55

>>531374
Тогда я не совсем понимаю почему в llamacpp и
text-generation-webui требуется так много времени на вычисления контекста или что он там делает, после чего вывод идет уже быстро.

Аноним 29/10/23 Вск 03:22:26 № 531486 56

https://www.reddit.com/r/LocalLLaMA/comments/17if9lq/mistral_7b_might_be_pretrained_to_ace_evals_and/

Че та сложна, не пойму что там в документе с оценками, но кажется считают мистраль загрязненным данными тестов, что вобщем то не новость. Лишь бы работал

Аноним 30/10/23 Пнд 13:12:46 № 532335 57

Аноны, а сколько времени вкат занимает? Конкретно мои вводные - есть вышка с красным дипломом (хотя всякие матаны я уже позабыл, но когда-то шарил) и 10+ лет опыта в опостылевшем интерпрайзе фуллстаком (все, от БД до юая, от архитектуры до юнит-тестов). Флуент инглишь, если важно, в наличии.
Насколько вообще сейчас реально перекатиться или вкатится? Какой рейт у новичков области? Стоит ли оно вообще того, в моей ситуации?

Аноним 30/10/23 Пнд 13:17:29 № 532341 58

>>532335
Вопрос вдогонку - что сейчас с рыночком этого самого машоба? Область не вчера появилась, на какой он стадии? Я так вижу, сейчас вроде как идеальное время для вката, состояние не зачаточное, и не середина, а как раз бурный рост, который продолжится близжайшие лет 5-10.

Аноним 30/10/23 Пнд 15:27:10 № 532379 59

>>532335
> всякие матаны я уже позабыл
> фуллстаком
Очевидно что ты никому нахуй не нужен будешь с такими вводными, нейросети не про кодинг и уж тем более никак не пересекаются с веб-макакингом. Писать код ты можешь за месяц научиться, китайцы с топовыми разработками по нейросетями вообще пишут код так как-будто даже самоучитель по питону не открывали. И вообще пиздуй в /pr/, тут РАБотобляди не сидят.
> вышка с красным дипломом
Такое только при устройстве на завод или лоу-скилл галеру может потребоваться. На реальной работке в рашке всем похуй на бумажки, бумажки за тебя работу не будут делать. А за пределами рашки ну ок, СНГ твои бумажки невалидны.

Аноним 30/10/23 Пнд 15:49:27 № 532385 60

>>532379
>нахуй не нужен будешь с такими вводными
А что, всякие скрамы, пайплайны, релиз-процессы и софтскилз в коммерческом машобе отменили, нинужно?
Да и я во время вката, очевидно, подтяну то что по-настоящему актуально, как-то матчасть и прочее.
>И вообще пиздуй в /pr/, тут РАБотобляди не сидят.
Там я тоже сижу. Кстати кто же тогда тут сидит?
>Такое только при устройстве на завод или лоу-скилл галеру может потребоваться
Забугорные конторы нередко требуют нотариально переведенный дипломчик же, особенно где есть требования к бакалавриату+ (а таких много для тырпрайза и по-моему поголовно все в машобе).
>А за пределами рашки ну ок, СНГ твои бумажки невалидны.
Лолшто? Это диплом международного образца, он, может не столь престижен, но уж точно валиден.

В любом случае, спасибо за ответы, но мне бы хотелось получить ответ еще и по части актуальности вката и правильно ли я понимаю состояние рыночка.

Аноним 30/10/23 Пнд 16:14:44 № 532391 61

>>532385
> нинужно?
Машобщику ненужно, да. Всем что ты перечислил будут макаки заниматься. Если же ты думаешь об этом в контексте фулстака, когда тебе скажут написать весь бэк/фронт и ещё унитаз помыть, то это будет слабо отличаться от веб-макакига, машобщик не нужен чтоб прилепить чат-бот куда-то. Т.е. ты говоришь "хочу в машоб", но при этом хочешь заниматься вместо него тем же что и сейчас делаешь.
Тебе надо будет модифицировать архитектуры под конкретные задачи, подготавливать датасеты и обучать сетки. И с большой вероятностью готового решения не будет, если это задачи бизнеса. Кодинг там на уровне написания скриптов с выкидыванием API для остальных. Т.е. забудь про кодинг вообще и открывай книжку по матану и машобу, почитай публикации и алгоритмы в них.
У тебя вообще может не быть в названии должности ничего про разработку, а будешь каким-нибудь "аналитиком".

Аноним 30/10/23 Пнд 16:33:39 № 532394 62

>>532391
О, ну так даже лучше, на самом деле, потому что центральная причина хотения переката - как раз тотальное опостыление интерпрайз-макакинга со всем этим менеджментом, пиздежом и прочими дедлайнами, от чего я даже перегореть успел.

Аноним 30/10/23 Пнд 20:01:19 № 532526 63

>>532385
>в коммерческом машобе отменили, нинужно?
Конечно нужно, это какой-то LLM-энтузиаст студентик на стажировке , которому дали поиграть с РИСЁРЧЕРСКОЙ задачей тебе хуйни нагнал. Если мы про работу говорим конечно: ситуация на рынке идёт к тому что чистые рисерчиры, за исключением парочки всем известных попильных контор, никому не нужны. Большая часть работы большинства MLE это работа с пайплайнами сбора данных, обучения, выкатки в прод итп. Даже бекенд пописать заставят. Так что тяп-ляп в ноутбучках давно уже не достаточно, никто не вернётся в 2018 год

Аноним 30/10/23 Пнд 20:34:27 № 532559 64

>>532526
> работа с пайплайнами сбора данных, обучения, выкатки в прод итп
Для этого опыт кодинга - самое последнее что потребуется.
> Даже бекенд пописать заставят.
Только если в парашный стартап попадёшь, где на весь проект полтора питониста - ты.

Аноним 30/10/23 Пнд 22:18:41 № 532666 65

>>532385
>Кстати кто же тогда тут сидит?
85% дрочеры на тексты в кончай треде и 15% дрочеры на пикчи в пикчетредах. Ресёрчеров ртом пару человек, ресёрчеры делом пробегают и сбегают в ужасе через 3нс.
>>532394
>и прочими дедлайнами
Вот как раз в сфере ИИ и его внедрения сейчас жопы на дедлайны горят у всех, выкатывают даже сервисы без реализации системы тарификации, лол.

Аноним 05/11/23 Вск 11:31:41 № 536211 66

Какие мысли по ШАД? Есть ли смысл вкатуну туда поступать?

Аноним 05/11/23 Вск 13:53:59 № 536285 67

>>536211
ШАД это что это?

Аноним 05/11/23 Вск 14:25:27 № 536296 68

>>536285
https://shad.yandex.ru/

Аноним 05/11/23 Вск 19:46:09 № 536430 69

>>536296
Выглядит как хуита
другой вкатун

Аноним 07/11/23 Втр 14:32:14 № 538035 70

>>536211
>Какие мысли по ШАД?
Самые наилучшие.

>Есть ли смысл вкатуну туда поступать?
У вкатуна мозгов не хватит, чтоб туда поступить.

Аноним 07/11/23 Втр 14:36:39 № 538043 71

>>511426 (OP)
Это бывший нейроночек и машоба тред, да? Наконец-то я вас, нейродебилов, нашёл.

Аноним 07/11/23 Втр 14:48:33 № 538054 72

>>528955
>Бля, тут кто-нибудь видел что происходит в r/singularity ?
От Свидетелей Церкви Рэя Курцвейла нельзя ожидать адекватности.

>А некоторые уже верят что в принципе gpt4 можно назвать AGI.
Они всё ещё верят, что AGI достижим.

>Термин AGI умер нахуй
Это база.

Аноним 07/11/23 Втр 15:27:37 № 538092 73

>>538043
Да, перенесли сюда.

Аноним 07/11/23 Втр 20:01:25 № 538344 74

Что мешает корпорациям предлагать такой ИИ который индивидуально подстраивается под каждого пользователя, дообучаясь на взаимодействии с ним?

Аноним 08/11/23 Срд 10:15:05 № 538713 75

>>538344
Наличие здравого смысла. Это не окупится.

Аноним 08/11/23 Срд 12:36:24 № 538794 76

Врываюсь к спецам с нубскими вопросами.
почему не делают языковые модели на CNN какие минусы? Ведь CNN больше похоже на то как работает мозг.

И еще если не трудно подскажите, никак не вдуплю чем encoder-decoder отличается от decoder-only. Ведь encoder и decoder это тот же трансформер. Можно так же от балды ткунуть посередине слоев decoder-only и сказать вот ниже encoder а выше decoder.

Аноним 08/11/23 Срд 14:16:19 № 538874 77

>>538794
>Ведь CNN больше похоже на то как работает мозг.
Только одна небольшая специализированная часть.
Ну и трансформеры тупо проще и легче масштабируются.

Аноним 08/11/23 Срд 14:39:05 № 538899 78

>>538794
> CNN больше похоже на то как работает мозг
В каком месте? CNN даже отдалённо не похож на работу мозга, это фактически фильтрация данных, связи там реализуются через костыли. А аттеншен - это и есть алгоритм определения связей в данных, в самом алгоритме аттеншена так-то даже параметров нет.
> Можно так же от балды ткунуть посередине слоев decoder-only и сказать вот ниже encoder а выше decoder.
В encoder-decoder есть некое сжатое промежуточное состояние. А в decoder-only каждый слой - это просто отдельный декодер.

Аноним 09/11/23 Чтв 14:39:12 № 539863 79

>>538713
С хуя если другие ИИ окупаются?

Аноним 09/11/23 Чтв 16:14:17 № 539963 80

>>538344
Такое уже немного есть или скоро будет. Корпорациям надо нащупать границу окупаемости и сложности. Еще немного производительности в ципах добавится - и такая хуйня будет в каждом утюге.

Аноним 09/11/23 Чтв 16:51:12 № 539988 81

>>538344
Был такой уже, много лет назад. Кончилось забавно.

Аноним 09/11/23 Чтв 23:25:44 № 540363 82

>>539863
Схуяли ты решил, что они окупаются? Пока они все работают на пердячем пару от инвесторов. По факту урезанные нейронки ещё могут как-то работать в системах типа рекомендательных, а вот (де)генеративные нейросети вряд ли лет через 5 будут кому нужны, особенно текстовые. Больше жрут электричества чем пользы приносят.

Аноним 11/11/23 Суб 09:05:19 № 541230 83

>>538794
>почему не делают языковые модели на CNN
На сколько помню, на нем сделан модуль кодера добавляющий сетке мультимодальность, возможность "читать" изображения.

Аноним 19/11/23 Вск 14:51:57 № 548051 84

Сколько нужно средств чтобы самостоятельно обучить минимальную ЛЛМку с нуля? Хочу поэксперементировать над архитектурой, но затраты на это просто пиздец. Чтобы она хоть как-то была пригодна для сравнения нужны миллионы параметров, иначе это бредогенератор. Можно было бы сравнить выдаваемый бред, офк, на старой и новой архитектуре, но нет нормальных бенчмарков для сравнения, все текущие бенчмарки для оценки ЛЛМ основаны на проценте выполненных без ошибок задач.

Аноним 19/11/23 Вск 14:57:19 № 548053 85

>>548051
С нуля 7В - 100k баксов и месяц времени. Если что-то ульрамелкое уровня 700М для бредогенератора - можешь на одной 4090 за пару недель.

Аноним 19/11/23 Вск 15:09:48 № 548058 86

>>548053
>на одной 4090 за пару недель.
А это подъемно даже. Только надо сайты глазами пылесосить, чтоб до 200к урвать. Либо в облаке тренить, но там тоже тыщ 70 уйдет на одну модель

Аноним 20/11/23 Пнд 00:38:44 № 548486 87

А почему все так носятся с этим AGI? Если он будет по стоимости как кластер H100, то не дешевле будет аутсорсить спецов из нищих параш. Будет просто конкурировать с индусами. Что бы был какой-то революционный скачок в прогрессе и экономике нужно уместить 130 IQ человека в одну карточку A100. Но это так, мои манярассуждения. Поправьте если не прав.

Аноним 20/11/23 Пнд 01:50:52 № 548524 88

>>548486
>Если он будет по стоимости как кластер H100
Все арендуют, а пока большие дяди демпингуют, выгоднее закинуть затравку и получать тонны бредотекста, нежели чем напрягать копирайтеров. Интернет уже не спасти.

Аноним 20/11/23 Пнд 04:52:43 № 548693 89

>>548486
>А почему все так носятся с этим AGI?
Скейлящийся по размеру и скорости заменитель человека, который универсально будет решать все проблемы дешевле, а он в любом случае с развитием технологии будет дешевле, и быстрее и доступен абсолютно любой компании/человеку по АПИ, без нужды нанимать тысячи индусов через 10 циклов проверок. Действительно почему?

Аноним 20/11/23 Пнд 07:57:57 № 548762 90

>>548693
>который универсально будет решать все проблемы дешевле
Он мне даже жопу подтереть не сможет, ибо ручек тонет.

Аноним 20/11/23 Пнд 16:04:32 № 549025 91

>>548486
>А почему все так носятся с этим AGI?
Потому что инфоцыгане.

Аноним 21/11/23 Втр 13:46:33 № 549803 92

>>511426 (OP)
https://2ch.hk/ai/res/514476.html#532510
Антоны, вы ето видели?

Аноним 21/11/23 Втр 13:58:35 № 549813 93

>>549803
На что там смотреть? Это говно решается простым reinforcement learning и ревардом на поиск новых более простых способов решения задачи. Понятное дело что такого пока нет из-за недостаточных вычислительных мощностей для реалтайм reinforcement learning, но в теории не вижу никаких причин что этому могло бы помешать при увеличении производительности железа в 10+ раз. То что там описывают невозможно только если нейросетка неспособна в обучение по время инференса.

Аноним 21/11/23 Втр 14:04:37 № 549821 94

>>549813
Антон говорит, что это так не работает.

Аноним 21/11/23 Втр 14:11:53 № 549826 95

>>549821
Может нахуй сходить твой Антон. Reinforcement learning для этого и был придуман, и оно работает, но не в реалтайме.

Аноним 21/11/23 Втр 14:24:46 № 549833 96

>>549821
Схуяли оно не работает? Оно именно эту задачу и решает - сделать что-то необычное/рандомное с предметом в руке и посмотреть что будет, если что-то хорошее получилось - применить это к решаемой задаче. Оно просто сейчас в более примитивном виде работает и все сетки фактически с полного нуля обучаются без багажа знаний про "что будет если сделать вот так". Вот пример васяна, использующего примитивную архитектуру и очень мелкий набор входных параметров:
https://www.youtube.com/watch?v=Dw3BZ6O_8LY

Аноним 21/11/23 Втр 14:49:18 № 549855 97

>>549833
>сравнивать 10000000 попыток ИИ решить ограниченную задачу и парочку попыток настоящего мозга, который может почти что угодно.
Чееееллл...

Аноним 21/11/23 Втр 15:08:31 № 549870 98

>>549855
Сейчас бы сравнивать микронейросеть с 10 часами обучения и мозг с 10 годами обучения. Ты можешь сколько угодно рякать, но человеку нужно намного больше времени чтобы научиться чему-то с нуля и у сеток нет проблем с решением неизвестных задач самостоятельно. Я не вижу внятной аргументации почему оно не будет работать в равных условиях, когда разница лишь в исполнении нейросети - биологическая/электронная. Перенос опыта одной нейросети в другую как у людей уже в какой-то мере делаем, отсеивание бредовых решений на основе опыта мультиагенты уже делаем, отчасти сетки уже могут сами себя направлять в нужную сторону и симуляция цепочек решений "в уме" опять те же мультиагенты - это вполне реализуемые вещи. В том числе выстраивание длинных цепочек действий с неопределённым результатом с целью "попробовать", если вероятность успеха ненулевая. По той ссылке у учёных в говне мочёных это почему-то стало невозможно только по причине того что они сиюминутно не могут придумать математическую модель этого, про реализацию возможностей и эволюцию вообще кринж - это просто надуманные ограничения, заданные человеком.

Аноним 21/11/23 Втр 16:10:45 № 549927 99

>>549870
>когда разница лишь в исполнении нейросети - биологическая/электронная
Хуя ты сравнил.
Если что, я не тот шиз, который утверждает, что ИИ возможен только в мясе. Я лишь утверждаю, что именно текущий уровень нейросетей не позволит без тонны костылей построить хоть что-то напоминающее человека в сфере рассуждений и поиска решений.

Аноним 21/11/23 Втр 16:26:41 № 549952 100

Кьюлорой пробовал уже кто-нибудь что-то обучать? Заводится на домашней пеке?

Аноним 21/11/23 Втр 16:37:45 № 549973 101

>>549952
Да.

Аноним 21/11/23 Втр 22:19:06 № 550470 102

>>549870
Мозгу ребенка нужна тарелка пориджа и две всратые картинки кошки, чтобы понять что такое кошка. Сколько гигатонн пориджа и террабайт фоток нужно cv сетке для аналогичного результата?

Аноним 22/11/23 Срд 09:30:23 № 550927 103

>>550470
Мультимодалке одного фото достаточно, просто пишешь ей "вот эта хуита называется так-то" и всё, каши не просит.

Аноним 22/11/23 Срд 13:12:33 № 551082 104

У меня есть мечта сделать генератор фильмов, насколько это трудно выполнимая задача?
Например я сделаю такую нейросеть и буду продавать доступы, будет ли у меня проблемы с исками авторских прав от крупных компаний если нейросеть будет генерировать фильмы которые похожие на те фильмы которые выпускают компании?

Аноним 22/11/23 Срд 14:08:31 № 551129 105

>>551082
Сначала таблеток прими.

Аноним 23/11/23 Чтв 01:18:05 № 551989 106

Смотрите какая хуйня всплыла.
https://arxiv.org/abs/2311.10770

Если я правильно понимаю что у них происходит - эти софт бранчи же независимы друг от друга и не требуют связи?

Аноним 23/11/23 Чтв 01:55:49 № 552048 107

>>551129
Пшел на хуй токсичный уебан. Рачье всю доску уже засрало.
мимокрок

Аноним 23/11/23 Чтв 01:57:26 № 552050 108

>>551082
Если на любительском уровне, то SDXL+Gen2 или PlaiDay в зубы и вперед, звук сам смонтируешь.

Аноним 23/11/23 Чтв 22:36:37 № 552908 109

Есть идеи у кого, зачем A в этой йобе? Из всех вещей в архитектуре у меня на уме только две вещи у которых есть прямой геометрический смысл, в которых это собсна можно использовать, - это эмбеддинги и непосредственно сама нейронная сеть. В первом случае это может использоваться для нахождения наименьшей логической цепочки от эмбеддинга к эмбеддингу, чтобы в последствии это давало нейронке какое-то преимущество какое не ясно. Во втором случае собственно искать ближайший путь от к нейрона к другому нейрону через другие нейроны. Зачем это может быть нужно, непосредственно при использовании нейросети, я не знаю, но может быть полезно при ее обучении. Тем более, что метод обучения так же указан в названии проекта, возможно Q - это модификация самого Q-learning метода.

Аноним 23/11/23 Чтв 22:38:33 № 552910 110

>>552908
Ну ссаная разметка нах.

Вот короче:
Есть идеи у кого, зачем A★ в этой йобе? Из всех вещей в архитектуре у меня на уме только две вещи у которых есть прямой геометрический смысл, в которых это собсна можно использовать, - это эмбеддинги и непосредственно сама нейронная сеть. В первом случае это может использоваться для нахождения наименьшей логической цепочки от эмбеддинга к эмбеддингу, чтобы в последствии это давало нейронке какое-то преимущество какое не ясно. Во втором случае собственно искать ближайший путь от к нейрона к другому нейрону через другие нейроны. Зачем это может быть нужно, непосредственно при использовании нейросети, я не знаю, но может быть полезно при ее обучении. Тем более, что метод обучения так же указан в названии проекта, возможно Q★ - это модификация самого Q-learning метода.

Аноним 23/11/23 Чтв 23:23:18 № 552939 111

>>552910
https://www.youtube.com/watch?v=T1RuUw019vA
Хм, вот тут чел предпологает, на основе твиттерских высеров но все же, что это метод обучения. Что наверное логичнее всего, с учетом того, что то за чем они гонятся - это процент правильно решенных задач. Вроде того, что условно берется какая-то точка в виде начальной точки решения задачи, нейронка выдает предположения, все это брутфорсится пока нейронка не решит задачу, а потом ищется наилучший путь решения А старом. Q лернинг обучает модельку подкрепляя правильные решения в выборе следующего шага, который являлся частью кратчайшего пути, а в случае неправильного не дает реворда. Обидно, но походу они все еще продолжают дрочить трансформер и это не архитектурное изменение, а всего-лишь метод обучения. Ну хоть хорошо что они это не на уровне "AGI агента", поверх готовой модели пытаются реализовать.

Аноним 24/11/23 Птн 13:29:47 № 553279 112

>>549870
>Я не вижу внятной аргументации
Глаза разуй, ебобо. У тебя гипотезы о мире формируются уже на уровне саккад. Само твое зрение - это уже активное исследование среды.

Вы своим сраным "ехал инференс через инференс" заебали уже. Человек не осуществляет инференс, он систематически модулирует входящий сенсорный поток, выявляя его каузальный каркас. Любой твой пук, любое твое движение, любая попытка взглянуть на мир, настроить ухо на звук или шевельнуть мозговой извилиной направлены строго на генерацию обучающей выборки. Выборка не приходит извне, она формируется в ходе активного исследования среды - ребенок не ждет, когда в него загрузят фото с ямкой в песке, он тупо берет палку и ковыряет эту ямку сам. Он сам выбирает, в какую сторону посмотреть, чтобы загрузить в мозг новую деталь сцены. Он вертит в руках кубик, чтобы сгенерировать данные о его невидимой стороне, он кидает кубик на землю, чтобы сгенерировать данные о падении кубиков. Он ищет походящую книжку, чтобы почитать про смешное. Он прикидывает, мечтает и фантазирует, запуская во внутренней виртуалочке модели возможных миров - и обучаясь на этих синтетических данных. И так далее и так далее.

Генерация выборки самим агентом, причинно связанная с его действиями позволяет сократить объем данных для обучения в триллион пупильонов раз. И никаких 10 лет обучения в случае людей нет - 99.99% своего времени ребенок вращается среди бесчисленных дубликатов уже сто раз выученных им данных, на реальное обучение чему-то новому приходится только 0.01%, и выучивается это новое практически мгновенно и всего на паре-другой примеров. Потому что каузалочка и моделирование мира решают. Сколько задач нужно решить, чтобы за десять лет превратить пятиклашку в бакалавра математики? Ну, от силы тысяч десять. То есть всего порядка 10Мб плейнтекста, если приплюсовать к задачам еще и учебники по матану. Ни одна нейросеть не даст аналогичный рост сложности на основе такого микроскопического количества исходных данных.

Когда эту нейроёбань научат хотя бы самостоятельной навигации по ландшафту данных, тогда можно будет что-то высирать про искусственный интеллект. А пока это просто дрессированный на терабайтах мелко нарезанной макулатуры кисель.

Аноним 24/11/23 Птн 13:34:26 № 553283 113

>>553279
И зачем ты порвался, даже не пытаясь прочитать буквы в посте на который отвечаешь?

Аноним 24/11/23 Птн 20:18:32 № 553644 114

>>551989
Чё там, опять охуительные срывы покровов что большая часть голов нинужна и попытка запрунить? Лень дальше абстракта читать

Аноним 24/11/23 Птн 20:20:47 № 553651 115

>>553279
Всё так. Поэтому я не устаю проигрывать со свидетелей близкого AGI.

Аноним 24/11/23 Птн 20:49:36 № 553710 116

>>553279
>>553651
Кто вам сказал, что человеческий вариант мышления - это единственный способ достижения AGI? Может быть в вашем понимании определение AGI значит искуственный интеллект с человеческим мышлением, в моем же понимании AGI - это искусственный интеллект способный решать любую умственную задачу на которую способен человек. Я уверен, что даже ссаный трансформер, без возможности дообучения и даже без рефлексии на сгенерированных им же данных, сможет в AGI, при грамотном обучении. Да, это примитивная архитектура и ее придется поверх оборачивать каким-нибудь агентом для этого. Да, просто копирование стиля человеческого текста не хватит на то чтобы прыгнуть ВЫШЕ человека, там уже нужно дообучение на внутреннем диалоге, но именно решать задачи на которые способен средний человек оно сможет. Другое дело, что они и не пытаются в новые архитектуры и продолжают мучать старенький трансформер. Они могут достичь AGI, но эта неоптимизированная йоба будет раниться толко на сверхмощном железе и иметь неприятные косяки при использовании с которыми придется мериться. Все что они делают сейчас - это забрасывают примитивную архитектуру деньгами, в надежде быстрее всех накрутить на нее костылей до AGI, пока хайп есть и эти деньги выдают.

Аноним 24/11/23 Птн 21:56:21 № 553805 117

>>553644
Ага. Ускоряют feed forward в десятки раз (жаль что не аттеншен). Плюс по ходу у них бранчи независимы, т.е. выглядит это как прямой путь к pretraining@home

Аноним 24/11/23 Птн 22:00:13 № 553808 118

>>538043
ЦЭ ТАК

Аноним 24/11/23 Птн 22:05:33 № 553813 119

блять, как вы заебали со своими маняфантазиями в рисёрч треде, шизики ебучие, читайте блеать устав ClosedAI
https://openai.com/charter
>artificial general intelligence (AGI)—by which we mean highly autonomous systems that outperform humans at most economically valuable work
у них декларированная цель компании это не имитировать человеков, а при помощи нейронок оставить всех без работы на практике (и заодно быть вахтёром нейронки, во имя безопасности конечно)

пиздуйте домашку делать, вместо того чтобы бороздить просторы большого театра в вакууме

Аноним 24/11/23 Птн 22:06:36 № 553817 120

>>549803
Видели, ту статью я притащил.

>>549813
>>549826
>>549833
>>549870
>reinforcement
Вы действительно думаете, что вот эти вот учёные с мировым именем погорели бы на этом тупорылом reinforcement'е, о котором сейчас знает каждый школьник?
В том треде я написал немного подробностей простым языком, кстати, и уже из них понятно, что всё далеко не так просто.
Двачерски советую вам перед таким категоричным комментированием подобных статей иногда их читать.

Аноним 24/11/23 Птн 22:09:47 № 553824 121

>>553813
>>artificial general intelligence (AGI)—by which we mean highly autonomous systems that outperform humans at most economically valuable work
Короче говоря, айтикуколды из ОпенАИ по обыкновению подменяют понятия.

Аноним 24/11/23 Птн 22:12:33 № 553833 122

>>553813
>outperform
Это ASI, чел.

Аноним 24/11/23 Птн 22:17:13 № 553843 123

>>553817
> тупорылом
Это скорее ты тупорылый, потому что тебе прямым текстом написали почему его не могут использовать. Потому что, блять, обучение в реалтайме архитектура не позволяет, а не какие-то фантазии шизоидов с реддита. Потребность в подобном появилась меньше года назад, сука ты тупорылая. Сейчас весь прогресс идёт на уменьшение моделей и увеличение скорости обучения, можешь засекать сколько лет потребуется до того как к инференсу прикрутят reinforcement learning, долго ждать не придётся.

Аноним 24/11/23 Птн 22:18:27 № 553846 124

>>553833
сам ты SI, все твои умственные способности к генерализации и прочему это на 99% пласт, накопленный/дистилированный поколениями и переданный тебе, т.е. социальный суперинтеллект

а сами биологические способности это хуйня из коня и не очень от свинки или собачки отличаются, если ты пещерному маугли из джунглей преподашь любую простую для тебя концепцию, хоть даже письма или счета, он охуеет что так можно было

Аноним 24/11/23 Птн 22:26:36 № 553861 125

>>553824
Это кумеры подменяют понятия, прося сделать им вайфу неотличимую от человека. Что само по себе довольно бредово, потому что они не хотят/не могут с реальными бабами общаться. AGI здорового человека - это именно general purpose сетка, для неё не ставится задачи имитировать мясной мешок, достаточно решать умственные задачи лучше мясного мешка. А то шизоиды буквально просят им сделать как в соевых историях из Голливуда, где роботы имитируют людей -> им дают права и свободы как людям -> они бунтуют и уничтожают людей. Т.е. это фактически просто в голове больных шизоидов находится, в том числе и опасность ИИ они сами выдумали. Реальная опасность ИИ, про которую все сейчас на верхах говорят, не в AGI и бунте машин, а в том как её будут люди использовать, в частности в сфере контроля и распространения информации.

Аноним 25/11/23 Суб 06:35:02 № 554352 126

>>553861
>AGI здорового человека - это именно general purpose сетка
Это уточнение поднесли уже после того когда стало ясно что хайп пустой и за 100500 миллионов вечнозелёных мочёные так и не могут научить сетку два числа складывать без костылей. Удивительно что при этом это не мешает сектантам спекулировать про мысли, обобщения и ризонинг, не возникает вообще диссонанса

Аноним 25/11/23 Суб 23:14:16 № 555022 127

>>550927
В твоих влажных фантазиях

Аноним 26/11/23 Вск 15:55:43 № 555484 128

16967871837290.webm 1307Кб, 720x900, 00:00:03

Можно ли закодить нейросеть где target является вектором?
Я хочу попробовать какой-нибудь простенький шифр взломать с помощью нейросети, но не перебором, а просто настакать слои. Чисто из исследовательского интереса.

Как подойти к этой задаче?

Допустим, я буду считать что у меня ОДИН секретный ключ, но много данных.
Мне кажется, что простое представление target в виде float64 - тупая идея, но не могу себе объяснить.
Как правильно тут поступить?

Аноним 26/11/23 Вск 17:10:53 № 555595 129

>>555484
Можешь. Если брать простенький шифр из 8 знаков, то считай таргет как вектор из миллиарда вероятностей. Хорошего суперкомпьютера из тесл должно хватить на решение задачи, пару лет на обучение закладывай в бюджет.

Аноним 26/11/23 Вск 17:53:35 № 555640 130

>>555595
я не понимаю как это закодить. можешь ссылку на похожий пример дать?
Предпочтительно pytorch, этот я чутка освоил.

Аноним 27/11/23 Пнд 02:23:45 № 556140 131

>>555595
>Если брать простенький шифр из 8 знаков, то считай таргет как вектор из миллиарда вероятностей
Т.е. почему при сложненьком алфавите из как минимум 23 знаков таргет у ллмок не миллиардной размерности эс-пидерашка не понимает, получается?

Аноним 27/11/23 Пнд 20:57:17 № 556940 132

>>553843
>прикрутят reinforcement
Всё ясно: ты просто тупой и необучаемый. Наука - не твоё, завязывай со спекуляциями. Твой потолок - написание быдлокода с reinforcement'ом.

Аноним 28/11/23 Втр 08:26:47 № 557204 133

>>556940
> спекуляциями
Чел, OpenAI именно этим сейчас и заняты, пришивая Q-learning к GPT. AGI-шизики как всегда тупые.

Аноним 29/11/23 Срд 01:08:29 № 557894 134

Пиздец, весь интернет во всю обсуждает Q*, а из обсуждения в этом треде были только мои, никому не нужные, посты и пук постом выше. Хоть могли бы подумать как это и что это, собрать всю известную инфу и предположения в интернете и попытаться как-то это развить. В любом случае думаю в относительно ближайшее время появится опенсорс реализация этого алгоритма, в очень кривом, но худо-бедно работающем виде. Хочется пощупать уже.

Аноним 29/11/23 Срд 08:47:45 № 558030 135

>>557894
> могли бы подумать как это и что это
Всем и так известно что это. Ты первый день с нейросетями знаком? Гуглить пробовал? Про DQN слышал?

Аноним 29/11/23 Срд 09:54:15 № 558045 136

>>558030
А что ты ждал от луддита, который создал данный тред в /б с целью разгона паники вокруг ИИ и желания его запретить? https://2ch.hk/b/res/296559774.html#296573875

Аноним 29/11/23 Срд 10:15:20 № 558061 137

>>557894
>Пиздец, весь интернет во всю обсуждает Q*,
Что там обсуждать? Говно говна от мерзкой корпорации. Вот выкатят в опенсорс, тогда будем обсуждать, а сейчас это говно задаром не нужно на их серверах.

Аноним 29/11/23 Срд 11:49:18 № 558105 138

>>558030
Даже отвечать тебе западло. Когда речь идет об откровенно революционном методе, который сочетает в себе несколько, научных статей и годы разработки других проектов OpenAI, ты просто так сводишь этот метод до дефолтного Q-learning'а и выдаешь тейк уровня: "Эм, ты что ламер-дурачок? Не пообовал гуглить про уже_известный_метод_нейм?", действительно, они же там ничего нового не сделали, DQN в ядре концепции, так что я крутой и считай уже все знаю, могу пофлексить этим.

Аноним 29/11/23 Срд 13:09:29 № 558137 139

>>558105
Чел, есть чёткая нотация в математике и Q* - это математическая нотация алгоритма Q-learning. На этом свои спекуляции можешь закончить. Это ClosedAI сами сказали над реализацией какого алгоритма работают, они именно про него говорили, а не про PPO и его производные.
> сводишь этот метод до дефолтного Q-learning
А трансформеры у нас не дефолтные уже 6 лет? Заканчивай с шизой вместе с дурачками с реддита. Как ClosedAI этот алгоритм применяют на практике тебе никто не скажет, ты бы ещё reward-модель попросил выложить, а потом заодно веса гопоты. Можешь посмотреть на реализацию APA от Беркли, если интересно как в реальности сейчас reinforcement learning используют в LLM, там без Q, просто PPO.
https://starling.cs.berkeley.edu/

Аноним 29/11/23 Срд 14:04:48 № 558167 140

>>558137
>выложить, а потом заодно веса гопоты
Они так то должны были это сделать. Но жадность поебдила.

Аноним 29/11/23 Срд 18:52:49 № 558408 141

>>557204
>Чел, OpenAI именно этим сейчас и заняты, пришивая Q-learning к GPT. AGI-шизики как всегда тупые.
Это понятно, но тот анон пошёл ещё дальше. Я ему говорю, что вычислительный AGI невозможен в принципе, как показали исследования последних лет в области теоретической биологии, а он мне отвечает, что вот сейчас ещё "к инференсу прикрутят reinforcement learning" и всё ништяк сразу будет.
Если не верит, то пусть ищет ошибки в тех статьях, а нерелевантную чушь про всемогущий reinforcement и прочий "биттер лессон" писать никакого смысла нет.

Аноним 29/11/23 Срд 19:11:24 № 558414 142

>>558408
> вычислительный AGI невозможен в принципе
Тебе уже сказали раньше что твоё шизоидное определение AGI не соответствует реальности.
> исследования последних лет в области теоретической биологии
Опять выдавание желаемого за действительность и споры с голосами в голове, не имеющими вообще никакого отношения к AGI.

Аноним 29/11/23 Срд 19:35:49 № 558428 143

>>558414
Ну ясно. Айтишники всегда могут выдумать своё определение AGI и реализовать его уже в таком упрощённом виде. Не беспокойся, никто у тебя работу не отнимет, ведь у маркетологов из Кремниевой долины гораздо больше денег для пропаганды своих идей, чем у учёных. И исследования ты можешь и дальше не замечать.

Аноним 29/11/23 Срд 19:48:50 № 558443 144

>>558428
Шизоид, плиз. Определение AGI от Гугла из 2019:
> AGI could learn to accomplish any intellectual task that human beings or animals can perform.
От ClosedAI из 2023:
> AGI has been defined as an autonomous system that surpasses human capabilities in the majority of economically valuable tasks.
Задачи симулировать мозг и мыслительные процессы людей там вообще не стоит, никогда и не было, речь только про выполнение умственных задач. Только шизы приплетают биологию сюда. Поделись своими фантазиями о том что такое AGI, посмеёмся всем тредом.
> исследования ты можешь и дальше не замечать
Это ты как раз игноришь абсолютно все исследования по нейросетям, приплетая какое-то говно вообще из других областей и выдумывая определения на ходу.

Аноним 29/11/23 Срд 20:12:31 № 558491 145

>>558443
>AGI could learn to accomplish any intellectual task that human beings or animals can perform.
Нормальное определение.
>AGI has been defined as an autonomous system that surpasses human capabilities in the majority of economically valuable tasks.
Определение ASI.

Обидно смотреть как много гугл контрибьютит в ИИ, как шире и правильнее их понимание в этой теме и как они сейчас сосут по сравнению с ОпенИИ, которым просто повезло с маркетологами и с тем чтобы выбрать и пушить правильную нишу. С другой стороны, они до сих пор не смогли сделать чтобы Бард не галлюцинировал хотя бы на уровне Гпт-3.5
мимо

Аноним 29/11/23 Срд 22:58:51 № 558649 146

>>558491
>по сравнению с ОпенИИ, которым просто повезло с маркетологами
С разработчиками им повезло, их продукт реально лучше гуглопараши в языковых вопросах.

Аноним 01/12/23 Птн 13:20:39 № 559932 147

>>511426 (OP)
Есть тут знатоки? Допустим у меня какая-то сложная функция многочлена, y от x, я хочу, чтобы моя модель предсказывала ее значение на любом x даже на том, на котором данных нет.
Да похуй, даже простая синусоида, если.
Я вижу два способа:
1. подавать рандомные x в качестве входных данных и значение six(x) в качестве проверки на выходе.
2. Использовать реккурентные сети, то есть x вообще никуда не подавать, а подавать только предыдущие значения y и предсказывать следующее.
Какой метод лучше всего подходит для данной хуйни? Можно обосновать?

Аноним 01/12/23 Птн 14:32:55 № 559954 148

>>559932
Чел, нейросети - это статистика, палю тебе лайфхак. Берёшь "какая-то сложная функция многочлена", скармливаешь ей рандомные инпуты, сохраняешь ответы в БД, по запросам достаёшь ответы из неё. Профит, ты сделал нейросеть из одного слоя, ты теперь молодец. Можешь ещё усреднить статистику - это ты "обучишь" эту сетку.

Аноним 01/12/23 Птн 15:00:08 № 559971 149

>>559954
Я пока нихуя не понимаю на низком уровне, как все это делается.
Допустим я научу на значениях от 0 до 100 по x на функции sin(x), оно будет так же предсказывать значения на любых других отрезках? Типа если я задам уже обученной модели 250 или 1000 по иксу? Но вопрос был в том, какой именно метод лучше использовать и почему. Типа с подачей X или просто рекурентную сеть как последовательность предыдущих значений по игрику? Я так понимаю, что рекурентные сети лучше подходят тогда, когда нет какой-то привязке к времени, а когда есть тогда похуй?

Аноним 01/12/23 Птн 15:48:14 № 560002 150

>>559971
Ты вообще хуйнёй пытаешься заняться. Бери задачи из статистики, а не арифметики. Нейросети нужны когда ты не знаешь как из инпута получается ответ, скармливая сетке статистику ты можешь научить её предсказывать эти ответы. Эффективность калькулятора на нейросетях околонулевая будет.
> какой именно метод лучше использовать
Ты сразу же обосрёшься с абсолютным значением, если попытаешься в выводе сетки получить ответ. Тут в принципе нормального метода не может быть. Ты думаешь почему в LLM сетки возвращают вероятности для всего словаря, а не просто значение токена? Сетки умеют нормально работать только со статистикой, и ответы они дают в виде некоего статистического распределения.

Аноним 01/12/23 Птн 18:24:10 № 560099 151

>>558443
>Только шизы приплетают биологию сюда.
Ты просто тупой.

>Поделись своими фантазиями о том что такое AGI, посмеёмся всем тредом.
Вот это подходит:
>Определение AGI от Гугла из 2019:
>> AGI could learn to accomplish any intellectual task that human beings or animals can perform.
Охренеть, конечно, у вменяемых людей определение AGI всегда было таким, но у нейродебила с двача его Гугл придумал в 2019.

>Это ты как раз игноришь абсолютно все исследования по нейросетям, приплетая какое-то говно вообще из других областей и выдумывая определения на ходу.
Нет никаких исследований по нейросетям, кроме чисто экспериментальной инженерной херни, которая ни на какие фундаментальные вопросы не отвечает. Вапниковская тема тоже далеко не пошла, и понятно, почему так.

>Шизоид, плиз.
У тебя, как и ожидалось, нет никаких аргументов. Идёшь нахер.

Аноним 01/12/23 Птн 22:39:33 № 560366 152

>>559932
А нахуя тебе? Если это конечная задача, то лучше воспользуйся дефолтными методами аппроксимации. Если хочешь именно нейронку, то используй, лол. Нейронка и есть по сути универсальный аппроксиматор. Набери датасет из известных пар x и y, подели на часть для тренинга и тестирования, возьми какую-нибудь дефолтную однослойную нейронку, да обучи стандартным методом кераса. Это прям самая базовая задача по машинному обучению по сути.

Аноним 07/12/23 Чтв 13:47:38 № 566082 153

>>511426 (OP)
Решил локально запустить сетку на 3060. В Пайчарме скачал готовую модель, чуть чуть разморозил, добавил слоёв, запустил обучение - учится на КПУ. С сайта нвидии ставил КУДУ, драйвера. Ставил тензорфлоу с поддержкой ГПУ через пип инсталл. Пакеты в пайчарме ставил. Не запускается на ГПУ. При использовании model.to(device) - ошибка, что нет такого метода to. При использовании model.cuda() - такая же ошибка. При этом device корректно определяется.

Аноним 07/12/23 Чтв 13:52:07 № 566083 154

>>566082
Пиздец каша в башке у тебя. Не пиши такую шизу больше сюда.

Аноним 07/12/23 Чтв 13:52:32 № 566084 155

>>559932
Если у тебя уже есть уравнение, значит ты итак можешь любой у на любом х узнать. Сети нужны, когда у тебя есть куча пар х и у, чтобы выявить закономерность-уравнение и предсказывать значении у при изменении х.

Аноним 07/12/23 Чтв 13:53:18 № 566086 156

>>566083
>>566082
Похуй, я понял, где обосрался. Вечером исправлю.

Аноним 11/12/23 Пнд 11:54:29 № 569715 157

Анончики, а вот вопрос такой. Я нуб в ваших машин лернингах, вкатываюсь по гайдам. Взял вот эту хуевину:

https://github.com/pytorch/examples/tree/main/reinforcement_learning

Но сделал свое чуть другое gym environment. Саму нейронку оставил как есть (скорректировал количество входящих параметров, их стало на 1 больше). В итоге у меня происходит такая хуйня. Как вы поняли из ссылки, это обучение с подкреплением, типа, балансир, он стремится упасть, но можно низ двигать вправо-влево и держать его в балансе. Задача нейронки научиться это делать. В примере с гитхаба все работает, причем даже двумя способами. У меня после десятка итераций нейронка начинает двигать стабильно "влево" или "вправо", ессно балансир сразу падает. Я сравнивал, что идет на вход нейронки у меня и в примере - вроде более-менее то же самое. Но у меня нейронка выдает стабильно "влево", причем по мере обучения вероятность этого "влево" доходит до 100%, независимо от входных данных.

Видимо, дело в каких-то параметрах типа скорости убывания подкрепления или что там еще. Попробую их поменять туда-сюда, может поможет. Подскажите такой вопрос: как в торче смотреть внутренности нейронки и понимать, что обучение заходит не туда? Есть ли какие-нибудь тулы для этого? Или только проверять работу на примерах?

Аноним 11/12/23 Пнд 12:00:36 № 569721 158

>>560002
>Ты сразу же обосрёшься с абсолютным значением, если попытаешься в выводе сетки получить ответ.
А как вообще делают, если надо от сетки получить числовой ответ? Допустим, я хочу предсказать стоимость квартиры. Смотрел пример на торче, но он выдает вердикт "ниже/выше рынка" если я правильно понял. А вот когда мне надо числовое значение получить? И хотелось бы, чтобы по мере обучения это числовое значение было все точнее, т.е. появлялось больше значащих цифр. Как это делают в индустрии?

Аноним 11/12/23 Пнд 14:08:55 № 569804 159

>>569715
> Подскажите такой вопрос: как в торче смотреть внутренности нейронки и понимать, что обучение заходит не туда? Есть ли какие-нибудь тулы для этого? Или только проверять работу на примерах?
Графики с метриками. Аккураси, лоссы и проч.

Аноним 11/12/23 Пнд 14:18:02 № 569811 160

>>569804
>Аккураси, лоссы и проч.
Спасибо за ответ. Где про это читать?
https://pytorch.org/tutorials/intermediate/tensorboard_tutorial.html
Это оно? Или есть более толковые статьи?

> Попробую их поменять туда-сюда, может поможет.
Уменьшил параметр ГАММА с 0.99 до 0.98 - нейронка обучилась за 500 эпизодов. Анончики, я так счастлив! Правда, перед этим облазил кучу всяких статей. Обнаружил, что некий Vasiliy Polushkin уже задавался подобным вопросом on 28 Apr 2020: https://www.mathworks.com/matlabcentral/answers/521467-the-reward-gets-stuck-on-a-single-value-during-training-or-randomly-fluctuates-reinforcement-learni

Аноним 11/12/23 Пнд 15:53:39 № 569927 161

Из редита.
Сражаясь на этапе «Выносливость», игрок сталкивается с двумя противниками в каждом раунде, один за другим (в данном случае первый Кано, а второй Соня), и чтобы победить, ему необходимо победить их обоих.

Это нетривиальная задача, так как здоровье игрока не сбрасывается, поэтому второму противнику легко победить. Вот что происходит в первом раунде, когда Соня убивает Сектора.

Но посмотрите, что происходит во втором раунде, модель нашла более простой способ победить: она почти убивает Кано, первого противника, и вместо того, чтобы добить его, он участвует в танце роботов, чтобы обмануть игру и заставить таймер раунда истечь. обеспечить победу, не встречаясь со вторым противником!

Это возникающее поведение, возникающее только в результате обучения RL, для его получения не было изменено никакого специального кода или функции вознаграждения. Мы видели, как это происходит последовательно и используется моделью, чтобы обойти внутреннюю трудность этого конкретного этапа.

Один из самых увлекательных аспектов обучения с подкреплением — это наблюдение за возникающими моделями поведения, позволяющими достичь задачи способами, о которых вы даже не ожидали.

Аноним 11/12/23 Пнд 21:50:32 № 570385 162

>>569927
Баян, ещё с тетрисом видел.

Аноним 14/12/23 Чтв 23:48:01 № 573443 163

>>569927
Так это классика "работающего" рля: вместо интересного для применения решения сложной задачи, модель перебором просто достаточно быстро находит баги в твоей симуляции и их эксплуатирует

Аноним 17/12/23 Вск 22:44:02 № 575981 164

>>553805
В же статье написано что ускоряется только инференс. А тренировать все так же медленно. Или я не так понял?

Аноним 17/12/23 Вск 23:31:05 № 576073 165

>>569927
Ну, эта хуйня работает даже с эволюционными алгоритмами. Они очень хороши в наёбывании системы и поиске малейших лазеек.

Если ты задашь ему сделать оптимальный по бензу автомобиль, он может тебе ненароком сделать табуретку, которая едет за счёт тектоники плит.

Аноним 18/12/23 Пнд 06:47:25 № 576316 166

Можете пояснить за рынок вакансий РФ, связанных с machine learning?

Есть ли что-то, не связанное с распознаванием/генерацией изображений и NLP?

Аноним 18/12/23 Пнд 14:20:03 № 576493 167

А поясните долбоебу как это DDP в торче работает?
Есть вот исследование с моделькой и кодом, там DDP. В исследовании говорится типа "модель тренировалась с batch=3, max_step=50000 на 4 GPU".
То есть получается финальная модель видела 50000x4 семплов? Если я хочу воспроизвести описанные результаты на 1 GPU с таким же batch_size - мне нужно увеличить кол-во итераций в те же 4 раза?

Аноним 18/12/23 Пнд 14:42:52 № 576517 168

>>576493
> Если я хочу воспроизвести описанные результаты на 1 GPU с таким же batch_size - мне нужно увеличить кол-во итераций в те же 4 раза?
Нет, надо gradient accumulation использовать, если нет памяти. В текстовых моделях вообще батч-сайз бывает под 1024 и более для нормальной генерализации.

Аноним 18/12/23 Пнд 14:45:50 № 576520 169

>>576517
Не-не, это не LLM, это pix2pix на трансформере, он в один GPU влазит

Аноним 02/01/24 Втр 21:15:17 № 589946 170

>>511426 (OP)
Так может ли AGI БЫТЬ?
а то та новость от ведущих учёных немного интересует

Аноним 02/01/24 Втр 21:24:24 № 589960 171

>>589946
Уже обоссали, AGI к биологии никакого отношения не имеет и сравнивать его с живыми организмами - высасывание из пальца грантов. Трансформеры уже давно нахуй послали классические нейросети по образу и подобию мозга.

Аноним 05/01/24 Птн 12:50:50 № 592029 172

Какие есть идеи анализа-детекта видео нейросетями, кроме банального подхода, что каждый кадр это отдельно́е изображение?

Может модели контекста, обратной связи? Накопления?

Не только для видео, а для любых продолжительных сигналов без резких изменений, монотонных.

Аноним 05/01/24 Птн 14:31:54 № 592132 173

>>592029
Чел, ты реально даже в гугл не заходишь перед тем как такие высеры писать?

Аноним 05/01/24 Птн 15:33:14 № 592165 174

>>592132
Ты с какого района, гопник-программист?

То, что гугль выдает тысячи результатов по запросам лайк motion image segmentation neuro etc, не значит, что инфа существует.

Впрочем, сформулируй концепцтуальные идеи такой обработки, может я ошибаюсь.

Аноним 05/01/24 Птн 16:04:53 № 592180 175

>>592165
Чел, зайди на HF и выбери модель какая понравится.

Аноним 05/01/24 Птн 16:33:01 № 592198 176

>>592180
Похоже, ты не понял вопрос

Аноним 06/01/24 Суб 00:23:52 № 592704 177

Заканчиваю Computer Science бакалавра, скоро начну магистра делать, в планах стать MLE. Ищу подработку стажером. Имеет ли смысл работать стажером аналитиком данных при моих планах стать МЛЕ? Аналитик данных как я понял не программирует и он даже не дата саентист.
Хрюша сказала что подхожу, скоро собеседование с ИТ отделом.

Аноним 06/01/24 Суб 12:09:53 № 592922 178

>>592704
Устраивайся хоть куда-нибудь, без опыта ты вообще никто. И да, ты уже целый бакалавр, а не работал? Что ты там в институте вообще делал? Хуи пинал?

Аноним 06/01/24 Суб 21:40:00 № 593397 179

>>592922
> Хуи пинал?
Даже сосал.

Аноним 07/01/24 Вск 03:27:45 № 593727 180

>>592922
>Устраивайся хоть куда-нибудь, без опыта ты вообще никто.
Спасибо, принял.
Почти всё что есть это моя работа бакалавра: в симуляции ROS летающий робот (Astrobee на ISS в японском отсеке) с камерой смотрит на другой летающий объект в невесомости и определяет расстояние и направление относительно камеры (ключевые слова: Computer Vision, Dataset Generation, Machine Learning, 6-DOF Pose Estimation, YOLOv8). Причем с созданием датасета я ебался гдето 75-80% времени.

>Хуи пинал?
Да и телок ебал, работать идти я даже и не думал, бабки были.

Аноним 07/01/24 Вск 11:03:57 № 593897 181

>>593727
>созданием датасета я ебался гдето 75-80% времени.
Чот кекнул с этого специалиста

Аноним 07/01/24 Вск 17:52:42 № 594160 182

>>511426 (OP)
>В основном линейная алгебра, теорвер, матстат, базовый матан и matrix calculus.
Как бы ее освоить поэффективнее? Решать в тетрадке задачи из учебников это классика, но я вот встретил курс coding the matrix - там линейная алгебра объясняется через питон и все задачи на нем решаешь - мне очень нравится. Есть курсы или книги, чтобы другие разделы математики также объяснялись - через программирование?

Аноним 08/01/24 Пнд 05:41:17 № 594580 183

Как в C# использовать видеокарту для обучения? Я именно сам описываю масссивыы и циклы с операциями, а не библиотекамми пользуюсь, и хочу использовать видеокарту для этого.

Аноним 08/01/24 Пнд 07:56:13 № 594599 184

>>594580
Используй какое-нибудь из апи, типа opencl, cuda, vulkan

Аноним 09/01/24 Втр 21:47:27 № 598210 185

>>594580
Биндинг торча есть, хуй знает какой свежести он. Но лучше не трогай шарп вообще, сиди на питоне для обучения.

Аноним 10/01/24 Срд 04:53:06 № 598748 186

>>598210
Торч - это не самый низкий уровень. Самый, ну вернее достаточно, низкий - это одно из апи

Аноним 13/01/24 Суб 02:20:46 № 605730 187

>>593897
Основная часть работы в любом реальном мле - где достать данные и как почистить, зумирок

Аноним 15/01/24 Пнд 19:21:07 № 610632 188

Какие решения можно взять в основу мультимодальной системы для создания (+ теста и компиляции) новых оригинальных видеоигр? (Для начала пусть будут 8-битные, для NES)

А также, в чем сложность сделать из коробки генерацию продукта по инструкции?

Аноним 15/01/24 Пнд 19:22:46 № 610635 189

>>605730
Данные берутся из интернета, а чистятся клипом и эстетическим оценщиком, зумер.

Аноним 16/01/24 Втр 18:36:45 № 611695 190

Модели нынешних нейростей придуманы 70 лет назад. Как я понял, в СССР они были не в почете, потому что нашел 0 советских книг о них.

Как я понял, в СССР больше угорали по импульсным нейросетям.

Аноним 16/01/24 Втр 18:42:51 № 611700 191

>>611695
Все что было в СССР из технологий - это реплики нормальных разработок. Как у Китая сейчас и тогда тоже. Процы они сейчас только научаются копировать какой-то 20-летней давности

Так что серьезно даже не задумывайся об СССР как о гиганте, в лучшем случае это ушедший в прошлое аналог современного Китая

Аноним 16/01/24 Втр 18:46:05 № 611702 192

>>611695
"В лучшем" я написал потому, что китайские копии хотя бы дешевые

Аноним 17/01/24 Срд 02:28:10 № 613126 193

>>589946
>Так может ли AGI БЫТЬ?
Нет, не может. По крайней мере в научном мире никто ничего не придумал против этой статьи и многих десятков подобных ей.
Этого еблана >>589960 не слушай, он очень тупой.

Аноним 17/01/24 Срд 08:53:44 № 613438 194

>>613126
>научном мире никто ничего не придумал против этой статьи
Потому что о ней никто не знает, дебич.

Аноним 17/01/24 Срд 23:54:59 № 614780 195

>>613438
Не знают о ней только мл-макаки, а серьёзные люди обычно следят за работами персонажей уровня >>594615 → .

Аноним 18/01/24 Чтв 00:04:50 № 614800 196

>>614780
> серьёзные люди обычно следят за работами персонажей уровня
Только разве что ради смеха, чтоб посмеяться с этих потешных персонажей, лезущих из биологии в то что вообще не понимают.

Аноним 18/01/24 Чтв 00:19:23 № 614832 197

>>611700
Но ведь китай не придумывал атеншен, а совок придумывал

Аноним 18/01/24 Чтв 00:38:04 № 614866 198

>>614800
Всё ясно, ты стандартный долбоёб. Иди нахуй.
>в то что вообще не понимают
И да, в машобе нечего понимать. Это не наука, а способ заработка.
Но у тебя слишком высокое самомнение и слишком низкое образование, чтобы это понять.

Аноним 18/01/24 Чтв 00:42:47 № 614876 199

>>614832
Либерасту нельзя такое говорить, у него сердечко не выдержит. Не говорите либерасту, что СССР придумал продвинутый бэкпроп и половину мл своего времени.

Аноним 18/01/24 Чтв 08:52:32 № 615053 200

>>614876
>СССР придумал продвинутый бэкпроп и половину мл своего времени.
За этот ебнутый сленг в СССР исключили бы из комсомола, а потом расстреляли.

Аноним 18/01/24 Чтв 08:54:08 № 615054 201

>>614832
>а совок придумывал
С помощью героических разведчиков?

Аноним 18/01/24 Чтв 09:21:52 № 615061 202

>>615053
Этож не хохляндия современная чтобы таким идиотизмом заниматься

Аноним 18/01/24 Чтв 09:57:52 № 615073 203

>>615061
"преклонение перед западом" - гугли, зумерок

Аноним 18/01/24 Чтв 14:41:32 № 615324 204

>>614876
Это никого не интересует кроме совковых дурачков с самолюбованием.

Аноним 18/01/24 Чтв 15:07:16 № 615354 205

>>615324
Ну естественно, ведь ебланы типа тебя об этом даже не знают.

Аноним 18/01/24 Чтв 18:15:58 № 615584 206

>>614780
>следят за работами персонажей уровня
Чел, сейчас уже никто не следит за работами отдельных людей. Тем более дрочество на титулы в науке не приветствуется.
>>614876
>Не говорите либерасту
Я либераст до мозга костей, и мне похуй, что у совка нейронки почту сортировали ещё до рождения большинства посетителей раздела. Вопросы?

Аноним 19/01/24 Птн 20:06:31 № 617629 207

>>615073
А ты погугли что такое СССР тогда в разные периоды, дурачок

Аноним 19/01/24 Птн 23:13:57 № 618294 208

Какие есть способы быстро находить местоположение объекта на картинке?
Я сейчас пробовал только разбиение картинки на мелкие прямоугольники и применение метода компьютерного зрения на них по отдельности.

Предполагаю, можно раскормить сеть, чтобы реагировала независимо от расположения, а потом наоборот, выбрасывать части, где объекта нет.

Есть ли что-то еще быстрее?

Хотть раздел и нейросети, мне не обязательно именно нейросетью это делать, могу текстонами, статистикой по цветам, или ещё чем-то, чем подскажете делать, если это сильно быстрее получится.

Аноним 20/01/24 Суб 07:35:44 № 619186 209

>>618294
> Какие есть способы быстро находить местоположение объекта на картинке?
Гугли DETR ResNet-50

Аноним 21/01/24 Вск 07:38:56 № 620875 210

Дисбаланс в датасете классов для мульти лейбл классификаторе оказывает негативное влияние?
Если да, то как интеррогаторы типа DeepDanbooru с этим справляются, ведь там наверняка у большинства картинок в датасете есть лейбл 1girl или solo?

Аноним 23/01/24 Втр 13:48:36 № 623584 211

>>620875
>Дисбаланс в датасете классов для мульти лейбл классификаторе оказывает негативное влияние?
Да.
>как интеррогаторы типа DeepDanbooru с этим справляются
Никак, лепят 1girl куда попало.
Мимо обыватель.

Аноним 25/01/24 Чтв 23:11:54 № 626378 212

Чо, там, нейросети научились модерировать контент?

Аноним 28/01/24 Вск 18:43:33 № 629438 213

>>626378
Определение токсичности это уже лет 5 как решённая задача.

Аноним 29/01/24 Пнд 13:31:43 № 630142 214

>>623584
> Да.
Ансамблирование может помочь? Если разбить несбалансированный датасет на 3-4 группы сбалансированных и на них обучать? Потом склеить вывод обученных моделей.

мимо

Аноним 30/01/24 Втр 20:17:43 № 631450 215

Ахахаха, сначала как трагедия, затем как фарс. Важная пафосная мл персона список на собесе развернуть не смогла)))

Аноним 30/01/24 Втр 21:29:26 № 631534 216

>>631450
Так Bojan физик-теоретик, ясен хуй ему западло в CS-говне ковыряться полгода.

Аноним 31/01/24 Срд 10:35:57 № 631964 217

>>631450
>Важная пафосная мл персона список на собесе развернуть не смогла
А кто блядь сможет? Сразу видно выскочку из двухнедельных курсов по прохождению собеседований.
Найм в IT давно сломан нахуй. Я последнее предложение по работе послал нахуй, когда они мой возраст спросили, лол.
Впрочем трагедия тут в деградации яичек соискателей. В 2015-м могли написать fuck, а в 2024 ссыкуют.

Аноним 01/02/24 Чтв 14:05:26 № 632884 218

>>631964
>Сразу видно выскочку
>Найм сломан!!!1111
>А кто блядь сможет?
Хуя пригар. Кто-кто, человек с iq > 80, не аги ресерчир конечно

Аноним 02/02/24 Птн 11:07:41 № 633654 219

Подскажите зачем столько фреймворков на обучение lit-gpt, EasyDeL, PEFT, ну и другие просто десятки разных вариантов.

Второе как все таки что то обучить на tpu в коллабе, ведь там как я понял допотопные драва на TPU jax новый не работает, другие библиотеки пробовал тоже косяки они хотят TPU VM, в коллабе его нет.

Аноним 02/02/24 Птн 12:36:48 № 633689 220

>>633654
>зачем столько фреймворков
Чтобы было.
>на tpu в коллабе
Он там умер давно.

Аноним 02/02/24 Птн 13:19:52 № 633707 221

>>633689
А что он там умер по какому поводу? То что не обновляют его? Это ведь не значит что можно как то исхитрится. И ресурсы доступнее для того наверно и делалось, чтоб нормальная версия за денюжку.

Аноним 02/02/24 Птн 13:53:21 № 633727 222

>>633689
Просто там может еще какие ограничения на TPU которые принципиально не дают запустить обучение? Стоит ли ебаться с TPU пытаясь запустить обучение ил в любом случае не выйдет?

Аноним 03/02/24 Суб 12:22:31 № 634238 223

Что то я не совсем понял почему в lit-gpt пишут что обучение на двух видеокартах медленнее. Ведь при обучении можно делать много потоков видюха номер 1 не должна простаивать пока вторая вычисляет другую часть модели, ведь в первую ведюху можно еще задач накидать, необязательно ждать полного вычисления семпла, чтоб пустить второй.

Аноним 10/02/24 Суб 04:50:05 № 639284 224

Почему для генерации не используют encoder-only? Просто поставить маску в конце и и генерировать потокено. И затюнить соответствено.

И второй вопрос можно ли из любого decoder-only сделать энкодер, выключив маскировку? И использовать его на задаче заполнения текстом?

Аноним 22/02/24 Чтв 18:41:42 № 649006 225

Аноним 27/02/24 Втр 14:42:34 № 653261 226

Добрый день, люди добрые!
Решил вкатиться в ИИ с нулевым бэкграундом, до этого кем только не работал. Знакомые порекомендовали направление промт-инженеринга как самое перспективное и свежее. Хотел узнать у анонов такие вещи как:
1) Действительно ли промт-инженер это так круто, почетно и перспективно?
2) Сколько нужно потратить времени чтобы с нуля быть готовым к работе в этом направлении? Какие обучалки порекомендуете
3) Реально ли устроится в РФ и найти работу промт-инженера ВТЧ без реального опыта( допустим я его нарисую пройдя обучалки). либо напрошусь как стажер

Аноним 27/02/24 Втр 17:38:23 № 653369 227

>>653261
>1) Действительно ли промт-инженер это так круто, почетно и перспективно?
Нет, промты может писать хоть секретутка. Порог входа не просто низкий, он нулевой нахуй. Ты уверен, что хочешь конкурировать за миску риса буквально со всем населением страны?
>Реально ли устроится в РФ и найти работу
Нет конечно, не в этой стране. Пиздуй на завод в ВПК, только там работа осталась. А в остальном я даже с 5 летним опытом программача не могу РАБоту найти.
Ну или съебись предварительно в СШП или другую развитую страну.

Аноним 28/02/24 Срд 11:22:14 № 654071 228

>>653261
> Реально ли устроится в РФ и найти работу промт-инженера

Лол, разве что по блату куда-нибудь программировать нейро-Жириновского на платформе GPT-4 за бюджетные средства

Аноним 28/02/24 Срд 23:30:45 № 654594 229

Migrating neuro[...].mp4 3090Кб, 500x480, 00:00:33

Neurons under m[...].mp4 1966Кб, 614x480, 00:00:15

Посмотрите на прилагаемые видео. Вы можете наблюдать как нейрон ползает туда сюда в поиске других нейронов, его отростки тянутся к другим нейронам, они постоянно в поиске других отростков, они постоянно формируют новые связи и строят масштабные сетевые и гиперсетевые структуры, в то время как искусственные нейроны структура негибкая, они не строят новые связи в реальном времени, они просто статично стоят на месте и обучены делать только то на что их обучали, а потом все удивляются, почему же нейросетки такие тупые, почему в них нет сознания? Нужна новая архитектура нейронок, такая которая будет сама создавать новые нейроны и устанавливать все параметры, а над ней будет миллиард слоёв других нейронок, в каждом слое каждая нейронка отвечает за что-то своё, мозг не зря разделён между собой на зоны. Таким образом удастся создать нечто похожее на постоянный процесс напоминающий реальную жизнь, таким образом удастся задать какую-то мотивацию для "клеток". И во всём этом хаосе у нейронки появятся слои абстракции с возможностью к восприятию, целеполаганию, самоанализу и решению задач в реальном времени.

Аноним 29/02/24 Чтв 12:01:47 № 654795 230

>>654594
Всё так. А дальше что? Трансформеры взлетели из-за лёгкости тренировки.

Аноним 01/03/24 Птн 06:27:38 № 655456 231

Когда там сингулярность.

Аноним 01/03/24 Птн 10:30:03 № 655520 232

>>655456
В 2273-м.

Аноним 01/03/24 Птн 10:37:12 № 655527 233

>>655456
Скоро, думаю уже через 10 лет ПОЧНЕТСЯ. Вероятно и раньше.

Аноним 01/03/24 Птн 11:31:18 № 655547 234

>>614876
Cccr ничего не придумывала, а только грабила создателей.

Аноним 02/03/24 Суб 06:43:38 № 656219 235

2024-03-0206-39[...].png 661Кб, 1920x1080

https://www.youtube.com/watch?v=vDOdsueTGS0

Аноним 02/03/24 Суб 14:28:24 № 656436 236

изображение.png 33Кб, 539x170

>>656219
Поссал в ротешник шизику.

Аноним 03/03/24 Вск 00:09:11 № 656989 237

>>656219
Чел просто рандомные словосочетания написал в табличку

Аноним 03/03/24 Вск 03:35:23 № 657075 238

>>656989
Просто серанул в лужу или будут пруфы?

Аноним 03/03/24 Вск 04:36:10 № 657093 239

>>657075
Пруфы чего?

Аноним 03/03/24 Вск 06:16:33 № 657109 240

>>600012 →
Хотел было написать в тред в защиту профа что он гений матана, а не описыватель пятен на анусе павианов или что там себе нейродебилы при упоминании биолога представляют, но увидел твой комментарий с хейтом математики в и проиграл.
Машоб. 2024. Итоги.
>>614866
Обнял.

Аноним 03/03/24 Вск 06:24:55 № 657110 241

>>657093
Ты даун нахуй? пруфы своего высера или какие-то аргументы, я тоже могу написать что ты просто рандомные буквы высрал без каких либо пруфов

Аноним 16/03/24 Суб 14:47:57 № 672427 242

>>558408
>>553710
> что человеческий вариант мышления - это единственный способ достижения AGI? Может быть в вашем понимании определение AGI значит искуственный интеллект с человеческим мышлением, в моем же понимании AGI - это искусственный интеллект способный решать любую умственную задачу на которую способен человек
А чё там решать? Смотришь, чё было раньше и делаешь также. Только для всего в теле носителя ИИ.
Расскажите про архитектуру по хардкору.
Понятно уже, что память с программой в одном месте должна храниться как-то, потому что долго смотреть, чё было раньше. А что насчёт реализации этой парадигмы? Что можно почитать на эту тему?

Аноним 16/03/24 Суб 14:50:05 № 672430 243

>А что насчёт реализации этой парадигмы? Что можно почитать на эту тему?
>>553843
>>672427

Аноним 21/03/24 Чтв 03:05:07 № 676688 244

Сука, ни одного нормального видео по селф-атеншну в интернете, только двухчасовые лекции. Что там два часа, нахуй, ковырять? Расскажите вы про базовый механизм, как это работает в общем и все, без реализаций, ваших мыслей, отсылок на Ницше, математического смысла данной концепции, рассказов о том, что это было в библейском пророчестве и советов о том какое аниме посмотреть. Просто, сука, расскажите про них нормально. Я не датасцаентист, но хочу знать принцип работы, а пока по всей информации что я пока имею, общий образ о том что это такое я пока не собрал. Для меня это сейчас какой-то псевдо-брутфорс всех возможных вариантов взаимодействия токенов друг с другом оптимизированный под то, что не все варианты одинаково эффективно приминимы и часть из них можно выкинуть, чтоб меньше времени на генерацию уходило, в ущерб качеству.

Аноним 29/03/24 Птн 11:19:56 № 686645 245

>>676688
У перцептрона связи статичные. Аттенш позволяет обобщить перцептрон и выучить новую топологию.

Аноним 29/03/24 Птн 20:35:40 № 687402 246

>>686645
Все равно механизм не понятен. Это не то чтобы новая топология получается, ведь значения аттеншна не строго 0 или 1, это скорее фокусировка на определенной части нейронов. Но откуда оно берется, как оно понимает на каких токенах фокусироваться?

Аноним 31/03/24 Вск 01:41:09 № 688801 247

Анончики, что-то я вкрай ебанулся. У меня есть нейронка по приципу регрессии. Прогон бек-пропагации + шага оптимизации ухудшает лосс-фукцнию. Как такое вообще математически может быть? Как это в теории можно отлаживать вообще?

Аноним 01/04/24 Пнд 18:11:44 № 690649 248

>>676688
Что, и здесь тоже непонятно?
https://jalammar.github.io/illustrated-transformer/
Их в общем-то несколько видов, тут описан мультипликативный но идейно это примерно всё то же
> псевдо-брутфорс всех возможных вариантов взаимодействия токенов друг с другом
что ты и написал. "Сопоставляем токенам вектора и суммируем их с обучаемыми весами похожести" .

А если ещё с более научной точки зрения, а не по млному: меняем немного нераспараллеливаемых нелинейных операций на небольшом количестве параметров на много распараллеливаемых матричных умножений на огромном количестве параметров. Данная, как ты понимаешь, сложнейшая идея по мнению современных млщиков никому кроме просвещённых западных учёных в голову прийти не могла (тем более кому-то там из обосранного совка!) и поэтому не могла быть реализована до того как насобирали достаточно данных и мощностейпришли гении и совершили Открытие

Аноним 02/04/24 Втр 10:12:32 № 691200 249

>>688801
1. Данные говно
2. Ландшафт потерь ебанутый
3. Переобучение
4. Гиперпараметры говно

Аноним 05/04/24 Птн 14:00:01 № 693985 250

>>690649
>линк
Хорошо разжевал, но скипнул самую интересную часть. Как обучаются эти query, key и value матрицы? Можно спихнуть все на back propagation, что оно типа само там как-то неизведанными методами понимает какие значения там должны быть. Оно в общем-то так и есть, но у меня в голову не укладывается как это реализуется в подобных архитектурах. Метод обратного распространения ошибок - это алгоритм обучения нейронных сетей, именно самих сетей (собственно feed forward модель тут), математических структур состоящих только из нейронов и связей между ними, веса для которых он и получает в процессе обучения. Но мне не понятно как это реализуется в нейросети с подобным огромным обвесом, как обучается динамическая часть этого обвеса (эти матрицы и прочие неконстантные значения).

Аноним 05/04/24 Птн 18:57:45 № 694252 251

Чому все дрочат на эти мат функции, если они даже отдаленно не похожи на реальные нейронные сети? Есть же SNN, почему про них практически ноль информации и никто даже не пытается делать что-то на них

Аноним 05/04/24 Птн 20:17:15 № 694341 252

>>694252
>Есть же SNN
Что это?

Аноним 05/04/24 Птн 22:25:21 № 694454 253

>>694341
Spiking Neural Network, импульсная нейронная сеть
28

Аноним 06/04/24 Суб 00:33:30 № 694569 254

а нельзя ли как то использовать более сложные функции чем relu gelu чтобы сделать нейросети более компактными?

Аноним 06/04/24 Суб 08:15:47 № 694773 255

>>694569
Используй.

Аноним 06/04/24 Суб 09:16:02 № 694811 256

>>694252
Бизнес и на обычных хорошо зарабатывает.

Аноним 06/04/24 Суб 09:21:51 № 694816 257

>>690649
>Данная, как ты понимаешь, сложнейшая идея по мнению современных млщиков никому кроме просвещённых западных учёных в голову прийти не могла (тем более кому-то там из обосранного совка!)
Воистину! Маркетинг своё дело делает.

Аноним 06/04/24 Суб 21:36:39 № 695616 258

>>694773
и меня gpu маленький

Аноним 06/04/24 Суб 23:11:42 № 695741 259

>>695616
Так купи большой. Лям и А100 на 80ГБ у тебя в кармане.

Аноним 07/04/24 Вск 03:03:09 № 695967 260

>>695741
а что никто не пытался такое сделать? наверняка уже сотни исследований есть. я почитал тред, здесь ведь явно профи общаются. что Вам стоит подсказать, не будьте обдрисными мудаками хуесосами

Аноним 07/04/24 Вск 04:30:23 № 695997 261

>>695967
Я про крупные проекты не слышал. Наоборот, всё попёрло, когда трансформер максимально упростили и накидали сверху параметров. Так что вряд ли кто сейчас будет ресерчить ровно в обратном направлении.
Но лично ты можешь это изменить, написав прорывную функцию активации и взорвать мир!
>здесь ведь явно профи общаются
Лол.

Аноним 10/04/24 Срд 10:23:55 № 699123 262

>>657109
>Хотел было написать в тред в защиту профа что он гений матана, а не описыватель пятен на анусе павианов
Бесполезно, чел, там в треде некоторые люди всерьёз полагают, что нейросети на магии работают.
>Обнял.
Благодарствую.

Аноним 11/04/24 Чтв 08:21:11 № 700217 263

>>654594
>>656219
>>694252
Ой, а что случилось? Неужели пидерлесон не работает?

Аноним 15/04/24 Пнд 12:07:42 № 704674 264

>>654594
Ага, только выращивать и обучать такую сеть придётся дольше реальной.

Аноним 15/04/24 Пнд 12:20:43 № 704676 265

>>553710
>человеческий вариант мышления - это единственный способ достижения AGI?
Потому что нечеловеческий AGI не будет распознан хуманами как AGI.
>>553279
> самостоятельной навигации по ландшафту данных
Одна из самых сложных задач в обучении людей, тащемта

Аноним 16/04/24 Втр 14:37:57 № 705684 266

>>704676
>Одна из самых сложных задач в обучении людей, тащемта
Суть настоящего интеллекта в создании ландшафта, а не в навигации по нему.

Аноним 20/04/24 Суб 17:18:37 № 711157 267

Прифигачил к не мультимодальной модели mmproj от ллавы. Модель понимает изображение в общих чертах понимает цвет, что это примерно что-то маленькое у него есть глаза, но в общем путается в ответах что это. Это нормальное поведение? Я думал что так любой фантюн смогу мультимодальным сделать, но походу придется самому ллаву файнтюнить...

Аноним 20/04/24 Суб 17:19:24 № 711162 268

>>711157
Не туда отправил. Игнорируем ребят

Аноним 03/05/24 Птн 12:45:38 № 724682 269

Что скажете про KAN? Пишут, что разъебывает традиционные сети.
https://arxiv.org/pdf/2404.19756

Аноним 03/05/24 Птн 19:21:17 № 724966 270

>>724682
Сейм щит. Двачую этого анона. Вышла новая архитектура, которая как говорят требует меньши данных, на нехватку которых жаловались разрабы. Там ещё она может обучаться чему-то, что-то. В целом говорится что имба.

Аноним 03/05/24 Птн 19:29:19 № 724973 271

Осталось представить лицо closeai, когда они скора выкатят gptV, а тут новая архитектура появилась.

Аноним 03/05/24 Птн 21:18:52 № 725087 272

>>724682
Шо, опять? Мы ещё мамбу не переварили а забили на неё хуй.

Аноним 05/05/24 Вск 01:26:31 № 726603 273

>>724682
Может будет как с капсульными сетями от Хинтона, а может и взлетит, надо тестировать.

Аноним 05/05/24 Вск 13:48:27 № 726904 274

>>726603
Тестируйте.
https://github.com/KindXiaoming/pykan

Аноним 05/05/24 Вск 15:10:32 № 726959 275

>>726904
Я запустил один пример, но нихуя не понял.
Мимо бекенд PHP разработчик.

Аноним 05/05/24 Вск 16:31:32 № 727045 276

>>726904
Я хз, но первое что приходит в голову - приспособить их вместо сверточных сетей и сделать детекцию и сегментацию объектов на их основе, если покажут себя лучше - прорыв. Может еще вместо элементов в LLM моделях, хз что там щас используют(те же рекурсивные нейронки?)

Аноним 05/05/24 Вск 21:00:30 № 727397 277

Ребят, как этот график вообще читать?

это кусочек fastai, но один поехавший пишет обертку для временных рядов - tsai .

Что мне делать, если у меня хуево генерализируется нейросеть?
Исходных примеров временных рядов - 4, но я из них нарезаю отрезки по 4000 точек и accuracy получается как-бы высокая - 0.80 но при попытке классифицировать пятый пример все идет по пизде - 0.50

Аноним 07/05/24 Втр 13:03:55 № 730055 278

Традиционным способом добавить обучающего "знания" в нейросеть является Transfer Learning.

Допустим, у меня частотные сигналы с 4, 6 или 12 каналов.
Я знаю, что популярен такой плайплан: запихивают один канал в виде картинки и дальше делают классификацию с помощью fine tuning современной нейронки для картинок.
Можно собрать какую-то нейронку учетверенного размера?
Наверняка, это расточительно, но ради точности чем не пожертвуешь

но что мне делать, если каналов не один и не 3, как на входах у таких нейронов ?

Аноним 14/05/24 Втр 13:52:27 № 739024 279

>>724682
Мусор. Убийцы традиционных сетей каждую неделю пачками идут

Аноним 16/05/24 Чтв 15:07:38 № 741993 280

>>694454

Последний раз про них слышал в 2017. С тех пор какие-то подвижки были?

в тему размышлений о контроле за AI Аноним 17/05/24 Птн 18:45:29 № 744061 281

https://www.youtube.com/watch?v=-gGLvg0n-uY

это ремейк кат-сцены из игры Metal Gear Solid 2
оригинал https://www.youtube.com/watch?v=6V_HzEPHFYE https://www.youtube.com/watch?v=MHzwCOPy0nY

Аноним 18/05/24 Суб 16:34:49 № 745356 282

А чем mle на позициях "генеративного дизайна" сейчас в рф занимаются? Промт-тюнингом или натягиванием инфраструктуры для дизайнеров? Или может что-то своё тренят?

Аноним 19/05/24 Вск 01:00:33 № 746132 283

Анончики, я сегодня нарыл статью 89-го года, в которой математически доказывается, что нейронка с 1 скрытым слоем может апроксимировать любую функцию, при достаточном количестве элементов в скрытом слое. При этом функция активации может быть вообще любая.

https://www.cs.cmu.edu/~epxing/Class/10715/reading/Kornick_et_al.pdf

Я только вкатываюсь в это все. По моему скромному опыту эта хуйня работает на практике как пиздец, переобучается или хуй ее поймет, выдает что угодно кроме того, что нужно. Вопрос, а где-нибудь разобрано подробно, что надо сделать с ней, чтобы она работала нормально? Ну там, сделать больше элементов или меньше элементов, использовать какие-то специфические функции активации, алгоритмы обучения или вообще что за хуйня с ней происходит.

Речь идет о том, чтобы предсказать числовое значение, исходя из набора входящих значений. В идеале оно должно обучаться на небольшом количестве примеров, после обучения выдавать правильный ответ на такой запрос, которого не было во время обучения, но который можно получить экстраполированием. Ну и чтобы еще можно было получать градиент, проворачивая эту нейронку в обратную сторону (разве я много прошу?)

Интересуют какие-нибудь исследования, лучше с примерами кода, а еще лучше видосик на ютубе, где индус объясняет пример кода. С объяснением, почему оно обычно работает хуево, и как сделать, чтобы работало хорошо.

Аноним 19/05/24 Вск 13:32:01 № 746708 284

>>746132
>при достаточном количестве элементов в скрытом слое
Ну естественно, если оно сравнимо с количеством точек в датасете то это тривиально. Хуйня

Аноним 21/05/24 Втр 00:56:27 № 749690 285

А могут ли на собесе на около-датасайенс вакансию, помимо мл релейтед вопросов про ГРАДИЕНТНЫЕ БУСТИНГИ и оптимизаций трехэтажных JOINов, ебать еще и по алгоритмам? А то еще заставят деревья переворачивать и графы решать. Или обычно алгосы не дают на около-датасайенс вакансиях?

Аноним 21/05/24 Втр 22:54:28 № 751008 286

Почему в генерациях StyleGAN2 глаза выглядят чище, чем в генерациях SDXL?

Базовый SDXL - почти 7 GB, StyleGAN2 - до 350 MB. Модель в 20 раз меньше, сделана в 2020 году.

Первая пара изображений - StyleGAN, вторая - SDXL. Разница очевидна. В SD завихрения, постоянные нерегулярности в самой простой части изображения. Даже в очень мыльных и поплывших генерациях с TADNE глаза часто выглядят лучше, чем в средней генерации SD. Конечно, в остальной части изображения SD стоит выше, но почему нельзя нормально и глаза генерировать?. В чём дело? Сам процесс генерации создаёт нерегулярности, что ли?

Аноним 22/05/24 Срд 16:50:54 № 751887 287

>>749690
В нормальных местах всё дают

Аноним 23/05/24 Чтв 11:35:59 № 753097 288

>>746132
>По моему скромному опыту эта хуйня работает на практике как пиздец, переобучается или хуй ее поймет, выдает что угодно кроме того, что нужно.

Ну с добрым утром, блядь!

А зачем ты нейросети по статье 89 года изучаешь? почему именно считаешь что тебе нужен один слой?

Первое решение - это ранний останов - Early stopping.
по-моему, это буквально в любой книге описано.
Ранний останов, это один из способов так называемой Регуляризации. Идея в том чтобы уменьшить сложность алгоритма в надежде на то, что он выделит главное и это главное будет проще чем частности.

Аноним 23/05/24 Чтв 11:38:04 № 753101 289

>>749690
А работать за тебя кто будет? В чем выгода компании?

Никого не ебет, что ты весь такой дохуя мотематик.
Чтобы делать только fit/predict, нужно 5 лет разгребать джейсоны

Аноним 23/05/24 Чтв 15:52:44 № 753416 290

>>751887
>>753101
Понятно что без базовых алгосов никуда. Вопрос понимает следует так, что... Если меня спросит за алгосы, то это будут просто какие-то базовые вопросы или не очень сложные задачи? Или от меня будут ожидания в духе: "Ну раз чел осилил мл, то харды с литкода он должен как орехи щёлкать за десять сек". В общем вопрос в уровне: базовых знаний хватит или прям нужен гига-advanced уровень?

Аноним 26/05/24 Вск 19:17:08 № 758542 291

>>753416
Мы не знаем.
Если это Яндекс, наверное там очередь таких как ты. И, соответственно, будет всЁ

Аноним 27/05/24 Пнд 06:40:44 № 759324 292

>>724682
Может это что-то реально новое, а мб "убийца айфона" очередной

Аноним 30/05/24 Чтв 23:24:38 № 764961 293

https://www.youtube.com/watch?v=krixaEhLnlA
осторожно: мудацкая говна эйяй говна в районе двух минут

Аноним 02/06/24 Вск 23:39:54 № 768060 294

>>515826
Занимаюсь reinforcement learning и смиуляторами несколько лет. Интересно но сложно, и начать надо с reinforcement learning. Далее можно найти интерсные проекты на гитхабе, либо интересующие публикации и повторить их,

Создание симуляторов -- отдельная песня. Можно заморочиться и пойти в физические симуляторы кинематики и динамики, но сейчас все переходит на gpu. Можно на игрвых на более высоком уровне создавать сценарии для соревновательных игр.

Пока что достаточно 1 гпу для вменяемых результатов, в отличает от языковых моделей где энтузиастам тяжело.

Я пероидически смотрю за новвыми алгоритмами и реализую их и также делаю симы на расте, когда появляется интерес.

Аноним 03/06/24 Пнд 19:02:53 № 768861 295

Не уверен, в каком треде спрашивать, ткните если не туда запостил:

Не могу собрать PyTorch 2.4.0 на CUDA 12.5 на винде:

[7746/8442] Building CUDA object caffe2\CMakeFiles\torch_cuda.dir\__\aten\src\ATen\native\cuda\RowwiseScaledMM.cu.obj
FAILED: caffe2/CMakeFiles/torch_cuda.dir/__/aten/src/ATen/native/cuda/RowwiseScaledMM.cu.obj
C:\PROGRA~1\NVIDIA~2\CUDA\v12.5\bin\nvcc.exe -forward-unknown-to-host-compiler -DAT_PER_OPERATOR_HEADERS -DFLASHATTENTION_DISABLE_ALIBI -DIDEEP_USE_MKL -DMINIZ_DISABLE_ZIP_READER_CRC32_CHECKS -DNOMINMAX -DONNXIFI_ENABLE_EXT=1 -DONNX_ML=1 -DONNX_NAMESPACE=onnx_torch -DTORCH_CUDA_BUILD_MAIN_LIB -DUSE_C10D_GLOO -DUSE_CUDA -DUSE_DISTRIBUTED -DUSE_EXTERNAL_MZCRC -DUSE_MEM_EFF_ATTENTION -DUSE_MIMALLOC -DWIN32_LEAN_AND_MEAN -D_CRT_SECURE_NO_DEPRECATE=1 -D_UCRT_LEGACY_INFINITY -Dtorch_cuda_EXPORTS -IC:\AI\pytorch\build\aten\src -IC:\AI\pytorch\aten\src -IC:\AI\pytorch\build -IC:\AI\pytorch -IC:\AI\pytorch\cmake\..\third_party\benchmark\include -IC:\AI\pytorch\third_party\onnx -IC:\AI\pytorch\build\third_party\onnx -IC:\AI\pytorch\third_party\foxi -IC:\AI\pytorch\build\third_party\foxi -IC:\AI\pytorch\third_party\mimalloc\include -IC:\AI\pytorch\aten\src\THC -IC:\AI\pytorch\aten\src\ATen\cuda -IC:\AI\pytorch\aten\src\ATen\..\..\..\third_party\cutlass\include -IC:\AI\pytorch\aten\src\ATen\..\..\..\third_party\cutlass\tools\util\include -IC:\AI\pytorch\build\caffe2\aten\src -IC:\AI\pytorch\aten\src\ATen\.. -IC:\AI\pytorch\c10\cuda\..\.. -IC:\AI\pytorch\c10\.. -IC:\AI\pytorch\torch\csrc\api -IC:\AI\pytorch\torch\csrc\api\include -isystem C:\AI\pytorch\build\third_party\gloo -isystem C:\AI\pytorch\cmake\..\third_party\gloo -isystem C:\AI\pytorch\cmake\..\third_party\googletest\googlemock\include -isystem C:\AI\pytorch\cmake\..\third_party\googletest\googletest\include -isystem C:\AI\pytorch\third_party\protobuf\src -isystem C:\Users\Ginto\anaconda3\envs\ai\Library\include -isystem C:\AI\pytorch\third_party\XNNPACK\include -isystem C:\AI\pytorch\third_party\ittapi\include -isystem C:\AI\pytorch\cmake\..\third_party\eigen -isystem "C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.5\include" -isystem C:\AI\pytorch\third_party\ideep\mkl-dnn\include\oneapi\dnnl -isystem C:\AI\pytorch\third_party\ideep\include -isystem "C:\Program Files\NVIDIA Corporation\NvToolsExt\include" -isystem C:\AI\pytorch\cmake\..\third_party\cudnn_frontend\include -DLIBCUDACXX_ENABLE_SIMPLIFIED_COMPLEX_OPERATIONS -Xcompiler /Zc:__cplusplus -Xcompiler /w -w -Xcompiler /FS -Xfatbin -compress-all -DONNX_NAMESPACE=onnx_torch --use-local-env -gencode arch=compute_86,code=sm_86 -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --Werror cross-execution-space-call --no-host-device-move-forward --expt-relaxed-constexpr --expt-extended-lambda -Xcompiler=/wd4819,/wd4503,/wd4190,/wd4244,/wd4251,/wd4275,/wd4522 -Wno-deprecated-gpu-targets --expt-extended-lambda -DCUB_WRAPPED_NAMESPACE=at_cuda_detail -DCUDA_HAS_FP16=1 -D__CUDA_NO_HALF_OPERATORS__ -D__CUDA_NO_HALF_CONVERSIONS__ -D__CUDA_NO_HALF2_OPERATORS__ -D__CUDA_NO_BFLOAT16_CONVERSIONS__ -Xcompiler="-O2 -Ob2" -DNDEBUG -Xcompiler /MD -std=c++17 -Xcompiler=-MD -DMKL_HAS_SBGEMM -DMKL_HAS_SHGEMM -DCAFFE2_USE_GLOO -Xcompiler= -MD -MT caffe2\CMakeFiles\torch_cuda.dir\__\aten\src\ATen\native\cuda\RowwiseScaledMM.cu.obj -MF caffe2\CMakeFiles\torch_cuda.dir\__\aten\src\ATen\native\cuda\RowwiseScaledMM.cu.obj.d -x cu -c C:\AI\pytorch\aten\src\ATen\native\cuda\RowwiseScaledMM.cu -o caffe2\CMakeFiles\torch_cuda.dir\__\aten\src\ATen\native\cuda\RowwiseScaledMM.cu.obj -Xcompiler=-Fdcaffe2\CMakeFiles\torch_cuda.dir\,-FS
C:/AI/pytorch/aten/src/ATen/../../../third_party/cutlass/include\cutlass/uint128.h(189): error: calling a __host__ function("_udiv128") from a __host__ __device__ function("cutlass::uint128_t::operator / const") is not allowed

Есть идеи у кого-нибудь? Кто-нибудь собирал 2.4.0 на винде с Flash Attention под 12.5 или 12.4?

Аноним 03/06/24 Пнд 19:34:40 № 768904 296

>>768861
>PyTorch 2.4.0 на CUDA 12.5
Лол, куда торопишься? Сижу на 2.1 и 12.1 соответственно, бед не знаю.
Да ещё и на винде. Все самые свежие мокрописьки по умолчанию под люнупсу делают, под шинду уже потом правят. Хочешь самого свежего, компиляй под люнупс.

Аноним 03/06/24 Пнд 19:58:56 № 768942 297

>>768904
под недопрыщами omost у меня не выгружает с гпу llm сетку перед генерацией картинки. поставил винду, тут все работает нормально, но в 2.1+ пайторче нету Flash Attention, вот и решил собрать, че сразу новое не попробовать? тем более там в свежих версиях прирост обещали на 555.85. поставил билдится на 12.4, если соберется выложу колесо

Аноним 03/06/24 Пнд 19:59:20 № 768945 298

>>768904
кому-то же надо торопиться чтобы альфа-тестором быть

Аноним 03/06/24 Пнд 20:16:17 № 768994 299

>>768942
>omost
Лол, нахуя? Оно ж по рофлу явно сделано, там обычная сдохля и файнтюн обычной ЛЛМки, связанные кривым убогим текстом. Вот был бы там хотя бы однослойный адаптер из предпоследнего слоя ЛЛМ на замену клипу, я бы подумал. А так...
>>768945
Конечно. Но этот кто-то должен быть прирождённым пердолей, который в код пойдёт да багрепорт в репу накатает, а не на двач выложит скрин ошибки.

Аноним 03/06/24 Пнд 20:40:38 № 769030 300

>>768994
у меня фантазии нет на промпты, а тут ллм за тебя дописывает с интересной отсебятиной в разных углах, прикольно + можно просить изменить

>обычная сдохля
подсунуть любую можно

Аноним 03/06/24 Пнд 20:41:45 № 769033 301

>>768994
так я и в код хожу, и пулреквесты читаю, не одним двачем единым

Аноним 03/06/24 Пнд 22:59:07 № 769262 302

>>768861
>Не могу собрать PyTorch 2.4.0 на CUDA 12.5 на винде:
ты шизоид что-ли?
В докере собирай. В WSL.

Назад Вверх Каталог Обновить