Исследования ИИ тред #2 /research/
Аноним08/10/23 Вск 02:45:17№5114261
Обсуждаем развитие искусственного интеллекта с более технической стороны, чем обычно.
Я ничего не понимаю, что делать? Без петросянства: смотри программу стэнфорда CS229, CS231n https://see.stanford.edu/Course/CS229 (классика) и http://cs231n.stanford.edu (введение в нейроночки) и изучай, если не понятно - смотри курсы prerequisites и изучай их. Как именно ты изучишь конкретные пункты, типа линейной алгебры - дело твое, есть книги, курсы, видосики, ссылки смотри ниже.
Почему python? Исторически сложилось. Поэтому давай, иди и перечитывай Dive into Python.
Можно не python? Никого не волнует, где именно ты натренируешь свою гениальную модель. Но при серьезной работе придется изучать то, что выкладывают другие, а это будет, скорее всего, python, если работа последних лет.
Стоит отметить, что спортивный deep learning отличается от работы примерно так же, как олимпиадное программирование от настоящего. За полпроцента точности в бизнесе борятся редко, а в случае проблем нанимают больше макак для разметки датасетов. На кагле ты будешь вилкой чистить свой датасет, чтобы на 0,1% обогнать конкурента.
Количество статей зашкваливающее, поэтому все читают только свою узкую тему и хайповые статьи, упоминаемые в блогах, твиттере, ютубе и телеграме, топы NIPS и прочий хайп. Есть блоги, где кратко пересказывают статьи, даже на русском
Где ещё можно поговорить про анализ данных? http://ods.ai
Нужно ли покупать видеокарту/дорогой пека? Если хочешь просто пощупать нейроночки или сделать курсовую, то можно обойтись облаком. Google Colab дает бесплатно аналог GPU среднего ценового уровня на несколько часов с возможностью продления, при чем этот "средний уровень" постоянно растет. Некоторым достается даже V100. Иначе выгоднее вложиться в GPU https://timdettmers.com/2019/04/03/which-gpu-for-deep-learning заодно в майнкрафт на топовых настройках погоняешь.
Когда уже изобретут AI и он нас всех поработит? На текущем железе — никогда, тред не об этом
Кто-нибудь использовал машоб для трейдинга? Огромное количество ордеров как в крипте так и на фонде выставляются ботами: оценщиками-игральщиками, перекупщиками, срезальщиками, арбитражниками. Часть из них оснащена тем или иным ML. Даже на швабре есть пара статей об угадывании цены. Тащем-то пруф оф ворк для фонды показывали ещё 15 лет назад. Так-что бери Tensorflow + Reinforcement Learning и иди делать очередного бота: не забудь про стоп-лоссы и прочий риск-менеджмент, братишка
Список дедовских книг для серьёзных людей Trevor Hastie et al. "The Elements of Statistical Learning" Vladimir N. Vapnik "The Nature of Statistical Learning Theory" Christopher M. Bishop "Pattern Recognition and Machine Learning" Взять можно тут: https://www.libgen.is
Напоминание ньюфагам: немодифицированные персептроны и прочий мусор середины прошлого века действительно не работают на серьёзных задачах.
Disclaimer: Шапка сгенерирована нейросетью и нуждается в чистке.
>>511426 (OP) У меня есть вопрос про object detection, мб кто шарит. Сейчас sota это «one-stage» детекторы типа yolo, center net-а. Но также есть так называемые two-stage детекторы типа rcnn, fast-rcnn. Собственно вопрос: в чем смысл 2 стэйдж детекторов? Типа там сначала ищутся области интереса, это типа делает отдельная сетка с отдельным лоссом?
Я тут пролистал быстро прошлый тред и сюдя по всему там разговоры шли про текстовые нейросети, но я бы хотел поинтересоваться на счёт двух других типов, как почти полный нуб.
Я достаточно давно тематикой роботов интересуюсь, пускай и знания у меня до сих пор поверхностные и лет пять назад я натыкался на древние видосы с ютаба, где "организмы" учили ходить в симяляционном 3д пространстве с помощью нейросетей и что интересно, аналогичные эксперименты до сих пор проводят. И вот я заинтересовался: а насколько это в принципе сложно обучить робота ходить в компе и после перенести нейросетку в металлическую оболочку ирл. По идее нам потребуется обучить два вида нейросетей и объединить их в одной машине: двигательную нейросеть и зрительную. Допустим что робот создаётся с целью имитировать фауну, курицу какую-нибудь, соответственно из цель у него будет только свободно бродить, ну и избегать поломок. Да, предназначение дебильное, но это лучше чем начинать с робота универсального заводчанина. В то время, как с двигательной нейросетью всё ещё более менее понятно, то в тех симуляциях, что я наблюдал, зрительная часть либо вообще отсутствует, либо представлена простым скриптом, потому что сами симуляции достаточно примитивны. Когда речь же идёт о ирл, то нужен мощный инструмент, который отличит статичные объекты от движущихся, будет предсказывать их направление движения и скорость, а так же отличать различные типы поверхности для ходьбы и всё это в различных погодных условиях от ясного солнца до дождя с туманом. Кроме этого нужно ещё определять куда идти, эта курица бродить же должна всё-таки, поэтому нужен то ли скрипт для этого, то ли определялка интересных мест. Двигательную же нейросеть предстоит обучать ходить и прыгать не только по твёрдому асфальту, но и по грязи, песку, нестабильных камушках и льду. Мне кажется, что из-за этого придётся сетку как-то подразделять, чтобы разные паттерны ходьбы использовались. Слава богу, что сейчас есть игровые движки, в которых можно будет воссоздать робота один в один зная детали и их характеристики заранее и получив репрезентацию с таким же весом и балансом, а потом симулировать реалистичную грязь, песок и т.д. вместе с реалистичным окружением, а не коробками, двигающимися объектами, препятствиями, ветром, шаткие поверхности и т.п.
Как бы это всё самоуверенно не звучало, я ни черта в этом всём не понимаю и в сущности то что сверхну написано нужно для контекста. Я лишь спрашиваю о том, насколько хороши нейросетки в разновании видеосигналов в реальном времени на данный момент и что вы думаете на счёт того как двигательная нейросеть должна справляться с различными типами земли под ногами? А и да, все нейросетки, что учились ходить движутся как дёрганные паралитики какие-то. Полюбому же есть вариант запилить изначальную анимацию вручную или процедурно и научить сначала нейросеть на этой базовой анимации, а потом уже чтобы сама доучивалась в усложнённых условиях?
>>514981 Да типа того. Точно на вопрос не отвечу но в 2 stage сверточная сетка сначала ищет области интереса, конечно если мы хотим наиболее подходящие области она должна это научиться поэтому и лосс у неё будет (надо повышать вероятность того, что она содержит объект) иначе как её учить? То-есть одну часть можно научиться хорошо находить области интереса а вторую правильно классифицировать объекты в этих областях. Работает не так быстро но окупается точностью по сравнению с YOLO.
>>517495 Да, yolo плохо находит маленькие объекты но у него есть разные модели, pose detection, object detection... Pose detection например для нахождения положения тела человека (не только), сначала находит большой объект (человека) (region of interest) и внутри RoI оценивает где могут находиться маленькие объекты типа суставы рук и ног, голову.
Пересылаю пост сюда. Вопрос - как тренировщики всяких лам-2 делают reward модель для тренировки основной языковой модели? И шире - те же ПопенАИ что, тренировали GPT-4 на 1.3 триллиона параметров, а рядом на соседнем сервере тренировалась такая же по размеру модель чисто под оценку reward-а? Не жирно ли? Можно ли тренируя ламу в домашних условиях сократить потребление памяти, вызваное необходимостью держать еще один инстанс этой ламы в памяти? Может можно как-то переиспользовать слои тренируемой модели, добавляя в качестве выхода не LM Head а персептрон с оценкой реварда?
Вот скажите мучает вопрос, если 80% связей в языковых моделях не особо нужны, не особо активны.То почему при обучении или тонкой настройке не блокировать для обучения активные нейроны, а обучать только пассивные. Чтоб впихнуть в модель гораздо больше. Или почему не используют дистилляцию на тех же ламах 70, чтоб сделать мелкие модели, вместо этого их обучают отдельно?
>>520136 Как я уже отписывался, скорее всего первое просто вычислительно сложно. Про второе- отдельное обучение всё же качественнее. Впрочем, никто тебя не сможет остановить от того, чтобы дистилировать самому хоть 70B -> 7B и выебать своей моделькой на скорах все новомодные мистрали и лламы 2.
>>520136 Потому что у селф-аттеншенов принцип работы не как у секвентальных слоёв. Ты не можешь так просто понять какие веса нужны, а какие нет. У одного селф-аттеншена на разные q и k выдаются разные v, а порядок токенов в тексте для нейросети допизды, в итоге там слишком хаотично активации идут чтоб можно было точно определить что вот этот аттеншен не нужен потому что не используется - они все используются. Такое ты ещё можешь провернуть со старыми encoder-decoder текстовыми моделями, Т5 например, вот там можно таким побаловаться, но они говно и не могут в контекст.
Тред не читал, поясните: почему машоб развивают экстенсивно (все более жирные модели) а не интенсивно (такие же модели но для трейнинга + исполнения на кофеварке)
>>520293 Спасибо за ответ. А тогда такой вопрос, а почему rope или alibi не используют для t5 и подобных. Ведь в теории можно нарастить контекст довольно сильно.
>>520671 >пук Сравни DALL-e 3 со вторым, SD XL с 1.5, GPT4 с ранними вариантами. Есть конечно и аналоги с дистилляцией и сжатием латента, но они сделаны на коленке, чтобы доказать что это возможно.
>>521151 Зачем ты пукаешь? У текстовых моделей тенденция к уменьшению, уже никто не делает 540В-высеры, как пару лет назад. При этом 7В уже ебёт это 540В-говно. GPT4 состоит из нескольких мелких моделей, говорят их там 6 штук последовательно держат. Огромную модель GPT3.5 уже выебали опенсорс-модели меньших размеров. > SD XL с 1.5 То что SDXL сделали жирнее - это вопросы к говноделам из Стабилити. Достаточно было текстовый энкодер нормальный поставить вместо убожества как на полторашке, чтобы следование промпту улучшилось. Он жирного UNET профитов как-то не видно, хорошие полторашки всё ещё ебут по качеству картинки.
>>521166 >Огромную модель GPT3.5 уже выебали опенсорс-модели меньших размеров. По скорам в манятестах? По факту как сосали у давинчи, так и сосут, притом меньшие это 70B, что меньше лишь в 3 раза.
>>521319 > По скорам в манятестах? Даже по РП-тестам, где чекают насколько сетка проёбывает ролеплей и не забывает ли контекст. Недавний Мистраль даже в 7В умудряется разъёбывать Турбу по адекватности. Как бы турбо-боты не дефали свой кал, но уже невозможно отрицать факты что 70В ебёт во все щели её, Клауда следующая на очереди.
>>521337 Кал это мистраль конечно же. Ты так надраиваешь на какой то нонейм тест, с непонятным контекстом и форматом промпта. При том что уже куча анонов отписалась что мистраль лютое говно и проебывает контекст через 5 сообщений.
Обман нейросети по обнаружению обьектов в изображении.
Когда еще в 2016 начали стрелять первые сверточные нейросети в распознавании, я слышал что они терялись стоило только добавить в фото легкие незаметные для глаза артефакты. Как дела обстоят сейчас?
Можно ли наложить незаметные артефакты на изображение чтобы алгоритмы площадок просто видели белый шум вместо моих изображений а нормальный человек видел их нормально?.
>>515826 Тоже интересуюсь подобной темой, тебе нужно копать в сторону обучения с подкреплением, где за определенные правильные действия агент будет награждаться, так же тебе нужно будет найти правильную стратегию награждения награждать сейчас или награждать в долгосрочной перспективе, это все достигается путем проб и ошибок.
>Двигательную же нейросеть предстоит обучать ходить и прыгать не только по твёрдому асфальту, но и по грязи, песку, нестабильных камушках и льду. Это тоже можно сделать, только тебе в перспективе понадобится много видях которые смогут обработать огромные массивы данных, ведь чем больше степеней свободы тем больше данных нужно обработать что бы агент мог реагировать на любые сложности этого мира.
>Слава богу, что сейчас есть игровые движки, в которых можно будет воссоздать робота один в один зная детали и их характеристики заранее и получив репрезентацию с таким же весом и балансом, а потом симулировать реалистичную грязь, песок и т.д. вместе с реалистичным окружением, а не коробками, двигающимися объектами, препятствиями, ветром, шаткие поверхности и т.п. Обучив агента в игровых движках ты не сможешь его перенести что бы он так же двигался в реальности, игровые движки лишь упрощено моделируют реальность, наша реальность работает по иным законам и тебе нужно приучать агента к этим законам мироздания, тогда он сможет корректно и правильно работать. Ты можешь лишь потренироваться в игровых движках создавая простые ограниченные пространства и там обучать своего агента.
Анончики решил приобщиться к нейросетям и начал, казалось бы, с простейшей задачи. На входе нейросеть получает картинку 28 на 28 пикселей, где на черном фоне нарисован белый круг, полностью влезающий в это изображение (пикрелейтед). На выходе я хочу получить 3 параметра - координаты и радиус этой окружности.
Ниже пример нейросети которую я пробовал обучать. Я менял и количество слоев и функции, она конечно обучается если дать 20-50к примеров, но даже в этом случае точность определения довольно хуевая +- пиксель. Что я делаю не так, как изменить архитектуру сети? Я понимаю, что задача решается и без нейросетей, но мне хочется использовать именно нейросеть для ее решения.
[code] model = tf.keras.Sequential([ # Слой для обработки изображения tf.keras.layers.Conv2D((28-3)*(28-3), (3, 3), activation='relu', input_shape=(IMAGE_HEIGHT, IMAGE_WIDTH, 3)), tf.keras.layers.MaxPooling2D((2, 2)), tf.keras.layers.Conv2D(81, (3, 3), activation='relu'), tf.keras.layers.MaxPooling2D((2, 2)), tf.keras.layers.Flatten(),
# Слой для обработки числовых данных tf.keras.layers.Dense(128, activation='relu'), tf.keras.layers.Dense(64, activation="relu"), # Выходной слой с тремя нейронами tf.keras.layers.Dense(3) ]) [/code]
>>527762 > tf Ты из 2015 капчуешь? Только торч, других вариантов нет и не может быть. > activation='relu' И вот сразу же говняк какой-то. Не должно быть активаций на конволюшене. В 2023 году активации должны быть только после селф-аттеншена или кросс, соответственно в фид-ворварде. Есть ещё особо извращённые варианты с GeLU на линейных слоях, но тебе точно их не стоит трогать не понимая зачем. А ещё relu говно мамонта. Всё остальное из-за активаций нахуй идёт. Вместо MaxPooling лучше AvgPooling, сам загуглишь от макса какие проблемы могут быть. > 20-50к примеров Такие простейшие задачи максимум за 1000 итераций тренятся на lr около 1е-3.
>>528636 Какой-то кринжовый вопрос. TF не развивается за пределами мобилок уже давно. Никакие современные либы его не поддерживают, никакой код на нём не пишется, производительность говно. Торч - это стандарт индустрии, со всем остальным даже не приходи, это просто база.
>>528561 >Не должно быть активаций на конволюшене. В 2023 году активации должны быть только после селф-аттеншена Специалист в треде, уважаемо. Где знаний набирался?
>>528704 >Любой код посмотри Даже писал, но у меня почему-то рандом тоже на tf остановился. Не специально. Но до ковыряния отдельных слоёв я пока не дошёл. Этот код вообще у гопоты выпытал. >даже веб-макака Да ёб, это так заметно?
>>528730 Лол, сам Гугл все модели уже на Торче тренирует, слишком большой отрыв по функционалу и скорости. Он только активно поддерживает рантаймы типа TF Lite и прочие ответвления для запуска моделей на всяких мобильных устройствах на Арме, причём там код даже не пишется, оно в большинстве случаев конвертируется из Торча. Ты можешь открыть Hugging Face и попробовать поискать модели под TF, но даже Гугл часто свои только под Торч выкладывает.
Бля, тут кто-нибудь видел что происходит в r/singularity ? Концентрация копиумных долбоебов в сабреддите просто зашкаливает, они реально думают что какой-нибудь условный мультимодальный llm нового поколения будет AGI/ASI. А некоторые уже верят что в принципе gpt4 можно назвать AGI. Термин AGI умер нахуй
>>528955 >r/singularity Что за шлак? Не знаю такой доски. И вообще, доски пишут через /доска/. >Термин AGI умер нахуй Ожидаемо, хули. С другой стороны, текущие даже текстовые действительно дженерал по сравнению со старыми сетками, которые нужно трейнить под каждую задачу. Тут можно взять сраную лламу, написать сраный промт и она может выполнять целую кучу задач.
>>520293 Обычно же вроде под "прунингом атеншена" имеется ввиду не заморозка или обнуление весов внутри матриц какого-то одного атеншена а выкидывание целиком лишних голов, от которых качество не страдает как заявляется
Как кстати gpt могут так быстро контекст отрабатывать? Если ответ они пишут сразу же, тогда почему они ответ посылают по кускам, если они так быстро высчитывают контекст то и ответ должны давать моментально. Особенно интересно как дела с этим у гпт4 ведь там оркестр с множеством запросов. Либо они сначала отправляют первое предложение без оркестра, за это время все там просчитывают и посылают остальное.
>>531118 >если они так быстро высчитывают контекст то и ответ должны давать моментально В смысле? У тебя один прогон сетки с "вычислением контекста" даёт один токен ну или топ-сколько-то, как настроишь Чтобы сформировать текст надо постоянно перепрогонять для получения каждого следующего токена
>>531374 Тогда я не совсем понимаю почему в llamacpp и text-generation-webui требуется так много времени на вычисления контекста или что он там делает, после чего вывод идет уже быстро.
Че та сложна, не пойму что там в документе с оценками, но кажется считают мистраль загрязненным данными тестов, что вобщем то не новость. Лишь бы работал
Аноны, а сколько времени вкат занимает? Конкретно мои вводные - есть вышка с красным дипломом (хотя всякие матаны я уже позабыл, но когда-то шарил) и 10+ лет опыта в опостылевшем интерпрайзе фуллстаком (все, от БД до юая, от архитектуры до юнит-тестов). Флуент инглишь, если важно, в наличии. Насколько вообще сейчас реально перекатиться или вкатится? Какой рейт у новичков области? Стоит ли оно вообще того, в моей ситуации?
>>532335 Вопрос вдогонку - что сейчас с рыночком этого самого машоба? Область не вчера появилась, на какой он стадии? Я так вижу, сейчас вроде как идеальное время для вката, состояние не зачаточное, и не середина, а как раз бурный рост, который продолжится близжайшие лет 5-10.
>>532335 > всякие матаны я уже позабыл > фуллстаком Очевидно что ты никому нахуй не нужен будешь с такими вводными, нейросети не про кодинг и уж тем более никак не пересекаются с веб-макакингом. Писать код ты можешь за месяц научиться, китайцы с топовыми разработками по нейросетями вообще пишут код так как-будто даже самоучитель по питону не открывали. И вообще пиздуй в /pr/, тут РАБотобляди не сидят. > вышка с красным дипломом Такое только при устройстве на завод или лоу-скилл галеру может потребоваться. На реальной работке в рашке всем похуй на бумажки, бумажки за тебя работу не будут делать. А за пределами рашки ну ок, СНГ твои бумажки невалидны.
>>532379 >нахуй не нужен будешь с такими вводными А что, всякие скрамы, пайплайны, релиз-процессы и софтскилз в коммерческом машобе отменили, нинужно? Да и я во время вката, очевидно, подтяну то что по-настоящему актуально, как-то матчасть и прочее. >И вообще пиздуй в /pr/, тут РАБотобляди не сидят. Там я тоже сижу. Кстати кто же тогда тут сидит? >Такое только при устройстве на завод или лоу-скилл галеру может потребоваться Забугорные конторы нередко требуют нотариально переведенный дипломчик же, особенно где есть требования к бакалавриату+ (а таких много для тырпрайза и по-моему поголовно все в машобе). >А за пределами рашки ну ок, СНГ твои бумажки невалидны. Лолшто? Это диплом международного образца, он, может не столь престижен, но уж точно валиден.
В любом случае, спасибо за ответы, но мне бы хотелось получить ответ еще и по части актуальности вката и правильно ли я понимаю состояние рыночка.
>>532385 > нинужно? Машобщику ненужно, да. Всем что ты перечислил будут макаки заниматься. Если же ты думаешь об этом в контексте фулстака, когда тебе скажут написать весь бэк/фронт и ещё унитаз помыть, то это будет слабо отличаться от веб-макакига, машобщик не нужен чтоб прилепить чат-бот куда-то. Т.е. ты говоришь "хочу в машоб", но при этом хочешь заниматься вместо него тем же что и сейчас делаешь. Тебе надо будет модифицировать архитектуры под конкретные задачи, подготавливать датасеты и обучать сетки. И с большой вероятностью готового решения не будет, если это задачи бизнеса. Кодинг там на уровне написания скриптов с выкидыванием API для остальных. Т.е. забудь про кодинг вообще и открывай книжку по матану и машобу, почитай публикации и алгоритмы в них. У тебя вообще может не быть в названии должности ничего про разработку, а будешь каким-нибудь "аналитиком".
>>532391 О, ну так даже лучше, на самом деле, потому что центральная причина хотения переката - как раз тотальное опостыление интерпрайз-макакинга со всем этим менеджментом, пиздежом и прочими дедлайнами, от чего я даже перегореть успел.
>>532385 >в коммерческом машобе отменили, нинужно? Конечно нужно, это какой-то LLM-энтузиаст студентик на стажировке , которому дали поиграть с РИСЁРЧЕРСКОЙ задачей тебе хуйни нагнал. Если мы про работу говорим конечно: ситуация на рынке идёт к тому что чистые рисерчиры, за исключением парочки всем известных попильных контор, никому не нужны. Большая часть работы большинства MLE это работа с пайплайнами сбора данных, обучения, выкатки в прод итп. Даже бекенд пописать заставят. Так что тяп-ляп в ноутбучках давно уже не достаточно, никто не вернётся в 2018 год
>>532526 > работа с пайплайнами сбора данных, обучения, выкатки в прод итп Для этого опыт кодинга - самое последнее что потребуется. > Даже бекенд пописать заставят. Только если в парашный стартап попадёшь, где на весь проект полтора питониста - ты.
>>532385 >Кстати кто же тогда тут сидит? 85% дрочеры на тексты в кончай треде и 15% дрочеры на пикчи в пикчетредах. Ресёрчеров ртом пару человек, ресёрчеры делом пробегают и сбегают в ужасе через 3нс. >>532394 >и прочими дедлайнами Вот как раз в сфере ИИ и его внедрения сейчас жопы на дедлайны горят у всех, выкатывают даже сервисы без реализации системы тарификации, лол.
Врываюсь к спецам с нубскими вопросами. почему не делают языковые модели на CNN какие минусы? Ведь CNN больше похоже на то как работает мозг.
И еще если не трудно подскажите, никак не вдуплю чем encoder-decoder отличается от decoder-only. Ведь encoder и decoder это тот же трансформер. Можно так же от балды ткунуть посередине слоев decoder-only и сказать вот ниже encoder а выше decoder.
>>538794 >Ведь CNN больше похоже на то как работает мозг. Только одна небольшая специализированная часть. Ну и трансформеры тупо проще и легче масштабируются.
>>538794 > CNN больше похоже на то как работает мозг В каком месте? CNN даже отдалённо не похож на работу мозга, это фактически фильтрация данных, связи там реализуются через костыли. А аттеншен - это и есть алгоритм определения связей в данных, в самом алгоритме аттеншена так-то даже параметров нет. > Можно так же от балды ткунуть посередине слоев decoder-only и сказать вот ниже encoder а выше decoder. В encoder-decoder есть некое сжатое промежуточное состояние. А в decoder-only каждый слой - это просто отдельный декодер.
>>538344 Такое уже немного есть или скоро будет. Корпорациям надо нащупать границу окупаемости и сложности. Еще немного производительности в ципах добавится - и такая хуйня будет в каждом утюге.
>>539863 Схуяли ты решил, что они окупаются? Пока они все работают на пердячем пару от инвесторов. По факту урезанные нейронки ещё могут как-то работать в системах типа рекомендательных, а вот (де)генеративные нейросети вряд ли лет через 5 будут кому нужны, особенно текстовые. Больше жрут электричества чем пользы приносят.
>>538794 >почему не делают языковые модели на CNN На сколько помню, на нем сделан модуль кодера добавляющий сетке мультимодальность, возможность "читать" изображения.
Сколько нужно средств чтобы самостоятельно обучить минимальную ЛЛМку с нуля? Хочу поэксперементировать над архитектурой, но затраты на это просто пиздец. Чтобы она хоть как-то была пригодна для сравнения нужны миллионы параметров, иначе это бредогенератор. Можно было бы сравнить выдаваемый бред, офк, на старой и новой архитектуре, но нет нормальных бенчмарков для сравнения, все текущие бенчмарки для оценки ЛЛМ основаны на проценте выполненных без ошибок задач.
>>548053 >на одной 4090 за пару недель. А это подъемно даже. Только надо сайты глазами пылесосить, чтоб до 200к урвать. Либо в облаке тренить, но там тоже тыщ 70 уйдет на одну модель
А почему все так носятся с этим AGI? Если он будет по стоимости как кластер H100, то не дешевле будет аутсорсить спецов из нищих параш. Будет просто конкурировать с индусами. Что бы был какой-то революционный скачок в прогрессе и экономике нужно уместить 130 IQ человека в одну карточку A100. Но это так, мои манярассуждения. Поправьте если не прав.
>>548486 >Если он будет по стоимости как кластер H100 Все арендуют, а пока большие дяди демпингуют, выгоднее закинуть затравку и получать тонны бредотекста, нежели чем напрягать копирайтеров. Интернет уже не спасти.
>>548486 >А почему все так носятся с этим AGI? Скейлящийся по размеру и скорости заменитель человека, который универсально будет решать все проблемы дешевле, а он в любом случае с развитием технологии будет дешевле, и быстрее и доступен абсолютно любой компании/человеку по АПИ, без нужды нанимать тысячи индусов через 10 циклов проверок. Действительно почему?
>>549803 На что там смотреть? Это говно решается простым reinforcement learning и ревардом на поиск новых более простых способов решения задачи. Понятное дело что такого пока нет из-за недостаточных вычислительных мощностей для реалтайм reinforcement learning, но в теории не вижу никаких причин что этому могло бы помешать при увеличении производительности железа в 10+ раз. То что там описывают невозможно только если нейросетка неспособна в обучение по время инференса.
>>549821 Схуяли оно не работает? Оно именно эту задачу и решает - сделать что-то необычное/рандомное с предметом в руке и посмотреть что будет, если что-то хорошее получилось - применить это к решаемой задаче. Оно просто сейчас в более примитивном виде работает и все сетки фактически с полного нуля обучаются без багажа знаний про "что будет если сделать вот так". Вот пример васяна, использующего примитивную архитектуру и очень мелкий набор входных параметров: https://www.youtube.com/watch?v=Dw3BZ6O_8LY
>>549855 Сейчас бы сравнивать микронейросеть с 10 часами обучения и мозг с 10 годами обучения. Ты можешь сколько угодно рякать, но человеку нужно намного больше времени чтобы научиться чему-то с нуля и у сеток нет проблем с решением неизвестных задач самостоятельно. Я не вижу внятной аргументации почему оно не будет работать в равных условиях, когда разница лишь в исполнении нейросети - биологическая/электронная. Перенос опыта одной нейросети в другую как у людей уже в какой-то мере делаем, отсеивание бредовых решений на основе опыта мультиагенты уже делаем, отчасти сетки уже могут сами себя направлять в нужную сторону и симуляция цепочек решений "в уме" опять те же мультиагенты - это вполне реализуемые вещи. В том числе выстраивание длинных цепочек действий с неопределённым результатом с целью "попробовать", если вероятность успеха ненулевая. По той ссылке у учёных в говне мочёных это почему-то стало невозможно только по причине того что они сиюминутно не могут придумать математическую модель этого, про реализацию возможностей и эволюцию вообще кринж - это просто надуманные ограничения, заданные человеком.
>>549870 >когда разница лишь в исполнении нейросети - биологическая/электронная Хуя ты сравнил. Если что, я не тот шиз, который утверждает, что ИИ возможен только в мясе. Я лишь утверждаю, что именно текущий уровень нейросетей не позволит без тонны костылей построить хоть что-то напоминающее человека в сфере рассуждений и поиска решений.
>>549870 Мозгу ребенка нужна тарелка пориджа и две всратые картинки кошки, чтобы понять что такое кошка. Сколько гигатонн пориджа и террабайт фоток нужно cv сетке для аналогичного результата?
У меня есть мечта сделать генератор фильмов, насколько это трудно выполнимая задача? Например я сделаю такую нейросеть и буду продавать доступы, будет ли у меня проблемы с исками авторских прав от крупных компаний если нейросеть будет генерировать фильмы которые похожие на те фильмы которые выпускают компании?
Есть идеи у кого, зачем A в этой йобе? Из всех вещей в архитектуре у меня на уме только две вещи у которых есть прямой геометрический смысл, в которых это собсна можно использовать, - это эмбеддинги и непосредственно сама нейронная сеть. В первом случае это может использоваться для нахождения наименьшей логической цепочки от эмбеддинга к эмбеддингу, чтобы в последствии это давало нейронке какое-то преимущество какое не ясно. Во втором случае собственно искать ближайший путь от к нейрона к другому нейрону через другие нейроны. Зачем это может быть нужно, непосредственно при использовании нейросети, я не знаю, но может быть полезно при ее обучении. Тем более, что метод обучения так же указан в названии проекта, возможно Q - это модификация самого Q-learning метода.
Вот короче: Есть идеи у кого, зачем A★ в этой йобе? Из всех вещей в архитектуре у меня на уме только две вещи у которых есть прямой геометрический смысл, в которых это собсна можно использовать, - это эмбеддинги и непосредственно сама нейронная сеть. В первом случае это может использоваться для нахождения наименьшей логической цепочки от эмбеддинга к эмбеддингу, чтобы в последствии это давало нейронке какое-то преимущество какое не ясно. Во втором случае собственно искать ближайший путь от к нейрона к другому нейрону через другие нейроны. Зачем это может быть нужно, непосредственно при использовании нейросети, я не знаю, но может быть полезно при ее обучении. Тем более, что метод обучения так же указан в названии проекта, возможно Q★ - это модификация самого Q-learning метода.
>>552910 https://www.youtube.com/watch?v=T1RuUw019vA Хм, вот тут чел предпологает, на основе твиттерских высеров но все же, что это метод обучения. Что наверное логичнее всего, с учетом того, что то за чем они гонятся - это процент правильно решенных задач. Вроде того, что условно берется какая-то точка в виде начальной точки решения задачи, нейронка выдает предположения, все это брутфорсится пока нейронка не решит задачу, а потом ищется наилучший путь решения А старом. Q лернинг обучает модельку подкрепляя правильные решения в выборе следующего шага, который являлся частью кратчайшего пути, а в случае неправильного не дает реворда. Обидно, но походу они все еще продолжают дрочить трансформер и это не архитектурное изменение, а всего-лишь метод обучения. Ну хоть хорошо что они это не на уровне "AGI агента", поверх готовой модели пытаются реализовать.
>>549870 >Я не вижу внятной аргументации Глаза разуй, ебобо. У тебя гипотезы о мире формируются уже на уровне саккад. Само твое зрение - это уже активное исследование среды.
Вы своим сраным "ехал инференс через инференс" заебали уже. Человек не осуществляет инференс, он систематически модулирует входящий сенсорный поток, выявляя его каузальный каркас. Любой твой пук, любое твое движение, любая попытка взглянуть на мир, настроить ухо на звук или шевельнуть мозговой извилиной направлены строго на генерацию обучающей выборки. Выборка не приходит извне, она формируется в ходе активного исследования среды - ребенок не ждет, когда в него загрузят фото с ямкой в песке, он тупо берет палку и ковыряет эту ямку сам. Он сам выбирает, в какую сторону посмотреть, чтобы загрузить в мозг новую деталь сцены. Он вертит в руках кубик, чтобы сгенерировать данные о его невидимой стороне, он кидает кубик на землю, чтобы сгенерировать данные о падении кубиков. Он ищет походящую книжку, чтобы почитать про смешное. Он прикидывает, мечтает и фантазирует, запуская во внутренней виртуалочке модели возможных миров - и обучаясь на этих синтетических данных. И так далее и так далее.
Генерация выборки самим агентом, причинно связанная с его действиями позволяет сократить объем данных для обучения в триллион пупильонов раз. И никаких 10 лет обучения в случае людей нет - 99.99% своего времени ребенок вращается среди бесчисленных дубликатов уже сто раз выученных им данных, на реальное обучение чему-то новому приходится только 0.01%, и выучивается это новое практически мгновенно и всего на паре-другой примеров. Потому что каузалочка и моделирование мира решают. Сколько задач нужно решить, чтобы за десять лет превратить пятиклашку в бакалавра математики? Ну, от силы тысяч десять. То есть всего порядка 10Мб плейнтекста, если приплюсовать к задачам еще и учебники по матану. Ни одна нейросеть не даст аналогичный рост сложности на основе такого микроскопического количества исходных данных.
Когда эту нейроёбань научат хотя бы самостоятельной навигации по ландшафту данных, тогда можно будет что-то высирать про искусственный интеллект. А пока это просто дрессированный на терабайтах мелко нарезанной макулатуры кисель.
>>553279 >>553651 Кто вам сказал, что человеческий вариант мышления - это единственный способ достижения AGI? Может быть в вашем понимании определение AGI значит искуственный интеллект с человеческим мышлением, в моем же понимании AGI - это искусственный интеллект способный решать любую умственную задачу на которую способен человек. Я уверен, что даже ссаный трансформер, без возможности дообучения и даже без рефлексии на сгенерированных им же данных, сможет в AGI, при грамотном обучении. Да, это примитивная архитектура и ее придется поверх оборачивать каким-нибудь агентом для этого. Да, просто копирование стиля человеческого текста не хватит на то чтобы прыгнуть ВЫШЕ человека, там уже нужно дообучение на внутреннем диалоге, но именно решать задачи на которые способен средний человек оно сможет. Другое дело, что они и не пытаются в новые архитектуры и продолжают мучать старенький трансформер. Они могут достичь AGI, но эта неоптимизированная йоба будет раниться толко на сверхмощном железе и иметь неприятные косяки при использовании с которыми придется мериться. Все что они делают сейчас - это забрасывают примитивную архитектуру деньгами, в надежде быстрее всех накрутить на нее костылей до AGI, пока хайп есть и эти деньги выдают.
>>553644 Ага. Ускоряют feed forward в десятки раз (жаль что не аттеншен). Плюс по ходу у них бранчи независимы, т.е. выглядит это как прямой путь к pretraining@home
блять, как вы заебали со своими маняфантазиями в рисёрч треде, шизики ебучие, читайте блеать устав ClosedAI https://openai.com/charter >artificial general intelligence (AGI)—by which we mean highly autonomous systems that outperform humans at most economically valuable work у них декларированная цель компании это не имитировать человеков, а при помощи нейронок оставить всех без работы на практике (и заодно быть вахтёром нейронки, во имя безопасности конечно)
пиздуйте домашку делать, вместо того чтобы бороздить просторы большого театра в вакууме
>>549813 >>549826 >>549833 >>549870 >reinforcement Вы действительно думаете, что вот эти вот учёные с мировым именем погорели бы на этом тупорылом reinforcement'е, о котором сейчас знает каждый школьник? В том треде я написал немного подробностей простым языком, кстати, и уже из них понятно, что всё далеко не так просто. Двачерски советую вам перед таким категоричным комментированием подобных статей иногда их читать.
>>553813 >>artificial general intelligence (AGI)—by which we mean highly autonomous systems that outperform humans at most economically valuable work Короче говоря, айтикуколды из ОпенАИ по обыкновению подменяют понятия.
>>553817 > тупорылом Это скорее ты тупорылый, потому что тебе прямым текстом написали почему его не могут использовать. Потому что, блять, обучение в реалтайме архитектура не позволяет, а не какие-то фантазии шизоидов с реддита. Потребность в подобном появилась меньше года назад, сука ты тупорылая. Сейчас весь прогресс идёт на уменьшение моделей и увеличение скорости обучения, можешь засекать сколько лет потребуется до того как к инференсу прикрутят reinforcement learning, долго ждать не придётся.
>>553833 сам ты SI, все твои умственные способности к генерализации и прочему это на 99% пласт, накопленный/дистилированный поколениями и переданный тебе, т.е. социальный суперинтеллект
а сами биологические способности это хуйня из коня и не очень от свинки или собачки отличаются, если ты пещерному маугли из джунглей преподашь любую простую для тебя концепцию, хоть даже письма или счета, он охуеет что так можно было
>>553824 Это кумеры подменяют понятия, прося сделать им вайфу неотличимую от человека. Что само по себе довольно бредово, потому что они не хотят/не могут с реальными бабами общаться. AGI здорового человека - это именно general purpose сетка, для неё не ставится задачи имитировать мясной мешок, достаточно решать умственные задачи лучше мясного мешка. А то шизоиды буквально просят им сделать как в соевых историях из Голливуда, где роботы имитируют людей -> им дают права и свободы как людям -> они бунтуют и уничтожают людей. Т.е. это фактически просто в голове больных шизоидов находится, в том числе и опасность ИИ они сами выдумали. Реальная опасность ИИ, про которую все сейчас на верхах говорят, не в AGI и бунте машин, а в том как её будут люди использовать, в частности в сфере контроля и распространения информации.
>>553861 >AGI здорового человека - это именно general purpose сетка Это уточнение поднесли уже после того когда стало ясно что хайп пустой и за 100500 миллионов вечнозелёных мочёные так и не могут научить сетку два числа складывать без костылей. Удивительно что при этом это не мешает сектантам спекулировать про мысли, обобщения и ризонинг, не возникает вообще диссонанса
Можно ли закодить нейросеть где target является вектором? Я хочу попробовать какой-нибудь простенький шифр взломать с помощью нейросети, но не перебором, а просто настакать слои. Чисто из исследовательского интереса.
Как подойти к этой задаче?
Допустим, я буду считать что у меня ОДИН секретный ключ, но много данных. Мне кажется, что простое представление target в виде float64 - тупая идея, но не могу себе объяснить. Как правильно тут поступить?
>>555484 Можешь. Если брать простенький шифр из 8 знаков, то считай таргет как вектор из миллиарда вероятностей. Хорошего суперкомпьютера из тесл должно хватить на решение задачи, пару лет на обучение закладывай в бюджет.
>>555595 >Если брать простенький шифр из 8 знаков, то считай таргет как вектор из миллиарда вероятностей Т.е. почему при сложненьком алфавите из как минимум 23 знаков таргет у ллмок не миллиардной размерности эс-пидерашка не понимает, получается?
>>553843 >прикрутят reinforcement Всё ясно: ты просто тупой и необучаемый. Наука - не твоё, завязывай со спекуляциями. Твой потолок - написание быдлокода с reinforcement'ом.
Пиздец, весь интернет во всю обсуждает Q*, а из обсуждения в этом треде были только мои, никому не нужные, посты и пук постом выше. Хоть могли бы подумать как это и что это, собрать всю известную инфу и предположения в интернете и попытаться как-то это развить. В любом случае думаю в относительно ближайшее время появится опенсорс реализация этого алгоритма, в очень кривом, но худо-бедно работающем виде. Хочется пощупать уже.
>>557894 >Пиздец, весь интернет во всю обсуждает Q*, Что там обсуждать? Говно говна от мерзкой корпорации. Вот выкатят в опенсорс, тогда будем обсуждать, а сейчас это говно задаром не нужно на их серверах.
>>558030 Даже отвечать тебе западло. Когда речь идет об откровенно революционном методе, который сочетает в себе несколько, научных статей и годы разработки других проектов OpenAI, ты просто так сводишь этот метод до дефолтного Q-learning'а и выдаешь тейк уровня: "Эм, ты что ламер-дурачок? Не пообовал гуглить про уже_известный_метод_нейм?", действительно, они же там ничего нового не сделали, DQN в ядре концепции, так что я крутой и считай уже все знаю, могу пофлексить этим.
>>558105 Чел, есть чёткая нотация в математике и Q* - это математическая нотация алгоритма Q-learning. На этом свои спекуляции можешь закончить. Это ClosedAI сами сказали над реализацией какого алгоритма работают, они именно про него говорили, а не про PPO и его производные. > сводишь этот метод до дефолтного Q-learning А трансформеры у нас не дефолтные уже 6 лет? Заканчивай с шизой вместе с дурачками с реддита. Как ClosedAI этот алгоритм применяют на практике тебе никто не скажет, ты бы ещё reward-модель попросил выложить, а потом заодно веса гопоты. Можешь посмотреть на реализацию APA от Беркли, если интересно как в реальности сейчас reinforcement learning используют в LLM, там без Q, просто PPO. https://starling.cs.berkeley.edu/
>>557204 >Чел, OpenAI именно этим сейчас и заняты, пришивая Q-learning к GPT. AGI-шизики как всегда тупые. Это понятно, но тот анон пошёл ещё дальше. Я ему говорю, что вычислительный AGI невозможен в принципе, как показали исследования последних лет в области теоретической биологии, а он мне отвечает, что вот сейчас ещё "к инференсу прикрутят reinforcement learning" и всё ништяк сразу будет. Если не верит, то пусть ищет ошибки в тех статьях, а нерелевантную чушь про всемогущий reinforcement и прочий "биттер лессон" писать никакого смысла нет.
>>558408 > вычислительный AGI невозможен в принципе Тебе уже сказали раньше что твоё шизоидное определение AGI не соответствует реальности. > исследования последних лет в области теоретической биологии Опять выдавание желаемого за действительность и споры с голосами в голове, не имеющими вообще никакого отношения к AGI.
>>558414 Ну ясно. Айтишники всегда могут выдумать своё определение AGI и реализовать его уже в таком упрощённом виде. Не беспокойся, никто у тебя работу не отнимет, ведь у маркетологов из Кремниевой долины гораздо больше денег для пропаганды своих идей, чем у учёных. И исследования ты можешь и дальше не замечать.
>>558428 Шизоид, плиз. Определение AGI от Гугла из 2019: > AGI could learn to accomplish any intellectual task that human beings or animals can perform. От ClosedAI из 2023: > AGI has been defined as an autonomous system that surpasses human capabilities in the majority of economically valuable tasks. Задачи симулировать мозг и мыслительные процессы людей там вообще не стоит, никогда и не было, речь только про выполнение умственных задач. Только шизы приплетают биологию сюда. Поделись своими фантазиями о том что такое AGI, посмеёмся всем тредом. > исследования ты можешь и дальше не замечать Это ты как раз игноришь абсолютно все исследования по нейросетям, приплетая какое-то говно вообще из других областей и выдумывая определения на ходу.
>>558443 >AGI could learn to accomplish any intellectual task that human beings or animals can perform. Нормальное определение. >AGI has been defined as an autonomous system that surpasses human capabilities in the majority of economically valuable tasks. Определение ASI.
Обидно смотреть как много гугл контрибьютит в ИИ, как шире и правильнее их понимание в этой теме и как они сейчас сосут по сравнению с ОпенИИ, которым просто повезло с маркетологами и с тем чтобы выбрать и пушить правильную нишу. С другой стороны, они до сих пор не смогли сделать чтобы Бард не галлюцинировал хотя бы на уровне Гпт-3.5 мимо
>>558491 >по сравнению с ОпенИИ, которым просто повезло с маркетологами С разработчиками им повезло, их продукт реально лучше гуглопараши в языковых вопросах.
>>511426 (OP) Есть тут знатоки? Допустим у меня какая-то сложная функция многочлена, y от x, я хочу, чтобы моя модель предсказывала ее значение на любом x даже на том, на котором данных нет. Да похуй, даже простая синусоида, если. Я вижу два способа: 1. подавать рандомные x в качестве входных данных и значение six(x) в качестве проверки на выходе. 2. Использовать реккурентные сети, то есть x вообще никуда не подавать, а подавать только предыдущие значения y и предсказывать следующее. Какой метод лучше всего подходит для данной хуйни? Можно обосновать?
>>559932 Чел, нейросети - это статистика, палю тебе лайфхак. Берёшь "какая-то сложная функция многочлена", скармливаешь ей рандомные инпуты, сохраняешь ответы в БД, по запросам достаёшь ответы из неё. Профит, ты сделал нейросеть из одного слоя, ты теперь молодец. Можешь ещё усреднить статистику - это ты "обучишь" эту сетку.
>>559954 Я пока нихуя не понимаю на низком уровне, как все это делается. Допустим я научу на значениях от 0 до 100 по x на функции sin(x), оно будет так же предсказывать значения на любых других отрезках? Типа если я задам уже обученной модели 250 или 1000 по иксу? Но вопрос был в том, какой именно метод лучше использовать и почему. Типа с подачей X или просто рекурентную сеть как последовательность предыдущих значений по игрику? Я так понимаю, что рекурентные сети лучше подходят тогда, когда нет какой-то привязке к времени, а когда есть тогда похуй?
>>559971 Ты вообще хуйнёй пытаешься заняться. Бери задачи из статистики, а не арифметики. Нейросети нужны когда ты не знаешь как из инпута получается ответ, скармливая сетке статистику ты можешь научить её предсказывать эти ответы. Эффективность калькулятора на нейросетях околонулевая будет. > какой именно метод лучше использовать Ты сразу же обосрёшься с абсолютным значением, если попытаешься в выводе сетки получить ответ. Тут в принципе нормального метода не может быть. Ты думаешь почему в LLM сетки возвращают вероятности для всего словаря, а не просто значение токена? Сетки умеют нормально работать только со статистикой, и ответы они дают в виде некоего статистического распределения.
>>558443 >Только шизы приплетают биологию сюда. Ты просто тупой.
>Поделись своими фантазиями о том что такое AGI, посмеёмся всем тредом. Вот это подходит: >Определение AGI от Гугла из 2019: >> AGI could learn to accomplish any intellectual task that human beings or animals can perform. Охренеть, конечно, у вменяемых людей определение AGI всегда было таким, но у нейродебила с двача его Гугл придумал в 2019.
>Это ты как раз игноришь абсолютно все исследования по нейросетям, приплетая какое-то говно вообще из других областей и выдумывая определения на ходу. Нет никаких исследований по нейросетям, кроме чисто экспериментальной инженерной херни, которая ни на какие фундаментальные вопросы не отвечает. Вапниковская тема тоже далеко не пошла, и понятно, почему так.
>Шизоид, плиз. У тебя, как и ожидалось, нет никаких аргументов. Идёшь нахер.
>>559932 А нахуя тебе? Если это конечная задача, то лучше воспользуйся дефолтными методами аппроксимации. Если хочешь именно нейронку, то используй, лол. Нейронка и есть по сути универсальный аппроксиматор. Набери датасет из известных пар x и y, подели на часть для тренинга и тестирования, возьми какую-нибудь дефолтную однослойную нейронку, да обучи стандартным методом кераса. Это прям самая базовая задача по машинному обучению по сути.
>>511426 (OP) Решил локально запустить сетку на 3060. В Пайчарме скачал готовую модель, чуть чуть разморозил, добавил слоёв, запустил обучение - учится на КПУ. С сайта нвидии ставил КУДУ, драйвера. Ставил тензорфлоу с поддержкой ГПУ через пип инсталл. Пакеты в пайчарме ставил. Не запускается на ГПУ. При использовании model.to(device) - ошибка, что нет такого метода to. При использовании model.cuda() - такая же ошибка. При этом device корректно определяется.
>>559932 Если у тебя уже есть уравнение, значит ты итак можешь любой у на любом х узнать. Сети нужны, когда у тебя есть куча пар х и у, чтобы выявить закономерность-уравнение и предсказывать значении у при изменении х.
Но сделал свое чуть другое gym environment. Саму нейронку оставил как есть (скорректировал количество входящих параметров, их стало на 1 больше). В итоге у меня происходит такая хуйня. Как вы поняли из ссылки, это обучение с подкреплением, типа, балансир, он стремится упасть, но можно низ двигать вправо-влево и держать его в балансе. Задача нейронки научиться это делать. В примере с гитхаба все работает, причем даже двумя способами. У меня после десятка итераций нейронка начинает двигать стабильно "влево" или "вправо", ессно балансир сразу падает. Я сравнивал, что идет на вход нейронки у меня и в примере - вроде более-менее то же самое. Но у меня нейронка выдает стабильно "влево", причем по мере обучения вероятность этого "влево" доходит до 100%, независимо от входных данных.
Видимо, дело в каких-то параметрах типа скорости убывания подкрепления или что там еще. Попробую их поменять туда-сюда, может поможет. Подскажите такой вопрос: как в торче смотреть внутренности нейронки и понимать, что обучение заходит не туда? Есть ли какие-нибудь тулы для этого? Или только проверять работу на примерах?
>>560002 >Ты сразу же обосрёшься с абсолютным значением, если попытаешься в выводе сетки получить ответ. А как вообще делают, если надо от сетки получить числовой ответ? Допустим, я хочу предсказать стоимость квартиры. Смотрел пример на торче, но он выдает вердикт "ниже/выше рынка" если я правильно понял. А вот когда мне надо числовое значение получить? И хотелось бы, чтобы по мере обучения это числовое значение было все точнее, т.е. появлялось больше значащих цифр. Как это делают в индустрии?
>>569715 > Подскажите такой вопрос: как в торче смотреть внутренности нейронки и понимать, что обучение заходит не туда? Есть ли какие-нибудь тулы для этого? Или только проверять работу на примерах? Графики с метриками. Аккураси, лоссы и проч.
Из редита. Сражаясь на этапе «Выносливость», игрок сталкивается с двумя противниками в каждом раунде, один за другим (в данном случае первый Кано, а второй Соня), и чтобы победить, ему необходимо победить их обоих.
Это нетривиальная задача, так как здоровье игрока не сбрасывается, поэтому второму противнику легко победить. Вот что происходит в первом раунде, когда Соня убивает Сектора.
Но посмотрите, что происходит во втором раунде, модель нашла более простой способ победить: она почти убивает Кано, первого противника, и вместо того, чтобы добить его, он участвует в танце роботов, чтобы обмануть игру и заставить таймер раунда истечь. обеспечить победу, не встречаясь со вторым противником!
Это возникающее поведение, возникающее только в результате обучения RL, для его получения не было изменено никакого специального кода или функции вознаграждения. Мы видели, как это происходит последовательно и используется моделью, чтобы обойти внутреннюю трудность этого конкретного этапа.
Один из самых увлекательных аспектов обучения с подкреплением — это наблюдение за возникающими моделями поведения, позволяющими достичь задачи способами, о которых вы даже не ожидали.
>>569927 Так это классика "работающего" рля: вместо интересного для применения решения сложной задачи, модель перебором просто достаточно быстро находит баги в твоей симуляции и их эксплуатирует
А поясните долбоебу как это DDP в торче работает? Есть вот исследование с моделькой и кодом, там DDP. В исследовании говорится типа "модель тренировалась с batch=3, max_step=50000 на 4 GPU". То есть получается финальная модель видела 50000x4 семплов? Если я хочу воспроизвести описанные результаты на 1 GPU с таким же batch_size - мне нужно увеличить кол-во итераций в те же 4 раза?
>>576493 > Если я хочу воспроизвести описанные результаты на 1 GPU с таким же batch_size - мне нужно увеличить кол-во итераций в те же 4 раза? Нет, надо gradient accumulation использовать, если нет памяти. В текстовых моделях вообще батч-сайз бывает под 1024 и более для нормальной генерализации.
>>589946 Уже обоссали, AGI к биологии никакого отношения не имеет и сравнивать его с живыми организмами - высасывание из пальца грантов. Трансформеры уже давно нахуй послали классические нейросети по образу и подобию мозга.
Заканчиваю Computer Science бакалавра, скоро начну магистра делать, в планах стать MLE. Ищу подработку стажером. Имеет ли смысл работать стажером аналитиком данных при моих планах стать МЛЕ? Аналитик данных как я понял не программирует и он даже не дата саентист. Хрюша сказала что подхожу, скоро собеседование с ИТ отделом.
>>592704 Устраивайся хоть куда-нибудь, без опыта ты вообще никто. И да, ты уже целый бакалавр, а не работал? Что ты там в институте вообще делал? Хуи пинал?
>>592922 >Устраивайся хоть куда-нибудь, без опыта ты вообще никто. Спасибо, принял. Почти всё что есть это моя работа бакалавра: в симуляции ROS летающий робот (Astrobee на ISS в японском отсеке) с камерой смотрит на другой летающий объект в невесомости и определяет расстояние и направление относительно камеры (ключевые слова: Computer Vision, Dataset Generation, Machine Learning, 6-DOF Pose Estimation, YOLOv8). Причем с созданием датасета я ебался гдето 75-80% времени.
>Хуи пинал? Да и телок ебал, работать идти я даже и не думал, бабки были.
>>511426 (OP) >В основном линейная алгебра, теорвер, матстат, базовый матан и matrix calculus. Как бы ее освоить поэффективнее? Решать в тетрадке задачи из учебников это классика, но я вот встретил курс coding the matrix - там линейная алгебра объясняется через питон и все задачи на нем решаешь - мне очень нравится. Есть курсы или книги, чтобы другие разделы математики также объяснялись - через программирование?
Как в C# использовать видеокарту для обучения? Я именно сам описываю масссивыы и циклы с операциями, а не библиотекамми пользуюсь, и хочу использовать видеокарту для этого.
Какие решения можно взять в основу мультимодальной системы для создания (+ теста и компиляции) новых оригинальных видеоигр? (Для начала пусть будут 8-битные, для NES)
А также, в чем сложность сделать из коробки генерацию продукта по инструкции?
>>611695 Все что было в СССР из технологий - это реплики нормальных разработок. Как у Китая сейчас и тогда тоже. Процы они сейчас только научаются копировать какой-то 20-летней давности
Так что серьезно даже не задумывайся об СССР как о гиганте, в лучшем случае это ушедший в прошлое аналог современного Китая
>>589946 >Так может ли AGI БЫТЬ? Нет, не может. По крайней мере в научном мире никто ничего не придумал против этой статьи и многих десятков подобных ей. Этого еблана >>589960 не слушай, он очень тупой.
>>614780 > серьёзные люди обычно следят за работами персонажей уровня Только разве что ради смеха, чтоб посмеяться с этих потешных персонажей, лезущих из биологии в то что вообще не понимают.
>>614800 Всё ясно, ты стандартный долбоёб. Иди нахуй. >в то что вообще не понимают И да, в машобе нечего понимать. Это не наука, а способ заработка. Но у тебя слишком высокое самомнение и слишком низкое образование, чтобы это понять.
>>614832 Либерасту нельзя такое говорить, у него сердечко не выдержит. Не говорите либерасту, что СССР придумал продвинутый бэкпроп и половину мл своего времени.
>>614780 >следят за работами персонажей уровня Чел, сейчас уже никто не следит за работами отдельных людей. Тем более дрочество на титулы в науке не приветствуется. >>614876 >Не говорите либерасту Я либераст до мозга костей, и мне похуй, что у совка нейронки почту сортировали ещё до рождения большинства посетителей раздела. Вопросы?
Какие есть способы быстро находить местоположение объекта на картинке? Я сейчас пробовал только разбиение картинки на мелкие прямоугольники и применение метода компьютерного зрения на них по отдельности.
Предполагаю, можно раскормить сеть, чтобы реагировала независимо от расположения, а потом наоборот, выбрасывать части, где объекта нет.
Есть ли что-то еще быстрее?
Хотть раздел и нейросети, мне не обязательно именно нейросетью это делать, могу текстонами, статистикой по цветам, или ещё чем-то, чем подскажете делать, если это сильно быстрее получится.
Дисбаланс в датасете классов для мульти лейбл классификаторе оказывает негативное влияние? Если да, то как интеррогаторы типа DeepDanbooru с этим справляются, ведь там наверняка у большинства картинок в датасете есть лейбл 1girl или solo?
>>620875 >Дисбаланс в датасете классов для мульти лейбл классификаторе оказывает негативное влияние? Да. >как интеррогаторы типа DeepDanbooru с этим справляются Никак, лепят 1girl куда попало. Мимо обыватель.
>>623584 > Да. Ансамблирование может помочь? Если разбить несбалансированный датасет на 3-4 группы сбалансированных и на них обучать? Потом склеить вывод обученных моделей.
>>631450 >Важная пафосная мл персона список на собесе развернуть не смогла А кто блядь сможет? Сразу видно выскочку из двухнедельных курсов по прохождению собеседований. Найм в IT давно сломан нахуй. Я последнее предложение по работе послал нахуй, когда они мой возраст спросили, лол. Впрочем трагедия тут в деградации яичек соискателей. В 2015-м могли написать fuck, а в 2024 ссыкуют.
Подскажите зачем столько фреймворков на обучение lit-gpt, EasyDeL, PEFT, ну и другие просто десятки разных вариантов.
Второе как все таки что то обучить на tpu в коллабе, ведь там как я понял допотопные драва на TPU jax новый не работает, другие библиотеки пробовал тоже косяки они хотят TPU VM, в коллабе его нет.
>>633689 А что он там умер по какому поводу? То что не обновляют его? Это ведь не значит что можно как то исхитрится. И ресурсы доступнее для того наверно и делалось, чтоб нормальная версия за денюжку.
>>633689 Просто там может еще какие ограничения на TPU которые принципиально не дают запустить обучение? Стоит ли ебаться с TPU пытаясь запустить обучение ил в любом случае не выйдет?
Что то я не совсем понял почему в lit-gpt пишут что обучение на двух видеокартах медленнее. Ведь при обучении можно делать много потоков видюха номер 1 не должна простаивать пока вторая вычисляет другую часть модели, ведь в первую ведюху можно еще задач накидать, необязательно ждать полного вычисления семпла, чтоб пустить второй.
Добрый день, люди добрые! Решил вкатиться в ИИ с нулевым бэкграундом, до этого кем только не работал. Знакомые порекомендовали направление промт-инженеринга как самое перспективное и свежее. Хотел узнать у анонов такие вещи как: 1) Действительно ли промт-инженер это так круто, почетно и перспективно? 2) Сколько нужно потратить времени чтобы с нуля быть готовым к работе в этом направлении? Какие обучалки порекомендуете 3) Реально ли устроится в РФ и найти работу промт-инженера ВТЧ без реального опыта( допустим я его нарисую пройдя обучалки). либо напрошусь как стажер
>>653261 >1) Действительно ли промт-инженер это так круто, почетно и перспективно? Нет, промты может писать хоть секретутка. Порог входа не просто низкий, он нулевой нахуй. Ты уверен, что хочешь конкурировать за миску риса буквально со всем населением страны? >Реально ли устроится в РФ и найти работу Нет конечно, не в этой стране. Пиздуй на завод в ВПК, только там работа осталась. А в остальном я даже с 5 летним опытом программача не могу РАБоту найти. Ну или съебись предварительно в СШП или другую развитую страну.
Посмотрите на прилагаемые видео. Вы можете наблюдать как нейрон ползает туда сюда в поиске других нейронов, его отростки тянутся к другим нейронам, они постоянно в поиске других отростков, они постоянно формируют новые связи и строят масштабные сетевые и гиперсетевые структуры, в то время как искусственные нейроны структура негибкая, они не строят новые связи в реальном времени, они просто статично стоят на месте и обучены делать только то на что их обучали, а потом все удивляются, почему же нейросетки такие тупые, почему в них нет сознания? Нужна новая архитектура нейронок, такая которая будет сама создавать новые нейроны и устанавливать все параметры, а над ней будет миллиард слоёв других нейронок, в каждом слое каждая нейронка отвечает за что-то своё, мозг не зря разделён между собой на зоны. Таким образом удастся создать нечто похожее на постоянный процесс напоминающий реальную жизнь, таким образом удастся задать какую-то мотивацию для "клеток". И во всём этом хаосе у нейронки появятся слои абстракции с возможностью к восприятию, целеполаганию, самоанализу и решению задач в реальном времени.
>>600012 → Хотел было написать в тред в защиту профа что он гений матана, а не описыватель пятен на анусе павианов или что там себе нейродебилы при упоминании биолога представляют, но увидел твой комментарий с хейтом математики в и проиграл. Машоб. 2024. Итоги. >>614866 Обнял.
>>558408 >>553710 > что человеческий вариант мышления - это единственный способ достижения AGI? Может быть в вашем понимании определение AGI значит искуственный интеллект с человеческим мышлением, в моем же понимании AGI - это искусственный интеллект способный решать любую умственную задачу на которую способен человек А чё там решать? Смотришь, чё было раньше и делаешь также. Только для всего в теле носителя ИИ. Расскажите про архитектуру по хардкору. Понятно уже, что память с программой в одном месте должна храниться как-то, потому что долго смотреть, чё было раньше. А что насчёт реализации этой парадигмы? Что можно почитать на эту тему?
Сука, ни одного нормального видео по селф-атеншну в интернете, только двухчасовые лекции. Что там два часа, нахуй, ковырять? Расскажите вы про базовый механизм, как это работает в общем и все, без реализаций, ваших мыслей, отсылок на Ницше, математического смысла данной концепции, рассказов о том, что это было в библейском пророчестве и советов о том какое аниме посмотреть. Просто, сука, расскажите про них нормально. Я не датасцаентист, но хочу знать принцип работы, а пока по всей информации что я пока имею, общий образ о том что это такое я пока не собрал. Для меня это сейчас какой-то псевдо-брутфорс всех возможных вариантов взаимодействия токенов друг с другом оптимизированный под то, что не все варианты одинаково эффективно приминимы и часть из них можно выкинуть, чтоб меньше времени на генерацию уходило, в ущерб качеству.
>>686645 Все равно механизм не понятен. Это не то чтобы новая топология получается, ведь значения аттеншна не строго 0 или 1, это скорее фокусировка на определенной части нейронов. Но откуда оно берется, как оно понимает на каких токенах фокусироваться?
Анончики, что-то я вкрай ебанулся. У меня есть нейронка по приципу регрессии. Прогон бек-пропагации + шага оптимизации ухудшает лосс-фукцнию. Как такое вообще математически может быть? Как это в теории можно отлаживать вообще?
>>676688 Что, и здесь тоже непонятно? https://jalammar.github.io/illustrated-transformer/ Их в общем-то несколько видов, тут описан мультипликативный но идейно это примерно всё то же > псевдо-брутфорс всех возможных вариантов взаимодействия токенов друг с другом что ты и написал. "Сопоставляем токенам вектора и суммируем их с обучаемыми весами похожести" .
А если ещё с более научной точки зрения, а не по млному: меняем немного нераспараллеливаемых нелинейных операций на небольшом количестве параметров на много распараллеливаемых матричных умножений на огромном количестве параметров. Данная, как ты понимаешь, сложнейшая идея по мнению современных млщиков никому кроме просвещённых западных учёных в голову прийти не могла (тем более кому-то там из обосранного совка!) и поэтому не могла быть реализована до того как насобирали достаточно данных и мощностейпришли гении и совершили Открытие
>>690649 >линк Хорошо разжевал, но скипнул самую интересную часть. Как обучаются эти query, key и value матрицы? Можно спихнуть все на back propagation, что оно типа само там как-то неизведанными методами понимает какие значения там должны быть. Оно в общем-то так и есть, но у меня в голову не укладывается как это реализуется в подобных архитектурах. Метод обратного распространения ошибок - это алгоритм обучения нейронных сетей, именно самих сетей (собственно feed forward модель тут), математических структур состоящих только из нейронов и связей между ними, веса для которых он и получает в процессе обучения. Но мне не понятно как это реализуется в нейросети с подобным огромным обвесом, как обучается динамическая часть этого обвеса (эти матрицы и прочие неконстантные значения).
Чому все дрочат на эти мат функции, если они даже отдаленно не похожи на реальные нейронные сети? Есть же SNN, почему про них практически ноль информации и никто даже не пытается делать что-то на них
>>690649 >Данная, как ты понимаешь, сложнейшая идея по мнению современных млщиков никому кроме просвещённых западных учёных в голову прийти не могла (тем более кому-то там из обосранного совка!) Воистину! Маркетинг своё дело делает.
>>695741 а что никто не пытался такое сделать? наверняка уже сотни исследований есть. я почитал тред, здесь ведь явно профи общаются. что Вам стоит подсказать, не будьте обдрисными мудаками хуесосами
>>695967 Я про крупные проекты не слышал. Наоборот, всё попёрло, когда трансформер максимально упростили и накидали сверху параметров. Так что вряд ли кто сейчас будет ресерчить ровно в обратном направлении. Но лично ты можешь это изменить, написав прорывную функцию активации и взорвать мир! >здесь ведь явно профи общаются Лол.
>>657109 >Хотел было написать в тред в защиту профа что он гений матана, а не описыватель пятен на анусе павианов Бесполезно, чел, там в треде некоторые люди всерьёз полагают, что нейросети на магии работают. >Обнял. Благодарствую.
>>553710 >человеческий вариант мышления - это единственный способ достижения AGI? Потому что нечеловеческий AGI не будет распознан хуманами как AGI. >>553279 > самостоятельной навигации по ландшафту данных Одна из самых сложных задач в обучении людей, тащемта
Прифигачил к не мультимодальной модели mmproj от ллавы. Модель понимает изображение в общих чертах понимает цвет, что это примерно что-то маленькое у него есть глаза, но в общем путается в ответах что это. Это нормальное поведение? Я думал что так любой фантюн смогу мультимодальным сделать, но походу придется самому ллаву файнтюнить...
>>724682 Сейм щит. Двачую этого анона. Вышла новая архитектура, которая как говорят требует меньши данных, на нехватку которых жаловались разрабы. Там ещё она может обучаться чему-то, что-то. В целом говорится что имба.
>>726904 Я хз, но первое что приходит в голову - приспособить их вместо сверточных сетей и сделать детекцию и сегментацию объектов на их основе, если покажут себя лучше - прорыв. Может еще вместо элементов в LLM моделях, хз что там щас используют(те же рекурсивные нейронки?)
это кусочек fastai, но один поехавший пишет обертку для временных рядов - tsai .
Что мне делать, если у меня хуево генерализируется нейросеть? Исходных примеров временных рядов - 4, но я из них нарезаю отрезки по 4000 точек и accuracy получается как-бы высокая - 0.80 но при попытке классифицировать пятый пример все идет по пизде - 0.50
Традиционным способом добавить обучающего "знания" в нейросеть является Transfer Learning.
Допустим, у меня частотные сигналы с 4, 6 или 12 каналов. Я знаю, что популярен такой плайплан: запихивают один канал в виде картинки и дальше делают классификацию с помощью fine tuning современной нейронки для картинок. Можно собрать какую-то нейронку учетверенного размера? Наверняка, это расточительно, но ради точности чем не пожертвуешь
но что мне делать, если каналов не один и не 3, как на входах у таких нейронов ?
А чем mle на позициях "генеративного дизайна" сейчас в рф занимаются? Промт-тюнингом или натягиванием инфраструктуры для дизайнеров? Или может что-то своё тренят?
Анончики, я сегодня нарыл статью 89-го года, в которой математически доказывается, что нейронка с 1 скрытым слоем может апроксимировать любую функцию, при достаточном количестве элементов в скрытом слое. При этом функция активации может быть вообще любая.
Я только вкатываюсь в это все. По моему скромному опыту эта хуйня работает на практике как пиздец, переобучается или хуй ее поймет, выдает что угодно кроме того, что нужно. Вопрос, а где-нибудь разобрано подробно, что надо сделать с ней, чтобы она работала нормально? Ну там, сделать больше элементов или меньше элементов, использовать какие-то специфические функции активации, алгоритмы обучения или вообще что за хуйня с ней происходит.
Речь идет о том, чтобы предсказать числовое значение, исходя из набора входящих значений. В идеале оно должно обучаться на небольшом количестве примеров, после обучения выдавать правильный ответ на такой запрос, которого не было во время обучения, но который можно получить экстраполированием. Ну и чтобы еще можно было получать градиент, проворачивая эту нейронку в обратную сторону (разве я много прошу?)
Интересуют какие-нибудь исследования, лучше с примерами кода, а еще лучше видосик на ютубе, где индус объясняет пример кода. С объяснением, почему оно обычно работает хуево, и как сделать, чтобы работало хорошо.
>>746132 >при достаточном количестве элементов в скрытом слое Ну естественно, если оно сравнимо с количеством точек в датасете то это тривиально. Хуйня
А могут ли на собесе на около-датасайенс вакансию, помимо мл релейтед вопросов про ГРАДИЕНТНЫЕ БУСТИНГИ и оптимизаций трехэтажных JOINов, ебать еще и по алгоритмам? А то еще заставят деревья переворачивать и графы решать. Или обычно алгосы не дают на около-датасайенс вакансиях?
Почему в генерациях StyleGAN2 глаза выглядят чище, чем в генерациях SDXL?
Базовый SDXL - почти 7 GB, StyleGAN2 - до 350 MB. Модель в 20 раз меньше, сделана в 2020 году.
Первая пара изображений - StyleGAN, вторая - SDXL. Разница очевидна. В SD завихрения, постоянные нерегулярности в самой простой части изображения. Даже в очень мыльных и поплывших генерациях с TADNE глаза часто выглядят лучше, чем в средней генерации SD. Конечно, в остальной части изображения SD стоит выше, но почему нельзя нормально и глаза генерировать?. В чём дело? Сам процесс генерации создаёт нерегулярности, что ли?
>>746132 >По моему скромному опыту эта хуйня работает на практике как пиздец, переобучается или хуй ее поймет, выдает что угодно кроме того, что нужно.
Ну с добрым утром, блядь!
А зачем ты нейросети по статье 89 года изучаешь? почему именно считаешь что тебе нужен один слой?
Первое решение - это ранний останов - Early stopping. по-моему, это буквально в любой книге описано. Ранний останов, это один из способов так называемой Регуляризации. Идея в том чтобы уменьшить сложность алгоритма в надежде на то, что он выделит главное и это главное будет проще чем частности.
>>751887 >>753101 Понятно что без базовых алгосов никуда. Вопрос понимает следует так, что... Если меня спросит за алгосы, то это будут просто какие-то базовые вопросы или не очень сложные задачи? Или от меня будут ожидания в духе: "Ну раз чел осилил мл, то харды с литкода он должен как орехи щёлкать за десять сек". В общем вопрос в уровне: базовых знаний хватит или прям нужен гига-advanced уровень?
>>515826 Занимаюсь reinforcement learning и смиуляторами несколько лет. Интересно но сложно, и начать надо с reinforcement learning. Далее можно найти интерсные проекты на гитхабе, либо интересующие публикации и повторить их,
Создание симуляторов -- отдельная песня. Можно заморочиться и пойти в физические симуляторы кинематики и динамики, но сейчас все переходит на gpu. Можно на игрвых на более высоком уровне создавать сценарии для соревновательных игр.
Пока что достаточно 1 гпу для вменяемых результатов, в отличает от языковых моделей где энтузиастам тяжело.
Я пероидически смотрю за новвыми алгоритмами и реализую их и также делаю симы на расте, когда появляется интерес.
>>768861 >PyTorch 2.4.0 на CUDA 12.5 Лол, куда торопишься? Сижу на 2.1 и 12.1 соответственно, бед не знаю. Да ещё и на винде. Все самые свежие мокрописьки по умолчанию под люнупсу делают, под шинду уже потом правят. Хочешь самого свежего, компиляй под люнупс.
>>768904 под недопрыщами omost у меня не выгружает с гпу llm сетку перед генерацией картинки. поставил винду, тут все работает нормально, но в 2.1+ пайторче нету Flash Attention, вот и решил собрать, че сразу новое не попробовать? тем более там в свежих версиях прирост обещали на 555.85. поставил билдится на 12.4, если соберется выложу колесо
>>768942 >omost Лол, нахуя? Оно ж по рофлу явно сделано, там обычная сдохля и файнтюн обычной ЛЛМки, связанные кривым убогим текстом. Вот был бы там хотя бы однослойный адаптер из предпоследнего слоя ЛЛМ на замену клипу, я бы подумал. А так... >>768945 Конечно. Но этот кто-то должен быть прирождённым пердолей, который в код пойдёт да багрепорт в репу накатает, а не на двач выложит скрин ошибки.