Главная Юзердоски Каталог Трекер NSFW Настройки

Искусственный интеллект

Ответить в тред Ответить в тред
Check this out!
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 508 178 102
TTS тред #2 - Text To Speech /tts/ Аноним 22/05/23 Пнд 14:37:29 314948 1
1684755449198.mp4 258Кб, 512x512, 00:00:08
512x512
Обсуждаем оффлайновые генераторы речи и делимся результатами, для чего сначала конвертируем аудио в видео.

Что есть на сей день:

Есть VITS-Umamusume-voice-synthesizer, только на японском, 87 голосов.
ХагингФейс: https://huggingface.co/spaces/Plachta/VITS-Umamusume-voice-synthesizer
Гугл-Калаб: https://colab.research.google.com/drive/1J2Vm5dczTF99ckyNLXV0K-hQTxLwEaj5?usp=sharing

MoeGoe и MoeTTS.
Гайд на китайском: https://colab.research.google.com/drive/1HDV84t3N-yUEBXN8dDIDSv6CzEJykCLw#scrollTo=EuqAdkaS1BKl
кажется итт можно тренировать свои голосовые модели, но это не точно
Гугл-Калаб: https://www.bilibili.com/video/BV16G4y1B7Ey/?share_source=copy_web&vd_source=630b87174c967a898cae3765fba3bfa8

Они довольно лёгкие, если вам нужно на своём компьютере то, придётся накачать около 5 гигов + питон + гит, но всё будет установленно в одну папку поэтому будет легко удалить если надоест. Если используете несколько нейросетей - используйте Anaconda / Miniconda!
Гайд: https://textbin.net/kfylbjdmz9

План Б: создаём речь в одном генераторе, и меняем голос через VITS, который можно натренировать на любой голос, в том числе свой, любимой матушки, обожаемого политика и других представителей социального дна.
https://github.com/voicepaw/so-vits-svc-fork

Чтобы создать видео из аудио, можно использовать FFMPEG, но если лень - есть GUI (по совместительству онлайн генератор речи, так что оффтоп в нашем треде) - https://dmkilab.com/soundworks - Tools \ Video \ Produce still video
Аноним 22/05/23 Пнд 15:32:47 315044 2
>>314948 (OP)
Бля, прикрутите это к таверне, плез.
Аноним 22/05/23 Пнд 15:35:06 315046 3
>>315044
у таверны есть 11 labs
Аноним 22/05/23 Пнд 15:37:02 315049 4
>>314948 (OP)
пробовал vits-svc, на huggingface куча моделек
в реалтайме плохо успевает, а вот с записями работает вообще хорошо
Аноним 22/05/23 Пнд 15:37:35 315050 5
>>315044
ах да, загугли sillytavern
Аноним 22/05/23 Пнд 15:46:45 315064 6
Почему не запилили в шапке ссылку на предыдущий тред?
Аноним 22/05/23 Пнд 16:03:50 315080 7
>>315049
скидывай результат
Аноним 22/05/23 Пнд 21:30:44 315641 8
Аноним 22/05/23 Пнд 21:36:31 315649 9
>>315643 →
> Ну в смысле? Нейросетка не способна распознать, что на записи два разных голоса присутствуют? Возможно нет в попенсурс доступе. Я конечно, понимаю, что архитектура в данном случае ещё сложнее будет, часть просто должна уметь распознавать, а другая часть ещё и отличать и узнавать голос

Да, не способна. Это текущий проект, как дополнение к Висперу, но пока работает никак. И это как раз опенсорс, просто не работает. У тебя есть конкретная задача для этого?
Аноним 23/05/23 Втр 08:34:24 316226 10
Новое видео.mp4 485Кб, 960x540, 00:00:06
960x540
Аноним 23/05/23 Втр 22:22:33 317529 11
>>316226
Там есть нормальный бабский голос без американского акцента? Перепробовал все из майлителпони, а в остальных вообще хуй пойми что на хугинфейсе.
Аноним 24/05/23 Срд 06:22:03 318054 12
>>317529
ignorethis/so-vits-svc-4.0-ruvtubers
fnx/so-vits-svc-4.0-ru-saya
Аноним 25/05/23 Чтв 01:21:28 319953 13
TZCh3.mp4 51154Кб, 500x256, 00:22:59
500x256
>>318054
Годно, спасибо.
Кстати, там не появилось новых утилит для работы c этой нейронкой? Питон скрипт который нарезает часовой аудиофайл на много маленьких по 10 секунд или ещё что-нибудь.
Не програмист и хз как такое искать.
Аноним 25/05/23 Чтв 06:00:45 320198 14
Аноним 26/05/23 Птн 10:18:53 322413 15
товарищи аноны, а есть какая-нибудь инфа по тренировке своих голосов для Silero-models? а то разрабы так класно расхваливают свое детище, а годный функционал прикрыли...

или может есть другие годные TTS модели с воис клоном, и желательно поддержкой укр. ?

PS. капча с каждым днем все дибильнее
Аноним 26/05/23 Птн 13:27:14 322652 16
Аноним 26/05/23 Птн 13:56:45 322714 17
Аноним 26/05/23 Птн 17:59:31 323090 18
>>322652
эх, лучше б TTS с пормальными голосами подвезли, чтобы текстовку озвучивать можно было,
(ибо комерческая ценность переозвученных песен в большинстве близка к нолю)
Аноним 26/05/23 Птн 19:48:59 323264 19
>>323090
>комерческая ценность
сразу нахуй
Аноним 26/05/23 Птн 21:38:56 323576 20
>>323090
> комерческая ценность
В большинстве случаев обратно пропорциональна культурной ценности.
Аноним 26/05/23 Птн 21:42:37 323594 21
>>323090
ничто не мешает конвертнуть обычный голос tts в другой
Аноним 27/05/23 Суб 00:28:43 324030 22
Untitled.webm 868Кб, 640x480, 00:00:39
640x480
Аноним 27/05/23 Суб 00:54:18 324070 23
>>324030
где блять нахуй сука сука блять?
не канон.
Аноним 27/05/23 Суб 01:09:17 324107 24
>>323576
та какая разница с чем коррелирует, можно подумать Моргенштерн голосом ВинниПуха сильно культурно ценный

>>323594
Можно, но двойная ж конвертация выходит, больше времени, больше вероятность артефактов, ну и главное, пока что большинство TTS плохо в эмоции, а иногда и в ударения...
Аноним 27/05/23 Суб 01:10:59 324111 25
>>324030
неплохо зачитывает, голос правда, шо робот по СВ рации
Аноним 27/05/23 Суб 04:18:05 324268 26
ауд иокнига.webm 1625Кб, 960x540, 00:00:34
960x540
Аноним 27/05/23 Суб 06:28:37 324332 27
>>324107
зато будет достаточно одной модели, которая хорошо в эмоции, а остальное поверх можно надстроить
Аноним 27/05/23 Суб 13:33:28 324551 28
>>324332
если нормальный голос и эмоции будут то такая модель многие потребности закроет самостоятельно, так-то расширить спектр голосов не так уж и сложно, главное чтобы это работало нормально, и была возможность клонить голоса
Аноним 27/05/23 Суб 13:36:26 324555 29
Попробовал в Bark тренировать голоса с записей - чет какой-то Shit выходит, мало похожий на голос вообще, это я чет не так делаю, или тот код что предлагается фигня полная...?
(да там в репе чейчас год с тренировкой через фейсбуковскую либу, которая на винде без визуал студии не поставится, хотя в колабе изи все можно сделать, в более старой версии была нативная тренировка вроде, где надо было транскрипцию записи писать)
Аноним 28/05/23 Вск 20:37:12 326404 30
image.png 365Кб, 518x707
518x707
Аноним 31/05/23 Срд 21:28:43 333866 31
АДОЛЬФ ГИТЛЕР -[...].mp4 4043Кб, 640x360, 00:01:25
640x360
Аноним 01/06/23 Чтв 07:34:29 334914 32
Стикер 0Кб, 300x284
300x284
>>314948 (OP)
>План Б: создаём речь в одном генераторе, и меняем голос через VITS, который можно натренировать на любой голос, в том числе свой, любимой матушки, обожаемого политика и других представителей социального дна.
>https://github.com/voicepaw/so-vits-svc-fork

Анон, можешь запилить простенький гайдец для самых маленьких. Что делать, первое, второе, третье. Хотя бы в самых общих чертах, без деталей и подводных камней.
Это, ну это, был бы вклад в популяризацию голосовых нейронок, а значит и косвенный вклад в их развитие - вот это всё. А ещё ты бы помог анонам, и треду, воооооот

С меня как всегда.
Аноним 01/06/23 Чтв 09:53:48 334986 33
Аноним 01/06/23 Чтв 15:16:45 335411 34
>>334914
>Это, ну это, был бы вклад в популяризацию голосовых нейронок
А нахуя это надо? Популяризация полезна среди тех, кто может что-то сделать сам и придумать что улучшить. А ты обоссаный безруков, который не может гайд на ютубе загуглить. Которых там уже тыщи.
Аноним 01/06/23 Чтв 19:43:03 335986 35
>>334914

Тебе нужен гайд по какому процессу - генерации или обучения?
Аноним 01/06/23 Чтв 19:45:41 335989 36
1685637941233.jpg 34Кб, 1166x225
1166x225
>>334986
Кек. Забавно то, что если кто пожалуется на вебмку, то автор тоже на двушечку уедет. Но я не буду, это же юмор основанный на когнитивном диссонансе.
Аноним 01/06/23 Чтв 20:03:26 336022 37
redan italiano.webm 2499Кб, 1196x840, 00:00:34
1196x840
Все примеры из треда это же кал ебаный низкокачественный.
Нормальные синтезаторы исключительно по подписке (пример вебмрилейтед - итальянец говорящий на русском с сильным акцентом) тк над ними постоянно работают профи мотивированные деньгами и развитием проекта.

А ваш кал с ультрапердолингом будет юзаться только школьниками для педофилии и фашизма вроде хуйни выше.
Аноним 01/06/23 Чтв 23:26:31 336410 38
>>336022
> пример вебмрилейтед - итальянец говорящий на русском с сильным акцентом
Зачем ты это сюда притащил, шиз?
Аноним 01/06/23 Чтв 23:28:59 336414 39
Аноним 01/06/23 Чтв 23:34:38 336419 40
>>336022
Так съеби к своим профи. Хули ты тут высрался?
Аноним 01/06/23 Чтв 23:38:06 336426 41
>>336022
Ну так твоя подписка это рак нейросетей и вообще технологий.
Помнишь был платный миджорней - тоже по подписочке, а потом святые программисты выложили в открытый доступ святой стаблдифужн и всё. Миджопней в жопе.
Аноним 01/06/23 Чтв 23:48:09 336439 42
>>336410
>Зачем ты это сюда притащил, шиз?
Но это лучше чем >>333866
Аноним 01/06/23 Чтв 23:50:52 336443 43
>>336426
миджорней это кал по сравнению со стейблом.
Подписка = профессиональное приложение. Не все конечно но я бы стал пользоваться илитным приложением по подписке а не хуйней.

Ну собственно примеры в этом треде по бесплатному аи и близко не подошли к тому что я выложил выше
Аноним 01/06/23 Чтв 23:51:07 336444 44
1685652665736.mp4 1226Кб, 384x160, 00:00:22
384x160
Аноним 01/06/23 Чтв 23:56:41 336453 45
>>336443
> я бы стал пользоваться илитным приложением по подписке а не хуйней
Ну я тоже для озвучки презентаций и учебных видео использую саундворкс (и соответственно стоящие за ним профессиональные API вроде Яндекса). Охулиард языков, голосов и так далее, стоит копейки, компания довольна.

НО. Для своих "проектов", для онлайн изменения голоса и тому подобного - какой нафиг профессиональный сервис? Только своё, оффлайновое. И со временем оно уделает онлайновое. Есть масса сценариев, где "подписка" вообще неприменима, даже если это плата за более высокое качество.
Аноним 01/06/23 Чтв 23:59:05 336458 46
>>336443
>миджорней это кал по сравнению со стейблом.
Ты сам себе противоречишь. Миджорней по подписке, а сд бесплатный
Аноним 02/06/23 Птн 00:07:04 336479 47
>>336443
>Ну собственно примеры в этом треде по бесплатному аи и близко не подошли к тому что я выложил выше
Окей. Покажи мне профессиональный клонер голоса, который может взять голос гитлера и кинуть его на песню шамана. У тебя 1 день.
Аноним 02/06/23 Птн 20:21:27 338154 48
lyka.mp4 8711Кб, 780x256, 00:03:14
780x256
so-vits
Аноним 03/06/23 Суб 03:51:58 338812 49
>>314948 (OP)
Нормальные реал-тайм воис морферы есть или пока не завезли?
Аноним 03/06/23 Суб 04:09:19 338829 50
>>326404
кто сделал модель so-vits-svc с Пригожиным? Есть автор в треде? Есть тех. вопросы по реализации
Аноним 03/06/23 Суб 05:32:45 338877 51
image.png 129Кб, 379x309
379x309
>>338829
>кто сделал модель so-vits-svc с Пригожиным? Есть автор в треде? Есть тех. вопросы по реализации
Аноним 03/06/23 Суб 07:56:25 338958 52
>>338812
so-vits-svc
ах да желательно иметь Nvidia на 16 гигов.
На четырёх гигах работает хуёво, я проверил
Аноним 03/06/23 Суб 14:44:43 339490 53
>>338877
скорее дядя с кувалдой, пикрил нынче за такую модель может только похвалить
Аноним 05/06/23 Пнд 04:46:13 342227 54
so-vits-svc мастера обитают в треде?

Натренировал модель на 100 сэмплах, чистый голос без музыки, вздохов, пердежей, поскрипываний и смеха. Прогнал 1200 эпох, результатом не очень доволен. Когда в оригинальном голосе идёт завывание, изменение интонации, некоторые сочетание гласных и согласных, то результат идёт по пизде. Пробовал с разными настройками, походу косяк именно в сэмплах был.

Сколько сэмплов оптимально использовать для тренировки модели и стоит ли вырезать смех человека, всякие "нуууу, аааа, хммм" ?

Сколько эпох в идеале надо прогнать, чтобы получился норм результат?
Аноним 05/06/23 Пнд 04:54:32 342228 55
>>339490
>скорее дядя с кувалдой
А кто-то знает имя террориста, который разбивал русским головы? Зачем ты на него ссылаешься. Ты намекаешь, что это Пригожин был? Да, действительно, его одержимость "Убийцей русских" странная, слышал он реплику сделал и зачем-то дурачкам всяким рассылал. Надеюсь, реплики свастик он делать не будет.
Аноним 05/06/23 Пнд 11:23:57 342362 56
image.png 9Кб, 410x337
410x337
image.png 9Кб, 358x318
358x318
>>342227
Чем больше сэмплов тем качественее будет модель, аналогично с количеством эпох, чем их больше тем лучше. Ещё важно на какой голос ты накладываешь нейросеть, в идеале они должны быть чем то похожи с оригиналом.

Я использовал больше тысячи звуков для тренеровки там были не только:
>смех человека, всякие "нуууу, аааа, хммм"
Но и косяки со звуком, помехи, клики мышкой, хуяренье по клавиатуре... иногда человека просто перебивали и сэмпл засирался чужими голосами. Но результат всёравно вышел в десять раз пижже чем если тренеровать на сотне сэмплов.

Ещё советик если твой звуковой файл который ты хочешь изменить выглядит как пик 1 то получится хуйня 100% нужно на него накинуть нормализацию чтобы он стал похож на пик 2
Аноним 05/06/23 Пнд 16:36:18 342753 57
>>342362
>Но результат всёравно вышел в десять раз пижже чем если тренеровать на сотне сэмплов.
Можно пример в звуке?
Аноним 05/06/23 Пнд 18:22:03 342871 58
>>342362
Спасибо за развёрнутый ответ, буду тестить. Нормализация на акапелле действительно помогла, но из-за небогатого набора сэмплов всё равно косяков много.
Аноним 06/06/23 Втр 00:01:01 343438 59
>>338958
Не нужно с такими требованиями. Почему до сих пор не оптимизировали до уровня запуска на калькуляторах?
Аноним 06/06/23 Втр 03:58:02 343707 60
арбалеты.mp4 9116Кб, 1920x1080, 00:02:32
1920x1080
Аноним 06/06/23 Втр 04:55:15 343734 61
>>343707
С Hugging Face модель взял? Видел там готовую с Байденом и прочими американскими политиками.
Аноним 06/06/23 Втр 06:42:43 343825 62
>>343734
С ютуба спиздил. По "ai cover" много годноты выдает, можно еще отсортировать по просмотрам и выбрать за последний месяц.
Аноним 06/06/23 Втр 12:15:32 344160 63
bobobo.mp4 9331Кб, 720x480, 00:02:01
720x480
>>343825
а в тикитоке вообще пиздец творится
Аноним 08/06/23 Чтв 08:36:22 346784 64
1609a63562ed865[...].jpg 101Кб, 811x828
811x828
Аноны, кто в колабе тренил, сколько ждать?
Аноним 08/06/23 Чтв 09:06:10 346786 65
>>346784
У меня 2к+ сэмплов. По ощущениям одна эпоха идет минут 5-10, там анон выше писал что 1000 эпох прогнал это часов сто получается. Учитывая лимиты коллаба это месяц. Лол.
Аноним 08/06/23 Чтв 09:48:38 346842 66
>>346784
За сутки бесплатного колаба не больше 1000-1500, так что даже не пытайся.
Аноним 08/06/23 Чтв 09:54:04 346850 67
>>346842
Я там заметил, что в папке /dataset/44k/, где сэмплы лежат, там рядом с каждым звуковым файлом появился файл %name%.wav.data.pt
Эти файлы сохранять надо, может в них какая-то инфа о процессе обучения? Или похуй, при следующей тренировке они опять создадутся?
Аноним 08/06/23 Чтв 10:05:28 346861 68
И самый главный вопрос. Когда колаб меня кикнет по середине процесса, не накроется ли там весь прогресс медным тазом? Ведь это предусмотрено да? Ведь предусмотрено?
Аноним 08/06/23 Чтв 10:38:43 346928 69
>>346842
>1000-1500
Это как? По моим подсчетам за 6 часов будет около 120-150 эпох.
Аноним 08/06/23 Чтв 11:02:59 346973 70
>>346928
Даже ещё меньше 10 эпох в час в среднем. Настройки все дефолтные.
Аноним 08/06/23 Чтв 11:29:25 347020 71
>>346928
Это шаги. Нахуй ты эпохи считаешь, когда модель подписана шагами? Если модель_1000 это блядь не 1000 эпох.
А вообще скорость обучения зависит от размера датасета.
Аноним 08/06/23 Чтв 11:31:39 347025 72
>>346861
>И самый главный вопрос. Когда колаб меня кикнет по середине процесса, не накроется ли там весь прогресс медным тазом? Ведь это предусмотрено да? Ведь предусмотрено?
Если у тебя сохранение на 500 шагов то ты пососешь час впустую. Если на 100 - то меньше. Там в конфиге можно исправить опция чекпойнт. Старые он сам удаляет поэтому просто нет смысла ставить большие значения.
Аноним 08/06/23 Чтв 11:38:46 347039 73
>>347020
>>347025
Ну вот в консоли колаба мне пишут такую инфу:
Epoch 35/9999 ━━━━━━━━━━━━━━╺ 130/137
Очевидно что это эпохи, а про шаги я не знал и на гуглдрайв сохраняются соответсвубщие файлы D_34.pth G_34.pth.
А в конфиге опуции чекпоинт нет, даже слова такого там не встречается может это?
> "log_interval": 100,
> "eval_interval": 200,
Аноним 08/06/23 Чтв 11:40:37 347043 74
>>347039
А вот что есть в конфиге
>"keep_ckpts": 3,
Он что каждые три шага сохраняет? Может поэтому так медленно?
Аноним 08/06/23 Чтв 12:15:50 347118 75
>>347039
>> "log_interval": 100,
Это шаги. И они не равны эпохам, они меньше. За три часа колаба ты натренишь до 1000-1500, нормальная модель 200к. То есть у тебя будет 1000.птх
Аноним 08/06/23 Чтв 12:17:21 347121 76
>>347043
Не еби мозги и найди в файле конфиг джасоен слово "чекпойнт".
Аноним 08/06/23 Чтв 12:26:55 347128 77
>>347121
>>347118
Нету там этого слова, чел
https://pastebin.com/19ABPBVe
И судя по всему файлы чекпоинта теперь называются эпохами, я рискну предположить что случились какие-то изменения и то как ты обьясняешь было раньше. а теперь по-другому. Ну или я чего-то не понимаю, но я просто нюфаг.
Аноним 09/06/23 Птн 00:38:58 348405 78
1686260335622.webm 784Кб, 288x360, 00:00:10
288x360
>>347128
> судя по всему файлы чекпоинта теперь называются эпохами
Аноним 09/06/23 Птн 02:12:58 348489 79
image.png 107Кб, 1663x640
1663x640
>>346786
Всё просто, кончается лимит - перекидываешь файлы на новый акк гугла.
Можно быстро переходить по разным аккаунтом его не ебёт, лимиты обнуляются.
Натренировал так за пару вечеров 800 сэмплов до 500 эпох
Аноним 09/06/23 Птн 05:23:35 348557 80
>>348489
>Можно быстро переходить по разным аккаунтом его не ебёт, лимиты обнуляются.
Удачи всрать акки. Классный совет.
Аноним 09/06/23 Птн 11:48:28 348796 81
>>348557
Ты прав. Я уже 3 недели этим занимаюсь и прям чувствую что акки обосраны...
Аноним 09/06/23 Птн 13:14:00 348906 82
so-vits-svc
Аноны а нужно в сэмплах оставлять звуки НЕ РЕЧИ?
Ну там смех, вздохи, мычания, прочие звуки ртом. Звуки эти имеют ярко выраженную принадлежность к целевому голосу т.е. такой смех, например, очевидно принадлежит именно этому голосу.

Мне кажется что нейросети полезно и на таких звуках обучаться для полного, всестороннего повторения? Например когда исполнителю в процессе песни надо заменить голос он же там и тянет звуки и кряхтит и чего только не делает.

Может кто-нибудь интересовался этим вопросом ОФИЦИАЛЬНО? Ну там в репозитории разраба может такое спрашивали?
Аноним 09/06/23 Птн 15:50:19 349124 83
.png 141Кб, 1494x856
1494x856
>>314948 (OP)
Нюфаня репортинг.

> Гугл-Калаб: https://colab.research.google.com/drive/1J2Vm5dczTF99ckyNLXV0K-hQTxLwEaj5?usp=sharing
Валится с ошибкой при выполнении !pip install -r requirements.txt

> Гайд: https://textbin.net/kfylbjdmz9
Тоже вылезает ошибка при установке зависимостей. Оно походу pyopenjtalk из сорцов собирает и поэтому билд-тулзы надо ставить, вот что на SO пишут - https://stackoverflow.com/questions/75191940/i-cannot-install-pyopenjtalk-getting-requirements-to-build-wheel-did-not-run-su
Мне было лень разбираться с этой ошибкой.

> потом находим файл VITS-Umamusume-voice-synthesizer\app.py и открываем с помощью текстового редактора и находим блок на 27 строке
Там нет такого кода и я сходу не смог сообразить, что там поменять надо. Может поменяли что-то в более поздних версиях...

> https://github.com/voicepaw/so-vits-svc-fork
Вот это без проблем поставилось и работает.

В репе so-vits-svc-fork нашёл пару полезных ссылок.

Разбивка звуковой дорожки на вокал и инструменталку: https://github.com/Anjok07/ultimatevocalremovergui
Где брать готовые модели: https://huggingface.co/models?search=so-vits-svc | https://civitai.com/?query=so-vits-svc

Перегнать видео в аудио при помощи ffmpeg (я за ffmeg не шарю, просто из сети рабочих команд надёргал):
ffmpeg -i input.webm -vn -acodec libmp3lame output.mp3
ffmpeg -i input.mp4 -map a output.mp3

Алсо спасибо анонам, кто над русскоязычным голосом Саи работал. Вот моя первая попытка в перегон голоса:
https://vocaroo.com/1cEfRfQ1NBf9
Аноним 09/06/23 Птн 20:50:31 349584 84
>>349124
Обмочил трусики. Продолжай.
Аноним 10/06/23 Суб 02:21:11 349921 85
>>348906
если исполнитель смеётся, мычит и пердит во время выступление то нужно обязательно. Но это более свойственно для обычной речи, так называемой разговорной модели.
Аноним 10/06/23 Суб 15:06:52 350194 86
Ребятушки, я нюфаня. Скачал VoiceConversionWebUI. Запустил, всё вроде работает. Где модельки с голосами брать? На Хаггене? Есть ссылка, какой-то сайт с примерами?
Аноним 10/06/23 Суб 17:37:22 350290 87
>>349124
>Вот моя первая попытка в перегон голоса
Как-то инопланетно вышло. Ударения не там, темп речи не правильный.
Составитель архива с Саей
Аноним 10/06/23 Суб 21:50:57 350593 88
image.png 52Кб, 699x676
699x676
>>350543 →
ёпта датасет больше делай. часа на 4 и обучай нормально - 100к эпох или чото там.
и при морфинге у тебя крутилки есть с пресетами типо dio harvers creepe и еще такова. вот эти крутилки тоже крути
Аноним 10/06/23 Суб 22:13:36 350634 89
e479b861e95dc59[...].png 267Кб, 2406x1337
2406x1337
7d03f8fdcbba21e[...].png 527Кб, 2443x1896
2443x1896
16863296411051.png 2320Кб, 1568x1048
1568x1048
>>350593
А чем ты пользуешься? Вот мои интерфейсы.
Аноним 10/06/23 Суб 22:18:32 350652 90
>>350593
У меня 50 эпох и 4 минуты датасет... Это сколько 100к эпох будет учить?
Аноним 10/06/23 Суб 22:20:09 350655 91
Если я хочу голос своей вайфу из тайтла извлечь, надо вручную каждый её звук ручками нарезать, или может есть какие-то тулзы, чтобы можно было автоматизировать нарезку конкретного голоса из дорожки?

>>350634
> эта смесь русика, англюсика и китайского в интерфейсе
Пиздец.
Аноним 10/06/23 Суб 22:23:22 350660 92
>>350655
> эта смесь русика, англюсика и китайского в интерфейсе
>Пиздец.

Самое страшное, что я более менее на всех трёх говорю.
Аноним 10/06/23 Суб 22:40:45 350690 93
>>350655
>какие-то тулзы
Если они есть, то я о них не знаю. Вишпер может сделать сабы, там будут тайминги речи, это может помочь. Но я так не делал если что.
>>350660
Скажи что-нибудь по китайски а то я только яп знаю.
Аноним 10/06/23 Суб 22:44:40 350699 94
Аноним 10/06/23 Суб 23:01:30 350718 95
Как пользоваться этим коллабом VITS-Umamusume-voice-synthesizer? Запускаю, ниче не происходит
Аноним 10/06/23 Суб 23:19:04 350743 96
Аноним 10/06/23 Суб 23:22:27 350749 97
Аноним 11/06/23 Вск 00:11:14 350840 98
Почкему так мало контента? Сделайт есмешнызх видео
Аноним 11/06/23 Вск 12:10:49 351178 99
.webm 7793Кб, 1920x1080, 00:03:18
1920x1080
Вчера увидел гайд в наи треде и решил попробовать натренить по фану. Что скажете, хоть немного похожим вышел голос на баскова?
Аноним 11/06/23 Вск 12:43:39 351203 100
2chhh.mp4 2338Кб, 896x1232, 00:00:13
896x1232
Аноним 11/06/23 Вск 17:09:00 351419 101
>>351203
Да ладно тебе, пусть учится. В среднем норм вышло. Просто трек и голос не сошлись.
Аноним 11/06/23 Вск 17:15:06 351428 102
>>350634
Это лучший просто на свете Retrieval-based Voice Conversion WebUI

>>350593
Где вы эти 4 часа датасеты берёте нахой? В смысле серёзно. Мне только Гоблин с монологами на 4 часа в студии приходит в голову. Но я уже сделал с ним голос. теперь хочу кого-то другого. Где срезать 4 часа?

Думал с МЛП нарезать, но как подумал сколько это гемора на 4 часа.

Левитана оказывается найти в интернете проблема.
Аноним 11/06/23 Вск 17:42:45 351461 103
>>351428
4 часа это в идеале, больше - лучше. А так сидишь и ручками вырезаешь из всего возможного контента. Выкачиваешь всё что можно пророка санбоя какого-нибудь и нарезаешь все звуки которые он издаёт, кряхтит, пердит и тд тоже.
Аноним 11/06/23 Вск 18:08:46 351486 104
9d8b40af0b0beeb[...].png 4Кб, 740x39
740x39
>>351461
>4 часа
>100к эпох

Ты в своём уме вообще? У меня 4090, 1 час датасет.
1 эпоха 40 секунд. 100 эпох - Это больше часа. Какие 200к.
У меня 300 эпох на 1 часе на 6 часов на 4090. Если 300 эпох на 4 часа это уже сутки. Откуда 200к эпох?
Аноним 11/06/23 Вск 18:35:15 351515 105
>>351486
Ну ёпта бля эпохи с со степами спутал или чото там, могла бы и додуматься.
>У меня 300 эпох на 1 часе на 6 часов на 4090. Если 300 эпох на 4 часа это уже сутки. Откуда 200к эпох?
Нихуя мамтематика.
Я неделю 24\7 коллабы с обучением гнал, вышло как-раз около 100к чего-то там хуй знает чего ну короче файлик 100к.pth называется вооот
Аноним 11/06/23 Вск 18:50:00 351536 106
>>351515
>Я неделю 24\7 коллабы с обучением гнал, вышло как-раз около 100к чего-то там хуй знает чего ну короче файлик 100к.pth называется вооот
Необучаемый, бубль отслеживает подобную активность. Как только ты украдешь достаточно мощностей ГПу (и других научишь) Алгоритмы начнут отслеживать файлы типа .pth перебрасываемые с акка на акк и банить их наглухо. Теперь скажи мне, зачем ты сам себе сейчас кислород прикручиваешь хвастаясь? Иди еще на пикабу гайд создай, чтоб тебя быстрей выебали.
Аноним 11/06/23 Вск 19:14:33 351559 107
>>351536
>Админ гугла сидит на дваче в мёртвом треде и подсирает дурачкам с двумя гигами врам
Аноним 11/06/23 Вск 20:48:50 351650 108
>>351559
Именно так они СД-блядей накуканили.
Аноним 11/06/23 Вск 21:07:34 351672 109
Аноним 11/06/23 Вск 21:26:06 351703 110
>>351536
>>351650

Ты шо, ебанутый?
Я как генерировав так и генирироваю. И аудио и картинки и видео. И гугл меня поддерживает. Кто тебе в трусы голову насрал?
Аноним 11/06/23 Вск 21:49:44 351728 111
>>350593
>крутилки есть с пресетами типо dio harvers creepe и еще такова. вот эти крутилки тоже крути
Можно поподробнее. Зачем их крутить? В какую сторону крутить? Сколько раз крутить? Что является критерием того что крутанул как надо? Как понять что плохо накрутил?
По-умолчанию стоит dio если на уже довольно долго обученной модели крутануть на другое какие это будет иметь последствия?
Аноним 11/06/23 Вск 21:54:50 351731 112
>>351728
>какие это будет иметь последствия?
Кишка вывалится.
Генерирую на всех пресетах и выбираю лучший. dio не всегда делает как надо.
Аноним 11/06/23 Вск 21:56:14 351733 113
>>351703
>И гугл меня поддерживает
С подключением, гугл как раз недавно официально забанил SD и добавил в правила что за него бан и в треде SD аноны говорили что забаненные среди них есть. Поддержка конечно - мое почтение, климюрич тащи свиней.

Суть в том, что это полумеры, чтобы отсеять лохов и посмотреть как разгрузится GPU сегмент, гугл пока вяло и жиденько отлавливает неуловимых генераторов, пока просто смотрит запрещенные слова. Но колаб это окружение погромистов, и гугл не лаптем деланый, разумеется если тенденции на нехватку мощностей будут сохраняться гугл будет более и более эффективно выявлять и банить. Даже я могу написать программку которая будет точно выяснять что ты генератор, а уж нормальные погромисты в гугле тем более смогут.
Аноним 11/06/23 Вск 21:59:52 351737 114
>>351731
Я в кал_лабе генерирую, там чтобы посмотреть первые результаты хоть какого-то приличного качества две недели нужно пердолиться. И как понять какой пресет лучше без тестов? Никак?
Аноним 11/06/23 Вск 22:05:43 351744 115
Аноним 12/06/23 Пнд 01:24:59 352100 116
nikita.mp4 18496Кб, 1920x1080, 00:02:01
1920x1080
Сделайте кто с 4090 модель на мавроди. Хочу МММ свою открыть. Типо из тайги вышел.
Аноним 12/06/23 Пнд 18:58:56 352938 117
TOXICSMALll.webm 39107Кб, 960x720, 00:03:29
960x720
Аноним 12/06/23 Пнд 19:00:44 352942 118
>>352938
Блин, пережал для двача, качество видео и звука упало до состояния Жопа.3gp

В оригинале бодрее.
Аноним 12/06/23 Пнд 19:55:13 353057 119
>>352938
Бля, ещё и аватарку свою всунуло... Ну и убожество..
Аноним 12/06/23 Пнд 20:03:57 353073 120
>>350690
> Если они есть, то я о них не знаю. Вишпер может сделать сабы, там будут тайминги речи, это может помочь. Но я так не делал если что.
Нарезаю через Audacity пока. Там в тайтле много междометий и звуков, которые, вероятно, не попадут в тайминги сабов. Но как же долго это делать, пиздос.

Сначала извлекаю дорожку через ffmpeg:
ffmpeg -i './title-name-s1.mkv' -map a s01.mp3

Потом убираю всё, кроме голосов, через Ultimate Vocal Remover.

И уже получившийся файл нарезаю потом ручками, выбирая нужный фрагмент и используя в Audocity команду Export -> Export Selected Audio.
Аноним 12/06/23 Пнд 20:18:40 353117 121
Посоветуйте годный STT. С русского mp3 в тхт.
Аноним 12/06/23 Пнд 21:49:48 353342 122
>>353057
Для тебя стараюсь, что бы максимально всрато.
Аноним 13/06/23 Втр 03:20:44 353861 123
.png 124Кб, 1587x570
1587x570
>>353073
> И уже получившийся файл нарезаю потом ручками, выбирая нужный фрагмент и используя в Audocity команду Export -> Export Selected Audio.
Выяснил, что гораздо быстрее это делать через добавление меток через Ctrl + B по выделенному отрезку и потом Export -> Export Multiple -> Split files based on labels. Теперь, если приноровиться, можно почти не ставить паузу и скорость нарезки будет совпадать с длительностью тайтла. До этого на каждую серию по часу тратил - на каждый отрезок в меню зайди, имя файла задай и сделай так 100-150 раз за серию.
Аноним 13/06/23 Втр 03:25:02 353863 124
.png 40Кб, 413x770
413x770
>>353861
Алсо, тайминги проставленных меток можно сохранить/загрузить через Export/Import labels
Аноним 13/06/23 Втр 11:51:37 354045 125
https://www.youtube.com/watch?v=RTS2ZSsBcpc
Это полнцый цикл. Текст, Музыка, Вокал.

Как по мне Stable Diffusion момент для музыкашек наступил, не успело пройти и года.
Аноним 13/06/23 Втр 12:13:36 354065 126
image.png 16Кб, 776x514
776x514
>>353861
>Выяснил, что гораздо быстрее это делать через добавление меток через Ctrl + B по выделенному отрезку и потом Export -> Export Multiple -> Split files based on labels. Теперь, если приноровиться, можно почти не ставить паузу и скорость нарезки будет совпадать с длительностью тайтла. До этого на каждую серию по часу тратил - на каждый отрезок в меню зайди, имя файла задай и сделай так 100-150 раз за серию
Аноним 13/06/23 Втр 14:37:07 354194 127
>>354065
Спасибо, анонче, потыкал немного тулзу. Это не совсем то, что мне нужно - данная программа просто нарезает звуки по коротким отрезкам, но, при этом, в один отрывок могут попасть голоса сразу нескольких спикеров, если между их репликами нет паузы. Этот вариант подошёл бы, если бы мне надо было длинный монолог нарезать.
Аноним 13/06/23 Втр 19:05:51 354671 128
Аноним 13/06/23 Втр 19:18:41 354687 129
Аноним 14/06/23 Срд 21:06:26 356156 130
image.png 72Кб, 1488x416
1488x416
Не совсем по теме, но может кто-то пользовался https://github.com/openai/whisper ?
Подскажите почему на русский не переводит пробовал --language Russian скобки кавычки "ru" {Russian} всё равно английские субтитры, возможно ли что гугл.коллаб не поддерживает?
Аноним 14/06/23 Срд 21:38:35 356195 131
ре-пост с пендосского /lmg/ :

Columbia University drops state of the art TTS
/vsg/ has awoken, ElevenLabs quality locally
https://arxiv.org/abs/2306.07691
>In this paper, we present StyleTTS 2, a text-to-speech (TTS) model that leverages style diffusion and adversarial training with large speech language models (SLMs) to achieve human-level TTS synthesis. StyleTTS 2 differs from its predecessor by modeling styles as a latent random variable through diffusion models to generate the most suitable style for the text without requiring reference speech, achieving efficient latent diffusion while benefiting from the diverse speech synthesis offered by diffusion models. Furthermore, we employ large pre-trained SLMs, such as WavLM, as discriminators with our novel differentiable duration modeling for end-to-end training, resulting in improved speech naturalness. StyleTTS 2 surpasses human recordings on the single-speaker LJSpeech dataset and matches it on the multispeaker VCTK dataset as judged by native English speakers. Moreover, when trained on the LibriTTS dataset, our model outperforms previous publicly available models for zero-shot speaker adaptation. This work achieves the first human-level TTS on both single and multispeaker datasets, showcasing the potential of style diffusion and adversarial training with large SLMs. The audio demos and source code are available at this https URL.
https://styletts2.github.io/

веса модели styletts1 доступны для скачивания, а значит и этой тоже должны быть доступны в ближайшее время.
Аноним 15/06/23 Чтв 09:59:08 356775 132
>>356156
>Подскажите почему на русский
Он только на английский умеет встроено переводить. Подключай апишку дипла.
Аноним 15/06/23 Чтв 10:56:17 356799 133
>>356775
>>356156
Отличный способ получить кашу. В русском вообще-то всякие склонения-хуения, они привязаны наглухо к контексту.
Аноним 16/06/23 Птн 12:25:12 358317 134
Аноним 16/06/23 Птн 16:22:04 358494 135
>>314948 (OP)
АНОН КАК ТЫ СДЕЛАЛ ЛИПСИНГ НА ТЯНКЕ?
НАУЧИ ПЛЗ
Аноним # OP 16/06/23 Птн 20:25:00 358720 136
>>358494
Stable Diffusion, расширение Sad Talker.
Аноним 16/06/23 Птн 20:40:27 358738 137
1686937225716.mp4 790Кб, 1728x998, 00:00:42
1728x998
1686937225717.mp4 91Кб, 256x256, 00:00:04
256x256
Аноним 16/06/23 Птн 21:05:11 358777 138
.png 222Кб, 839x610
839x610
>>358738
Моё ебало сгенерировали?
Аноним 16/06/23 Птн 21:15:23 358794 139
>>358777
Ну нажми "Мне лень".
Аноним 16/06/23 Птн 21:20:39 358804 140
>>358794
Бляяядь, я уже удалил, а что там? Даст генерировать без смс и регистрации?
Аноним 16/06/23 Птн 21:36:30 358822 141
.png 216Кб, 900x761
900x761
Ладно, пошёл я нахуй.
Аноним 16/06/23 Птн 21:51:36 358840 142
>>358777
>>358822
> синтез голоса за бабки
это на каких лохов расчитано?
вот здесь уже обещают 11labs уровень качества, локальный >>356195
Аноним 16/06/23 Птн 21:54:41 358841 143
>>358840
>обещают
Вот когда выложат, тогда поговорим. А пока я весов не вижу.
Аноним 16/06/23 Птн 22:46:15 358924 144
Аноним 16/06/23 Птн 22:50:03 358931 145
>>358822
> это на каких лохов расчитано?
Ну тогда жди пока пришлют ключ. Там очередь не долгая.

>>358840
> это на каких лохов расчитано?
Это вообще оффтоп здесь. Это клиент для платных API высокого качества.

>>358804
> я уже удалил
Ну и дурак. Там дофига функций помимо синтеза голоса, типа скачивания видео с этих ваших ютубов, создание субтитров и прочая. Платная фича там только синтез голосяки, но мне пофиг, у меня работа платит.
Аноним 16/06/23 Птн 23:53:34 359045 146
Аноним 17/06/23 Суб 02:17:04 359150 147
Аноним 18/06/23 Вск 18:05:45 361279 148
Аноним 18/06/23 Вск 22:20:09 361600 149
.mp4 8026Кб, 1024x1536, 00:01:51
1024x1536
.mp4 23876Кб, 1024x1536, 00:05:38
1024x1536
.png 254Кб, 1079x1876
1079x1876
.png 135Кб, 2337x399
2337x399
>>359008 →
Пока вот так вышло. Первый файл - это два куплета без инструментальной части, второй файл - это полная версия с инструментальной частью. Я там вроде как высоту голоса разную в этих вариантах сделал...

Датасет с голосом 1 час и 9 минут вышел на 12 серий. Всего 1309 отдельных отрывков длительностью 0.5-9 секунд. В конфиге выставил batch size в 28 (в 24 GB VRAM больше не лезет у меня), всё остальное оставил по умолчанию. Что-то я не сообразил, где глянуть общую длительность обучения (я паузы ставил и в тензор-борде оторажается только стата по последней сессии вроде как), но, вообще, обучал где-то 11 часов на 4090. Но я не знаю, в какой момент стоило остановить обучение, у меня все эпохи сохранились, но я только последнюю (1247) глянул.

С шипящими какая-то проблема, не понял пока, это особенность этой дорожки (может слишком криво голос от мелодии отделил), или общая проблема, т.к. датасет всё же японский.

Про морфинг не понял что именно ты хотел узнать, можешь уточнить?

Примеры голоса из датасета:
https://vocaroo.com/13X0uYKJhcCQ
https://vocaroo.com/1e8sTX36gZDC
Аноним 18/06/23 Вск 22:36:33 361612 150
>>361600
>2.mp4
Ухх, круть.

Мимокрок из картинкотреда
Аноним 18/06/23 Вск 22:48:34 361620 151
>>361600
Русский всё равно с акцентом выдаёт. Можешь сгенерить что-нибудь на японском, ну типа この素晴らしい世界に祝福を! или сразу модель скинь, мы сгенерим.
Кстати, нормализацию к датасету применял? Говорят тащит.
Аноним 18/06/23 Вск 23:07:29 361648 152
>>361600
Красота. Десяточка.
Аноним 18/06/23 Вск 23:27:08 361669 153
ari.mp4 30546Кб, 512x720, 00:05:53
512x720
>>361620
>с акцентом выдаёт
На каком языке обучаешь - такой акцент и будет, сколько обучение не дрочи. Ещё-ж базовая модель подирает картавостью.
Аноним 19/06/23 Пнд 09:52:38 361991 154
1.webm 523Кб, 1280x720, 00:00:55
1280x720
2.webm 529Кб, 1280x720, 00:00:55
1280x720
3.png 68Кб, 638x541
638x541
>>361600
Какой же пиздец местами с этой песенкой и низким голосом видрил 1, podval records прямо, эта моделька тренилась тоже примерно часов 10 при бс 24 с датасетом в час с хвостиком, хотя натрененная на 4 часа с датасетом в минут 15 видрил 2 так не пердит, но и голос там абсолютно другой.
> обучал где-то 11 часов на 4090
И это кстати самый отталкивающий пиздец. Может надо повышать лр и увеличивать распад?
> С шипящими какая-то проблема, не понял пока, это особенность этой дорожки (может слишком криво голос от мелодии отделил), или общая проблема, т.к. датасет всё же японский.
У меня полностью русскоговорящие датасеты, но акцент как будто из англии челы в подвале записали пердёж по приколу, так что хз вообще.
> Про морфинг не понял что именно ты хотел узнать, можешь уточнить?
Параметры какие используешь в пикрил 3 интересно.
> может слишком криво голос от мелодии отделил
Чем, кстати, отделял?
Аноним 19/06/23 Пнд 16:52:27 362353 155
.png 88Кб, 675x580
675x580
.png 147Кб, 1941x611
1941x611
>>361620
> Можешь сгенерить что-нибудь на японском, ну типа この素晴らしい世界に祝福を!
https://vocaroo.com/1mGiUk0OQYB3

> или сразу модель скинь, мы сгенерим
Да я, в целом, хотел модель скинуть, когда более-менее приемлемый результат получится, только пока сам поиграться немного хочу. Кстати, а где эти модели вообще выкладывают? Кроме хг и цивита есть ещё какие-то площадки? На них суммарно меньше ста моделей - все просто жопятся свои модели выкладывать или ещё что-то есть?

> Кстати, нормализацию к датасету применял? Говорят тащит.
Я только такое видел в офф. репе: "Silence removal and volume normalization are automatically performed (as in the upstream repo) and are not required". Есть какая-то другая инфа?

>>361991
> Какой же пиздец местами с этой песенкой и низким голосом видрил 1, podval records прямо, эта моделька тренилась тоже примерно часов 10 при бс 24 с датасетом в час с хвостиком, хотя натрененная на 4 часа с датасетом в минут 15 видрил 2 так не пердит, но и голос там абсолютно другой.
Не понял тебя - это модельки на разные голоса или модельки на один и тот же голос, но с разным объёмом датасета? Прям совсем по разному звучат. Не пробовал другие тесты поделать для сравнения? Интересно, вторая модель в других случаях всегда лучше звучит или только с низким голосом так выходит?

>> обучал где-то 11 часов на 4090
> И это кстати самый отталкивающий пиздец. Может надо повышать лр и увеличивать распад?
Возможно да. У тех же retard-friendly скриптов для запуска kohya-ss можно было LR на пару порядков увеличивать, по сравнению со значением по умолчанию. Там стратегия "сделаем низкий LR и поставим обучать на сутки" не приводила к чему-то более качественному, по сравнению с быстрым обучением на высоких LR.

> У меня полностью русскоговорящие датасеты, но акцент как будто из англии челы в подвале записали пердёж по приколу, так что хз вообще.
Может дело в базовой модели, как анон >>361669 подметил? Нет каких-то альтернативных базовых моделей, основанных на русскоязычных датасетах?

> Параметры какие используешь в пикрил 3 интересно.
Пик 1. Я только высоту голоса выше сделал, чтобы он более писклявый был, остальное по дефолту оставил. Хотя, может ещё prediction method менял, не помню уже. Я пока не разбирался с этими параметрами.

> Чем, кстати, отделял?
https://github.com/Anjok07/ultimatevocalremovergui
Плохо то, что у этой тулзы нет никакого CLI, автор обещал ещё полгода назад его добавить https://github.com/Anjok07/ultimatevocalremovergui/issues/359 но пока так ничего и не сделал.

В моём представлении, из UVR, so-vits-svc-fork и ffmpeg можно было бы сделать комбайн на gradio-интерфейсе по типу пика 2, чтобы обабатывать основные сценарии парой кнопок, т.е:
1. Извлечение аудиодорожки из видео через ffmpeg (то, что на пике)
2. Извлечение голоса/инструментальной части аудиодорожки через UVR (там нет CLI, но сам код опенсорсный и на питоне, при желании, наверняка его можно без родного гуя использовать)
3. Морфинг голоса через so-vits-svc-fork (там есть CLI)
4. Объединение нескольких аудиодорожек в одну через ffmpeg (чтобы объединить инструментальную частью с дорожкой, где поменяли голос)
5. Объединение аудиодорожки с картинкой/видео через ffmpeg

Ещё можно было бы txt2audio добавить, но я пока не понял, есть ли для русика что-то вменяемое для локалхоста? Я пока только вот эту облачную говнину пытался попробовать >>358777

Я за питон/градио не шарю, но, немного потыкавшись, смог сделать однокнопочный интерфейс, который извлекает аудиорожку из видео. Так что, если особо не упарываться, можно попробовать под базовые сценарии сделать примитивные интерфейсы.
Аноним 19/06/23 Пнд 17:39:43 362424 156
>>362353
>https://vocaroo.com/1mGiUk0OQYB3
Почему-то вышло коносунараши, хотя должно быть субараши, ну да ладно. Неплохо, но темп можно и убавить.
>На них суммарно меньше ста моделей - все просто жопятся свои модели выкладывать или ещё что-то есть?
Думаю просто пока текущий статус аудиогена слишком пердольный, вот и не выкладывают. Появятся всякие лоры в пару мегабайт поверх базы, мержи и прочее развлечение в один клик, тогда и попрут васяномодели.
>Есть какая-то другая инфа?
Тут писалось, но не уверен, что к этому же инструменту.
>>342362
>Ещё советик если твой звуковой файл который ты хочешь изменить выглядит как пик 1 то получится хуйня 100% нужно на него накинуть нормализацию чтобы он стал похож на пик 2
>>362353
>txt2audio добавить, но я пока не понял, есть ли для русика
TTS только silero, но оно не обучаемое. Зато можно хоть на микроволновке запускать.
>>362353
>Так что, если особо не упарываться, можно попробовать под базовые сценарии сделать примитивные интерфейсы.
Надо запилить AudioGenerationWebUI, чтобы как у каломатика, но я только вышел на работу, так что ещё один полугодовой отпуск позволить себе не могу.
Аноним 19/06/23 Пнд 18:02:45 362460 157
1.mp4 7428Кб, 1280x720, 00:05:35
1280x720
2.mp4 7480Кб, 1280x720, 00:05:35
1280x720
Ну короче нормализация и более чистый семпл + отделение от музыки другой сеткой внутри китаегуя сделали куда лучше результат. Пришлось ещё немного вилкой прочистить конечно трек с голосом, но это хотя бы уже что то. Акцент так никуда и не делся. Лучший результат получился с crepe почему то на автопитче.

>>362353
> Не понял тебя - это модельки на разные голоса или модельки на один и тот же голос, но с разным объёмом датасета?
Две разные модели, первая с голосом Михаила Черняка, просто более менее чистый голос взял для теста с какой то из его озвучек. Вторая это папич, качество ну среднее, во что он там вещает, обычное микро с подвала скорее всего. Первая хорошо зачитывает монотонный текст, что не удивительно, учитывая датасет, вторая более "артистичная", ведь там в датасете были эмоциональные крики.
> Не пробовал другие тесты поделать для сравнения?
Предложи войсы, я хз что лучше попробовать поморфить.
> Возможно да. У тех же retard-friendly скриптов для запуска kohya-ss можно было LR на пару порядков увеличивать, по сравнению со значением по умолчанию. Там стратегия "сделаем низкий LR и поставим обучать на сутки" не приводила к чему-то более качественному, по сравнению с быстрым обучением на высоких LR.
Как разберусь на чём лучше тренить, попробую на час поставить на повышенном лр новый какой нибудь датасет.
> Может дело в базовой модели, как анон >>361669 подметил? Нет каких-то альтернативных базовых моделей, основанных на русскоязычных датасетах?
А я хз, обычная базовая какая то в конфиге указана в разделе pretrained. На что это менять? Отсюда подойдут модели типо https://github.com/snakers4/silero-models/blob/master/models.yml ?
> Пик 1. Я только высоту голоса выше сделал, чтобы он более писклявый был, остальное по дефолту оставил. Хотя, может ещё prediction method менял, не помню уже. Я пока не разбирался с этими параметрами.
Я тоже разные потыкал и лучше всего получилось с crepe.
> Плохо то, что у этой тулзы нет никакого CLI, автор обещал ещё полгода назад его добавить https://github.com/Anjok07/ultimatevocalremovergui/issues/359 но пока так ничего и не сделал.
О, есть гуй для этого дела, я в китаевебуи делал разными моделями, одной из них вышло получше.
> 1. Извлечение аудиодорожки из видео через ffmpeg (то, что на пике)
Бля, а ведь реально у многих аудио должна она быть, я просто разделял на похер, не смотря на дорожки.
> 2. Извлечение голоса/инструментальной части аудиодорожки через UVR (там нет CLI, но сам код опенсорсный и на питоне, при желании, наверняка его можно без родного гуя использовать)
А обязательно его? В китаегуе разве не на его основе? https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI
> 4. Объединение нескольких аудиодорожек в одну через ffmpeg (чтобы объединить инструментальную частью с дорожкой, где поменяли голос)
Я через audacity делал вот эти две, там можно чуть подредачить как раз.
> 5. Объединение аудиодорожки с картинкой/видео через ffmpeg
Заёбный тоже этап, большинство гуев к ффмпегу еррор выдают при конверте из аудио и картинки в видео, пришлось сначала через loop, а потом ещё и обрезать лишнее.
> Ещё можно было бы txt2audio добавить, но я пока не понял, есть ли для русика что-то вменяемое для локалхоста? Я пока только вот эту облачную говнину пытался попробовать
Ну модель есть, хз чем её можно запускать только. Про какую облачную говнину кстати речь?

> Я за питон/градио не шарю, но, немного потыкавшись, смог сделать однокнопочный интерфейс, который извлекает аудиорожку из видео. Так что, если особо не упарываться, можно попробовать под базовые сценарии сделать примитивные интерфейсы.
Ты про пик2? Можешь запилить на гитхаб или куда нибудь этот вебгуй что собрал?
Аноним 19/06/23 Пнд 22:32:37 362793 158
>>362460
> Заёбный тоже этап, большинство гуев к ффмпегу еррор выдают при конверте из аудио и картинки в видео, пришлось сначала через loop, а потом ещё и обрезать лишнее.
Какие пробовал?
Аноним 20/06/23 Втр 01:08:05 363032 159
>>362793
Shutter-encoder, Axion, QWinFF.
Аноним 20/06/23 Втр 09:28:16 363227 160
>>363032
В треде были и другие. Тот же Саундворкс прекрасно лепит видео из картинки и аудио, добавляет или убирает аудио дорожку.
Аноним 20/06/23 Втр 16:22:51 363652 161
>>363227
Спасибо за информацию! Да, существует несколько программ и инструментов, которые могут помочь создавать видео из статичных изображений и добавлять или удалять аудиодорожки. Одной из таких программ является Soundworks, которая специализируется на создании видео изображений с аудиоэффектами и манипуляциями с аудио. Это полезный инструмент для создания разнообразных видеоматериалов.
Аноним 20/06/23 Втр 17:04:30 363677 162
.mp4 2808Кб, 1024x1024, 00:01:26
1024x1024
.PNG 435Кб, 2115x1197
2115x1197
.png 12Кб, 1645x77
1645x77
>>362424
> Тут писалось, но не уверен, что к этому же инструменту.
Интересно. Можно будет попердолитья с этим, у меня в датасете есть файлы, которые выглядят как пик 1 тут - >>342362

> TTS только silero, но оно не обучаемое. Зато можно хоть на микроволновке запускать.
Ну всё равно норм, сгенерировать сначала через silero, а потом заморфить уже на кастомной модели через so-vits-svc-fork.

> Надо запилить AudioGenerationWebUI, чтобы как у каломатика, но я только вышел на работу, так что ещё один полугодовой отпуск позволить себе не могу.
Ну вот, ты упустил редкий шанс того, чтобы тебя поливали говном на двощах/форчанах каждый раз, когда ты коммитишь что-то в master в своей репе. Мне интересно сам python + gradio потыкать, попробую, наверное, что-нибудь простое накидать, как время найду. Хотя у меня с ним тоже не особо хорошо, на самом деле. Да и на питоне я вообще не пишу, так что вероятность того, что выйдет не говно, близка к нулю.

>>362460
> Две разные модели, первая с голосом Михаила Черняка, просто более менее чистый голос взял для теста с какой то из его озвучек. Вторая это папич, качество ну среднее, во что он там вещает, обычное микро с подвала скорее всего. Первая хорошо зачитывает монотонный текст, что не удивительно, учитывая датасет, вторая более "артистичная", ведь там в датасете были эмоциональные крики.
А я думал, где же я мог слышать этот голос... Ну да, лол, более эмоциональный голос на песню явно лучше ложится.

> Предложи войсы, я хз что лучше попробовать поморфить.
Вот я тоже пока думаю, какие отрывки лучше морфить именно в целях тестирования. Вообще, как мне кажется, неплохо было бы на скороговорках потестить, чтобы было легко оценить, обсирается ли оно на каких-то определённых звуках. Ещё какие-нибудь короткие тексты для тестирования интонации. Ну и песенки, само собой. Нам бы какой-нибудь свой набор тестов для моделей составить, как в том же лама-треде заставляют петухов нести яйца и выясняют, сколько рыб осталось в аквариуме, если половина из них утонет.

> А я хз, обычная базовая какая то в конфиге указана в разделе pretrained. На что это менять? Отсюда подойдут модели типо https://github.com/snakers4/silero-models/blob/master/models.yml ?
Там вроде формат моделей другой. В репе у so-vits-svc-fork накое увидел: "If you have trained on a large, copyright-free dataset, consider releasing it as an initial model". Но где смотреть текущий список альтернативных моделей я не нашёл. Базовые модели скачиваются из этой репы: https://huggingface.co/datasets/ms903/sovits4.0-768vec-layer12/tree/main/sovits_768l12_pre_large_320k Но там в репе нет какой-то полезной инфы вроде как.

> О, есть гуй для этого дела, я в китаевебуи делал разными моделями, одной из них вышло получше.
> А обязательно его? В китаегуе разве не на его основе? https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI
Надо глянуть тогда, спасибо за наводку.

> Я через audacity делал вот эти две, там можно чуть подредачить как раз.
Есть такой момент, да. По хорошему надо ещё вручную лишние звуки удалять из дорожки с вокалом, перед объединением вокала и инструменталки. Тут без какого-то стороннего UI никак. Это можно воспринимать аналогично генерации в автоматике картинок с низким разрешением, правка их в ФШ, а потом применение тайлового апскейла к уже исправленным картинкам.

> Заёбный тоже этап, большинство гуев к ффмпегу еррор выдают при конверте из аудио и картинки в видео, пришлось сначала через loop, а потом ещё и обрезать лишнее.
Я через cli делаю, и сейчас выношу команды в gradio (пики 2-3). В моём понимании, там надо просто несколько разных команд предоставить для разных форматов файлов. Но может я чего-то не понимаю - я в кодеках и в медиа в целом не разбираюсь.

> Ну модель есть, хз чем её можно запускать только. Про какую облачную говнину кстати речь?
SoundWorks, выше обсуждали.

> Ты про пик2? Можешь запилить на гитхаб или куда нибудь этот вебгуй что собрал?
Я в процессе пока, если хотя бы основные табы для ffmpeg и so-vits-svc-fork осилю реализовать, то выложу.

>>362305 →
> Местами даже слишком хорошо, лойс поделись
Поделюсь чуть попозже. Попердолюсь сперва, хочу всё же хотя бы несколько эпох между собой сравнить, зря что-ли 300 чекпоинтов нагенерировал. Я пока вообще не могу понять, возможно ли эту штуку переобучить. Пробовал её обучать уже суммарно больше двадцати часов, и не сказал бы, что становится хуже (тестирую 1247 эпох против 2371), но разница между голосами становится минимальна.
Аноним 20/06/23 Втр 17:46:47 363705 163
Dancyo-face2023[...].png 400Кб, 512x512
512x512
Meta готовит к выпуску VoiceBox некий, tts
Аноним 20/06/23 Втр 18:11:56 363730 164
.png 144Кб, 1959x1959
1959x1959
>>363705
> There are many exciting use cases for generative speech models, but because of the risks of misuse, we are not making the Voicebox model or code publicly available at this time.
> While we believe it is important to be open with the AI community and to share our research to advance the state of the art in AI, it’s also necessary to strike the right balance between openness with responsibility.
Аноним 20/06/23 Втр 18:16:40 363734 165
изображение.png 62Кб, 1181x532
1181x532
>>363677
>редкий шанс того, чтобы тебя поливали говном
Этого у меня навалом ))
>>363705
>https://voicebox.metademolab.com/
Чёт прям интересно стало с этим пунктом.
Небось не выпустят нихуя, а то с таким инструментов генерить подделки станет как никогда просто.
>>363730
Как знал, слишком хороша для публики.
Аноним 21/06/23 Срд 05:57:06 364452 166
Расистыч.mp4 7812Кб, 1024x1536, 00:04:50
1024x1536
Анекдот.mp4 2802Кб, 1280x720, 00:02:56
1280x720
>>363677
> А я думал, где же я мог слышать этот голос... Ну да, лол, более эмоциональный голос на песню явно лучше ложится.
Похож? Он впринципе получился почему то куда лучше, несмотря на то что я тренил его всего 4-5 часов и датасет был достаточно скромным. А вот другая сетка с большим датасетом и долгой тренировкой лажает как то больше, вон даже в зачитывании анекдота запинается.
> Вот я тоже пока думаю, какие отрывки лучше морфить именно в целях тестирования
Хуже всего справляется с дефектами в речи. Вон расистская песенка без проблем морфится, даже акцент пропал, правда только с одной моделью. Мб вторая перетренена сильно в итоге? Эпохи старые не сохранились, проверить это даже не могу.
> Нам бы какой-нибудь свой набор тестов для моделей составить
Хорошая идея, только хз что считать платиной.
> Там вроде формат моделей другой. В репе у so-vits-svc-fork накое увидел: "If you have trained on a large, copyright-free dataset, consider releasing it as an initial model". Но где смотреть текущий список альтернативных моделей я не нашёл. Базовые модели скачиваются из этой репы: https://huggingface.co/datasets/ms903/sovits4.0-768vec-layer12/tree/main/sovits_768l12_pre_large_320k Но там в репе нет какой-то полезной инфы вроде как.
Ну тогда с этого чекпоинта дотренивать только остаётся.
Кстати насчёт тренировки, я попробовал с 1е-3, но более быстрым распадом, тренируется судя по тензорборду нормально, тренд такой же нисходящий, но получилась какая то херня после 200 минут тренировки. Я скорее всего обосрался с датасетом, надо перепроверять.
> как в том же лама-треде заставляют петухов нести яйца и выясняют, сколько рыб осталось в аквариуме, если половина из них утонет
А потом выясняют кто собакошиз, кто собакошизошиз и кто собакошизошизошиз.
> Есть такой момент, да. По хорошему надо ещё вручную лишние звуки удалять из дорожки с вокалом, перед объединением вокала и инструменталки. Тут без какого-то стороннего UI никак. Это можно воспринимать аналогично генерации в автоматике картинок
Всё так, именно так и воспринимается, никто не мешает так же из оригиала, если он не сильно отличается, подсунуть части голоса в плохо получившиеся места, по аналогии со слоями в фотошопе.
> с низким разрешением, правка их в ФШ, а потом применение тайлового апскейла к уже исправленным картинкам.
Ты прямо из лоуреза тайловым кнетом делаешь? У тебя получилось добиться приемлемого качества с таким? Я сколько его не тестил, он всегда выдавал картинку хуже по сравнению даже с хайрез ганом, про латент вообще молчу, либо мыло, либо детализации практически нет, ответь в наи насчёт этого лучше.
> Я через cli делаю, и сейчас выношу команды в gradio (пики 2-3). В моём понимании, там надо просто несколько разных команд предоставить для разных форматов файлов. Но может я чего-то не понимаю - я в кодеках и в медиа в целом не разбираюсь.
> Я в процессе пока, если хотя бы основные табы для ffmpeg и so-vits-svc-fork осилю реализовать, то выложу.
Ну это уже выглядит в целом юзабельнее, чем прыгать между трёх консолей и трёх хгуев. Они типо сейчас не рабочие? В чём проблема? Вижу что ты через комманду вызываешь ффмпег, может проще будет всё это внутренними зависимостями сделать? Ффмпег вроде есть прямо в пипе, сама морфилка ведь тоже на питоне, можно хоть колесо собрать, хоть просто скрипты напихать по идее.
Аноним 21/06/23 Срд 13:24:06 364660 167
Есть прога ACE Studio, которая миди нотки переводит в вокал. Потом этот вокал через SVC vits прогоняешь через свою модель голоса и готов трек. Поздравляю, теперь ты певец без рта. Но прога сыроватая ещё, может кто аналоги знает...
Аноним 22/06/23 Чтв 18:23:53 366361 168
>>322413
Купи паскод, бомж
Аноним 22/06/23 Чтв 18:27:06 366375 169
>>333866
Ебать если ты это сделал, то ты кудесник.
Аноним 23/06/23 Птн 19:56:01 368338 170
.png 2543Кб, 1024x1536
1024x1536
Аноним 23/06/23 Птн 22:28:12 368544 171
prikol9.mp4 4274Кб, 512x512, 00:01:02
512x512
Аноним 23/06/23 Птн 23:53:55 368599 172
Стикер 0Кб, 234x250
234x250
>so-vits-svc
Аноны, есть тут кто-нибудь кто шарит в подкапоте этой нейросети?

Вот у меня большой датасет, несколько тысяч файлов, общей длительностью часа 2.
Я треню с помощью колаба. Но у калаба много ограничений. В частности меня волнует то, что он вырубается через 3 часа. Потом я запускаю обучение снова, опять 3 часа, опять запускаю и т.д.

И я вот что подумал.
Если нейросеть берет по порядку файлы датасета и выполняет свое обучение и если обучение прерывается каждые 3 часа, то ведь получается что те файлы которые в начале списка используются в таком прерывистом обучении чаще чем те, которые в конце.
Например представьте, что обучение прерывается каждые 10 минут и вы каждые 10 минут запускаете его снова в этом случае нейросеть будет успевать только первые файлы датасета обработать и будет обучаться только на них. С прерыванием каждые 3 часа тот же принцип - даже если обучение успевает сделать ротацию по всем файлам датасета, всё равно есть перекос в сторону файлов которые в начале списка.

Учитвая это всё, имеет ли в таком случае смысл перемешивать файлы в датасете? Просто меняя их имена на рандомные в начале каждого обучения?
Аноним 24/06/23 Суб 00:07:41 368612 173
>>368599
Сохранение идёт по эпохам, когда прошла итерация по всему датасету. Так что для каждого чекпоинта число повторов по одним и тем же файлам будет одинаковое по идее.
Аноним 24/06/23 Суб 00:10:46 368614 174
ahegao.mp4 10384Кб, 1024x1536, 00:03:53
1024x1536
>>368338
Благодарность, чё.
Получилось так себе, голос ЯВНО не подходит под модель, но забавно.
Аноним 24/06/23 Суб 00:39:22 368658 175
.png 130Кб, 674x880
674x880
.mp4 15099Кб, 1024x1536, 00:03:57
1024x1536
>>368614
Хм, у меня вот так вышло, настройки пикрелейтед.
Аноним 24/06/23 Суб 00:40:06 368660 176
>>356195
А в русский и другие языки он может?
Аноним 24/06/23 Суб 00:51:20 368671 177
>>368614
>>368658
А для изменения файла голоса с помощью модели тоже нужна видеокарта с памятью или уже можно на своем некро-калькуляторе менять, а видеокарта только для обучения?
Аноним 24/06/23 Суб 00:58:54 368672 178
>>368671
> GPU inference requires at least 4 GB of VRAM. If it does not work, try CPU inference as it is fast enough.
Из офф. репы so-vits-svc-fork.
Аноним 24/06/23 Суб 16:06:41 368982 179
>>364452
> Похож? Он впринципе получился почему то куда лучше, несмотря на то что я тренил его всего 4-5 часов и датасет был достаточно скромным. А вот другая сетка с большим датасетом и долгой тренировкой лажает как то больше, вон даже в зачитывании анекдота запинается.
Да, похож, я просто его совсем мало слышал, поэтому не узнал сразу. Дикция шикарная на втором примере, но вот звуки определённые проглатывает, это да. Не пробовал папичем тот же анекдот озвучить, на тех же звуках будет спотыкаться? Я просто боюсь, что дело всё же в базовой модели может быть и так просто эту проблему не забороть для любых аудио на русском.

В офф. репе базовой модели такая инфа об исходных данных для обучения ( https://huggingface.co/datasets/ms903/sovits4.0-768vec-layer12 ):
> 新增large底模,由m4singer+vctk数据集训练,294k为loss14.75的,320k为最终训练步数。

Базовая модель для so-vits-svc-fork была обучена на этих наборах данных:
https://m4singer.github.io (полностью китайский)
https://paperswithcode.com/dataset/vctk (полностью английский)

Интересно, есть ли подобные готовые русскоязычные датасеты и насколько реально обучить базовую модель в домашних условиях. Требования по обучению/генерации тут всё же более щадящие, чем для той же генерации картинок; может на условных 24GB можно обучить что-то?

> Ну это уже выглядит в целом юзабельнее, чем прыгать между трёх консолей и трёх хгуев. Они типо сейчас не рабочие? В чём проблема? Вижу что ты через комманду вызываешь ффмпег, может проще будет всё это внутренними зависимостями сделать? Ффмпег вроде есть прямо в пипе, сама морфилка ведь тоже на питоне, можно хоть колесо собрать, хоть просто скрипты напихать по идее.
Да там пока кроме извлечения аудио из видео и конвертации аудио+картинки в видео ничего нет, весь код литературно вот - https://pastebin.com/8JW5qMdj Пока всё на коленке и совсем кривое не хочу репу на гитхабе заводить.
Из зависимостей gradio поставленный в venv или глобально, ну и ffmpeg, добавленный в path. Он не будет работать с путями, если там есть пробелы в именах файлов. Ну и я так и не заморочился пока с тем, чтобы команды для ffmpeg универсальные сделать, под все популярные типы файлов. Будет кидать файлы в output -> audio2video/video2audio.

Из интересного нашёл ещё такую штуку - https://github.com/pkalogiros/AudioMass
По сути, это браузерная тулза с локальным go-сервером, котоая выполняет ту же роль, что и Audacity, только в ней, вроде как, нельзя несколько треков одновременно обрабатывать, хотя для простого удаления шумов из дорожки с изменённым голосом это и не нужно. Если делать какой-то комбайн по типу web-ui от автоматика, то можно было бы попробовать решение по типу этого туда сразу интегрировать...

Я ещё подумал, что, может, вместо того, чтобы свой велоспид делать пытаться, лучше контрибьютить в RVC начать - предложить им добавить новые табы для типовых ffmpeg операций. У них и так там уже и разделение инструменталки/вокала и морфинг интегрирован в рамках одного web-ui, так что это более навороченная тулза, чем so-vits-svc-fork.
Аноним 24/06/23 Суб 16:14:19 368989 180
>>368982
Требования по обучению/[...] тут всё же более щадящие, чем для той же генерации картинок
Хотя это, конечно, сильное заявление. С теми же лорами на SD всё совсем лайтово по системным требованиям для обучения стало теперь.
Аноним 24/06/23 Суб 18:09:30 369061 181
>>368989
Так то лоры. Анон выше кажись предлагает обучать базовую модель специально для русика, потому что ангельские херят немного.
Аноним 24/06/23 Суб 18:44:38 369093 182
>>369061
Это я и был. Я просто про то, что систему файнтьюна для sd сделали сильно лучше с течением времени, что привело к снижению системных требований для обучения, так что для обучения лор/ликорисов сейчас могут быть ниже системные требования, чем для дообучения звуковых моделей.

Но обучить полновесную модель с нуля по типу SD нереально сейчас, на неё потратили $600 000. А для обучения голосовой модели всё может быть не так страшно, если сравнить размеры датасетов для SD и этой голосовой модели:

Stable Diffusion - была обучена на 2.3 миллиардах пар текст-картинка.

Базовая модель для so-vits состоит из двух датасетов:
VCTK (CSTR VCTK Corpus) - 110 English speakers with various accents. Each speaker reads out about 400 sentences, which were selected from a newspaper, the rainbow passage and an elicitation paragraph used for the speech accent archive.
Итого 110 x 400 = 44000 английских предложений.

M4Singer - 20 professional singers, covering 700 Chinese pop songs as well as all the four SATB types (i.e., soprano, alto, tenor, and bass)
Итого 20 x 700 = 14000 песен на китайском.

Мнение?
Аноним 25/06/23 Вск 07:17:13 369567 183
>>369093
>Мнение?
Английская модель не подойдет к русской речи, фонемы другие.
Аноним 25/06/23 Вск 09:26:54 369598 184
papich.webm 1603Кб, 1280x720, 00:02:55
1280x720
snoop-dogg.webm 1642Кб, 1280x720, 00:02:55
1280x720
>>368982
Тензорборд у тренировки витса прямо намного полезнее картинкотренировки от кохи, даже сэмплы можно посмотреть по эпохам, хотя там вроде в последних коммитах тоже есть генерация пробных пикч, в тензорборд это добавляется или не, не знаешь?
Перетренил с 1е-3 с меньшим датасетом, но более однородным. Два часа где то тренилось, вышло получше и схоже с датасетом, видрил2. Надо подольше потренить и почекать на предмет улучшений.

> Да, похож, я просто его совсем мало слышал, поэтому не узнал сразу. Дикция шикарная на втором примере, но вот звуки определённые проглатывает, это да. Не пробовал папичем тот же анекдот озвучить, на тех же звуках будет спотыкаться? Я просто боюсь, что дело всё же в базовой модели может быть и так просто эту проблему не забороть для любых аудио на русском.
Запинается, но в других местах, видрил1. Видимо недостаточный датасет для определённых мест в разных тренировках, вон местами вообще интонация голоса пропадает и попискивает.

> Интересно, есть ли подобные готовые русскоязычные датасеты и насколько реально обучить базовую модель в домашних условиях. Требования по обучению/генерации тут всё же более щадящие, чем для той же генерации картинок; может на условных 24GB можно обучить что-то?
Ну даже если попробовать грубый подсчёт по данным что ты нарыл будет 110 спикеров на 400 предложений - 44000 чанков по 10 секунд на каждую эпоху, простых спикеров не считая поющих * 320к эпох с батчем ну в лучшем случае в ~28-30 с ~2it/s (у меня вроде столько выдаёт) это 733 секунды на эпоху и 234560000 секунд на 320к, ну как раз дотренится к моменту выхода какой нибудь квантовой нвидии каждому мимокроку в пекарню. Вроде нигде не обосрался в подсчётах, поправь если да.
> Да там пока кроме извлечения аудио из видео и конвертации аудио+картинки в видео ничего нет, весь код литературно вот - https://pastebin.com/8JW5qMdj
Окей, попозже покопаюсь, может что дельного смогу сделать.
> Из интересного нашёл ещё такую штуку - https://github.com/pkalogiros/AudioMass
Воу, там и питоном можно, только вторым, лол, я уж думал не увижу больше такого. Плохо кстати что нельзя дорожки друг на друга накладывать.
> Я ещё подумал, что, может, вместо того, чтобы свой велоспид делать пытаться, лучше контрибьютить в RVC начать - предложить им добавить новые табы для типовых ffmpeg операций. У них и так там уже и разделение инструменталки/вокала и морфинг интегрирован в рамках одного web-ui, так что это более навороченная тулза, чем so-vits-svc-fork.
Ну да, но там не хватает настроек морфинга. Да и тренирует почему то хуже и тензорборд не завезли.
Аноним 25/06/23 Вск 09:51:02 369604 185
>>369598
>Видимо недостаточный датасет для определённых мест в разных тренировках, вон местами вообще интонация голоса пропадает и попискивает.
Там никакой детекции и нет, это не так работает. Просто в твоей модели нет подходящих звуков, поэтому его и корежит. Это основная проблема этого метода.
Аноним 25/06/23 Вск 10:23:40 369618 186
>>369604
> Просто в твоей модели нет подходящих звуков
Ну да, я это и имел ввиду под недостаточностью датасета, ведь разные натрененные модели запинаются в разных местах.
Аноним 25/06/23 Вск 10:30:51 369622 187
>>369618
Именно поэтому ты не можешь кинуть любую модель на любой голос. И мой тебе совет, посмотри на дорогу после генерации совитсом, она как бы вся выровненная получается. Я думаю, чтобы не корежило надо какую-то нормализацию делать до войс-свапа.
Аноним 25/06/23 Вск 10:38:14 369626 188
>>369622
Я пробовал нормализацию делать в audacity с низкими значениями, так действительно лучше получается. Там же можно и вырезать лишнее после, ну и заменить плохие куски оригиналом или морфом с другими настройками, где этот кусок получился лучше.
Аноним 25/06/23 Вск 11:26:04 369649 189
>>369626
Да, но в целом технология для серьезных и больших проектов не подходит, надо все дрочить вручную. То есть час-два звука делать ты охуеешь.
Аноним 25/06/23 Вск 15:34:08 369800 190
>>369093
>Мнение?
Управимся в 6000 баксов. Хуйня вопрос, сейчас из тумбочки достану.
>>369649
А другие варианты?
Аноним 26/06/23 Пнд 14:29:59 371390 191
Нуфажный вопрос по so-vits-svc, как определить что дальше модель можно уже не дообучать и ей уже нормально и большего не выжать?
Аноним 26/06/23 Пнд 16:32:10 371541 192
>>371390
Когда не слышиш разницы с предыдущей итерацией
Аноним 28/06/23 Срд 11:18:25 374596 193
Аноним 28/06/23 Срд 20:20:32 375470 194
Аноним 28/06/23 Срд 20:56:47 375545 195
silkworm.mp4 11071Кб, 1024x1536, 00:05:03
1024x1536
>>368338
Добра тебе, анон.
Аноним 29/06/23 Чтв 01:12:46 375970 196
>>371390
перекатывайся с этого говна на rvc
Аноним 29/06/23 Чтв 01:29:52 375989 197
>>375545
Спасибо, что поделился. Классно вышло.

автор модели
Аноним 29/06/23 Чтв 12:36:15 376400 198
Есть нарезки аудио английского и русского голосов (90 секунд / множество минут). Могу я бесплатно натренить модель и генерить tts? ElevensLabs не работает ни с vpn, ни без него, можете подсказать подходящий под него впн, но не надеюсь уже. Есть аналоги, колабы?
Аноним 29/06/23 Чтв 20:25:43 377103 199
Аноним 29/06/23 Чтв 20:38:01 377129 200
>>377103
>В чём профит?
Пока тестирую сам. Могу однозначно сказать, что за пару обучения уже получается хорошая модель. Но насколько я понял rvc легко переобучается и там нет смысла делать больше 300-500 эпох 3 часа на t4. Сегодня вот улучшил свой датасет и поставил обучаться 200 эпох, посмотрю какое качество будет.
Аноним 30/06/23 Птн 07:11:53 377714 201
Аноны, можно как-то из so-vits-svc модели сделать простой tts без "перевалочного пункта" в виде сторонней аудиозаписи с голосом, которую мы и меняем?
Сейчас твич и ютуб заполонили вот такие каналы https://www.twitch.tv/trumporbiden2024 где
боты отвечают чату в режиме реального времени, по ссылке например голосами байдена и трампа. Понятно что тут как-то сделали tts модель, копирующую чужой голос, но как?
Аноним 30/06/23 Птн 12:46:33 378069 202
>>314948 (OP)
Умельцы сделайте плиз ремикс Лета и Арбалеты голосом Пригожина
Аноним 30/06/23 Птн 14:33:28 378338 203
>>375545
Круто получилось я бы даже схоронил, но слишком много изъянов всё-таки. Слова проглатываются, смазываются в некоторых местах.
Аноним 30/06/23 Птн 15:45:01 378485 204
Аноним 30/06/23 Птн 16:28:01 378540 205
>>378485
хотя нет, он уебищный какой-то, сделайте еще
Аноним 30/06/23 Птн 16:38:18 378554 206
>>378540
>сделайте
не сделаем, если найдешь уже обученную модель, тогда подумаем. а самому сейсас нарезать и обучать потому что ты сказал, извольте нахуй.
Аноним 30/06/23 Птн 20:16:17 378914 207
Аноним 30/06/23 Птн 20:55:48 378996 208
>>378914
for the culture ты и сам можешь
Аноним 30/06/23 Птн 21:07:19 379020 209
>>378914
Если у тебя нет мощностей на тренировку, то хоть датасет собери.
Аноним 30/06/23 Птн 23:12:08 379312 210
Nazarechorus.mp4 648Кб, 1024x1536, 00:00:17
1024x1536
>>378338
Это сделано на коленке, без малейшей обработки. Если пошаманить, можно убрать большинство изъянов. Акцент останется, такой уж оригинал голоса, но мне даже нравится.

Алсо, подкиньте обученных моделей для so-vits. На цивите и хаггинфейс почти ничего нет.
Аноним 30/06/23 Птн 23:22:25 379333 211
>>379312
> Если пошаманить, можно убрать большинство изъянов.
что делать надо?
Аноним 30/06/23 Птн 23:25:58 379340 212
Аноним 30/06/23 Птн 23:34:15 379349 213
>>379333
Прогнать отдельно левый и правый каналы, т. к. so-vits выдаёт только моно. Убрать "протечки" музыки в канал голоса, чтобы не было этих визгов перед вторым куплетом. Вообще повозиться с исходником. Переделать локально места, где теряются части слов. Может на выходных сделаю.
Аноним 01/07/23 Суб 08:42:11 379659 214
>>379349
Да, сделай анон. Модель голоса очень классная.
Интересно если её дальше тренить она лучше станет или это предел?
Аноним 01/07/23 Суб 08:42:44 379660 215
Аноним 01/07/23 Суб 09:01:45 379672 216
>>379659
> Интересно если её дальше тренить она лучше станет или это предел?
Могу попробовать ещё дольше потренить. То, что на цивите, тренилось ~20 часов на 4090, но разница между моделями, обученными на 11 и 20 часов, как мне показалось, совсем небольшая.
Аноним 01/07/23 Суб 11:57:08 379825 217
Аноним 01/07/23 Суб 12:58:07 379966 218
>>379825
Что ты не умеешь, вырезать куски аудио? Тогда убейся нахуй, очисти генофонд человечества от своей тупизны.
Аноним 01/07/23 Суб 13:40:43 380066 219
Аноним 01/07/23 Суб 20:17:25 380729 220
>>379966
нахуй мне учиться когда всегда найдется куколд согласный все сделать за бесплатно, типа тебя
Аноним 01/07/23 Суб 20:21:53 380739 221
>>380729
Нет, ты просто тупой.
Аноним 01/07/23 Суб 21:25:42 380914 222
Silkwormv2.mp4 9516Кб, 512x768, 00:05:03
512x768
River.mp4 3724Кб, 512x768, 00:02:00
512x768
>>379659
Как-то так в общем.
+бонус
Аноним 02/07/23 Вск 00:09:02 381426 223
>>380729
>типа тебя
Чел, я тебя обоссываю, как и остальные тут. Если кто-то и сделает твой реквест, то чисто случайно, лишь потому, что сам захотел. А теперь обтекай молча.
Аноним 02/07/23 Вск 13:27:19 382106 224
>>380914
>Silkwormv2.mp4
Слава теперь хорошо слышно, но сам голос потерялся. Кажется что просто оригинал с большим питчем.
Аноним 02/07/23 Вск 13:28:12 382109 225
Аноним 02/07/23 Вск 14:15:11 382241 226
800.mp4 1396Кб, 512x768, 00:00:39
512x768
1247.mp4 1394Кб, 512x768, 00:00:39
512x768
2371.mp4 1401Кб, 512x768, 00:00:39
512x768
3209.mp4 1397Кб, 512x768, 00:00:39
512x768
3711.mp4 1395Кб, 512x768, 00:00:39
512x768
graph.PNG 976Кб, 3840x1746
3840x1746
loss.PNG 213Кб, 3121x1242
3121x1242
>>379659
Не, что 8, что 30 часов обучать, я разницы не слышу просто. Может надо было на другом отрывке тестить, чтобы разницу услышать... Но, судя по графику в Audacity, разница всё же есть. Графики лосса с последней сессии (с 2371 по 3711 эпохи) я хз как интерпретировать, нужно мнение анонимных датасаентистов.

>>379349
> Прогнать отдельно левый и правый каналы, т. к. so-vits выдаёт только моно.
Вот это крутая подсказка кстати, спасибо. Вот тут с картинками объясняют, как в Audacity стерео-треки разбить по каналам, а потом обратно склеить: https://manual.audacityteam.org/man/splitting_and_joining_stereo_tracks.html
Аноним 02/07/23 Вск 14:23:44 382265 227
>>382241
Голос Кипелова вообще не поддается, такое морф можно сказать ни куда не пойдет, а выше вон >>368658 Наутилус относительно нормально поменялся. Хотя у наутилуса голос даже ниже и более хриплый.
Аноним 02/07/23 Вск 14:26:53 382267 228
>>382265
Хм, попробую тогда вечером что-нибудь другое заморфить на нескольких эпохах и ещё раз сравнить.
Аноним 02/07/23 Вск 14:48:54 382300 229
>>382241
Попробуй на rvc v2 обучить
Аноним 02/07/23 Вск 15:15:05 382363 230
>>382300
короче я щас сам попробую ряди интереса сделать кипелова на rvc, модель нашел
Аноним 02/07/23 Вск 15:56:16 382449 231
kipelov (2).mp4 5566Кб, 1280x720, 00:00:25
1280x720
samka.mp4 14074Кб, 720x480, 00:02:10
720x480
Кипелов и инстасамка лол.
Нейронка rvc v2, 100 эпох.
Аноним 02/07/23 Вск 16:01:27 382460 232
>>382449
Чел, ну ты ведь и сам видишь, что результат плохой.
Аноним 02/07/23 Вск 16:03:07 382463 233
>>382460
Думаю всё дело в настройках применения модели к дорожке, а не в самой модели.
Аноним 02/07/23 Вск 16:04:50 382468 234
Аноним 02/07/23 Вск 16:12:42 382503 235
Lalisa-1.mp4 4798Кб, 720x480, 00:03:26
720x480
Venom-1.mp4 6603Кб, 720x480, 00:04:48
720x480
Вот еще, возможно если бы было 200-300 эпох, то результат был бы лучше. А после 300-350 эпох он ухудшается на этой нейронке
Аноним # OP 02/07/23 Вск 19:04:52 382794 236
1688313892867.jpg 48Кб, 266x400
266x400
Если подумать, можно обучить голосовую модель по сэмплам реальной модели. То есть той же Яндексовской и любой другой. Чтобы больше не платить.

Надо будет только придумать, из каких фраз составить датасет.
Аноним 02/07/23 Вск 20:33:51 382927 237
>>382794
За что платить? so-vits-svc не синтезирует речь, а только тон голоса "меняет".
Бля удоли свой пост. Даже как-то стыдно что ОП этого ИТТ (зис) треда ни хуя не понимает в теме.
Аноним 02/07/23 Вск 20:36:18 382931 238
Silkwormv2plain.mp4 12597Кб, 720x720, 00:05:03
720x720
>>382106
Так получилось, потому что я добавил эхо и реверб, а в припевах сделал голос дуэтом. В итоге потерялось ощущение пения под караоке.

>оригинал с большим питчем
Питч я, кстати, не трогал. Стоит 0 без автокоррекции.

Если что, вот версия без обработки.
Аноним 02/07/23 Вск 20:43:43 382944 239
>>382931
По-моему вот этот вариант уже получше будет, но всё равно нет голоса персонажа.
Из всех что были в треде пока идеальный вариант вот тут >>379312 прямо от сэю не отличить.
Ну и вот тут не плох >>368658
Но "на заре" можно как образец морфа прям показывать, очень удачно получилось.
Аноним 02/07/23 Вск 22:02:11 383057 240
>>382944
Самое ужасное, что я никак не могу воспроизвести это. Хотел сейчас сделать всю песню и не запомнил, как выставил ползунки в тот раз. Теперь из припева получается какая-то каша.
Аноним 03/07/23 Пнд 05:53:07 383475 241
Аноним 03/07/23 Пнд 06:36:40 383480 242
.mp4 18699Кб, 1280x1792, 00:05:24
1280x1792
Отделил инструментал от голоса и музыкальная дорожка начала "пукать", особенно хорошо слышно в конце, как фиксить?
Аноним # OP 03/07/23 Пнд 08:14:47 383501 243
>>382927
Ты дурак. Видишь, даже без вопросов, просто констатирую факт.

Тред - о генерации речи из текста, а не смене тона голоса. Фишку про генерацию бесплатной моделью и изменению голоса на "нормальный" я придумал в прошлом треде, но ты не вкурил, зачем это нужно. А нужно это потому, что бизнес сегодня использует существующие облачные модели для пре-генерации фраз и использования их, например, в помощниках. Но генерация динамических фраз - дорогое удовольствие. Если обучить модель голосу существующей облачной модели, можно будет сэкономить немало денег на генерацию, и позволить агенту общаться с клиентом тем же голосом, что был использован для облачной генерации инструкций.

Не говоря уже об исправлении существующих фраз, чтобы не мудрить с SAML, который не каждый провайдер поддерживает в должном объёме.
Аноним 03/07/23 Пнд 08:16:19 383503 244
Аноним 03/07/23 Пнд 08:20:32 383506 245
>>383480
Использовать другую модель для отделения инструменталки. Смотри, если сэмплинг выставлен тот же, что у оригинала. Можешь попробовать изменить метод отделения (MDX-Net итп).
Аноним 03/07/23 Пнд 09:51:58 383564 246
>>383501
>А нужно это потому, что бизнес сегодня использует существующие облачные модели для пре-генерации фраз и использования их, например, в помощниках.
>Но генерация динамических фраз - дорогое удовольствие.

Ты опять всё перепутал дурачок. Облачный сервис яндексу нужен, потому что синтезированная речь часто отправляется в устройства с низкой вычислительной мощностью или в приложения - навигатор, настольный динамик "Алиса", короче в софт, который сам бы дольше синтезировали речь, чем получал звуковой файл по интернету, но сама по себе tts операция не "дорогое удовольствие", а очень дешевое, которое легко выполняет пека 10 летней давности.
Твое предложение копировать яндесовский tts на самом деле очень тупое и совершенно бессмысленное, думай прежде чем писать. Вообще даже теоретически это бред, в опенсорсе давно есть легкие tts движки которые превосхояд яндекс, сам таким пользуюсь.
Аноним 03/07/23 Пнд 11:59:02 383623 247
>>381426
пока что ты обоссал только свой рот моим хуем
Аноним 03/07/23 Пнд 12:04:50 383626 248
>>383623
Чел, твой запрос никто не выполнил и не выполнит. Ты обоссан, обтекай молча.
Аноним 03/07/23 Пнд 12:05:48 383627 249
>>381426
>Если кто-то и сделает твой реквест, то чисто случайно, лишь потому, что сам захотел
Убеждай себя чмоня, пару раз вы уже сделали мои реквестики. сделаете и еще не один раз, как миленькие, обтек тебе за щеку, проверяй
Аноним 03/07/23 Пнд 12:48:29 383656 250
>>383475
По uvr, тебе не надо выбирать галочки инструментал или вокал, если ты ничего не выберешь то сделается и то и то.
Аноним 03/07/23 Пнд 13:02:03 383678 251
>>383475
О норм. Контент для треда. Молодец анон. Только so_vits это не tts.
Аноним 03/07/23 Пнд 13:25:19 383692 252
>>383656
> По uvr, тебе не надо выбирать галочки инструментал или вокал, если ты ничего не выберешь то сделается и то и то.
И вправду... Что за сверхразум придумал этот UI, обе галочки отметить нельзя, но если их обе снять, то поведение эквивалентно двум отмеченным галочкам. Добавил в статью, спасибо.

>>383678
Я понимаю, просто статья для tts-треда (отдельного sts-треда у нас нет), поэтому такой префикс решил сделать.
Аноним 03/07/23 Пнд 14:39:20 383769 253
>>383564
> но сама по себе tts операция не "дорогое удовольствие", а очень дешевое, которое легко выполняет пека 10 летней давности
Блядь, съеби отсюда. У нас стоит яндексовский сервер в дата центре, эта ебала стоит более 15 тысяч баксов, и генерирует 15 секунд речи в секунду. А теперь нахуй пошёл!

> в опенсорсе давно есть легкие tts движки которые превосхояд яндекс
Нету. Потому что "движка Яндекс" нет, но нет и ОС движка, превосходящего тот, что использует Яндекс.
Аноним 03/07/23 Пнд 15:11:35 383797 254
>>383475
>Полноценное использование so-vits-svc-fork требует наличие видеокарты NVidia с 4GB VRAM. Если у вас с этим проблемы, то программа может полностью исполняться на процессоре с меньшей скоростью.

4gb требуется для inference, для обучения нужно 10gb.
Чел, я весь гайд вычитывать не буду но если ты в само начале такие ошибки допускаешь, то походу всё очень плохо.
Аноним 03/07/23 Пнд 15:29:13 383820 255
>>383797
Впрочем, я зря быканул. Любой гайд лучше чем ничего.
Аноним 03/07/23 Пнд 16:58:29 383947 256
>>383797
>>383820
Добавил инфу про 10GB VRAM для обучения. Я помню, что видел это инфу ранее, но забыл упомянуть в гайде. Мой косяк, да.

Дайте знать, если ещё надо что-то поправить/дополнить надо, я сам в этой теме меньше месяца, так что наверняка какие-то важные нюансы мог упустить.
Аноним 03/07/23 Пнд 17:16:00 383962 257
fix.mp4 18726Кб, 1280x1792, 00:05:24
1280x1792
>>383506
Проблема оказалась в RVC webui. С UVR всё в порядке.
Аноним 03/07/23 Пнд 19:02:04 384087 258
>>383947
>Добавил инфу про 10GB VRAM для обучения.
Тащемта обучать можно и на 4gb, ставишь "batch_size": 3 в конфиге, будет работать. Передаю привет с нищей 3050.
Аноним 03/07/23 Пнд 19:48:20 384130 259
>>384087
В репе четко написано что 10 надо. Разработчику виднее как его хуйня работает, может там хуево учится с глюками в моделе, если памяти меньше.
Аноним 03/07/23 Пнд 20:02:47 384146 260
>>384130
>Разработчику виднее как его хуйня работает
Ну так он там же и пишет, что вот тебе пожалуйте минималка 4 гига, вот для того чтоб там работало крутани тута, тама и здеся, ну и живи, только подорожник ещё приложить не забудь.
Про 10 гигов просто рекомендация по целесообразности, про глюки и то что модель в говно будет там и слова нет. От то что медленнее будет учится, согласен.
Аноним 03/07/23 Пнд 20:06:45 384151 261
>>384146
>учится
ться, грамотей млять.
быстрофикс
Аноним 03/07/23 Пнд 21:47:30 384285 262
>>384146
Да в стэйбл дифюжн тоже можно память снизить, только после этого то тут то там вылезают необъяснимые глюки.
Аноним 03/07/23 Пнд 22:48:20 384367 263
tt.webm 1690Кб, 1280x720, 00:00:39
1280x720
>>384285
За СД не скажу, там я модели не обучал, это уже вопросы к СД.
Тут же я попробовал и своей цели достиг в какой то мере, каких то прям глюков глюков не застал.
Какие то шероховатости я смог объяснить тем, что датасет всего 9 минут с небольшим и он весьма не идеален, при том что очень желательно минут 12 и более с лучшим качеством.
Вот пример 8015 эпох, из обработок высоких чутка поднял эквалайзером, эхо накинул и лимитер влепил, просто потому что uvr немного грязно отработал.
Аноним 04/07/23 Втр 03:48:32 384593 264
>>369598
> хотя там вроде в последних коммитах тоже есть генерация пробных пикч, в тензорборд это добавляется или не, не знаешь?
Не знаю, я кохя-скрипты давно не обновлял...

> Ну даже если попробовать грубый подсчёт по данным что ты нарыл будет 110 спикеров на 400 предложений - 44000 чанков по 10 секунд на каждую эпоху, простых спикеров не считая поющих * 320к эпох с батчем ну в лучшем случае в ~28-30 с ~2it/s (у меня вроде столько выдаёт) это 733 секунды на эпоху и 234560000 секунд на 320к, ну как раз дотренится к моменту выхода какой нибудь квантовой нвидии каждому мимокроку в пекарню. Вроде нигде не обосрался в подсчётах, поправь если да.
Да, пересчитал твои цифры, ~7.4 лет на одной 4090 придётся тренировать, и это если учесть только половину датасета. Так что в домашних условиях нереально самому базовую модель обучить, если не урезать датасет или делать число эпох на порядок-два ниже.
Аноним 04/07/23 Втр 13:30:15 384944 265
>>384087
>>384130
>>384146
"Полноценное использование so-vits-svc-fork требует наличие видеокарты NVidia с 4GB VRAM. Обучение своих моделей так же можно проводить на видеокарте с обёмом памяти 4GB VRAM, однако, разработчкик рекомендует проводить обучение хотя бы на 10GB VRAM."

Так корректнее будет?
Аноним 04/07/23 Втр 14:20:32 385009 266
Модели для so-vits-svc-fork и rvc являются совместимыми между собой?
Аноним 04/07/23 Втр 14:59:32 385052 267
>>385009
Нет, даже rvc и rvc v2 несовместимы. Но на rvc быстрее обучишь в 10 раз.
Аноним 04/07/23 Втр 15:19:11 385077 268
>>385052
по сравнению с so-vits разумеется
Аноним 04/07/23 Втр 15:26:39 385099 269
>>384944
Вообще инференс so-vits прекрасно работает без видеокарты, раза в 2-3 медленнее.
Аноним 04/07/23 Втр 15:29:55 385104 270
>>385099
>[...] Если у вас с этим проблемы, то программа может полностью исполняться на процессоре с меньшей скоростью. AMD GPU поддерживается только для Linux.
Эту строчку планировал дальше оставить. И вправду такая маленькая разница в скорости?
Аноним 04/07/23 Втр 15:42:56 385131 271
>>385104
Проверил сейчас. Кусок аудио 14 секунд длиной обрабатывается на ноутбучной 3050 за 4 секунды, а на i5-10500 за 14.
У господ с 4090 будут другие тайминги.
Аноним 04/07/23 Втр 16:03:37 385176 272
>>385131
Взял отрывок аудио длиной 36 секунд:
4090: обрабатывается 4 секунды
i9-9900k: обрабатывается 22 секунды
Аноним 04/07/23 Втр 17:55:44 385331 273
kamina1.mp4 3773Кб, 1280x720, 00:00:18
1280x720
kamina2.mp4 3772Кб, 1280x720, 00:00:18
1280x720
kamina3.mp4 3778Кб, 1280x720, 00:00:18
1280x720
чо притихли?
Аноним 04/07/23 Втр 19:54:48 385531 274
327343900.jpg 121Кб, 900x630
900x630
Аноним 05/07/23 Срд 08:16:46 386441 275
>>385331
В чем видеорилетейд делалось? В шапке написано что только японский же?

только вкатываюсь в нейроозвучку
Аноним 05/07/23 Срд 10:33:09 386507 276
>>385331
>3
Ебаааааааааать
Аноним 05/07/23 Срд 10:35:04 386509 277
>>385331
Расскажи как делал, я тоже хочу озвучивать чуваом из постала.
Аноним 05/07/23 Срд 10:59:18 386523 278
>>386441
>>386509
Пишешь vits-svc в ютубе и смотришь любое видео.
Аноним 05/07/23 Срд 12:01:19 386546 279
Аноним 05/07/23 Срд 12:05:15 386548 280
>>386523
Эта штука только заменяет голос? В текст то спич не может?
Аноним 05/07/23 Срд 18:39:02 387058 281
Аноним 05/07/23 Срд 21:55:39 387357 282
>>386523
Спасибо, потрогал, работает. Сколько вообще нужно тренировать до хорошего результата? Ты сколько чувака тренил?
В примерах, я смотрел, файлы по G_56000 лежат.
Аноним 05/07/23 Срд 22:03:57 387371 283
>>387357
500 шагов на кал_лабе это час.
Аноним 05/07/23 Срд 22:05:06 387373 284
>>387357
Индивидуально. Зависит ок количества датасета и его разнообразия. У чувака 90000, но разницы с 50000 большой нет.
Аноним 06/07/23 Чтв 02:04:39 387738 285
>>387373
А ты как датасет собирал? Я когда-то давно из видео "Все фразы чувака из postal" повырезал, сохранив в формате wav. Хотел себе на компе системные звуки на фразы чувака заменить. Вот, сейчас пригодились, ради пробы сделал G_2000, сейчас доделалась 10000, буду тестить.
Если кому надо, могу скинуть архив со всеми фразами чувака.
Аноним 06/07/23 Чтв 04:20:37 387826 286
>>314948 (OP)
Поясните, хочу обучить модель, у меня есть запись как чел читает книгу, с паузами, мне надо эти паузы вырезать или они ни на что не влияют?
Аноним 06/07/23 Чтв 05:15:57 387851 287
>>387826
У so-vits-svc-fork так:
> Training
> Silence removal and volume normalization are automatically performed (as in the upstream repo) and are not required.

Как у RVC не знаю.
Аноним 06/07/23 Чтв 10:22:22 387986 288
Аноним 06/07/23 Чтв 13:16:09 388122 289
>>387851
Ну вроде нормально получилось, юзал RVC.
Не могу только найти индекс файл, он вообще ещё нужен и что делает, вроде и без него конвертирует.
Аноним 07/07/23 Птн 08:56:07 389512 290
RedSun.mp4 3530Кб, 720x480, 00:02:01
720x480
Аноним 07/07/23 Птн 10:42:17 389555 291
sold.mp4 49926Кб, 1024x1536, 00:03:14
1024x1536
ZV.mp4 1004Кб, 512x512, 00:00:08
512x512
Почему не похоже?
Аноним 07/07/23 Птн 12:22:23 389621 292
image.png 83Кб, 364x153
364x153
>>389512
Голову бы тебе оторвать, мудак. Не смей Доки но сакура трогать, мразь.
Аноним 07/07/23 Птн 14:19:36 389761 293
>>389621
> Не смей Доки но сакура трогать, мразь.
Это название песенки? Покажи оригинал.
Аноним 07/07/23 Птн 14:47:52 389805 294
Аноним 07/07/23 Птн 18:58:26 390291 295
>>389805
> Это был тонкий реквест
Стал бы я иначе спрашивать исходник.
Аноним 07/07/23 Птн 20:42:34 390570 296
image.png 104Кб, 672x404
672x404
Аноним 07/07/23 Птн 20:47:16 390582 297
Аноним 07/07/23 Птн 23:19:42 390798 298
>>387371
Я до 500 на кал лабе месяц тренил. Видимо от датасета зависит у меня было 2+часа в паре тысяч файлов.
Аноним 07/07/23 Птн 23:30:35 390822 299
>>390798
У меня был 3 минуты!
Аноним 08/07/23 Суб 02:53:20 391059 300
В UVR кто-нибудь пробовал разные модели тестировать? Их там десятки просто.
Аноним 08/07/23 Суб 07:08:59 391180 301
.mp4 24456Кб, 1024x1408, 00:06:44
1024x1408
Аноним 08/07/23 Суб 12:55:00 391371 302
Аноним 08/07/23 Суб 13:49:53 391427 303
Как понимаю Vits всегда херит остальной звук в песне?
Аноним 08/07/23 Суб 14:14:12 391479 304
Аноним 08/07/23 Суб 22:17:44 392334 305
>>391180
Круто получилось, вообще не слышно дребезжания уже.
Как можно датасет улучшить? Я нарезал 110 треков по 8-10 секунд
И на 500 эпохах всё равно хуёво, голос срывается и квакает, что я делаю не так? Могу ещё 100 нарезать, это поможет?
Аноним 08/07/23 Суб 22:45:07 392418 306
>>391180
Голос японский, да?
Аноним 09/07/23 Вск 21:44:02 393891 307
bingchill.mp4 7434Кб, 398x480, 00:00:49
398x480
Аноним 09/07/23 Вск 22:12:11 393923 308
>>385331
Анон, я у тебя пару дней назад спрашивал про обучение чувака. Вот, натренировал свою модель до g_10000, решил затестить на песьне кота Леопольда и оно легло идельно. Пробовал на других записях и всегда какой-то шакал выходит, даже если идёт +/- норм, в какой-то момент голос тупа срывается. Но вот в этой песне, он как родной. Зацени, что скажешь?
https://youtu.be/UGHXJlTu9HU
Аноним 09/07/23 Вск 22:33:15 393953 309
v1e1305.mp4 3592Кб, 1024x1408, 00:00:52
1024x1408
v2e800.mp4 3613Кб, 1024x1408, 00:00:52
1024x1408
v2e2371.mp4 3606Кб, 1024x1408, 00:00:52
1024x1408
v2e4366.mp4 3617Кб, 1024x1408, 00:00:52
1024x1408
>>392334
> Круто получилось, вообще не слышно дребезжания уже.
Ага, я сам прям кайфанул от того, как здорово вышло.

> Как можно датасет улучшить? Я нарезал 110 треков по 8-10 секунд
Может разнообразия звуков в датасете не хватает? У меня есть старая модель, которую обучал только по первым двум сериям аниме, там 21 минута голоса вышла. Прикрепил один и тот же отрывок для сравнения:
v1_e1305 - датасет 21 минута, 1305 эпох, 28 батч сайз
v2_e800 - датасет 69 минут, 800 эпох, 28 батч сайз
v2_e2371 - аналогично предыдущему, только больше эпох (это та версия, что на цивите как v1 выложена)
v2_e4366 - аналогично предыдущему, только больше эпох да, я обучал это 40 часов, потому-что почему бы и нет?

Во всех случаях звучит приемлемо, хотя у первого варианта датасет в три раза меньше. Но тут, конечно, такая проблема, что надо много тестов делать, чтобы хоть какие-то выводы можно было наверняка сделать - а нормальных инструментов по автоматизации этого процесса, типа гридов в SD, просто нет. А вручную слишком запарно это всё тестировать, надо скрипты хотя бы накидать, по хорошему - в том же so-vits есть CLI.

Отрывки я тоже все делал <10 секунд, как разработчик советовал.

> И на 500 эпохах всё равно хуёво, голос срывается и квакает, что я делаю не так? Могу ещё 100 нарезать, это поможет?
Может быть плохо вокал от инструменталки отделился для тех отрывков, которые тестировал? Пробовал те же отрывки на других моделях тестировать?

Либо может на неудачных отрывках тестируешь - у меня есть отрывки, на которых голос срывается вне зависимости от того, какую модель использую. Пробовал тестировать на разных версиях моделей с Сенко, и ещё пробовал Саю и Нахиду с хаггингфейса. Никто не вытягивает определённые участки. Тут остаётся только базовую модель винить.

>>392418
> Голос японский, да?
Да, датасет состоит из 69 минут японского голоса.
Аноним 09/07/23 Вск 22:36:56 393958 310
>>393953
Как датасет собирал? Если из анимы резал, то как отделял от фоновых звуков?
Аноним 09/07/23 Вск 22:40:36 393961 311
>>393958
Из анимы ручками резал, да. Сначала при помощи https://github.com/Anjok07/ultimatevocalremovergui убрал все фоновые звуки, а потом вручную нарезал голос нужного мне персонажа через Audacity, используя такой подход >>353861
Аноним 09/07/23 Вск 22:46:28 393968 312
kaz.mp4 19478Кб, 720x480, 00:01:41
720x480
kr22.mp4 11624Кб, 512x512, 00:02:37
512x512
>>393923
Из-за разности в голосах тональности скорее всего проблема. Пробуй кнопки режимов повыбирать, типо harvest, creepe и ещё чото-там, короче, все попробуй.
В любом случае получилось лучше, чем у меня, молодец!
Аноним 10/07/23 Пнд 00:21:25 394091 313
Аноним 10/07/23 Пнд 00:23:17 394092 314
Аноним 10/07/23 Пнд 00:47:45 394110 315
image.png 64Кб, 1007x778
1007x778
>>394092
У меня тут. Где в каллабе хз.
Аноним 10/07/23 Пнд 01:02:59 394126 316
image.png 47Кб, 263x172
263x172
А есть гайды че да как под vits-svс на русскоязычных лексемах обучать модели или тип того? Видел на хагингфейс спрашивали ссылаясь на эту ветку, но я ссылку проебал.

Это или неподъемная задача, или что? И почему модели ни кто не где не выгружает, бояться что выебут за авторские права?
Аноним 10/07/23 Пнд 01:54:35 394214 317
1688943275188.png 9Кб, 200x200
200x200
>>394126
> бояться что выебут за авторские права?
Нет, образец голоса защищается другими законами, по сравнению с которыми авторские права - детский сад. Ни одна компания (вроде HuggingFace) на такое не пойдёт.
Аноним 10/07/23 Пнд 09:00:09 394403 318
abutitan.mp4 1080Кб, 600x596, 00:00:38
600x596
Обучил абу до 24к. Есть ли смысл учить дальше, с учетом того что это RVC v2?
Аноним 10/07/23 Пнд 13:39:42 394566 319
Аноним 10/07/23 Пнд 20:00:22 395015 320
1689008419978.mp4 1720Кб, 614x432, 00:00:13
614x432
Аноним 10/07/23 Пнд 22:27:44 395191 321
изображение.png 10Кб, 590x144
590x144
>>394110
Анон, выручай, не видит видимокарту. У меня GTX 960, там cuda присутствуют.

Устанавливал через
pip install -U so-vits-svc-fork

Пробовал установить Pytorch with CUDA через
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117
Аноним 10/07/23 Пнд 22:52:21 395234 322
Аноним 11/07/23 Втр 05:13:31 395511 323
>>394403
Проиграл, лучше наверное уже и не сделать, с тем что сейчас есть по крайней мере.
Аноним 11/07/23 Втр 15:31:47 395843 324
изображение.png 26Кб, 717x268
717x268
Во время обработки выдаёт пикрил, при чём независимо от того, запускаю я на видеокарте или процессоре. Как фиксить?
Аноним 11/07/23 Втр 15:49:07 395857 325
>>395843
При этом realtime худо-бедно работает, ошибок не выдаёт.
Аноним 13/07/23 Чтв 01:14:01 398703 326
image.png 609Кб, 1280x850
1280x850
От куда этот пикрил интерфейс?
Аноним 13/07/23 Чтв 10:32:41 399184 327
Аноним 14/07/23 Птн 15:23:32 400831 328
>>399184
А можно RVC модель конвернуть в SVC ?
Я так понял все каверы делают на RVC и они достаточно нормально работают с русскими лексамами (буква Р выговаривается)
А вот модели SVC сплош с акцентом звучат и ощутимо хуже работают, на зато SVC в реал тайм умеют
Аноним 14/07/23 Птн 23:15:44 401488 329
>>400831
ЗЫ я долбаеб, rvc тоже в риалтайм умеет
Аноним 15/07/23 Суб 09:22:17 401922 330
максим.mp4 13736Кб, 1920x1080, 00:02:58
1920x1080
Аноним 15/07/23 Суб 09:30:50 401923 331
Аноним 15/07/23 Суб 15:43:40 402641 332
>>399184
Пол дня пердолился с этим гайдом. Написали бы хоть где-нибудь что с 2060 туда можно не соваться.
Аноним 17/07/23 Пнд 04:50:36 407940 333
Sunrise Avenue [...].mp4 13967Кб, 1024x1408, 00:03:33
1024x1408
Аноним 17/07/23 Пнд 08:46:42 408113 334
https://huggingface.co/datasets/NeuroSenko/senko-voice
Датасет на голос с лисой, на случай, если кто-то захочет модель на RVC или ещё что-то обучить. А то я нескоро этим займусь похоже.
Аноним 18/07/23 Втр 16:08:20 413127 335
pupa.mp4 17707Кб, 768x512, 00:02:52
768x512
Аноним 18/07/23 Втр 21:05:58 413682 336
Аноним 18/07/23 Втр 22:36:26 413975 337
Короче, пацаны. Открываете телеграм, находите канал СnacuTe XpucT'a, боту отсылаете сообщение и качаете кучу говн\\\\ голосов.
RVC модели⬇️
RVC_Voice_1:
1- 50cent
2- Alduin
3- Ани Лорак
4- Arnold Schwarzenegger
5- Bella Poarch
6- Biden
7- Billie Eilish 2021
8- Billie Eilish 2019
9- Bob Dylan
10- Borat
11- Brigadier

RVC_Voice_2:
1- CardiB
2- Don Lafontaine
3- Elon Musk
4- elton
5- Eminem
6- Franklin Clinton
7- Freddie Mercury
8- Gabe Newell

RVC_Voice_3:
1- Georgew Bush
2- Gman
3- Johnny Silverhand
4- Kanye
5- Лена Катина
6- Kurt Cobain
7- Lana Del Rey
8- Leon Kennedy
9- Marilyn Monroe
10- Michael Jackson

RVC_Voice_4:
1- Michael de santa
2- Mike Patton
3- Mimir
4- Mitchie Mmiku
5- Morten
6- Namvet
7- Obama
8- Optimus Prime
9- Ozzy Osbourne

RVC_Voice_5:
1- Pitbull
2- Пригожин
3- Rick
4- Rick2
5- Sakura Miyawaki
6- Scarlett Rhodes
7- Selena
8- Shrek
9- Trevor Philips
10- Trump
11- Юлия Волкова
12- Yuna
13- Зеленский
14- Михаил Горшенёв

RVC_Voice_6:
1- Adriano Celentano
2- Akanev2(аниме)
3- Akon
4- Bob Marley
5- Bot maxim
6- Братишкин
7- Chino
8- Dalek(Доктор кто)
9- DMX
10- Geralt(eng)
11- Giorgia Meloni
12- Thrall WOW

RVC_Voice_7:
1- George Carlin
2- Frank Sinatra
3- Леонид Володарский

RVC_Voice_8:
1- Freddie Mercury 2
2- Miley Cyrus
3- Spongebob Squarepants
4- Глад Валакас

RVC_Voice_9:
1- Крош(смешарики)
2- Kurt Cobain 2
3- Егор Летов
4- LisaAImodel
5- Lyn lapid
6- Marmok
7- Nancy Drew
8- Neurosama(аниме)
9- Peter Griffin
10- Винни-Пух
11- Glados
12- Siri ru
13- Юрий Стоянов
14- Trump2
15- Viktor
16- Yandex Alisa

RVC_Voice_10:
1- Пригожин 2
2- Rihanna)

RVC_Voice_11:
1- Александр Головчанский
2- Александр Клюквин
3- Александр Рахленко
4- Александра Курагина
5- Алексей Борзунов
6- Андрей Гаврилов
7- Антон Савенков
8- Артём Карапетян
9- Борис Репетур
10- Вартан Дохалов
11- Василий Ливанов
12- Вероника Саркисова
13- Вероника Саркисова_2
14- Виктор Цымбал
15- Виталий Соломин
16- Владимир Антоник
17- Владимир Вихров
18- Владимир Ерёмин
19- Владимир Зайцев
20- Владимир Познер
21- Владислав Копп
22- Всеволод Кузнецов
23- Высоцкий Владимир
24- Вячеслав Баранов
25- Глушковский Михаил
26- Головчанский Александр
27- Денис Беспалый
28- Денис Некрасов
29- Дмитрий Полонский
30- Дмитрий Пучков
31- Дмитрий Пучков 2
32- Евгений Леонов
33- Евгений Суслов
34- Иван Жарков
35- Игорь Старосельцев
36- Игорь Тарадайкин
37- Илья Барабанов
38- Илья Бледный
39- Илья Исаев
40- Леонид Белозорович

RVC_Voice_12:
1- Леонид Белозорович_2
2- Леонид Володарский
3- Михаил Белякович
4- Михаил Георгиу
5- Matthew McConaughey
6- Никита Прозоровский
7- Николай Буров
8- Николай Дроздов
9- Олег Вирозуб
10- Ольга Зубкова
11- Рогволд Суховерко
12- Руслан Габидуллин
13- Светлана Репетина
14- Сергей Бурунов
15- Сергей Пономарёв
16- Сергей Чихачев
17- Сергей Чонишвили
18- Сергей Чонишвили 2
19- Станислав Концевич
20- Юрий Живов
21- Юрий Левитан
22- Юрий Яковлев

SVC модели⬇️
Voice_1:
1- Михаил Горшенёв (Эпох: 4400 )
2- Михаил Горшенёв 2 (Эпох: 3080 )
3- Михаил Горшенёв 3 (Эпох: 6400 )

Voice_2:
1- Dora (Эпох:4000)
2- Dora 2 (Эпох:12000)
3- Face (Эпох: 6000)

Voice_3:
1- Morgenshtern (Эпох: 15000)
2- Morgenshtern 2 (Эпох: 36000)
3- Morgenshtern 3 (Эпох: 1448)

Voice_4:
1- Егор Летов (Эпох: 2000)
2- Глад Валакас (Эпох: 56000)
3- Гитлер (Эпох: 30000)

Voice_5:
1- INSTASAMKA (Эпох: 9000)
2- Kizaru (Эпох: 27200)
3- OXXXYMIRON (Эпох: 24000)

Voice_6:
1- Slava Marlow (Эпох: 28000)
2- Бледный (Эпох: 7200)
3- Зеленский (Эпох: 11000)

Voice_7:
1- Меладзе (Эпох: 10000)
2- Мэйби Бэйби (Эпох: 32000)
3- Элджей (Эпох: 17000)

Voice_8:
1- Александр Белявский
2- Александр Клюквин
3- Александр Котов
4- Александр Рахленко

Voice_9:
1- Андрей Ярославцев
2- Борис Репетур
3- Владимир Зайцев
4- Всеволод Кузнецов

Voice_10:
1- Дмитрий Полонский
2- Дмитрий Пучков
3- Евгений Леонов
4- Иван Жарков

Voice_11:
1- Леонид Белозорович
2- Николай Быстров
3- Рогволд Суховерко
4- Сергей Бурунов

Voice_12:
1- Сергей Чонишвили

Ну там кроме этого еще полно всего.
Аноним 19/07/23 Срд 01:26:51 414384 338
>>413975
>Открываете телеграм
Лучше вскрыться нахуй.
Кстати, если ты это сделал, то выложи на достойные ресурсы типа цивитая.
Аноним 19/07/23 Срд 08:44:53 414701 339
image.png 161Кб, 1338x733
1338x733
Уважаемые господа, подскажите как чинить проблему на RVC. Когда пытаюсь сгенерировать на основе одного и того-же аудио, но с другими крутилками - вылезает это и разницы в результате с предыдущим траем нет. Перезапуск не помогает.
Аноним 19/07/23 Срд 13:29:18 415028 340
>>414384
Как пожелаешь.
Не я и там овердохуягигов, которые скачиваются оттуда на максимальной скорости. Найти было очень трудно если что, но, видимо, это никому не упало.
Аноним 21/07/23 Птн 00:41:52 420451 341
kipelo.mp4 30387Кб, 512x512, 00:07:13
512x512
В RVC мешьне/почти нет артефактов, но голос более похож у so-vits.
Пердолился с rvc на трёх моделях - голоса вообще не похожи. Разве что у боба кое как.
Мб для датасета из 400 файлов 100 эпох слишком много и идёт переобучение?
Аноним 24/07/23 Пнд 23:40:26 427916 342
Sunrise Avenue [...].mp4 13842Кб, 1024x1408, 00:03:33
1024x1408
>>407940
Всё же голос звучит чётче, если морфить сразу по обоим стерео-каналам, а не выпендриваться с дроблением стерео на моно-треки с их последующим морфингом по отдельности.

В варианте выше делал морфинг по отдельным каналам. В прикреплённом здесь варианте просто морфинг по стерео-дорожке целиком.
Аноним 25/07/23 Втр 15:07:01 428635 343
Аноним 25/07/23 Втр 21:22:48 428995 344
Аноним 27/07/23 Чтв 02:29:42 430610 345
>>428635
> ОЧИНЬ МНОГА МАДЕЛИЙ ДЛЯ RVC
Я думаю, японские дрочеры напрягаются. Страна-сексшоп, страна-фагготрия.
Аноним 27/07/23 Чтв 02:48:54 430626 346
so-vits-svc-fork.mp4 4520Кб, 576x704, 00:01:57
576x704
rvce20.mp4 4516Кб, 576x704, 00:01:57
576x704
rvce1000.mp4 4518Кб, 576x704, 00:01:57
576x704
[Hugging Face] [...].mp4 4517Кб, 576x704, 00:01:57
576x704
[Hugging Face] [...].mp4 4527Кб, 576x704, 00:01:57
576x704
Пока не могу понять, как RVC готовить. По ощущениям, RVC лучше проговаривает отдельные звуки в сравнении с SVC (как анон >>400831 заметил), но, при этом, делает много других косяков.

Вот пример морфа одного и того же отрезка с разными моделями и одинаковыми настройками (питч +12, crepe). Тут есть вариант на so-vits-svc-fork, две rvc v2 модели по тому же самому датасету на разное число эпох (20 vs 1000), и две модели на того же персонажа, которые я нашёл на >>428635 файлопомоке. У so-vits-svc-fork просто не может взять пару высоких нот на 1:25, а у любых rvc-моделей иногда проскакивают какие-то механические звуки, или что-то совсем непонятное на резких переключениях высоты происходит, например на 0:57.

Может я с обучением или преобразованием напортачил? Кроме питча и "pitch extraction algorithm" всё по умолчанию оставлял. Либо RVC более чувствителен к качеству дорожки, которую использум для морфинга, хотя на других примерах у меня всё аналогично выглядит.
Аноним 27/07/23 Чтв 03:17:23 430636 347
https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/releases/tag/updated0618v2
А, и ещё, как поставить RVC на шиндовс - просто скачайте и распакуйте RVC-beta.7z, которую можно найти на странице последнего релиза по ссылке выше. Запуск через файл go-web.bat. Файлы с моделями кидать в директорию weights; по умолчанию не идёт каких-либо моделей в комплекте.

Я сначала пытался по умному через git и ручную установку зависимостей в venv поставить, но ниасилил - при запуске ругался на какие-то пакеты. А тут всё без каких-либо проблем завелось.
Аноним 27/07/23 Чтв 20:12:38 431554 348
OplachuPidoru P[...].mp4 1028Кб, 256x256, 00:00:31
256x256
>>430626
Я делаю всё через колабы, т.к. не имею достаточных мощностей, в силу чего не очень в нейронках понимаю. Но по личным наблюдениям SVC делает голос более похожим. но чаще встречаются всякие косяки типа срывов и хрипения, в то время как в RVC их почти нет.

Ну а ещё в случае с колабами RVC быстрее и проще запскается, для обучения хавает mp3 вместо wav, быстрее обучает и генерирует. SVC колаб же просто кастрированый, крутилок мало и они ничего в лучшую сторону не меняют.
Аноним 27/07/23 Чтв 20:14:30 431557 349
>>431554
P.S.
Но если датасет и запись идельного качества, то SVC почти не плодит артефактов и получается лучше, чем в RVC.
Аноним 27/07/23 Чтв 20:57:37 431603 350
Аноним 27/07/23 Чтв 23:05:45 431750 351
>>362460
> Ты про пик2? Можешь запилить на гитхаб или куда нибудь этот вебгуй что собрал?
https://huggingface.co/spaces/NeuroSenko/audio-processing-utils
На спейс в HF вынес UI для извлечения аудио из видео и для конвертации аудио+картинки в видео. В режиме audio2video добавляет 3 секунды тишины в конце, пока не понял, почему так выходит - у меня ffmpeg локально и на HF по разному отрабатывает с одними и теми же командами. Вот с этой строкой надо колдовать - https://huggingface.co/spaces/NeuroSenko/audio-processing-utils/blob/main/app.py#L32

Ну и работает долго ппц, хотя это от очередей в HF зависит, насколько я понимаю. Можно форкнуть или поднять локально при необходимости - там в requirements.txt всё что надо прописано правда оно срать temp файлами в корень проекта будет.
Аноним 27/07/23 Чтв 23:19:22 431766 352
Untitleaad.mp4 23155Кб, 480x360, 00:03:39
480x360
Аноним 27/07/23 Чтв 23:26:35 431780 353
>>414701
Хз, у меня на той же версией RVC, что у тебя на пике, нет такой проблемы. Питон глобальный у меня так же 3.10.

Ну попробуй архив по новой стянуть, лол. Хотя, судя по дате поста, ты уже должен был всё перепробовать.
Аноним 27/07/23 Чтв 23:36:47 431792 354
>>431780
Ну я просто хуй забил.
На то, что-бы убедиться что очередная спизженная модель плохо работает и одной попытки хватит.
Аноним 27/07/23 Чтв 23:51:26 431806 355
>>431766
На 44 секунде он умир.
Аноним 28/07/23 Птн 15:26:50 432431 356
output.mp4 3118Кб, 380x68, 00:02:13
380x68
Как челики делают подобного качества записи в RVC Voice AI? Только не говорите мне что создатель модельки японец или настолько помешан на аниме, что способен с подобной дикцией зачитывать текст
Аноним 28/07/23 Птн 16:43:40 432504 357
>>432431
Вопрос закрыт, разобрался
Аноним 28/07/23 Птн 16:49:06 432508 358
>>432504
Ты бы хоть поделился, как решил...
Аноним 28/07/23 Птн 17:13:17 432533 359
image.png 175Кб, 735x890
735x890
1469363807.mp4 1054Кб, 512x512, 00:00:26
512x512
Аноним 28/07/23 Птн 17:24:57 432554 360
>>432533
Первый раз такой фронтенд вижу. Надо будет глянуть, спасибо за наводку.
Аноним 28/07/23 Птн 17:46:09 432584 361
1469363808.mp4 42089Кб, 512x512, 00:06:03
512x512
С ритмом конечно же будет отдельная беда
Аноним 28/07/23 Птн 19:41:04 432696 362
14693638194.mp4 3027Кб, 1270x720, 00:00:09
1270x720
Аноним 28/07/23 Птн 20:04:04 432711 363
14345768.mp4 9747Кб, 1270x720, 00:03:59
1270x720
Аноним 28/07/23 Птн 23:29:06 433021 364
Common.mp4 119Кб, 756x632, 00:00:03
756x632
SSML.mp4 940Кб, 776x780, 00:00:31
776x780
https://huggingface.co/spaces/NeuroSenko/tts-silero

Накидал на коленке фронтенд для TTS части проекта https://github.com/snakers4/silero-models
Поддерживается несколько русскоязычных спикеров. Должны поддерживаться и прочие спикеры, но что-то у меня на спейсе ошибки льются и мне лень прямо сейчас это раскуривать.

Поддерживается синтаксис SSML-разметки, подробнее курить в доках - https://github.com/snakers4/silero-models/wiki/SSML

Всё это, как водится, можно форкнуть или запустить локально.
Аноним 29/07/23 Суб 00:03:36 433084 365
senko.mp4 875Кб, 400x400, 00:00:22
400x400
Аноним 29/07/23 Суб 13:18:28 433724 366
kompromissspong[...].mp4 3232Кб, 896x512, 00:01:40
896x512
Анончики, как избавиться от акцента в RVC? У меня у всех моделей, даже русскоязычных очень заметный акцент, особенно на шипящих и твердых согласных.
Тут у Спанч Боба практически нет акцента >>420451
Аноним 29/07/23 Суб 13:22:38 433732 367
>>433724
А никак, если хочешь, чтобы не было ебанутого английского акцента на русском тексте, то нужна русская базовая моделька. А таких не имеется.
Аноним 29/07/23 Суб 13:43:19 433755 368
coi1.mp4 10164Кб, 512x512, 00:03:14
512x512
coi2.mp4 11513Кб, 512x512, 00:03:04
512x512
coi3.mp4 8988Кб, 512x512, 00:02:47
512x512
coi4.mp4 6817Кб, 512x512, 00:02:30
512x512
>>433724
Там крутилка есть на силу акцента. По умолчанию она на 0.7 стоит, можно больше делать, но будет больше артефатич
Аноним 29/07/23 Суб 15:35:17 433918 369
letov1.mp4 29281Кб, 512x512, 00:07:19
512x512
Аноним 29/07/23 Суб 17:29:18 434112 370
>>433755
Это в локальной версии? Я на колабе такого, вроде, не видел.
Другойанон
Аноним 29/07/23 Суб 17:46:12 434141 371
.png 24Кб, 368x400
368x400
>>434112
В локальном китайском webui
Правда толку от этой крутилки практически никакого
Аноним 29/07/23 Суб 18:34:23 434198 372
>>434141
А, нифига себе. Ну, то что толку никакого я заметил. Ради теста делал одну и ту же запись на 0.5, 0.7, 0.9. Разницы не услышал.
Аноним 29/07/23 Суб 18:37:13 434205 373
>>434141
Алсо, скинь, пожалуйста, скрин интерфейса локальной версии. Сравнить хочу с колабом.
А то у колаба SVC, например, почти все куртилки порезаны. Да и в целом колаб SVC кривой. Помню он мне одку песню почему-то при обработке отказывался на фрагменты разбивать, жрал все две минуты за раз, а потом выдавал ошибку, шо видеопамять закончилась.
Аноним 29/07/23 Суб 19:54:24 434315 374
FireShot Captur[...].png 450Кб, 1920x2141
1920x2141
FireShot Captur[...].png 204Кб, 1920x1003
1920x1003
FireShot Captur[...].png 273Кб, 1920x1481
1920x1481
FireShot Captur[...].png 192Кб, 1920x1278
1920x1278
FireShot Captur[...].png 78Кб, 1920x955
1920x955
FireShot Captur[...].png 557Кб, 1920x3594
1920x3594
Аноним 29/07/23 Суб 20:05:02 434334 375
>>434315
Понятно, спасибо. Вроде отличия есть. но не такие сильные, как в случае с SVC.
Аноним 29/07/23 Суб 22:31:42 434521 376
А на сколько трудно вот это подключить к тексту? Или чтение текста это совсем другая более сложная задача?
https://www.youtube.com/shorts/dnQotnbHax4
Аноним 29/07/23 Суб 22:37:23 434526 377
>>434521
Это VC, оно меняет голос. Для чтения текста TTS.
В прицнипе, ты можешь засунуть в VC то, что было озвучено рандомным TTS, но, как и у всех TTS, будут проблемы с ударениями, интонацией и прочим.
Короче, VC>TTS
Аноним 30/07/23 Вск 13:35:30 435177 378
https://huggingface.co/spaces/Aki004/herta-so-vits
Анончики, кто может помогите, пожалуйста.
Как вот эту вот ебалду завести на петухоне?
К примеру, я с консоли буду текст вводить, а оно мне речь на выходе лепить
Аноним 30/07/23 Вск 14:25:21 435273 379
Аноним 30/07/23 Вск 15:38:12 435396 380
>>435273
raise ValueError(f'mutable default {type(f.default)} for field '
ValueError: mutable default <class 'fairseq.dataclass.configs.CommonConfig'> for field common is not allowed: use default_factory

Срёт ошибкой при запуске :((
Аноним 30/07/23 Вск 15:51:15 435407 381
>>435396
Полностью вывод консоли покажи
Аноним 30/07/23 Вск 15:58:22 435417 382
Аноним 30/07/23 Вск 16:02:08 435421 383
>>435417
Python 3.11 не поддерживается. Ставь 3.10.8
Аноним 30/07/23 Вск 16:04:43 435424 384
>>435421
спасибо спасибо <з
Аноним 30/07/23 Вск 16:43:35 435472 385
>>435177
>>435424
https://pastebin.com/8UnDkM6z можешь этот файл скачать и запускать вместо demo.py. Вводишь текст в консольку и он его читает (и сохраняет в out_audio.wav), выходить через ctrl+c (или просто закрыть окно)
Перед использованием нужно установить пакет sounddevice
pip install sounddevice
Если будет ругаться на CUDA, то замени в строке #31 device = 'cuda' на device = 'cpu'
Аноним 30/07/23 Вск 17:05:39 435495 386
>>435472
Спасибо, анончик!

Но после того, как накатил python 3.10.8, озвучка персонажа слетела и сейчас вообще не то, уже чистил и перекачивал репозиторий - сейм проблема
Аноним 30/07/23 Вск 18:05:38 435594 387
>>435495
После накатки 3.10.8 pip install -r requirements_win.txt делал?
Так же убедись, что у тебя 3.10.8 прописался в path, а то может там остался 3.11
Аноним 30/07/23 Вск 18:45:19 435658 388
>>435594
>pip install -r requirements_win.txt делал?
Делал
>в path 3.10.8
Аноним 30/07/23 Вск 19:24:57 435734 389
>>435472
Видимо, запись в файл не понравилась скрипту в твоём варианте.
Переписал https://pastebin.com/t818hTAe, теперь все супер работает.
Спасибо за помощь!
Аноним 31/07/23 Пнд 22:14:48 438047 390
Слухайте, а кроме voicevox ничего нормального нет для генерации рандомного текста в войс?
Аноним 01/08/23 Втр 15:22:31 439135 391
video5334702908[...].mp4 2665Кб, 640x360, 00:00:30
640x360
Аноним 03/08/23 Чтв 11:35:35 442209 392
Что автопереводчики лучше воспринимают - предложения или отдельные слова? Влияет ли это на качество? Подправить перевод руками не сложно, но раз слова в образце не опознаются, может лучше его не использовать?
Аноним 03/08/23 Чтв 16:32:48 442604 393
Есть гайд для долбоебов как генерить смешные песенки с голосом пророка санбоя?
Аноним 04/08/23 Птн 13:19:10 443679 394
>>442604
Вот для дебилов версия: https://youtu.be/pdlhk4vVHQk

Если что-то по пути будет не понятно, спрашиваешь у чата гпт (я на poe.com спрашивал).

Не знаю, нужно ли это вообще было, но так как у меня стоит python 3.10, а для проги нужен 3.9, то я его установил и активировал через virtualenv (узнал об этом тоже у гпт по запросу "Как установить локальный python определённой версии для одной программы?"). Главное, что работает
Аноним # OP 04/08/23 Птн 18:55:09 443882 395
>>433021
> Накидал на коленке фронтенд для TTS части проекта

Круть. Это сейчас тестируется в альфе Soundworks, там редактор для SSML есть и встроенные конвертеры, грех не использовать. Так что фронтенд для винды, считай, тоже есть.

Мне нравится качество, которого ребята добились - не хуже Яндекса. Реальные молодцы.
Аноним # OP 04/08/23 Птн 18:56:29 443883 396
>>442209
Предложение несёт контекст.
Аноним # OP 08/08/23 Втр 22:09:05 448810 397
1691521743871.mp4 535Кб, 512x512, 00:00:19
512x512
1691521743872.mp4 586Кб, 256x320, 00:00:20
256x320
1691521743873.mp4 977Кб, 512x512, 00:00:25
512x512
1691521743873.mp4 589Кб, 512x512, 00:00:23
512x512
1691521743873.jpg 105Кб, 705x592
705x592
1691521743902.jpg 97Кб, 706x593
706x593
1691521743906.jpg 13Кб, 414x149
414x149
>>443882
Обновление SoundWorks с поддержкой Silero перешло в бету релиз. Что имеем:

Поддержка английского и русского языка (т.е. испанский и что там ещё у них есть - ещё не реализованы). 118 голосов в английском, 5 в русском. Если уже стоит питон и торч, то ничего дополнительно ставить не придётся. Если питона или торча нет - SW должен поставить. Там есть ссылка "установить Силеро", если на неё нажать, он проверит наличие Питона и Торча. Если скажет, что "наверное уже стоит, поставить заново?", то лучше от греха подальше сказать "нет".

Первая генерация займёт секунд 5-8, потому что будет скачивать модель. Моделька маленькая, но так как прогресс не показывается, то придётся понадеяться. В дальнейшем генерация занимает какую секунду, если с видеокартой. Полагаю, что с процессором будет не сильно дольше. Видеопамяти при генерации ест совсем мало.

Как установить - в конце.

Сейчас же о голосах. В принципе, качество очень высокое, но есть косяки. В примере - несколько голосов Силеро и один Алисы. Я полагаю, очевидно, что Алиса справляется с пунктуацией и произношением лучше, но в принципе косяки русских голосов Силеро именно в этом - ударения, пунктуация, их придётся проставлять отдельно, или будут "гитарные струнЫ" и "разводы грязИ".

Авторы заявляют поддержку SSML, но по факту её нет. Русская модель понимает теги SSML, но реального эффекта они не дают. Английская модель даже не понимает тегов.

В английском языке есть 118 голосов. В большинстве своём - так себе, интересно другое - как и в русском языке, это голоса не профессиональных дикторов, и они явно со всех стран мира. Я угадывал и шотландцев и австралийцев, и британцев с американцами. Так что придётся прослушать всех и выбрать нужный. К счастью, все примеры уже готовы и выложены в mp3.

https://dmkilab.com/files/SileroVoicesEN.zip
https://dmkilab.com/files/SileroVoicesRU.zip

Теперь как всё это устанавливать.

1. Скачиваем https://dmkilab.com/files/SoundWorksSetup.exe
(страница https://dmkilab.com/soundworks ведёт на ту же ссылку)
2. Устанавливаем. Оно докачает примерно 90Мб
3. Запускаем. Будет окошко на английском, выбираем Options - там ищем выбор русского языка и самое главное - вкладку Silero. Если на машине уже стоит питон и торч, то надо будет только разрешить использовать Силеро.
4. Запускаем снова, на сей раз выбираем Главное Окно - сначала появится окошко с лицензией, жмём I'm lazy - это введёт код. Не помню, если этот код позволяет генерировать премиальными голосами, но что-то дать может. Но нам пофиг, надо просто чтобы больше не спрашивал. Версия в нижнем правом углу должна показать как минимум 1.15
5. Выбираем язык, нажав на соответствующий флаг. Дальше просто - выбираем голос - все голоса Силеро внизу списка. Если до этого в настройках выбрали "только бесплатные голоса" - то в списке будут только голоса Силеро.
6. Вводим текст и генерироваем.

Там есть пара функций для генерации - доступны через меню "Проект". После нажатия зелёной кнопки, оно попытается сгенерировать файл. Первый раз займёт секунд 10, потом секунду - это очень быстрые модели.

Совет - в главном окне выберите конвертацию в MP3 и автоматические имена. В противном случае результаты Silero будут в WAV.

Первый пикрелейтед - голос Силеро.
Второй - Яндекс Алиса Алёна. Просто для сравнения.
Третий - Силеро (один из 118)
Четвёртый - то же

Резюме - местами очень хорошо, и это можно применить в "продакшене" (NB: лицензия модели запрещает коммерческое использование без выплаты лицензионных отчислений), но платным моделям всё ещё проигрывает.
Аноним # OP 08/08/23 Втр 22:30:02 448831 398
>>448810
> Русская модель понимает теги SSML, но реального эффекта они не дают.

А вот тут >>433021 - дают. Что наводит на мысли. Либо недостаточно прямая реализация, либо модели разные. Ну будем смотреть, может заработает. Больше смущают помехи при генерации английских голосов - как будто через аналоговую телефонную линию с очень загруженной станцией. Но учитывая цену - очень неплохо.
Аноним 09/08/23 Срд 09:00:46 449139 399
Мимо шел, такой вопрос - можно ли свою модель сделать и ей озвучивать и насколько это сложно? Допустим есть пара десятков часов материала, этого будет достаточно?
Аноним 09/08/23 Срд 16:43:17 449569 400
>>449139
Может быть, но лучше часов 50 студийной записи.

> насколько это сложно?
Весьма. Чисто для теории: вот статья на богомерзком хабре:
https://habr.com/ru/companies/sberdevices/articles/718096/

и вот тот продукт, о котором он говорит:
https://developers.sber.ru/portal/products/smartspeech-yourvoice
https://developers.sber.ru/portal/products/smartspeech

То же самое есть у Яндекса - можно записать голос для СпичКита, но там, кажется, речь шла о сотнях часов. Может, уже исправились.

TTS Silero записывали свои голоса за 2 часа, но и качество соответствующее. Они механизмом создания модели не делились.
Аноним 09/08/23 Срд 19:35:41 449731 401
Анончики, буду рад вашей помощи. Да и тред по моему наиболее подходящий. Хоть мне и нужно наоборот Speech to text.
Очень упарываюсь по японским ASMR.
Но проблема в том, что оч плохо с японским, кроме базовых и распространенных фраз не особо вдупляю в чём речь.
Так вот, какое-то время я использовал программу на базе Whisper AI, называется Whisper Dekstop. Он помогал мне либо переводить, либо делать транскрип японской речи в текст. Но зачастую всё упиралось в то, что начало распознается более менее нормально, а вот дальше идет какой то пиздец с лупами и бессвязным текстом.
Можете подсказать какие нибудь более стабильные проги, для транскрипта японской речи прямо с аудио и чтоб выдавало в виде сабов с временными пометками.
Аноним 09/08/23 Срд 20:04:07 449775 402
>>449569
>50 студийной записи.
Столько нету, хочу голосами одной известной анимешной студии дубляжа озвучивать, у них поменьше набирается. Просто мне заебали кидать нейросетевые каверы, стало интересно, чем их делают. so vitc svc или что-нибудь другое
Аноним 09/08/23 Срд 21:38:03 449890 403
>>449775
Если изменить существующий голос на другой - да, vits, и это намного проще. Я говорил о TTS модели. Vits это скорее STS.
Аноним 09/08/23 Срд 22:02:19 449914 404
1691607736511.jpg 80Кб, 804x341
804x341
>>449731
Whisper не очень для японского, уж не знаю, почему. В >>448810 тоже есть для него UI. Но японский распознаёт криво, особенно в песенках. Я думаю, что шанс есть у аналогичной STT от Алибабы. Они же китайцы, должны были сделать как надо.
Аноним 09/08/23 Срд 22:48:41 449999 405
>>449914
почекал надо карту и номер привязывать. эх жаль :c
Аноним 09/08/23 Срд 22:58:20 450010 406
>>449999
У меня там есть акк. У тебя есть сэмпл на японском?
Аноним 09/08/23 Срд 23:06:54 450016 407
Аноним 09/08/23 Срд 23:21:22 450024 408
>>450016
Вот, к слову, Whisper. У тебя так же?

я не знаю.
он был здесь.
интересно, это время после работы?
что ж, я тоже так думаю.
но сама работа продвигалась намного раньше, и я ходила по магазинам, так что сейчас самое время.
но именно так я встретил тебя.
ты вернулся в нужное время. это был правильный ответ.
наши сестры могут думать что-то подобное каждый раз, когда сталкиваются с вами.
персонажи разные, но у всех у них есть что-то похожее.
итак, ты всегда гуляешь после работы, верно?
вот как это произошло, и я немного поладлю с тобой.
интересно, не опоздаю ли я немного, когда вернусь домой?
я взял его, но не вернусь, пока не стемнеет.
что ж, даже если возвращаться немного поздновато, мои сестры
, я думаю, я думаю, что встретил вас.
Удобно сказать, что в такое время наш дом находится рядом - нет никаких проблем, даже если это в какой-то степени медленно
, я должен поблагодарить своих родителей за то, что они стоят рядом с морем.
я не знаю.
давайте еще немного пройдемся по волнам. шум волн.
мне нравится слышать более отчетливо.
Если ты подойдешь еще ближе, твои ноги промокнут
Давайте медленно прогуляемся отсюда по пляжу
, несмотря на это, мне кажется необычным видеть вас вечером.
обычно это происходит после выходного дня, после того, как стемнеет.
море в это время тоже хорошее, не так ли?
закат немного ослепительный, но я чувствую, что это яркий вид.
но что мне нравится больше всего
Море ночью, эта тихая и спокойная атмосфера
, мне это очень нравится.
ты иногда бродишь где-то посреди ночи, не так ли?
может быть, это просто по дороге домой с работы, но, возможно, есть причина, по которой воздух этой ночи такой приятный.
для меня это то же самое, что и выходной.
мне нравится гулять на солнышке, но мои сестры и мои сестренки
, интересно, нравится ли ему гулять ночью
, мои родители не хотят, чтобы мои сестры уходили поздно, но... ну, я не хочу, чтобы мои сестры уходили поздно.
нагиса украдкой бросает на нее взгляд и ускользает.
это как будто я просто прогуливаюсь по пляжу, так что ни я, ни моя сестра ничего не скажем.
с другой стороны, кахо и Марин
, когда вы захотите прогуляться посреди ночи, позвоните мне или своей сестре.
интересно, не спросит ли он тебя слишком рано?
если мы встретимся здесь вечером примерно на час
, я хочу, чтобы ты остался со мной до ночи.
да, в любом случае, морской пехотинец.
кахо не из тех детей, которые так откровенно говорят, могу я спросить ее?
даже когда я ее спрашиваю.
я не решаюсь сказать это.
когда она была моложе, она была такой же честной, как Марин.
мне интересно, почему все сестры такие разные, несмотря на то, что они выросли в одной и той же среде
, моя сестра и Марин немного похожи, но если вы говорите, что они разные, значит, они разные.
ну, самое большое отличие - это нагиса.
она, кажется, осознает себя, и, возможно, ее подобрал под мостом только один из 5 человек.
все совсем не так.
интересно, почему все так по-другому?
я думаю, что между моей сестрой и мной большая разница, и, с вашей точки зрения, это правда.
когда ты впервые встретила меня, ты даже не знала, что ты моя сестра.
я думаю, что черты лица в какой-то степени похожи, но я думаю, что впечатление, о котором я говорил, в конце концов, другое
, если вы заметили, вы будете все время говорить о своих сестрах.
ты и двое из меня - единственные, кто здесь есть.
давай просто двигаться дальше.
смотри, вон там есть насыпь.
когда я отправляюсь на прогулку, я обычно заезжаю туда по дороге.
я слышала от своей сестры, что есть место, которое мне нравится, и, возможно, она даже показала мне его.
Каменистое местечко, как раз подходящее для того, чтобы ты мог присесть
, мне это место тоже нравится.
я хотел, чтобы другие места были особенными для меня.
это набережная.
это тоже действительно классное место.
пойдем.
Аноним 09/08/23 Срд 23:41:52 450068 409
>>450024
кек. мне выдает такую срань если переводит с проги. а ты как делаешь? через консоль?


[00:00:01.000 --> 00:00:03.000] ( Шум волн становится громче)
[00:00:03.000 --> 00:00:05.000] ( Шум волн становится громче)
[00:00:05.000 --> 00:00:07.000] ( Шум волн становится громче)
[00:00:07.000 --> 00:00:09.000] ( Шум волн становится громче)
[00:00:09.000 --> 00:00:11.000] ( Шум волн становится громче)
[00:00:11.000 --> 00:00:13.000] ( Шум волн становится громче)
[00:00:13.000 --> 00:00:15.000] ( Шум волн становится громче)
[00:00:15.000 --> 00:00:16.000] ( Шум волн становится громче)
[00:00:16.000 --> 00:00:18.000] Ты здесь.
[00:00:18.000 --> 00:00:20.000] ( Шум волн становится громче)
[00:00:20.000 --> 00:00:22.000] Я думаю, это время означает.....
[00:00:22.000 --> 00:00:24.000] Я думаю, это время означает.....
[00:00:24.000 --> 00:00:25.000] ( Шум волн становится громче)
[00:00:25.000 --> 00:00:29.000] Что ж, думаю, я тоже здесь.
[00:00:29.000 --> 00:00:30.000] ( Шум волн становится громче)
[00:00:30.000 --> 00:00:37.000] Но мне пришлось пройтись по магазинам, чтобы добраться сюда.
[00:00:37.000 --> 00:00:42.000] Но я встретил тебя здесь.
[00:00:42.000 --> 00:00:46.000] Я вернулся в нужное время.
[00:00:46.000 --> 00:00:47.000] ( Шум волн становится громче)
[00:00:47.000 --> 00:00:49.000] ( Шум волн становится громче)
[00:00:49.000 --> 00:00:57.000] Моя сестра, возможно, думает об одном и том же каждый раз, когда встречает тебя.
[00:00:57.000 --> 00:01:07.000] У нас разные характеры, но у нас есть кое-что общее.
[00:01:07.000 --> 00:01:13.000] Итак, ты собираешься прогуляться по дороге домой с работы, верно?
[00:01:13.000 --> 00:01:22.000] Раз уж мы встретились здесь, я пойду с тобой.
[00:01:22.000 --> 00:01:47.000] ( Шум волн становится громче)
[00:01:47.000 --> 00:01:52.000] В такие моменты удобно быть поближе к дому.
[00:01:52.000 --> 00:01:56.000] Это не проблема, если вы немного опоздаете.
[00:01:56.000 --> 00:02:03.000] Я должен поблагодарить своих родителей за то, что они стояли на берегу моря.
[00:02:03.000 --> 00:02:07.000] Давайте еще немного прогуляемся по пляжу.
[00:02:07.000 --> 00:02:14.000] Мне больше нравится, когда шум волн звучит отчетливее.
[00:02:14.000 --> 00:02:26.000] ( Шум волн становится громче)
[00:02:26.000 --> 00:02:31.000] Если ты подойдешь еще ближе, твои ноги промокнут.
[00:02:31.000 --> 00:02:44.000] Давайте отсюда медленно прогуляемся вдоль береговой линии.
[00:02:44.000 --> 00:02:53.000] ( Шум волн становится громче)
[00:02:53.000 --> 00:03:00.000] Я чувствую, что редко вижу тебя по вечерам.
[00:03:00.000 --> 00:03:07.000] Обычно это происходит после полудня в выходной день и после наступления темноты ночью.
[00:03:07.000 --> 00:03:12.000] Море в это время чудесное, не правда ли?
[00:03:12.000 --> 00:03:19.000] На закате немного светло, но вид прекрасный.
[00:03:19.000 --> 00:03:25.000] Но больше всего мне нравится ночное море.
[00:03:25.000 --> 00:03:33.000] Мне действительно нравится эта тихая и спокойная атмосфера.
[00:03:33.000 --> 00:03:38.000] Ты иногда гуляешь по ночам, не так ли?
[00:03:38.000 --> 00:03:43.000] Это могло бы быть идеально для возвращения домой с работы, но...
[00:03:43.000 --> 00:03:52.000] Я думаю, есть причина, по которой ночной воздух такой приятный.
[00:03:52.000 --> 00:03:55.000] Я такой же.
[00:03:55.000 --> 00:04:01.000] Я люблю прогуляться в свой выходной или погреться на солнышке.
[00:04:01.000 --> 00:04:08.000] Я думаю, что моя сестра и сестренки любят гулять по ночам.
[00:04:08.000 --> 00:04:15.000] Но мои родители не хотят, чтобы мои сестры гуляли допоздна.
[00:04:15.000 --> 00:04:21.000] Нагиса крадется из своей комнаты.
[00:04:21.000 --> 00:04:24.000] Она не бродит где попало.
[00:04:24.000 --> 00:04:27.000] Это все равно что прогуливаться по пляжу.
[00:04:27.000 --> 00:04:31.000] Я ничего не говорю своей сестре.
[00:04:31.000 --> 00:04:37.000] Наоборот, когда Кахо и Марин хотят прогуляться ночью,
[00:04:37.000 --> 00:04:47.000] Я поговорю со своей сестрой.
[00:04:47.000 --> 00:04:52.000] Думаю, когда-нибудь я попрошу тебя пойти со мной.
[00:04:52.000 --> 00:05:01.000] Я хотел бы встретиться с вами здесь вечером и остаться с вами до наступления темноты.
[00:05:01.000 --> 00:05:09.000] О, Марин не из тех девушек, которые могут так говорить.
[00:05:09.000 --> 00:05:17.000] Когда она просит меня пойти с ней, она не решается сказать это.
[00:05:17.000 --> 00:05:26.000] Когда она была моложе, она была честна, как морской пехотинец.
[00:05:26.000 --> 00:05:35.000] Я не знаю, почему у всех сестер разные характеры, хотя они выросли в одной среде.
[00:05:35.000 --> 00:05:44.000] Моя сестра и Марин в чем-то похожи, но в чем-то отличаются друг от друга.
[00:05:44.000 --> 00:05:50.000] Ну, а Нагиса совсем другой.
[00:05:50.000 --> 00:05:54.000] Похоже, она и сама это осознает.
[00:05:54.000 --> 00:06:00.000] Она сказала, что одну из пяти сестер, возможно, подобрали под мостом.
[00:06:00.000 --> 00:06:08.000] Это неправда.
[00:06:08.000 --> 00:06:14.000] Интересно, почему мы такие разные?
[00:06:14.000 --> 00:06:19.000] Я думаю, что между моей сестрой и мной есть большая разница.
[00:06:19.000 --> 00:06:24.000] Ты тоже так думаешь, верно?
[00:06:24.000 --> 00:06:31.000] Когда ты впервые встретил меня, ты не знал, что я твоя сестра.
[00:06:31.000 --> 00:06:41.000] Я думаю, мы немного похожи внешне, но я думаю, что у нас разные впечатления.
[00:06:41.000 --> 00:06:49.000] И тут я поняла, что говорю о своей сестре.
[00:06:49.000 --> 00:06:57.000] Ты и я - единственные, кто здесь есть.
[00:06:57.000 --> 00:07:03.000] Давайте двигаться дальше.
[00:07:03.000 --> 00:07:07.000] Смотри, вон там есть беседка.
[00:07:07.000 --> 00:07:14.000] Обычно я заезжаю туда по пути на прогулку.
[00:07:14.000 --> 00:07:19.000] Вы когда-нибудь слышали, что у вашей сестры есть любимое место?
[00:07:19.000 --> 00:07:23.000] Может быть, ее направили туда.
[00:07:23.000 --> 00:07:27.000] Это идеальное место, чтобы посидеть.
[00:07:27.000 --> 00:07:31.000] Мне тоже нравится это место.
[00:07:31.000 --> 00:07:37.000] Я хотел, чтобы у меня было особое место для себя.
[00:07:37.000 --> 00:07:41.000] Это беседка.
[00:07:41.000 --> 00:07:46.000] К тому же это очень тихое место.
[00:07:46.000 --> 00:07:51.000] Пойдем.
[00:07:53.000 --> 00:07:58.000] Я иду в беседку.
Аноним 10/08/23 Чтв 15:29:22 450613 410
1691670562143.jpg 68Кб, 753x441
753x441
>>450068
> а ты как делаешь? через консоль?
Soundworks. Там встроенный UI для Whisper. Потом загнал в Яндекс переводчик. По-моему у него есть и перевод файлов субтитров, но в данном случае я выводил в текстовый файл.
Аноним 10/08/23 Чтв 16:02:00 450635 411
>>450068
> выдает такую срань
В общем мне это кажется более связным, чем мой перевод через Яндекс. А что, смысл совсем неверный?
Аноним 10/08/23 Чтв 22:50:56 451076 412
Кто может, хелпаните. Юзаю Silero TTS, однако хочу поставить в него кастомную модель, как сделать модель, если у меня есть 2 5 файлов с вокалом в разрешении wav, есть ли какие то онлайн ресурсы или репозитории которые предоставляют код по созданию кастомной модели? Если это гемор, подскажите как реализовать TTS с кастомным голосом и как этот кастомный голос сделать, если на руках есть только 5 опенингов с убранной минусовкой
Аноним 10/08/23 Чтв 23:25:56 451159 413
>>451076
Так они же не раскрывали свой способ тренировки.
Аноним 11/08/23 Птн 01:33:10 451325 414
>>451159
В этом и проблема, но может просто кто то обратной ниженеркой открыл все тайны этого, может модели перерыл или ещё что то
Аноним 11/08/23 Птн 10:53:06 451608 415
Аноним 11/08/23 Птн 12:47:42 451735 416
1691747260550.mp4 618Кб, 512x512, 00:00:26
512x512
>>451608
> Аноны пользовался кто https://github.com/coqui-ai/TTS ?
У них даже сэмплов нет.

> Нужен хотя бы нормальный английский ттс
Смотря что для тебя "нормальный". Есть Силеро (см. выше), у остальных бесплатных уровень примерно тот же, как я могу судить.
Для меня "нормальный" - это пикрелейтед. Такого на бесплатном сейчас не получить, и пока не предвидится.
Аноним 13/08/23 Вск 12:08:28 454200 417
Аноним 13/08/23 Вск 14:40:09 454350 418
>>454200
Ну тогда для тебя TTS ещё не завезли. Coqui звучит намного хуже, а лучше чем пикрелейтед пока не сделали.
Аноним 13/08/23 Вск 15:03:16 454376 419
Как мне сделать голос своей вайфу и озвучить им все?
Обесните
Аноним 13/08/23 Вск 18:31:23 454614 420
>>454376
SO-VITS. Смотри инструкцию в этом и предыдущем тредах. В таком случае ты будешь переозвучивать материал, созданный другой моделью. Для создания своих моделей с нуля пока инструментов не завезли.
Если хочешь сделать это за деньги, то есть предложения от Яндекса и Сбера, но легче подождать, пока тренировка модели станет доступной.
Аноним 13/08/23 Вск 18:59:37 454633 421
>>454614
У меня амд 4гб, а в колабе я не понял как запустить
Аноним 13/08/23 Вск 20:46:11 454795 422
image.png 417Кб, 1858x948
1858x948
Вот эта штука конечно хороша, но я совсем не понимаю как подключиться к ее апи, чтобы сделать tts > vc. Нет на вкладке network запросов, на которые можно было бы завязаться.
Аноним 14/08/23 Пнд 12:50:33 455338 423
>>454795
хотя разобрался, правда без использования апи. Могу потом выложить инструкцию и код если кому нужно.
Делаю свой вариант типа ассистента Алисы, только с лламой и милым голосом.
Аноним 14/08/23 Пнд 14:20:21 455407 424
>>455338
>если кому нужно
Вкидывай всё что есть, в любом случае не помешает.
Аноним 14/08/23 Пнд 15:12:56 455441 425
so-vits на цпу работает, на amdgpu крашится
как пофиксить
Аноним 14/08/23 Пнд 15:14:29 455444 426
>>455338
> Делаю свой вариант типа ассистента Алисы, только с лламой и милым голосом.
Я уже сделал такое, только с GPT-4. Причём полиглот, будет говорить с тобой на том языке, на котором ты с ним.
Только с Алисой это сравнивать не надо, Алиса не просто на вопросы отвечает, она и ищет инфу и будильник настроить может, и ещё всякое, чего твоя программа не смогёт.
Аноним 14/08/23 Пнд 15:24:35 455455 427
.png 1540Кб, 762x756
762x756
Аноним 14/08/23 Пнд 15:26:47 455459 428
Аноним 14/08/23 Пнд 15:29:42 455465 429
>>455444
А есть где-то код выложенный посмотреть?
Аноним 14/08/23 Пнд 15:30:18 455466 430
>>455459
Тогда хз, кинь логи ошибки что-ли, мб подскажет кто. У меня NVidia+шиндовс, так что не помогу.
Аноним 14/08/23 Пнд 15:34:06 455470 431
>>455444
>она и ищет инфу и будильник настроить может, и ещё всякое, чего твоя программа не смогёт
Как настроишь, так и будет. Никаких принципиальных ограничений тут нет, кроме жадности гугла, лул.
Аноним 14/08/23 Пнд 15:35:34 455471 432
>>455466
Ошибка сегментирования.
Тут только ворнинги
Аноним 14/08/23 Пнд 15:59:55 455494 433
>>455465
Надеюсь, что нет.
Аноним 14/08/23 Пнд 16:05:48 455497 434
>>455470
> Как настроишь, так и будет.
Дело не в настройках. Даже если ты сможешь определить, что пользователь хочет настроить условный будильник, тебе надо будет писать модуль для управления будильником. Яндекс может на это потратить пару сотен человеко-часов, а ты? Единственный путь - это сделать возможность подключения собственных модулей, и пусть сами пишут свои будильники. Собственно, так Яндекс и сделал в Алисе.
Аноним 14/08/23 Пнд 16:12:52 455510 435
>>455497
Пользователь тут конкретный, и я думаю он знает, что ему нужно. Поэтому модулей выйдет не так уж и много.
Аноним 14/08/23 Пнд 16:21:03 455523 436
Хочу услышать песню "Птички летят" голосом Цоя
Аноним 14/08/23 Пнд 16:45:09 455553 437
coi5.mp4 12076Кб, 720x480, 00:03:20
720x480
sunboy.mp4 20086Кб, 720x480, 00:03:20
720x480
Аноним 14/08/23 Пнд 16:51:45 455558 438
bobmoon.mp4 12485Кб, 720x480, 00:03:20
720x480
>>455553
Самое главное забыл
Аноним 15/08/23 Втр 03:24:26 456272 439
На моей луне.mp4 6831Кб, 512x768, 00:03:20
512x768
Аноним 15/08/23 Втр 03:54:27 456282 440
Аноним 15/08/23 Втр 04:23:29 456294 441
Notre Dame de P[...].mp4 7280Кб, 512x768, 00:03:22
512x768
>>456282
Для лисы делал через so-vits-svc-fork; что у анона выше - не знаю. На RVC у меня лучше произношение (реже звуки проглатывает), а на SVC голос больше похож на голос персонажа.

У RVC лучше интерфейс и там в комплекте сразу идут утилиты для разделения аудио на инстументалку и вокал.

---

Инструкция по установке и использованию SVC:
https://rentry.org/tts_so_vits_svc_fork_for_beginners

Готовые модели для SVC искать тут: https://huggingface.co/models?search=so-vits-svc | https://civitai.com/models?query=so-vits-svc&view=feed

---

Чтобы поставить RVC, проще всего скачать пакет со всеми зависимостями (наверху страницы ссылка на скачивание RVC-beta.7z):
https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/releases/tag/updated0618v2

Запуск через файл go-web.bat. Файлы с моделями кидать в директорию weights; по умолчанию не идёт каких-либо моделей в комплекте. Для RVC тут можно найти много готовых моделей разной степени паршивости >>428635
Аноним 15/08/23 Втр 07:06:21 456349 442
Вы используете index-файлы для RVC? Я не могу понять, для каких конкретно случаев они нужны - не слышу разницу что с индексами, что без них.
Аноним 15/08/23 Втр 10:09:04 456429 443
>>456349
У меня без индексов вообще не запускаются
Аноним 15/08/23 Втр 11:20:52 456466 444
senkoteam.webm 14110Кб, 1200x512, 00:04:44
1200x512
Аноним 15/08/23 Втр 12:17:58 456480 445
Пачаны, а почему после преобразования фоновая музыка удаляется и остается только голос?
Аноним 15/08/23 Втр 12:21:45 456483 446
>>456480
Потому что фоновая музыка удаляется для замены голоса.
Аноним 15/08/23 Втр 12:33:30 456495 447
>>456483
И что надо вручную склеивать голос и музыку?
Аноним 15/08/23 Втр 14:07:22 456564 448
Аноним 15/08/23 Втр 14:16:29 456575 449
>>454376
Если будешь нарезать с тайтла, то самым запарным будет собрать датасет. Необходимо убрать с аудиодорожки все сторонние звуки и нарезать с неё голос твоей вайфу так, чтобы длина одного файла была не более 10 секунд (можно и больше, но таковы рекомендации по датасетам от разработчиков SVC и RVC). Суммарная длительность голоса по рекомендациям должна быть не менее десяти минут. Нарезать голос автоматически не выйдет, поскольку утилиты для автоматической нарезки голоса ( >>354671 ) всех спикеров в кучу скинут; и, если один спикер прерывает другого или между их репликами короткая пауза, то два разных голоса попадут в один отрывок.

Я свой подход вот тут описывал, впрочем, может есть и более оптимальные способы это делать:
>>353073
>>353861

Возможно, что нарезать через стороннюю тулзу будет быстрее, но там вроде как всякие визги и междометия обрезаются, если верно помню.

---

https://github.com/voicepaw/so-vits-svc-fork#before-training
Обучение модели запускается в SVC парой консольных команд. Там только batch_size в config.json надо будет в максимум выкрутить, что у тебя видеокарта позволит.

---

В RVC обучение через GUI делается, там несложно разобраться. В треде уже кидали несколько роликов с пояснениями.

---

> амд 4гб
В SVC рекомендуется 10GB VRAM для обучения, хотя само обучение работает и на видеокартах меньшего объёма. Если не выйдет обучить локально или через коллаб, можешь готовый датасет итт закинуть, могу тогда обучить SVC/RVC варианты моделей.
Аноним 15/08/23 Втр 14:42:50 456601 450
Как в коллабе отредактировать config.json?
Аноним 15/08/23 Втр 14:43:34 456602 451
Предлагаю при перекате поменять тег на что-то вроде #voice и позиционировать этот тред как общий тред по TTS+STS, поскольку тут оба направления по факту обсуждают и тред довольно медленный, чтобы имело смысл их разделять.
Аноним 15/08/23 Втр 15:07:18 456616 452
>>456602
Ничего не надо менять. Достаточно будет добавить ссылки на упомянутые инструменты.
Аноним 15/08/23 Втр 15:09:56 456617 453
>>318054
>so-vits-svc-4.0-ruvtubers

Удалили. Мрази как всегда чистят годноту.
Может кто перезалить?
Аноним 15/08/23 Втр 15:17:43 456629 454
>>456616
Просто на доске кто-то поднял мёртвый STS-тред и теперь будет путаница из-за этого >>187167 (OP)
Формально, обсуждения STS надо вести там, но, по факту, они происходят здесь. Поэтому надо поменять тему/тег таким образом, чтобы со стороны было ясно, что тут оба направления релейтед, ящитаю.
Аноним 15/08/23 Втр 15:45:27 456695 455
>>456602
Ты ещё забыл про этот тред, лол >>102542 (OP)
Тут мочуху надо, чтобы порядок навести, позакрывать лишнее и поднять нужное.
Аноним 15/08/23 Втр 17:00:15 456792 456
Аноним 15/08/23 Втр 17:03:54 456795 457
>>456695
Ну да, я про то и говорю - как мне кажется, надо все TTS/STS треды позакрывать и сделать один общий, поскольку тема на этой доске малопопулярная и смысла дробить по тредам это не имеет при текущей скорости постинга. Но для этого надо сначала перекат сделать, который будет по смыслу объединять обе темы.

Сейчас со стороны даже непонятно, что тут STS обсуждают, раз мёртвые треды поднимать начали.
Аноним # OP 15/08/23 Втр 17:49:59 456819 458
>>456629
> Формально, обсуждения STS надо вести там
Там тега нет. Кроме того, у нас это вполне по теме - STS это обычно второй шаг после TTS, из-за отсутствия моделей, и по сути это надстройки над одним и тем же - одни и те же движки часто используются в обеих целях (Silero, например). Кто в теме - пойдёт сюда в любом случае.

>>456792
Вот.

>>456795
> Сейчас со стороны даже непонятно, что тут STS обсуждают, раз мёртвые треды поднимать начали.
Это всегда будет происходить. Оно поднимается теми, кто понятия не имеет, что такое TTS, STS, STT и так далее. Ты пока зришь далеко, по факту проблемы пока нет.
Аноним 15/08/23 Втр 19:17:58 456922 459
>>456819
Я просто хочу, чтобы залётным было понятно, что в этом треде обсуждается всё подряд, что связано с синтезом/преобразованием/распознаванием голоса, и они не бегали создавать и бампать мёртвые узкоспециализированные треды, размазывая активность и так малопопулярного направления на этой доске. Поэтому, как я думаю, было бы логично обновить тег/имя/шапку треда.

Не очень понимаю, в чём твой поинт за сохранение текущего тега, если он не соответствует тому, что по факту обсуждается в треде.
Аноним 15/08/23 Втр 20:30:02 457065 460
no-auto-predict-f0 добавляет искажения рандомные, как от них избавиться
Аноним 15/08/23 Втр 21:20:39 457151 461
>>456922
> если он не соответствует тому, что по факту обсуждается в треде
Ты жопой тред читаешь. Хватит флудить, придерживайся темы.
Аноним 15/08/23 Втр 21:28:42 457160 462
>>457151
> Text To Speech /tts/
> Обсуждаем оффлайновые генераторы речи и делимся результатами [...]
Но по факту в треде плюсом обсуждается STS и STT. Почему-бы не вынести это в шапку?

> Хватит флудить, придерживайся темы.
Но я же шапку треда обсуждаю, где это ещё делать, как не здесь...
Аноним 16/08/23 Срд 02:19:29 457756 463
Neco Arc - МАСЮ[...].mp4 6860Кб, 1280x720, 00:02:23
1280x720
Анончеки, с помощью чего можно сделать вот так 1 в 1?
Аноним 16/08/23 Срд 06:54:02 457916 464
Аноним 16/08/23 Срд 09:45:59 457969 465
>>456272
Да как у тебя получается такой чистый голос?
Скачал готовую модель 29к эпох и она поет хуже, еще и слова зажевываются
Аноним 16/08/23 Срд 10:58:42 458048 466
>>455407
https://github.com/atomlayer/llama_cute_voice_assistent
Примерно так накидал пока.
Единственное есть проблема со скоростью распознавания речи пользователя в текст. Надо будет что-то более быстрое прикрутить потом.
Аноним 16/08/23 Срд 11:19:37 458054 467
>>458048
>Install the libraries
Есть же requirements.txt
Аноним 16/08/23 Срд 11:24:03 458056 468
>>458054
Так-то есть, да. Надо будет потом сделать.
Аноним 16/08/23 Срд 18:38:56 458453 469
ОплачуNecoArc.mp4 3331Кб, 1280x720, 00:00:31
1280x720
Аноним 16/08/23 Срд 18:47:07 458463 470
>>457969
> Скачал готовую модель 29к эпох и она поет хуже, еще и слова зажевываются
Я вижу такие варианты:

1. Некачественная модель.
Тут только датасет самому делать и в порядок его приводить. Одна из моделей на эту лису, которая на хг лежит, абсолютно отвратительна, не понимаю, почему автор не постеснялся её выложить. Просто сравни тут 1 и 4 варианты (это не совсем корректное сравнение, поскольку сравнивается SVC и RVC модель, но тут разница прям явная) >>430626

2. Либо аудиодорожка плохо разбилась на составляющие (инструменталка/вокал).
В этом случае абсолютно любой спикер будет зажёвывать слова. Попробуй для теста обработать какую-нибудь песню, которая была удачно преобразована в треде и сравни результат. Песня из поста, на который ты ссылаешься, была преобразована без какой-либо доп. обработки, можешь её попробовать. Я тебе свой вариант разбивки сразу скину, чтобы ты мог проверить, проблема с твоим инструментом для разбивки или это что-то другое:
https://vocaroo.com/13p09WQEfUPd (оригинал)
https://vocaroo.com/1mS1sqO2iheO (инструменталка)
https://vocaroo.com/1lcMSdDhOQU1 (вокал)

3. Или настройки синтеза плохие выставил.
По умолчанию в интерфейсах выбраны настройки с заделом на скорость обработки, а не на качество. У меня Prediction method = crepe работает лучше всего и для RVC и для SVC. Если используешь SVC, то обязательно выруби галку с "Auto predict F0", иначе тональность голоса будет вверх-вниз прыгать там, где это не нужно.
Аноним 16/08/23 Срд 18:56:59 458476 471
сиди.mp4 1169Кб, 1280x720, 00:00:05
1280x720
>>458453
У меня пока только так, но это не через rvc который сверху написали (ибо я не понял чо это, а может и rvc).
А ты мне дашь совет? Я хочу научиться делать хороший голос некоарк, но я впервые работаю с голосовыми нейронками.
Аноним 16/08/23 Срд 19:19:56 458498 472
>>458476
У SVC, если модель и запись не идеальны, начинаются косяки и артефакты. У RVC, в принципе, тоже, но там они не такие страшные.

Если на записи прям какие-то шипы и прочий говняк, можно попробовать потрогать эквалайзером, частоты вырезать, на которых больше всего говняка лежит.

В принципе, с той записью, что я скинул, я ничего так-то и не делал, просто закинул в RVC и всё. Модельку использовал neco-arc(aggressive).
Аноним 17/08/23 Чтв 03:16:25 459004 473
Hallelujah.mp4 13516Кб, 1024x1536, 00:04:06
1024x1536
Аноним 17/08/23 Чтв 05:00:09 459035 474
senkog.webm 24298Кб, 1920x1080, 00:04:49
1920x1080
>>459004
Проверка левого уха
Аноним 17/08/23 Чтв 16:09:44 459447 475
>>457756
Блядь, какая угарная песенка.
Аноним 17/08/23 Чтв 17:07:18 459469 476
mihailrvc1.mp4 10208Кб, 720x480, 00:02:16
720x480
mihailrvc2.mp4 15901Кб, 720x480, 00:03:39
720x480
Есть возможность в RVC выставить октаву меньше -12? -20 допустим.
Аноним 17/08/23 Чтв 17:38:57 459482 477
>>459469
Мой семпл кек, звучит лучше, чем в жизни
Аноним 17/08/23 Чтв 19:23:35 459563 478
>>458453
>Посмотри, ФИТОРАС!
Пидор на фитнесе.
Аноним 17/08/23 Чтв 20:27:16 459614 479
nat1encoded.mp4 3899Кб, 338x344, 00:00:33
338x344
nat2encoded.mp4 1536Кб, 218x274, 00:00:41
218x274
Аноним 17/08/23 Чтв 21:33:44 459653 480
Аноним 18/08/23 Птн 00:32:55 459803 481
Аноним 18/08/23 Птн 00:46:12 459817 482
В гитхабе so vits svc ссылка на коллаб актуальная?
Аноним 18/08/23 Птн 19:05:10 460345 483
Модель древнего руса есть?
Аноним 18/08/23 Птн 19:12:22 460359 484
guide2024.mp4 30005Кб, 2560x1080, 00:05:30
2560x1080
Аноним 19/08/23 Суб 09:57:37 460913 485
>>314948 (OP)
Накидал вариант шаблона шапки под голосовые сетки. Может с разметкой проебался, никуда не постил шаблон целиком для теста. Предлагаю дополнить его (смотри ниже), катнуть с ним и попросить мода закрыть эти два мёртвых треда >>187167 (OP) >>102542 (OP)

Что скажете?

1. Вот эти ссылки предлагаю выпилить из текущей шапки, либо кто-то подтвердите, что это я долбоёб и у вас всё работает.

> Гугл-Калаб: https://colab.research.google.com/drive/1J2Vm5dczTF99ckyNLXV0K-hQTxLwEaj5?usp=sharing
Валится с ошибкой при выполнении !pip install -r requirements.txt

> Гайд: https://textbin.net/kfylbjdmz9
Тоже вылезает ошибка при установке зависимостей. Оно походу pyopenjtalk из сорцов собирает и поэтому билд-тулзы надо ставить, вот что на SO пишут - https://stackoverflow.com/questions/75191940/i-cannot-install-pyopenjtalk-getting-requirements-to-build-wheel-did-not-run-su
Мне было лень разбираться с этой ошибкой.

2. Вот с этими ссылками не уверен что делать:
> Есть VITS-Umamusume-voice-synthesizer, только на японском, 87 голосов.
> ХагингФейс: https://huggingface.co/spaces/Plachta/VITS-Umamusume-voice-synthesizer
Это хоть кто-то итт использует? Почти не видел примеров синтеза японского голоса в треде.

> MoeGoe и MoeTTS.
> Гайд на китайском: https://colab.research.google.com/drive/1HDV84t3N-yUEBXN8dDIDSv6CzEJykCLw#scrollTo=EuqAdkaS1BKl
> кажется итт можно тренировать свои голосовые модели, но это не точно
> Гугл-Калаб: https://www.bilibili.com/video/BV16G4y1B7Ey/?share_source=copy_web&vd_source=630b87174c967a898cae3765fba3bfa8
Вижу 0 упоминаний этой сетки в треде. Аналогично - это кто-то использует по факту?

Алсо то же самое про Elevenlabs, который я добавил в текущий вариант шаблона. Если какую-то из сеток никто не по факту не использует, то предлагаю не держать устаревший кал в шаблоне, либо просто вкратце упомянуть его в конце шапки.

3. Вроде для SVC/RVC были ещё какие-то помойки моделей, есть у кого-нибудь ссылки?

4. Может ещё что-то важное упустил?

5. И катнуть предлагаю не чем-то унылым, а контентом из треда по выбору ОПа, чтобы сраться за шапку привлекать залётных. Только тут с лимитами будет проблема, на пост 20-60Мб максимум вес вложений, в зависимости от наличия/качества пасскода.

--- Сам шаблон ---

Тег: speech
Тема: Голосовых нейронок тред (TTS, STS, STT) #номер

Обсуждаем нейросети, связанные с синтезом, преобразованием и распознаванием речи. Не забываем публиковать свои шедевры в треде.

📝 👉 🎤 Text To Speech (TTS)
Silero
Открытый проект TTS/STS, поддерживает русский язык: https://github.com/snakers4/silero-models
Официальный бот в телеге. Требуется подписка на новостной канал. На бесплатном тарифе есть лимиты на число запросов в сутки: https://t.me/silero_voice_bot

Нет возможности тренировки своих голосов, но возможно сделать генерацию с одним из имеющихся голосов, и потом преобразовать получившийся файл через STS (смотри ниже).

Elevenlabs
Онлайн-сервис для синтеза и преобразования английского голоса. На бесплатном тарифе ограничения по числу символов в месяц.
Сайт: https://elevenlabs.io/speech-synthesis
Гайд по использованию и общие советы: https://rentry.org/AIVoiceStuff


🎤 👉 🎤 Speech To Speech (STS)
Оба проекта SVC и RVC позволяют обучать модели на любой голос, в том числе свой, любимой матушки, обожаемого политика и других представителей социального дна. Для обучения своих моделей нужен датасет от 10 минут до 1 часа. Разработчики софта рекомендуют для обучения использовать видеокарту с объёмом памяти 10 GB VRAM, но возможно обучение и на видеокартах с меньшим объёмом памяти.

Преобразование голоса можно осуществлять как на видеокарте, так и на процессоре с меньшей скоростью.

SoftVC VITS Singing Voice Conversion Fork (SVC)
Репозиторий: https://github.com/voicepaw/so-vits-svc-fork
Гайд по установке и использованию: https://rentry.org/tts_so_vits_svc_fork_for_beginners
Готовые модели: https://huggingface.co/models?search=so-vits-svc | https://civitai.com/models?query=so-vits-svc

Для изменения голоса в песнях вам дополнительно необходимо установить софт для отделения вокала от инструменталки: https://github.com/Anjok07/ultimatevocalremovergui

Не поддерживает AMD GPU на Windows.

Retrieval-based-Voice-Conversion-WebUI (RVC)
Репозиторий: https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI
Где взять последнюю верию со всеми зависимостями: https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/releases
Готовые модели: https://huggingface.co/juuxn/RVCModels/tree/main

Утилиты для отделения вокала от инструменталки идут в комплекте.


🎤 👉 📝 Speech To Text (STT)
Консольная тулза от OpenAI, поддерживает множество языков, включая русский: https://github.com/openai/whisper

🛠️ Прочее
Проприетарный проект "всё в одном" (TTS/STS/TTS). Для части функционала требуется платная подписка: https://dmkilab.com/soundworks
Утилита для нарезки длинных аудиотреков (пригодится для составления датасетов): https://github.com/flutydeer/audio-slicer

Ссылки на эти проекты мелькали в тредах, но не похоже на то, чтобы их активно использовали итт:
https://github.com/w-okada/voice-changer/blob/master/README_en.md
https://themetavoice.xyz/
https://github.com/coqui-ai/TTS
Аноним 19/08/23 Суб 10:05:25 460919 486
>>460913
Ну и может я проебался с описанием чего-либо, не пробовал часть тулзов из шаблона.
Аноним 19/08/23 Суб 17:25:42 461127 487
Решил попробовать rvc
Когда пробую свою модель, то выходной аудио файл сильно фонит, а голос еле слышно на фоне, как фиксить?
Аноним 19/08/23 Суб 17:27:50 461129 488
Что думаете про нейронку с гугл коллабом? Она хорошо делает нейрокаверы?
Аноним 19/08/23 Суб 19:32:32 461179 489
image.png 180Кб, 1401x897
1401x897
Поставил RVC одним архивом, запускаю go-web.bat - и вижу это.
Что делать? Хуйня какая-то.
Аноним 19/08/23 Суб 19:43:33 461195 490
>>461179
Судя по тексту ошибки, ты скачал версию для NVidia, а у тебя AMD/CPU. Можно либо попробовать xformers скачать через pip под нужную платформу без перекачивания всего архива, либо скачать сразу архив RVC для правильной платформы - это будет проще.

Если у тебя NVidia, то надо курить, почему куда не работает.
Аноним 19/08/23 Суб 19:49:42 461199 491
>>461195

У меня Нвидиа.
Кстати, я правильно понимаю что это говно не создает свой venv и срет пакетами прямо в систему?
Аноним 19/08/23 Суб 19:56:37 461208 492
>>461199
Не, там используется venv похоже. Пакеты в .\runtime\Lib\site-packages
Аноним 19/08/23 Суб 20:03:21 461214 493
>>461208

Я не вижу там activate.bat в scripts, как мне активировать этот venv чтобы насрать туда нужные пакеты?
Аноним 19/08/23 Суб 20:09:20 461218 494
>>461214
Тоже заметил, сам не знаю. Может ещё кто подскажет...
Аноним 19/08/23 Суб 20:36:41 461239 495
Аноним 19/08/23 Суб 22:06:01 461320 496
>>460913
Активист, займись полезным делом. Не в этом треде.
Аноним 19/08/23 Суб 22:09:03 461327 497
>>460913
Я мимо треда проходил, но одобряю.
Аноним 19/08/23 Суб 22:13:46 461339 498
>>461179
Он просит тебя переустановить xformers.
Аноним 19/08/23 Суб 22:15:50 461344 499
>>459817
А зачем там коллаб? Он на тостере работает, нет?
Аноним 19/08/23 Суб 22:19:15 461352 500
>>458048
> Единственное есть проблема со скоростью распознавания речи пользователя в текст. Надо будет что-то более быстрое прикрутить потом.
Так, а сейчас что используется? В код не смотрел.
Аноним # OP 19/08/23 Суб 23:00:32 461388 501
Аноним 20/08/23 Вск 00:11:58 461464 502
>>460913
>Тоже вылезает ошибка при установке зависимостей. Оно походу pyopenjtalk
Ага, и в той же инструкции есть пункт про фикс этой хуйни. Согласен, написано хуёво, сам проебался, хоть и погромизд, но инструкция в итоге рабочая, проверено.
>>460913
>Почти не видел примеров синтеза японского голоса в треде.
Были весь первый тред. Сейчас видимо яп голоса проблема решённая, поэтому весь фокус на русском языке.
Так что я за многообразие, ссылок в шапке пока ещё весьма мало, расточительно что-то удалять. Вот когда будет как в лламма тредах, тогда можно будет запускать очистку.
Голосовых нейронок тред (TTS, STS, STT) #3 Аноним 20/08/23 Вск 01:07:16 461504 503
Аноним 02/09/23 Суб 05:39:28 474087 504
321.jpg 191Кб, 1108x623
1108x623
Ребята подскажите пожалуйста, включил не смотря особо в настройки - потом смотрю 9999 эпох врублено. Возможно в какой-то момент прервать эту историю чтобы осталось хоть что-то обученное ? А то как из поста выше сказано - уже наверное мега квадро нвидиа квантовые компы у каждого стоять будут - пока эти эпохи пройдут. Или проще вырубить всё - и заново прогонять с нормальным количеством эпох ,спасибо заранее.
Аноним 02/09/23 Суб 09:35:08 474118 505
Аноним 26/10/23 Чтв 22:11:37 530099 506
image.png 21Кб, 906x93
906x93
Привет, анон. Хочу переозвучить некоторые моменты в фильме. Нарежу фраз одного персонажа, сделаю голосовую модель в RVC. На Линухе этим методом можно воспользоваться? Подводных камней нет? Не хочу несколько часов трахаться с тем, что в итоге не получится.

Я слышал, что ему нужно 8ГБ VRAM, верно? У меня Steam Deck, вроде в описании написано что оперативная и видеопамять в нём как бы объединены (пикрил), хотя я впервые об этом слышу.
Аноним 27/10/23 Птн 22:40:42 530814 507
>>314948 (OP)
Кто-то голос Пыни запилил? Можете озвучить речь Президента из пасты про Кормление Личинок Непредставимого Пхы?
Аноним 28/10/23 Суб 00:01:03 530886 508
Запилите мне речь Пыни о Кормлении личинок.
Ответить в тред Ответить в тред

Check this out!

Настройки X
Ответить в тред X
15000
Добавить файл/ctrl-v
Стикеры X
Избранное / Топ тредов