Главная Юзердоски Каталог Трекер NSFW Настройки

Искусственный интеллект

Ответить в тред Ответить в тред
Check this out!
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 512 185 135
Голосовых нейронок тред (TTS, STS, STT) #4 /speech/ Аноним 07/10/23 Суб 21:32:20 511205 1
16927037020551.mp4 10164Кб, 512x512, 00:03:14
512x512
16925757726010.mp4 8875Кб, 1280x720, 00:05:09
1280x720
16926301265410.mp4 7747Кб, 1280x720, 00:04:12
1280x720
16945854989190.mp4 8979Кб, 716x1074, 00:03:59
716x1074
16947072532580.mp4 4818Кб, 734x716, 00:02:44
734x716
16947257708670.mp4 4176Кб, 1920x1080, 00:00:28
1920x1080
16944472832380.mp4 3776Кб, 640x360, 00:00:39
640x360
16955475736171.mp4 3091Кб, 400x600, 00:00:38
400x600
Обсуждаем нейросети, связанные с синтезом, преобразованием и распознаванием речи. Не забываем публиковать свои шедевры в треде.

Text To Speech (TTS) 📝 👉 🎤

Silero
Российская разработка, легковесный, быстрый, относительно качественный. Поддерживает много языков, включая русский.
https://github.com/snakers4/silero-models

Есть 2 GUI:
Для всех систем: https://huggingface.co/spaces/NeuroSenko/tts-silero
Для винды, более продвинутый проект формата "всё в одном" (TTS/STS/TTS), часть функционала платная: SoundWorks, https://dmkilab.com/soundworks

Официальный бот в телеге. Требуется подписка на новостной канал. На бесплатном тарифе есть лимиты на число запросов в сутки: https://t.me/silero_voice_bot

Данная нейронка не обладает высокими системными требованиями. Если хотите запустить на своём компьютере, то, придётся накачать около 5 гигов + питон + гит, но всё будет установленно в одну папку поэтому будет легко удалить если надоест. Если используете несколько нейросетей - используйте Anaconda / Miniconda!
Гайд: https://textbin.net/kfylbjdmz9

Нет возможности тренировки своих голосов, но возможно сделать генерацию с одним из имеющихся голосов, и потом преобразовать получившийся файл через STS (смотри ниже).

Elevenlabs
Онлайн-сервис синтеза и преобразования английского голоса. На бесплатном тарифе ограничения по числу символов в месяц.
Сайт: https://elevenlabs.io/speech-synthesis
Гайд по использованию и общие советы: https://rentry.org/AIVoiceStuff

VITS-Umamusume-voice-synthesizer
Только на японском, 87 голосов.
ХагингФейс: https://huggingface.co/spaces/Plachta/VITS-Umamusume-voice-synthesizer
Гугл-Калаб: https://colab.research.google.com/drive/1J2Vm5dczTF99ckyNLXV0K-hQTxLwEaj5?usp=sharing

MoeGoe и MoeTTS
Гайд на китайском: https://colab.research.google.com/drive/1HDV84t3N-yUEBXN8dDIDSv6CzEJykCLw#scrollTo=EuqAdkaS1BKl
Кажется можно тренировать свои голосовые модели, но это не точно
Гугл-Калаб: https://www.bilibili.com/video/BV16G4y1B7Ey/?share_source=copy_web&vd_source=630b87174c967a898cae3765fba3bfa8

Speech To Speech (STS) 🎤 👉 🎤

Оба проекта SVC и RVC позволяют обучать модели на любой голос, в том числе свой, любимой матушки, обожаемого политика и других представителей социального дна. Для обучения своих моделей нужен датасет от 10 минут до 1 часа. Разработчики софта рекомендуют для обучения использовать видеокарту с объёмом памяти 10 GB VRAM, но возможно обучение и на видеокартах с меньшим объёмом памяти.

Преобразование голоса можно осуществлять как на видеокарте, так и на процессоре с меньшей скоростью.

SoftVC VITS Singing Voice Conversion Fork (SVC)
Репозиторий: https://github.com/voicepaw/so-vits-svc-fork
Гайд по установке и использованию: https://rentry.org/tts_so_vits_svc_fork_for_beginners

Готовые модели:
https://discord .gg/aihub (канал voice-models) UPD: сервер выпилили, бекапы здесь: https://www.weights.gg | https://voice-models.com
https://huggingface.co/models?search=so-vits-svc
https://civitai.com/models?query=so-vits-svc
https://t.me/AINetSD_bot (зеркало https://huggingface.co/NeuroSenko/svc-models/tree/main )

Для изменения голоса в песнях вам дополнительно необходимо установить софт для отделения вокала от инструменталки: https://github.com/Anjok07/ultimatevocalremovergui

Не поддерживает AMD GPU на Windows.

Retrieval-based-Voice-Conversion-WebUI (RVC)
Репозиторий: https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI
Где взять последнюю версию: https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/releases

Готовые модели:
https://discord .gg/aihub (канал voice-models) UPD: сервер выпилили, бекапы здесь: https://www.weights.gg | https://voice-models.com
https://huggingface.co/juuxn/RVCModels/tree/main
https://t.me/AINetSD_bot (зеркало https://huggingface.co/NeuroSenko/rvc-models/tree/main )

Утилиты для отделения вокала от инструменталки идут в комплекте.

Speech To Text (STT) 🎤 👉 📝

Консольная тулза от OpenAI, поддерживает множество языков, включая русский: https://github.com/openai/whisper

Прочее 🛠️
Утилита для нарезки длинных аудиотреков (пригодится для составления датасетов): https://github.com/flutydeer/audio-slicer
Чтобы создать видео из аудио, можно использовать FFMPEG, но если лень - есть GUI, SoundWorks (ссылку см. выше) - Tools \ Video \ Produce still video
Загрузить аудиофайл, чтобы поделиться в треде: https://vocaroo.com/upload

Ссылки на эти проекты мелькали в прошлых тредах, но не похоже на то, чтобы их активно использовали итт:
https://github.com/w-okada/voice-changer/blob/master/README_en.md
https://themetavoice.xyz/
https://github.com/coqui-ai/TTS

Шаблон для переката: https://rentry.co/byv2s
Предыдущий тред: >>461500 (OP)
Аноним 08/10/23 Вск 00:27:59 511364 2
Иногда проскакивает электронный звук/артефакт в букве Ц например. Это из за некачественного исходника? или из за некачественно обученой модели? Кто как с этим борется?
Аноним 08/10/23 Вск 08:03:02 511502 3
Аноним 08/10/23 Вск 13:47:00 511670 4
>>511502
По интонации все равно понятно что робот озвучивает а не человек
Аноним 08/10/23 Вск 14:11:25 511687 5
>>511670
у меня на силеровский голос бая встает. Кажется что реальная девушка говорит
Аноним 08/10/23 Вск 18:17:11 512000 6
Анон, как справляться с хором? Например у меня такой трек: везде обычно, а на 1:09 начинается часть с хором, на которой модель ахуевает
Вокал оригинала: https://voca.ro/19M1lMTqz676
Мой кавер: https://voca.ro/1itbIvewKIm8
Аноним 08/10/23 Вск 21:11:21 512319 7
>>512000
Никак, вырезай его, он не поддаётся трансформации.
Аноним 09/10/23 Пнд 01:48:40 512695 8
>>511205 (OP)
>Retrieval-based-Voice-Conversion-WebUI (RVC)
Пиздец, все на китайском.
А есть гайд, как ей пользоваться, на русском или английском?
Аноним 09/10/23 Пнд 02:22:13 512735 9
изображение.png 61Кб, 1187x566
1187x566
Пытаюсь вкатиться в нейронки, но, кажется, в несколько архаичном порядке. Сначала задрочил математику перцептрона и еще пару алгоритмов и их голые реализации, затем tensorflow, затем pandas.
Прямо сейчас мне нужно воспользоваться Silero из шапки треда.
Я пытаюсь запустить пример, но не пойму, как в этом ебаном формате юпитера, которым я пользуюсь в первый раз, вскормить питону ввод, которого данная ячейка, очевидно, требует.
Заодно скажите, какая там команда позволяет узнать, с каким именно питоном мы имеем дело.
Аноним 09/10/23 Пнд 02:22:35 512737 10
изображение.png 61Кб, 1187x566
1187x566
Пытаюсь вкатиться в нейронки, но, кажется, в несколько архаичном порядке. Сначала задрочил математику перцептрона и еще пару алгоритмов и их голые реализации, затем tensorflow, затем pandas.
Прямо сейчас мне нужно воспользоваться Silero из шапки треда.
Я пытаюсь запустить пример, но не пойму, как в этом ебаном формате юпитера, которым я пользуюсь в первый раз, вскормить питону ввод, которого данная ячейка, очевидно, требует.
Заодно скажите, какая там команда позволяет узнать, с каким именно питоном мы имеем дело.
Аноним 09/10/23 Пнд 02:31:53 512752 11
>>512735
>>512737
А, проехали, я наконец поднял глаза на 20 сантиметров наверх
Аноним 09/10/23 Пнд 07:14:08 512871 12
>>512695
чем пользоваться? Тебе обучение или создание аи каверов описать?
Аноним 09/10/23 Пнд 07:14:56 512872 13
Аноним 09/10/23 Пнд 07:17:08 512873 14
>>512735
под шапкой треда я кидал ссылку на хорошее вебуи для силеро
Аноним 09/10/23 Пнд 23:20:08 513761 15
Чел Сенко музыка ты охуенный
Аноним 10/10/23 Втр 23:49:10 514800 16
file.mp4 10236Кб, 1920x1080, 00:00:17
1920x1080
dubbing (6).mp4 5499Кб, 1920x1080, 00:00:10
1920x1080
Аноним 10/10/23 Втр 23:53:53 514803 17
16960631458360.mp4 5561Кб, 1280x720, 00:00:26
1280x720
dubbing (4).mp4 9955Кб, 1280x720, 00:00:10
1280x720
Аноним 10/10/23 Втр 23:54:26 514805 18
dubbing (3).mp4 9955Кб, 1280x720, 00:00:10
1280x720
dubbing (1).mp4 9955Кб, 1280x720, 00:00:10
1280x720
Аноним 11/10/23 Срд 00:34:24 514843 19
>>514803
4 языка - один народ
Аноним 11/10/23 Срд 09:49:19 515004 20
26d57716-124e-4[...].mp4 1351Кб, 1280x720, 00:00:08
1280x720
Аноним 11/10/23 Срд 13:05:16 515095 21
1.mp4 1570Кб, 720x960, 00:00:08
720x960
resultvoice (3)[...].mp4 1329Кб, 960x540, 00:00:08
960x540
4еп34п4пп4ы.mp4.mp4 14462Кб, 1920x1080, 00:00:08
1920x1080
16911367570090.[...].mp4 837Кб, 640x300, 00:00:08
640x300
16855313446630.[...].mp4 2470Кб, 398x480, 00:00:08
398x480
Аноним 11/10/23 Срд 13:46:38 515124 22
>>514800
Не работает чет, пишет try again
Аноним 11/10/23 Срд 14:43:50 515166 23
term.mp4.mp4 6514Кб, 1280x720, 00:00:06
1280x720
Аноним 11/10/23 Срд 14:44:50 515169 24
>>515124
надо зайти на сайт через почту
Аноним 11/10/23 Срд 15:21:09 515188 25
FOREST GUMP Mee[...].mp4 9112Кб, 640x360, 00:00:08
640x360
Аноним 11/10/23 Срд 15:22:36 515191 26
The Avengers (2[...].mp4 13076Кб, 854x480, 00:00:02
854x480
Аноним 11/10/23 Срд 17:15:03 515364 27
>>515191
Бля, на самом интересном месте!
Аноним 11/10/23 Срд 17:36:19 515392 28
3b1834a2-77ff-4[...].mp4 1894Кб, 680x364, 00:00:04
680x364
d20168c8-ca19-4[...].mp4 1097Кб, 1280x720, 00:00:08
1280x720
Аноним 11/10/23 Срд 23:31:57 515832 29
>>515191
Какая-то гачи-версия Мстителей
Аноним 12/10/23 Чтв 02:11:33 515940 30
image.png 2963Кб, 2559x1301
2559x1301
https://disk.yandex.ru/i/yrSqvLJOuy0jNA

ElevenLabs это какой-то рандом с низким шансом сделать годноту, полдня перебирал реплики одной сцены чтоб было более менее. Голоса прям актёров, но шопот плохо разбирает прога и ударения ставит в разнобой. Эх, была бы возможность текст редактировать - можно актёров дубляжа сразу на улицу выбрасывать, но пока сыро.
Аноним 12/10/23 Чтв 02:26:31 515945 31
mkyd24294692694.mp4 1654Кб, 854x480, 00:00:45
854x480
Аноним 12/10/23 Чтв 04:16:01 515988 32
мы всегда будем[...].webm 3037Кб, 712x368, 00:01:38
712x368
мы всегда будем[...].mp4 3016Кб, 712x368, 00:00:04
712x368
пытался для немытой ваты сделать перевод этой годной реплики, но нихуя, получается мусор цифровой.

Говно этот АИ, актеры озвучки пока будут в порядке.
Аноним 12/10/23 Чтв 05:52:04 516010 33
>so-vits-svc-fork
Аноны, не появилась там возможность учить на фонемах русского языка?
Аноним 12/10/23 Чтв 05:52:58 516012 34
>>515988
> мелкобуква что-то пискнула
Meh...
Аноним 12/10/23 Чтв 06:51:41 516024 35
>>516012
)
как легко задеть чувства немытой ваты и заставить ее ответить на свой пост
Аноним 12/10/23 Чтв 07:05:21 516027 36
>>515988
>актеры озвучки пока будут в порядке.
>Активная движуха с нейронками около года.
>Уже ГПТ4 высрали, уже почти точные копии голосов делают школьники на коленке, рисовач. За один ебаный год.
>Говно этот АИ, актеры озвучки пока будут в порядке.
Аноним 12/10/23 Чтв 07:13:24 516030 37
Аноним 12/10/23 Чтв 10:08:44 516131 38
А где можно скачать голос санбоя pth+index для Mangio-RVC?
Аноним 12/10/23 Чтв 10:21:37 516144 39
Аноним 12/10/23 Чтв 12:14:13 516232 40
Чет стремно мне на ютуб лить озвучку чьим-то голосом. А ну как страйк кинут? Есть какая-нибудь синтетическая безкопирастная модель с хорошим английским?
Аноним 12/10/23 Чтв 12:42:34 516260 41
>>516232
>А ну как страйк кинут?
Кинут, не переживай, повода для этого не нужно. Заливая что-то на чужую площадку, нужно сразу понимать, что оно заведомо пропало, и не беспокоиться по этому поводу.
Аноним 12/10/23 Чтв 12:57:24 516271 42
>>515095
>3
Умора, просто уписиваюсь
Аноним 12/10/23 Чтв 13:02:45 516275 43
Стикер 191Кб, 500x500
500x500
>>514800
>>515095
Бля пиздец аноны. Вот с svc надо сначала тонну времени угрохать модель натренить, потом накладывать её на речь. И после этого она будет кортавить как иностранец. А тут всё на лету делается за секунды.
Это как вообще? Это с помощью чего такое? Ссылочку на репозиторий можно? Или это какие-то секретные разработки госдепа которых нет в открытом доступе?
Аноним 12/10/23 Чтв 13:02:46 516276 44
>>516260
Судя по твоему комменту, ты с ютубом знаком чисто теоретически, а я спрашивал совета практиков.
Аноним 12/10/23 Чтв 13:44:36 516315 45
>>516275
> Ссылочку на репозиторий
Попенсурсоманьки совсем ебанулись.
Аноним 12/10/23 Чтв 13:44:36 516316 46
изображение.png 78Кб, 418x139
418x139
>>516275
>Или это какие-то секретные разработки госдепа которых нет в открытом доступе?
Ты логотипа не видишь? Конечно же проприетарщина. Впрочем, они примерно вторые после меты.
Аноним 12/10/23 Чтв 17:43:36 516710 47
Кто пробовал обучать модельку на шакальных записях телефонного разговора?
Выходит аутентично типа как запись с диктофона, или совсем пиздец?
Аноним 12/10/23 Чтв 18:07:08 516738 48
>>516710
>Кто пробовал обучать модельку на шакальных записях телефонного разговора?
На сайте есть демо записи Кейва из игры Portal 2, где его голос в игре обработан под запись. Модель звучит точно также.
Аноним 12/10/23 Чтв 18:30:45 516761 49
>>516738
А то здесь все ебутся, шумы вычищают, я вот думаю, может быть не обязательно запариваться в таком кейсе если нужен не чистый результат.
Аноним 12/10/23 Чтв 19:03:28 516795 50
Поделитесь опытом очистки шум и выделения вокала из аудиозаписей с шумом? Пользуетесь ли вы UVR для изоляции вокала?
Аноним 12/10/23 Чтв 19:34:29 516826 51
>>516795
>Пользуетесь ли вы UVR для изоляции вокала?
А чем собственно ещё?
Аноним 12/10/23 Чтв 20:02:21 516863 52
>>516826
а какие модели используешь для очистки аудио от звука? kim vocal? Поделись как ты изолируешь голос. Желательно не с трека а с реального шумного аудио.
Аноним 12/10/23 Чтв 20:17:31 516885 53
HEYYEYAAEYAAAEY[...].mp4 6813Кб, 480x360, 00:00:02
480x360
Аноним 13/10/23 Птн 02:55:51 517364 54
1588485321850.mp4 1276Кб, 640x344, 00:00:08
640x344
Аноним 13/10/23 Птн 10:41:33 517561 55
Adolph Hitler -[...].mp4 5458Кб, 854x480, 00:00:04
854x480
16947672362380.[...].mp4 4337Кб, 848x464, 00:00:04
848x464
16813920439460.[...].mp4 1277Кб, 640x336, 00:00:08
640x336
Аноним 13/10/23 Птн 12:26:09 517645 56
Аноним 13/10/23 Птн 14:22:13 517707 57
почти везде сетки голос-голос требуют предварительно заготовленные модели голоса, а как же elevenlabs справляется без всего этого? опять гоев греют поди
Аноним 13/10/23 Птн 15:14:09 517764 58
Чем можно нагенерить голос из текста чтобы нагенеренное уже подогнать под .pth модель из rvc?
Аноним 13/10/23 Птн 15:27:22 517778 59
ДАЯЛЮБЛЮТЕБЯСер[...].mp4 12894Кб, 1920x1080, 00:00:01
1920x1080
А какие там лимиты, гайс?
Аноним 13/10/23 Птн 20:18:07 518254 60
Аноним 14/10/23 Суб 03:15:51 518620 61
dubbing (1).mp4 5827Кб, 1280x720, 00:00:06
1280x720
Heygen всё же лучше озвучивает.
Аноним 14/10/23 Суб 07:10:40 518689 62
>>517707
Ну так у них модель может сама зафайнтюнится от одного сэмпла голоса.
Это как IP-adapter в SD, который копирует стиль с одного фото.
Или roop который накладывает лицо с одного фото.
Аноним 14/10/23 Суб 08:00:49 518695 63
pic1.mp4 535Кб, 762x472, 00:00:10
762x472
>>515940
>была бы возможность текст редактировать
Аноним 14/10/23 Суб 08:04:44 518696 64
это как вообще.mp4 666Кб, 690x522, 00:00:24
690x522
Аноним 14/10/23 Суб 08:18:28 518700 65
Аноны пытаюсь вкатиться в SoftVC VITS Singing Voice Conversion Fork (SVC). Как я понял там специальные модели нужны? И где конфиг к моделям искать, а то зачастую модели вижу,а конфига к ним нет? И да есть ли тут жесткая зависимость модели от языка на котором она сделана. Для tts как я понял она есть например.
Аноним 14/10/23 Суб 08:24:12 518704 66
Аноним 14/10/23 Суб 09:04:06 518716 67
>>518695
Чем делал? Это sts?
Аноним 14/10/23 Суб 09:32:11 518719 68
228.mp4 56Кб, 250x332, 00:00:01
250x332
Аноним 14/10/23 Суб 10:22:41 518739 69
>>511205 (OP)
Анончеки, вот есть обученный в колабе рвц голос. Так как теперь колаб агрессивно банит нейронки, я не знаю на чем мне использовать этот голос, так как есть только ноутбук без всяких там нвидиакарточек. Что делать, помогите
Аноним 14/10/23 Суб 13:07:20 518852 70
>>518739
Разверни рвц локально, если не запускать тренировку то просто для работы с моделями готовыми говорят хватит и ноута
Аноним 14/10/23 Суб 13:28:49 518871 71
Аноны для RVC исходный файл надо как-то по особому подготавливать? А то взял для примера файл без музыки с просто монотонной начиткой голосом. И при наложении голосов почему-то получается вообще даже отдаленно не похоже на оригинал, а голос смещается ближе к писклявому. Может еще какие настройки покрутить? А то я попробовал только понижение октавы и вообще не особо помогло. Модели взял русских голосов и исходник так же на русском.
Аноним 14/10/23 Суб 21:31:59 519412 72
изображение.png 13Кб, 856x172
856x172
изображение.png 29Кб, 807x554
807x554
Помогите нюфане, поясните почему оно нихуя не видит?
Аноним 14/10/23 Суб 21:36:56 519415 73
>>519412
Ты пытаешься использовать RVC-модель для SVC - они несовместимы между собой.
Аноним 14/10/23 Суб 21:37:52 519416 74
Аноним 14/10/23 Суб 22:12:55 519443 75
1014 (7).mp4 4355Кб, 854x480, 00:02:41
854x480
а кто автор ?
Аноним 14/10/23 Суб 22:41:01 519465 76
Аноним 14/10/23 Суб 22:47:48 519467 77
>>519443
серебряная свадьба хз
Аноним 15/10/23 Вск 11:36:26 519699 78
image.png 99Кб, 1224x798
1224x798
image.png 153Кб, 1260x825
1260x825
Анон, выручай.
Совместными с камрадом усилиями запустил RVC на камне (Жду, когда видеокарта придёт) и наткнулся на такую проблему.
В EasyRVC (Который был на колабе) есть крутилка "Mangio-Crepe Hop Length.", в других версиях RVC её я не нашёл. Но, почему-то, там отсутствует метод rmvpe, который точно был, когда оно висело на колабе.
https://github.com/AKhilRaghav0/EasyGUI-RVC-Fork?ysclid=lnr6u9ryy344916232
Ещё у меня лежит RVC, в которой есть rmvpe, но нет этой крутилки, а она нужна шопиздец.
https://huggingface.co/datasets/Ba1yya/RVC_rmvpe/tree/main

Как забороть проблему? Пытался прикрутить rmvpe, но там больно дохуя файлов, которые приходится переделывать, да и я тут не то что бы сильно понимаю. Или, может, у кого-то есть версия с обоими этими хуйнями?
Аноним 15/10/23 Вск 15:18:11 519880 79
>>519699
Отбой.
Как обычно, сначала хуйню спросил, потом подумал. Эта крутилка и нинужна там.
Аноним 16/10/23 Пнд 00:17:14 520476 80
16973941770260.mp4 11698Кб, 320x240, 00:14:58
320x240
Аноны, кто-нибудь может перевести это на инглиш?
Аноним 16/10/23 Пнд 02:32:56 520562 81
yangge posts 20[...].mp4 45094Кб, 1080x1920, 00:01:30
1080x1920
Аноним 16/10/23 Пнд 12:03:39 520769 82
Neco Arc When.mp4 900Кб, 720x720, 00:00:41
720x720
>>511205 (OP)
Это же сперва человек пропевает а уже потом накладывается нейрота. Я правильно понял?
Аноним 16/10/23 Пнд 12:49:16 520793 83
252895394037172[...].mp4 938Кб, 640x352, 00:00:08
640x352
chirp-35.mp4 2849Кб, 400x600, 00:00:40
400x600
645cc22bf430af5[...].mp4 15951Кб, 640x360, 00:00:08
640x360
Аноним 16/10/23 Пнд 16:21:11 521040 84
>>520769
Да, суёшь в RVC или SVC модель, обрабатываемую дорожку (вокал нужно отделить от музыки), достаёшь оттуда такой же вокал, но с другим голосом.
Аноним 16/10/23 Пнд 20:57:45 521538 85
>>517561
блять анон, замени лицо гитлера на зеленского на 1 видео, это будет вообще 10/10
Аноним 16/10/23 Пнд 21:32:33 521599 86
анончики, пожалуйста, не поленитесь, наставьте на путь истинный, я уже изъебался осилять в пустоту

я хочу из своего скрипта отправлять нейронке текст и чтобы она выдавала мне его нужным голосом

как понял я, таков путь: отправляем текст в ттс, полученный файл отправляем в рвс, других вариантов нет?

тогда вопрос, какую ттс использовать лучше всего чтобы из неё делало охуенные результаты рвс?

текст будет только русский и мужской

и пожалуйста, подскажите такую ттс чтобы всё было в 1 папке и ненужно было ебаться с зависимостями, виртуальными средами и прочей хуйнёй

и анончики, поясните пожалуйста для тупых:
- если в форке есть файл install, он качает всё что есть в requirements, всё это говно ставится в эту папку или срёт по всей системе?
- в форке RVC-Project например в папке runtime\Lib\site-packages есть просто куча говн например google, это же всё мусор потому что нахуй ненужно и китаец который собирал этот форс просто пидор?
- все эти файлы в папке runtime в папке Lib и Scripts это же и есть те самые модули которые можно подключить к питону и тем самым расширять его функционал, то есть то что пишется после import?
Аноним 16/10/23 Пнд 21:44:20 521614 87
>>521599
Путь действительно один. Отправить текст в ттс и потом в рвс.
Лучшая ттска для отправки в рвс это еджттс https://github.com/hinaichigo-fox/rus-edge-tts-webui это гуи от меня могу подсказать если что надо. Установка простая. Скачиваешь 3 библиотеки
pip install edge-tts
pip install gradio
pip install asyncio
и запускаешь python app.py. Далее в консоли будет ссылка


>- если в форке есть файл install, он качает всё что есть в requirements, всё это говно ставится в эту папку или срёт по всей системе?
Без виртуального окружения тебе всегда будет срать по всей системе.
>- в форке RVC-Project например в папке runtime\Lib\site-packages есть просто куча говн например google, это же всё мусор потому что нахуй ненужно и китаец который собирал этот форс просто пидор?
Это не засорит тебе в системе. И плюсом можешь поискать по коду. Эта библиотека найдется. Там нет ничего ненужного.
>- все эти файлы в папке runtime в папке Lib и Scripts это же и есть те самые модули которые можно подключить к питону и тем самым расширять его функционал, то есть то что пишется после import?
это библиотеки. Библиотеки нужны для сокращения кода. Например вместо того чтобы писать кучу кода ты просто обращаешься к библиотеке и код сокращается в разы
Аноним 16/10/23 Пнд 22:41:45 521710 88
>>521614
>Лучшая ттска это еджттс
это тебе ты скозал?
>это гуи от меня
вишмастер там установлен или надо кочать?
>pip install
вот из-за него и не хочу, это пиздец какой-то, в наше время такой хуйни небыло чтобы всё само ставилось, только ручками или портабл

у тебя это просто ттс получается, из него потом нужно в рвс отправлять?
а что насчёт https://github.com/litagin02/rvc-tts-webui скажешь? мне руки не позволяют его поставить из-за всех этих git clone curl venv pip install, у меня какая-то встроенная ненависть к ним, а хочется такую штуку, как блять её наебать чтобы она как рвс без всех этих свистоперделок работало просто из папки просто по батнику

>это библиотеки
точно, они самые, просто я жабаскрипт червь без фреймворков и без опыта в питоне у меня эти ваши библиотеки сложна СЛОЖНА
>Без виртуального окружения тебе всегда будет срать
но ведь рвс работает без всех этих говн просто из папки по батнику, почему ттс не может?
Аноним 17/10/23 Втр 00:08:55 521810 89
1656868392079.png 18Кб, 1016x214
1016x214
>>521614
Отправил ПР для твоей репы, чтобы настраивать venv и ставить зависимости через запуск одного батника. Инструкцию по установке можно будет сократить до пикрелейтед (только имя своей репы подставь).

Развернул твой проект на HF здесь:
https://huggingface.co/spaces/NeuroSenko/rus-edge-tts-webui

TTS нетребователен, так что даже на бесплатном спейсе от HF работает быстро. Предлагаю тебе самому спейс на HF развернуть, если будешь дальше правки вносить.
Аноним 17/10/23 Втр 07:13:30 521966 90
>>521810
говоришь не на русском. Расскажи что такое ПР.
Аноним 17/10/23 Втр 07:18:18 521970 91
image.png 174Кб, 1257x847
1257x847
>>521810
как это в код добавить?
Аноним 17/10/23 Втр 07:22:00 521974 92
>>521970
а. все. разобрался
Аноним 17/10/23 Втр 07:33:52 521978 93
>>521810
Спасибо. Я переделал репу
Аноним 17/10/23 Втр 08:23:32 521996 94
>>521966
ПР - PR - Pull Request - Запрос на слияние
Процедура, когда кто-либо предлагает внести правки из одной гит-ветки в другую. Если говорить простым языком про основной сценарий - это когда другой человек предлагает внести свои правки в твой код. Пока ты не добавил правки вручную, на экране с тем ПР должна была быть доступна кнопка вида "Merge pull request", которая в пару кликов добавила бы правки в репу. Сейчас тебе пришлось это делать вручную.

Обычно ПРы используют, когда над проектом работает больше одного человека, чтобы они могли проверять изменения друг-друга перед тем, как слить правки в общую кодовую базу. В случае опенсорса это помогает владельцу репы удобно принимать правки от мимокроков.

Подробнее здесь можешь почитать, если будет желание:
https://git-scm.com/book/ru/v2/GitHub-Внесение-собственного-вклада-в-проекты
Аноним 17/10/23 Втр 09:06:19 522013 95
Аноним 17/10/23 Втр 10:39:17 522087 96
senkodrochila.mp4 15847Кб, 512x768, 00:03:30
512x768
senkosovietport[...].mp4 24101Кб, 512x768, 00:05:21
512x768
Есть пайплайн для обработки чего-то сложнее чем цоевское завывание под гитарку? Желательно для безопытных в обработке аудио.
Аноним 17/10/23 Втр 14:38:29 522213 97
Анон, привет, ворвусь в тред не читая шапки, с набором конкретных вопросов.
У меня есть задача озвучить несколько реплик, для некоммерческих целей, типо как бы для мемеса, желательно на английском, можно и на русском.
Есть актер забугорный, голос которого хотелось бы использовать, есть кино-фильмы с его участием.
Что мне понадобится чтобы выполнить мою задачу? Буду благодарен если разъясните прямо по пунктам
Аноним 17/10/23 Втр 15:03:50 522237 98
>>522213
1.Обучить голосовую модель этого актера.
1.1. Для этого нужно собрать датасет. Лучше всего как минимум 1 час чистой речи.
1.2. Запихнуть в рвс и обучить модель
2. Открыть любой ттс из шапки треда. Например этот https://huggingface.co/spaces/NeuroSenko/rus-edge-tts-webui . Там на русском озвучить нужный текст.
3.Получить мп3 файл с текстом и переделать его в вав.
4. Запихнуть в рвс с нужной моделью.
Профит
Аноним 17/10/23 Втр 16:19:54 522280 99
Аноним 17/10/23 Втр 16:45:42 522309 100
>>522280
Чекни этот пост >>484314 → только аудиодорожку для RVC можно не нарезать на кусочки, если в датасете нет голосов других персонажей - RVC сам всё нарежет. Музыку уберёшь из датасета через https://github.com/Anjok07/ultimatevocalremovergui (UVR).
Аноним 17/10/23 Втр 18:21:56 522372 101
00019-3116028861.mp4 342Кб, 1280x720, 00:00:02
1280x720
Аноним 17/10/23 Втр 21:40:50 522586 102
>>522087
На ютабе полным-полно гайдов по сведению и мастерингу вокала. Пайплайн в большинстве случаев примерно одинаковый и никакой рокетсаенса там нет. Освоишь — и сможешь делать из говна что-то более-менее похожее на студийную запись. Полезешь в эти дебри чуть дальше — и сможешь вручную корректировать картавость, шипящие и твердые согласные.
Аноним 18/10/23 Срд 01:00:30 522792 103
>>522586
Да я хочу тупо голос Трауна в английской версии оторвать и использовать для пары тройки реплик, на случай важных переговоров
Аноним 18/10/23 Срд 11:40:54 522975 104
Может кто подсказать где откапать голос славы кпсс для рвц? Чет нихуя не могу найти
Аноним 18/10/23 Срд 15:18:11 523184 105
>>522975
Обучи сам. Он же стример ебучий, у него месяцы чистой речи без музла и прочих фонов нарезать можно.
Аноним 18/10/23 Срд 16:43:18 523237 106
>>523184
Я в своё время продал душу дьяволу и купил карточку интел за "цена/качество", с коей как мы знаем нейронки не хотят дружить. А на коллабах соединение разрывается через минуту.
Аноним 18/10/23 Срд 18:52:00 523351 107
Аноны может кто подсказать приятные женские русские голоса, а то я хз как такое гуглить, а прослушивать все модели подряд такое себе. Напишите пару субъективных примеров если кто использует.
Аноним 18/10/23 Срд 19:20:51 523376 108
>>523351
в siletoTTS есть бая голос. Офигенный голос. Ну а так хз
Аноним 18/10/23 Срд 19:46:12 523406 109
>>523376
>в siletoTTS есть бая голос. Офигенный голос
Знаю такой, да неплохой голос. Но или у меня сборка косячная, или голос еще не доработан, но при записи какие-то левые звуковые эффекты образуются типо вздохов что-ли и слушать такое тяжело причем именно с этим голосом в другом же от них который использую все нормально.
Аноним 18/10/23 Срд 19:54:10 523421 110
>>523406
вздохи классные. я подрочил один раз даже
Аноним 18/10/23 Срд 20:01:06 523427 111
2023-10-13.mp4.mp4 3022Кб, 1280x720, 00:00:08
1280x720
Аноним 18/10/23 Срд 20:22:46 523440 112
Есть ли нейросеть, которая копирует русский голос на качество похуй бесплатно? Нужно одно предложение озвучить, пара секунд. Не для коммерческих целей, а так, мем запилить.
Аноним 19/10/23 Чтв 20:26:34 524309 113
>>511205 (OP)
посоны, хочу из текста делать озвучку нужным мне голосом, я как понял нужно сперва ттс озвучить текст, потом через рвс переозвучить нужным голосом, вот этот форк норм будет? вишмастер не разъебут меня? https://github.com/rsxdalv/tts-generation-webui
Аноним 19/10/23 Чтв 20:40:52 524318 114
>>524309
Это фигня полная. Бери простые ттски и потом через рвс простой прогоняй. Например возьми еджТТС. Он и для русского и украинского есть. Вот чтобы на пк скать https://github.com/hinaichigo-fox/rus-edge-tts-webui и вот чтобы онлайн https://huggingface.co/spaces/NeuroSenko/rus-edge-tts-webui . Потом полученный файл прогоняешь через рвс и все
Аноним 19/10/23 Чтв 20:53:50 524332 115
блять аноны объясните тупому, я уже горю нахуй

например https://github.com/rsxdalv/tts-generation-webui написано что надо сделать кучу ебаных инсталов, например pip install -r requirements.txt

я правильно понимаю что pip это какойто ебаный файловый менеджер в котором хранится куча урл для скачивания всего того говна что написано в requirements.txt?

а этот пидор не ставит всё это говно сам в свой гит чтобы у меня типа была последняя версия того говна что там написано и которое необходимо для работы его программы и чтобы его программа много не весила до скачивания?

как всё это называется и какое видео можно посмотреть чтобы понять что блять происходит и в чём их логика, в моём понимании это актуальность версий софта который они использовали и малый размер при скачивании с гитхаба

сука хочешь просто скачать ебучую нейронку и запустить из папки, а тут сука куча какихто непонятных ебаных установок, виртуальных сред и хуй пойми ещё чего, а главное хуй пойми куда вся эта блядина ставится, или весь этот мусор ставится в ту же папку откуда я запускаю нейронку?

я просто пишу хуйню для озвучки текста на автомате, и у меня уже получается 5 нейронок надо запускать, сука 5 ебаных консолей говна которое ставит неведомое говно в мою систему и висит срёт в памяти поднимая ебаные сервера, я в ахуе, помогите разобраться просмотром видео от человека который объяснит весь процесс и наъуй так делают, я думаю всё это можно вообще обьеденить в 1 проект и запускать с 1 файла из сосноли
Аноним 19/10/23 Чтв 21:09:53 524347 116
1658423788952.png 52Кб, 1197x509
1197x509
>>524332
One-click installer пробовал? Правда, там миниконда нужна.

Вообще, если тебе нужно просто несколько фраз переозвучить, то проще делать как этот анон предлагает >>524318 Я лично вообще хз что ты там за комбайн смотришь, хотя может и годное что-то - за все эти форки не шарю.

TTS можно делать в облаке (по ссылке выше), либо скачать его и через bat-скрипты подтянуть зависимости в папку с проектом. RVC качается сразу со всеми зависимостями, там не нужно лезть в консоль.
Аноним 19/10/23 Чтв 21:13:35 524350 117
>>524332
>кучу ебаных инсталов,
>например pip install -r requirements.txt
Для тебя прописать пип инсталл реквестст это много?

>я правильно понимаю что pip это какойто ебаный файловый менеджер в котором хранится куча урл для скачивания всего того говна что написано в requirements.txt?

Нет. Пип это не файловый менеджер. Это модуль для установки пакетов. Пакеты нужны для простоты. Вот представь. Что легче? Нести продукты в руках или взять пакет и положить туда продукты? Вот и тут так же чтобы не писать 10000+ строк проггер импортирует библиотеку и код сжимается до 10 строк
Аноним 19/10/23 Чтв 21:30:57 524366 118
>>524347
зависимости это типа весь необходимый софт чтобы его скрипты запустились? например тот же gradio?

>>524350
анон у меня боль когда программа ставит непонятно что непонятно куда, у меня зависимость от портабл софта

и всё же получается pip менеджер в котром хранятся все ссылки на нужные версии софта, как ты говоришь пакетов который нужен чтобы скрипт автора нейронки смог стартовать?
Аноним 19/10/23 Чтв 21:33:49 524371 119
>>524366
>анон у меня боль когда программа ставит непонятно что непонятно куда, у меня зависимость от портабл софта
Переходи на линукс ставь виртуальные среды!

>и всё же получается pip менеджер в котром хранятся все ссылки на нужные версии софта

Ну не совсем. Через него пакеты нужные можно установить. Ты не идешь на какой нить сайт с исходниками библиотеки и сам ее компилишь а просто пишешь pip install либа и все.
Аноним 19/10/23 Чтв 21:38:52 524377 120
>>524366
Лучший совет, анон, не ешь месяц и усердно работай. Заработай себе на 1тб ссд и вставь в комп. и больше не парься по поводу памяти
Аноним 19/10/23 Чтв 21:51:18 524398 121
>>524377
лол, если бы в этом была проблема, я не хочу чтобы винда была засрана и биллиард телеметрий собирал записи каждого моего пука
Аноним 19/10/23 Чтв 22:02:20 524413 122
1554714479375.png 76Кб, 840x900
840x900
1675496506754.png 111Кб, 750x986
750x986
>>524366
> зависимости это типа весь необходимый софт чтобы его скрипты запустились? например тот же gradio?
Всё верно. Зависимости - это либы, которые требуются для запуска проекта. В большинстве случаев они прописаны в файле requrements.txt.

В случае pip зависимости могут ставиться глобально (насрать в систему) или локально.

Для проекта, который анон выше кинул, написаны скрипты, чтобы зависимости ставились в папку venv, которая будет болтаться в корне проекта. То есть оно не будет никуда срать в систему. Для RVC ещё проще - при скачивании стандартной версии (не какого-то непонятного форка) всё зависимости идут сразу в комплекте, то есть оно не будет расползаться по системе и ты всегда можешь снести всю директорию с проектом целиком, точно зная, что не останется каких-то следов в системе.
Аноним 19/10/23 Чтв 22:09:37 524424 123
>>524413
вот и я о том, почему нельзя делать 2 версии, одна как они любят дрочить с пипкой, а другая всё говно 1 папке чтобы не ебаться, скачать - запустить, не нравится - удалть нахуй и забыть, нет блять надо всю систему пипками ебать и потом вилкой говно чистить
Аноним 19/10/23 Чтв 22:10:32 524427 124
Аноним 19/10/23 Чтв 22:25:29 524455 125
>>524424
Ну, в том же Stable Diffusion WebUI зависимости автоматически ставятся в папку с проектом при первом запуске. Тут уже зависит от того, насколько сильно разработчик запарился над тем, чтобы его тулзу было легко поставить. Просто в TTS/STS куча форков и мелких проектов - не вышло какой-то стандарт де-факто сделать, как получилось в случае со Stable Diffusion. Так что сотни людей вместо того, чтобы коллективно один проект до ума доводить, пилят каждый свой велосипед, не имея времени/возможности его до ума довести.
Аноним 19/10/23 Чтв 22:55:46 524472 126
аноны в папке RVC\runtime\Lib\site-packages очень дохуя всяких файлов, это и есть те пакеты которая ставятся pip и прочей гадостью? это и есть зависимости? то есть то без чего остальной код RVC не заведётся?

тогда непонятно почему их так много, например там есть пакеты гугл и гидра, нахуя в рвс нужно какоето говно для работы с гул? или гидра, насколько я помню это брутфорсер паролей
Аноним 19/10/23 Чтв 23:10:22 524482 127
1588611191198.png 52Кб, 471x1097
471x1097
>>524472
> это и есть те пакеты которая ставятся pip и прочей гадостью? это и есть зависимости? то есть то без чего остальной код RVC не заведётся?
Всё верно.

> тогда непонятно почему их так много, например там есть пакеты гугл и гидра, нахуя в рвс нужно какоето говно для работы с гул? или гидра, насколько я помню это брутфорсер паролей
Список всех прямых зависимостей для RVC на скрине. Можно погуглить по каждой либе, что она конкретно делает, если хочешь с этим разбираться. При этом каждая либа может тащить за собой другие либы. Вот и получается, что в папке site-packages у тебя больше 300 разных папок, в которых чёрт ногу сломит.

В TTS-проекте, который анон ранее скидывал, подключаются всего три библиотеки, но, тем не менее, в site-packages там 150 директорий, так как либы друг-друга по цепочке тянутся.

Это другая гидра, там что-то про конфигурирование приложений: https://github.com/facebookresearch/hydra

Про гугл не подскажу, допускаю, он тянется другой либой, но не используется по факту. Добро пожаловать в мир современной разработки.
Аноним 19/10/23 Чтв 23:27:00 524495 128
Аноним 19/10/23 Чтв 23:35:10 524503 129
>>524482
>Добро пожаловать в мир современной разработки
пиздец анон, сильнее меня подбрасывает только с ООП и MVC

это как с памятью когда браузер 10гб жрёт или с играми когда пустая локация грузит гпу на 100%, пидоры одним словом а не разработчики
Аноним 19/10/23 Чтв 23:40:17 524509 130
>>524482
получается я могу просто скачать нужные все пакеты и закинуть в папку с питоном в папку с скачанным проектом и всё должно завестись если я правильно пути проставлю? и ненужно будет виртуальные среды создавать и инстолы запускать?

а в чём минус дохуя пакетов в системном питоне? начинает тормозить? потому что виртуализацию насколько я понял используют чтобы в основной питон не ставить нужные для гита пакеты
Аноним 19/10/23 Чтв 23:42:30 524511 131
>>524495
уже тыкал онлайн версию, мне показалось без хуйни с ударениями озвучка человечнее, ещё скорости надо поддать а то слишком медленно читает, короче можно использовать как основу для RVC?
Аноним 20/10/23 Птн 00:45:01 524552 132
silero.mp4 1651Кб, 672x384, 00:00:51
672x384
edge.mp4 2227Кб, 672x384, 00:01:12
672x384
terra.mp4 1615Кб, 672x384, 00:00:51
672x384
>>524503
Ну да, юзеры уплатят за доп. плашку RAM. Такова цена кроссплатформенности и быстрой разработки.

>>524509
> получается я могу просто скачать нужные все пакеты и закинуть в папку с питоном в папку с скачанным проектом и всё должно завестись если я правильно пути проставлю? и ненужно будет виртуальные среды создавать и инстолы запускать?
"Прописывание путей" по сути и есть задание виртуальной среды. Просто ты говоришь питону, что "либы качай/ищи не в стандартной системной помойке, а вот в этой папке".

> а в чём минус дохуя пакетов в системном питоне? начинает тормозить? потому что виртуализацию насколько я понял используют чтобы в основной питон не ставить нужные для гита пакеты
Во-первых, это засирает систему. Ты потыкал тулзу, удалил её, а зависимости мог забыть удалить из системы. В результате, у тебя на системном диске лежит ненужный кал, который никто потом не удалит, и его объём может быть существенным.
Во-вторых, могут быть конфликты версий, когда одна тулза работает только с одной версией либы, а другая тулза только с другой. Разбив это на виртуальные среды ты можешь скачать две разных версии либы и подсунуть то, что каждой из утилит нужно.

>>524511
Ну вот быстро затестил Silero vs Edge vs Tera с последующим изменением голосом в RVC. Имхо, Terra хуже всего себя показала на этом отрывке.

Почему, мистер Андерсон, почему? Во имя чего?.. Что вы делаете? Зачем? Зачем встаёте? Зачем продолжаете драться?.. Неужели вы верите в какую-то миссию — или вам просто страшно погибнуть? Так в чем же миссия, может быть, вы откроете?!.. Это свобода? Правда? Может быть, мир?! Или вы боретесь за любовь?! Иллюзии, мистер Андерсон, причуды восприятия! Хрупкие логические теории слабого человека, который отчаянно пытающегося оправдать своё существование, бесцельное и бессмысленное! Но они, мистер Андерсон, как и Матрица, столь же искусственны!!! Только человек может выдумать скучное и безжизненное понятие — любовь!.. Вам пора увидеть это, мистер Андерсон, увидеть и понять! Вы не можете победить! Продолжать борьбу бессмысленно!!! ПОЧЕМУ, МИСТЕР АНДЕРСОН, ПОЧЕМУ ВЫ УПОРСТВУЕТЕ?!

Ещё такой момент. У Edge плюс по сравнению с Silero в том, что Edge английские слова озвучивает посреди текста, а Silero такое просто пропускает.
Аноним 20/10/23 Птн 07:14:23 524661 133
>>524398
> и биллиард телеметрий собирал записи каждого моего пука

Господи. Скажи, о тебе собирает информацию лист бумаги? Пакеты в питоне за тобой следить не будут
Аноним 20/10/23 Птн 07:20:24 524662 134
>>524427
ну как бы тебе сказать. Сам процесс обработки текста хороший. Я его возьму. А голос не очень
Аноним 20/10/23 Птн 07:26:49 524665 135
>>524552
>Edge английские слова озвучивает посреди текста, а Silero такое просто пропускает.
Так и с числами. Силеро не озвучивает числа. Но от этой фигни можно избавиться.
https://github.com/oobabooga/text-generation-webui/blob/main/extensions/silero_tts/tts_preprocessor.py Вот пример обработчика текста который меняет текст как надо.
https://github.com/Em1tSan/silerotts-webui/blob/main/tts.py
Вот тут уже на русском
Аноним 20/10/23 Птн 11:26:11 524736 136
Аноним 20/10/23 Птн 12:24:46 524765 137
>>524552
анон как это выглядит, ты поставил все эти 3 нейронки, установил кучу говна что они просят для запуска, запустил 3, ТРИ СУКА ебаных локальных сервера с гуем, сохранил результаты, запустил ещё ОДИН ЕБАНЫЙ сервер с гуем для рвс, прогнал через него, сохранил, потом взял ЕБАННЫЙ ффмпег, картинку и через ещё одну ебанную сосноль по очереди склеивал картинку с сохранённой аудиодорожкой?

пиздец нахуй ну и страдания блять, 2024 год
Аноним 20/10/23 Птн 12:38:06 524777 138
>>524552
>это засирает систему. Ты потыкал тулзу, удалил её, а зависимости мог забыть удалить из системы. В результате, у тебя на системном диске лежит ненужный кал, который никто потом не удалит
а зачем пакетам, насколько я понял таким же питон скриптам загружаться кудато в системные папки? а нельзя просто скопировать питон в папку с нейронкой которую хочешь поставить, закинуть в неё в папку либ необходимые пакеты из реквайрементс и запустить всё это говно не устаналивая питон себе в систему вообще? ведь рвс работает без всего этого, у него там свой питон и библиотеки, он просто запускаются и всё работает ничего не засирая, как мне показалось, возможно конечно он срёт в кучу временных папок и локальные папки пользователя
Аноним 20/10/23 Птн 13:35:42 524799 139
Аноним 20/10/23 Птн 14:07:37 524812 140
Аноним 20/10/23 Птн 14:51:40 524830 141
image.png 10Кб, 259x304
259x304
image.png 12Кб, 252x363
252x363
Может кто посоветовать чем выдирать вокал, что бы чище всего было и инструментал? Я пользуюсь вот фт, вроде как...нормально?
И чем еще чистить сверху? Я пользуюсь этими двумя, нойс и удаления эха и реварба.
Аноним 20/10/23 Птн 16:55:27 524891 142
>>524765
Ну а как ты хотел? Сначала открываешь ттску прогоняешь текст. Потом сохраняешь его и в рвс. Потом с помощью видеоредактора соединяешь картинку и аудио.
Аноним 20/10/23 Птн 17:05:18 524893 143
>>524765
Вопрос 1. А че ж ты сам то не сделаешь штуку которая будет все в одном?
Аноним 20/10/23 Птн 18:58:03 525005 144
аноны, а что за кеш в нейронках и почему его надо чистить и почему это не происходит автоматом? и как убедиться что после использования нейронки нигде не осталось говно и всё вычистилось? и что за кучи файлов в папках __pycache__? хули всё так засрано и так много непонятных файлов с непонятными расширениями
Аноним 20/10/23 Птн 19:06:58 525012 145
>>525005
пайкэш можешь удалить нахрен. Оно каждый раз создается при запуске. В любом даже простецком проекте если юзается какая либо либа запоминающая что то то появляется кэш.
Аноним 20/10/23 Птн 19:16:00 525020 146
>>525012
п почему оно само за собой не подтирает? и при использовании рвс там тоже есть кнопка очистить память гпу, что это значит в техническом плане? питон срёт в видеопамять как в эти __pycache__ и не убирает за собой? да что он за мразь такая
Аноним 20/10/23 Птн 19:26:14 525025 147
>>525020
я так понимаю ты и в браузере куки каждый час чистишь?
Аноним 20/10/23 Птн 19:48:43 525035 148
>>525025
сперва ты узнал что я смотрю пранк про мистера андерсона, теперь узнал про куки, я в матрице?
Аноним 20/10/23 Птн 20:55:40 525070 149
посоны, по сути, чтобы не запускать виртуальную среду и не ставить себе всякое говно для её запуска, можно просто кинуть папку с пайтоном в папку с нейронкой и установить в неё все необходимые библиотеки и запускать просто стартовый файл через батник?
Аноним 20/10/23 Птн 20:57:00 525072 150
а пайтон можно например скопировать с рвс из папки runtime?
Аноним 20/10/23 Птн 21:03:26 525075 151
>>525035
я другой анон. тот пост с сенко не мой
Аноним 20/10/23 Птн 21:03:53 525076 152
Аноним 20/10/23 Птн 21:05:47 525080 153
Нет. Твой пароль 123456 не украдут от того что ты запустишь нейросеть. Нет. За тобой не приедут майкрософты и не заберут тебя в анальное рабство. Нет. За тобой не приедет фсб потому что ты сделал кавер на песню про адольфа гитлера.
Аноним 20/10/23 Птн 21:18:26 525089 154
не лизь.mp4 5489Кб, 640x360, 00:00:10
640x360
азиатка герметик.mp4 3379Кб, 854x480, 00:00:03
854x480
граймс.mp4 4371Кб, 1280x720, 00:00:01
1280x720
маэстро.mp4 5449Кб, 854x480, 00:00:10
854x480
>>511205 (OP)
Вот эта тема вин. Нейронки для рисования говно безе задач, а вот это действительно нужно. Кучу контента малоизвестного можно выкатить ан международную арену. Зеленый слоник на японский перевести например.
Аноним 20/10/23 Птн 21:43:55 525103 155
>>525076
но почему же анон? инфа сотка? смотрит я даже в ту же папку нейронки что просит запустить виртуальную среду прямо в неё закидываю питон с его файлами, запускаю его через терминал и пипкой ставлю всё что прописано в реквайремент от этой нейронки и запускаю основной файл нейронки через батник прямо из этой папки, почему не должно сработать? ведь путь до питона указан, все библиотеки установлены в папку либ
Аноним 20/10/23 Птн 21:59:35 525116 156
>>525103
батник это не основной файл. В батнике простые команды типа старт смд и в ней прописывается старт файл нужный. Ты батник открой в блокноте и увидишь что там. И все поймешь.
Питон не будет работать локально как и другой яп. он должен быть установлен в системе
Аноним 20/10/23 Птн 22:00:33 525117 157
>>525116
я щас на линуксе. И я не особо устаю от того что вместо нажатия на старт.бат я пишу в консоли python start.py
Аноним 20/10/23 Птн 23:01:34 525163 158
>>525116
ты меня наверно не понял, я говорю что делаю то что описал ранее, потом пишу в батник python.exe tts.py и вуаля, основной файл .py запущен, а там уже подтягиваются прописанные библиотеки из либс, почему же нет? виртуализация насколько я понял это же просто создание временной папки для питона установленного в систему чтобы в него сыпалось всё говно из реквайремент, а тут я просто в ттс добавлю свой питон и установлю всё говно в него, то есть должно же стартовать без виртуализации и сранья в основной птон, хотя мне и на основной питон похуй
Аноним 20/10/23 Птн 23:28:13 525182 159
Аноним 21/10/23 Суб 00:36:32 525250 160
Аноним 21/10/23 Суб 06:43:36 525397 161
>>525250
оно работает и без тырнета
Аноним 21/10/23 Суб 06:50:45 525398 162
>>525182
Во первых. Если и юзать еджТТС то с гуи https://github.com/hinaichigo-fox/rus-edge-tts-webui https://huggingface.co/spaces/NeuroSenko/rus-edge-tts-webui
Ну определенно на еджттс. Из плюсов: скорость, большой словарь с правильными ударениями(в барке как по мне не особо правильные ударения да и говорит с акцентом). В еджттс голос более менее не роботизированный и чистый. В барке появляются дефекты.
Ну а ты сам выбирай. Для чего тебе?
1. Для последующей обработки в рвс это тебе едж ттс
2. Для озвучки текста это тебе в барк
Аноним 21/10/23 Суб 06:51:10 525399 163
Аноним 21/10/23 Суб 06:53:35 525400 164
>>525163
Анон. Пробуй. Все в твоих руках!
Аноним 21/10/23 Суб 09:06:17 525421 165
>>525398
Тебе платят за рекламу этого твоего гуя?
Аноним 21/10/23 Суб 09:08:31 525423 166
>>525421
нет не платят. Полностью бесплатно. Опенсорс лол
Аноним 21/10/23 Суб 10:30:24 525446 167
>>525399
ну вот анон, получается виртуальное окружение нахуй ненужно? просто закидываем нужную версию питона в папку с нейронкой, ставим все необходимые библиотеки в этот питон, настраиваем пути и готово? хоть убейте не понимаю нахуй нужна эта виртуальная среда, если можно просто закинуть свой питон в нейронку с нужными библиотеками
Аноним 21/10/23 Суб 10:44:41 525455 168
>>525089
Сука заорал с кореянки.
Аноним 21/10/23 Суб 11:03:29 525461 169
почему все эти нейронки работают на gradio? питон не может в интерфейс?
Аноним 21/10/23 Суб 11:20:27 525466 170
>>525461
может конечно. Только не такой будет как в гардио.
Аноним 21/10/23 Суб 11:20:59 525467 171
>>525446
снеси питон но перед этим скопируй питон.ехе и потом запихай в папку. ну и проверь че у тя работает
Аноним 21/10/23 Суб 11:21:08 525468 172
>>525467
запусти виртуалку и там тесть лол
Аноним 21/10/23 Суб 11:38:23 525474 173
>>525467
у меня нет питона, но рвс работает же без всей этой ебалы из своего локального питона в папке runtime без этих ваших виртуальных сред, отсюда у меня и непонимание нахуй всё это говно, если можно просто закинуть питон с нужными библиотеками в папку с нейронкой и запустить главный срипт через этот питон просто указав до них путь в батнике
Аноним 21/10/23 Суб 11:46:23 525479 174
>>525474
а. рвс работает без питона? Нифига себе.
Аноним 21/10/23 Суб 11:46:44 525480 175
>>525474
ну так перенеси из рвс файлы в другую нейронку
Аноним 21/10/23 Суб 12:03:41 525484 176
>>525479
бля ты жопой читаешь
Аноним 21/10/23 Суб 12:15:24 525490 177
>>525484
не могу понять че ты хочешь и почему не хочешь устанавливать питон
Аноним 21/10/23 Суб 12:47:30 525502 178
httpsyoutu.bess[...].mp4 9991Кб, 854x480, 00:00:08
854x480
🇺🇦 Гимн Украины[...].mp4 2881Кб, 854x480, 00:00:08
854x480
Доброго вечора [...].mp4 1062Кб, 240x426, 00:00:08
240x426
Аноним 21/10/23 Суб 12:50:47 525503 179
>>525490
не хочу ставить его в систему, зачем если его можно поставить портативно прямо в папку с нейронкой для каждой свой без установки в систему и без предвариельного запуска всяких виртуальных сред, рвс же работает без всего этого говна, значит и остальные должны смоч, как руки доберутся попробую на твой же руттсэджгуй поставить свой питон без установки в систему просто копированием и запустить всё это дело и без виртуальной стреды
Аноним 21/10/23 Суб 12:53:28 525505 180
>>525502
что происходит на первом вебм? уколотый шеневмерный навозец через силу поет новый гимн?
Аноним 21/10/23 Суб 12:58:06 525507 181
>>525505
Я соло исполнение российских гимн на скорую руку не нашел
Аноним 21/10/23 Суб 13:09:58 525510 182
>>525503
пробуй тогда. если в рвс работает то везде должно
Аноним 21/10/23 Суб 13:56:01 525529 183
16608341212190.jpg 205Кб, 700x594
700x594
Аноны, очень хочу трейнить модельки на RVC, но у меня AMD вместо видяхи, помогите, что делать?
Аноним 21/10/23 Суб 14:00:45 525531 184
Аноним 21/10/23 Суб 14:10:40 525537 185
>>525531
добра тебе, анонче!
Аноним 21/10/23 Суб 14:17:25 525542 186
image.png 554Кб, 700x479
700x479
Аноним 21/10/23 Суб 17:14:42 525706 187
image.png 42Кб, 948x405
948x405
Аноним 21/10/23 Суб 17:41:47 525726 188
image.png 16Кб, 676x285
676x285
>>525706
как же я ненавижу современных разработчиков, инвалиды сука ебаные, скачай то что нахуй недоступно иначе я не буду работать, заебись блять
Аноним 21/10/23 Суб 17:49:31 525733 189
image.png 4Кб, 373x42
373x42
>>525726
блять у меня и так в системе стоит версия выше 14.0, почему это говно просит его установить?
Аноним 21/10/23 Суб 18:30:15 525792 190
>>525706
Не путай простой с++ и буилд тулс. это разные вещи
Аноним 21/10/23 Суб 19:37:33 525860 191
Хочу нейронку чтобы песню писало по промпту одного предложения и стилистике и само пело.

Типо: предоставить песню про то и то, длина 3 минуты, стиль такой-то, тональность мажорная минорная, настроение веселое, стилистика годов выпуска и тп..
Аноним 21/10/23 Суб 20:10:04 525887 192
Аноним 22/10/23 Вск 05:23:38 526387 193
image.png 38Кб, 1574x319
1574x319
image.png 24Кб, 878x300
878x300
image.png 441Кб, 1621x528
1621x528
>>524799
> а что насчёт https://github.com/suno-ai/bark
Чёт у них похоже пример на коллабе поломанный, с русским языком совсем какая-то шиза выходит:
https://vocaroo.com/1dizRoE1qYsw

>>524665
> Вот пример обработчика текста который меняет текст как надо.
И вправду, просто перед отдачей в нейронку меняет несколько различных подстрок, которые нейронка не распознаёт. Занятно, что такое не включили в Silero изначально, идея то тривиальная...

>>524765
> анон как это выглядит, ты поставил все эти 3 нейронки, установил кучу говна что они просят для запуска, запустил 3, ТРИ СУКА ебаных локальных сервера с гуем
Для всех трёх TTS развёрнуты спейсы в hf, так что локально при желании можно его не запускать.

> запустил ещё ОДИН ЕБАНЫЙ сервер с гуем для рвс, прогнал через него, сохранил результаты
Да.

> потом взял ЕБАННЫЙ ффмпег, картинку и через ещё одну ебанную сосноль по очереди склеивал картинку с сохранённой аудиодорожкой?
Я для этого такую фигню в онлайне запаблишил, чтобы проще было объединить аудио с картинкой:
https://huggingface.co/spaces/NeuroSenko/audio-processing-utils

Оно, правда, тоже кривое, но мне хватает. Если делать в онлайне, то добавляется 3 секунды тишины в конце т.к. там качается не та версия ffmpeg, что на винде, и команда ведёт себя иначе; и число пикселей по ширине/высоте должно быть чётным по какой-то причине...

>>524777
Можно, если ты убедишь разработчика пакета так заморочиться.
Аноним 22/10/23 Вск 08:57:51 526413 194
Аноним 22/10/23 Вск 12:09:23 526483 195
>>525887
Да это оно, но еще недоразвитое, через 3 года подрастет, чат гпт внедрят 5ю версию и будут песни одной левой писать и петь.
Типа колонке говоришь, а ну-ка спой мне песню как я хорошо посрал в стиле джаз, оно само генерирует и исполняет..
Аноним 22/10/23 Вск 13:23:59 526518 196
Я просто хочу на чтоб мне прожка на английском читала текст женским человеческим голосом(бесплатно). Есть такое? Все что я нахожу платное или пару строк только может, я хочу прям текст закинуть
Аноним 22/10/23 Вск 13:58:11 526535 197
>>526518
конечно можно. Берешь модель нормальной бабы, потом прогоняешь через edgeTTS и затем через рвс
Аноним 22/10/23 Вск 17:40:49 526712 198
>>526387
Реально что ли для озвучки нейросетью, нужно пердолиться с указанием ручками как читается "г.", "%" и т.п.? Оно ж еще по контексту может меняться: год, грам, гривны, просто буква г, да еще и миллион разных форм слова, и точку не всегда пишут

Этот уже не нейронка в таком случае, это старый перебор всех возможных случаев руками
Аноним 22/10/23 Вск 18:27:20 526753 199
>>526712
это не чатжпт тебе чтобы понимать что там за г сокращено. Это синтезаторы речи. Они просто по тексту синтезируют. если есть г они будут читать это как г если есть рандомное сочитание букв то они его прочитают так как написано. Это машина, у нее нет мозга
Аноним 22/10/23 Вск 19:21:02 526816 200
>>526712
у Edge хорошее понимание произношения букв исходи из используемых слов и их контекста. Не совсем хорошо, но в большинстве случает читает лучше среднего гражданина этой страны.
Аноним 22/10/23 Вск 19:44:03 526827 201
Без названия.mp4 343Кб, 276x182, 00:00:24
276x182
>>526712
Я вот тут ничего не перебирал.
Аноним 23/10/23 Пнд 00:34:18 527119 202
>>524799
>>526387
>suno bark
Не читал и возможно не в тему скажу: у них в дискорде можно быстро потестить. Время от времени генерит хуйню, да, зато очень эмоционально.
Аноним 23/10/23 Пнд 11:15:18 527311 203
аноны я дурак, установил нейронку через пипы, виртуалки и прочую хуйню, как теперь это запускать с батника? пишу вот это, а у меня просто открывается и закрывается консоль

C:\AI\venv\Scripts\activate
pause

Если открываю консоль с этой папки venv и пишу Scripts\activate то работает, а если с батника то нет, моментально закрывается и даже pause не помогает
Аноним 23/10/23 Пнд 11:47:25 527320 204
>>527311
короче как сделать батник чтобы он активировал виртуальное оружение уже созданного проекста и запускал нужный файл из окружения? если писать просто пайтон и ссылку на исполняемый файл то он пытается найти нужные библиотеки в глобальном пайтоне и обсирается, а если перед запуском написать активацию виртуальной среды то она активируется и тут же закрывается сосноль, чё за пиздец
Аноним 23/10/23 Пнд 12:08:30 527329 205
изображение.png 2Кб, 515x49
515x49
>>527320
Первой строкой. Дальше что хочешь. В конце
PAUSE
ставь.
Аноним 23/10/23 Пнд 12:21:21 527338 206
>>527329
анон спасибо, изза этого КАЛА весь мозг уже изъебал, а ебаный ChatGOVNOTA про этот call ни слова не сказал
Аноним 23/10/23 Пнд 12:26:04 527340 207
>>527338
> ChatGOVNOTA
Ебало имажинируйте. Подтереться-то после сранья без помощи этой хуйни еще в состоянии?
Аноним 23/10/23 Пнд 12:29:01 527341 208
>>527340
с каканием всё хорошо если не затягивать на 3 дня, потом может случиться запор доктор

а у кого ещё мне спросить чтобы меня не обосрали? только у него
Аноним 23/10/23 Пнд 13:46:40 527398 209
Пользователям TTS. А какое применение вы видите вообще в этом? Мой кейс был такой - выдернул текст из файла субтитров для того чтобы прогнать через ТТС и затем прогнать через РВЦ для дубляжа. Итог такой что все эти ТТС начитывают максимально механически и для +- нормальной озвучки не подходят вообще. Есть какая ТТС которая как то играет голосом немного? И почему при прогоне через РВЦ в готовом оутпуте как будто не применяется файл черт голосовой модели, потому что на выходе звучит так же механически только другим голосом
Аноним 23/10/23 Пнд 14:56:53 527454 210
>>527398
>Есть какая ТТС которая как то играет голосом немного?
Нормальная технология пока только у корпов под замком, у мордокниги полностью закрытая, у Elevenlabs можно потрогать руками, роликов в треде вагон.
Аноним 23/10/23 Пнд 15:52:19 527492 211
>>527398
>А какое применение вы видите вообще в этом?
Озвучка видео. Не нужно париться с записью своего или чьего-то голоса - загенерил речь, добавил звуковой дорожкой к видеоряду и актеры озвучки уже не нужны.
Аноним 23/10/23 Пнд 16:33:54 527514 212
>>527454
Получается ттс движок годный пока только у elvenlabs но он не опенсорс и никогда им не будет, так?
>>527492
Но ведь это озвучка то такая себе, для передачи смысла пойдет но актеры озвучки то получаются могут расслабить булки назад так как ттски хоть сейчас и могут озвучить, но актерской игры там ноль. Единственный вариант который вижу, это самому наговаривать текст и затем прогонять через рвц под понравившуюся модель. Но тогда ебли то получается не меньше если просто самому озвучивать
Аноним 23/10/23 Пнд 16:52:29 527529 213
>>527514
>Получается ттс движок годный пока только у elvenlabs но он не опенсорс и никогда им не будет, так?
Там не ТТС, там хитрее, >>525089 типа сразу зеро-шот перевод с языка на язык. Внутре скорее всего есть ТТС, но он явно использует данные предоставленного звука, все эти интонации и прочие акценты, помимо самого собственно голоса.

Локально у нас только либо озвучивание текста с весьма дубовыми интонациями, либо сравнительно качественный голос-в-голос, тут ты прав.
Аноним 23/10/23 Пнд 17:14:42 527544 214
думаю.mp4 1860Кб, 1200x800, 00:00:22
1200x800
Аноним 23/10/23 Пнд 17:29:40 527558 215
>>527529
Благодарю за разъяснение
Аноним 24/10/23 Втр 09:05:46 528040 216
подскажите ТТС которой можно по АПИ отправить текст и она вернет ссылку на полученный аудиофайл?
Аноним 24/10/23 Втр 09:06:24 528041 217
>>528040
локальную, не онлайн
Аноним 24/10/23 Втр 11:15:05 528090 218
Аноним 24/10/23 Втр 13:07:50 528146 219
image.png 34Кб, 913x629
913x629
анон, не поклади хуя своего, я уже сума схожу, в оригинальном RVC в самом низу есть кнопка Use via API, я думал это API чтобы пользоваться нейронкой через JS, но если посмотреть его, там пиздец со скрина, я не понимаю как ему отправить ссылку на аудио и модель чтобы он сделал преозвучку и вернул мне ссылку на результат?
Аноним 24/10/23 Втр 13:27:17 528168 220
изображение.png 6Кб, 247x112
247x112
>>528146
> я не понимаю как ему отправить ссылку на аудио
Ты блядь в бейс64 не можешь файл закодировать?
Аноним 24/10/23 Втр 13:42:57 528182 221
>>528168
>Ты блядь в бейс64 не можешь файл закодировать?
я че мудак что-ли, нахуй оно мне надо
Аноним 24/10/23 Втр 14:09:28 528207 222
image.png 24Кб, 940x192
940x192
маму ебал этих ваших requirements, блядская хуйня просто не устаналивается, нахуй блять такое говно делать и нахуй я там должен разбираться что этот пидорас от меня хочет, нахуй такое говно выкладывать в сеть, это ебаный https://github.com/Mangio621/Mangio-RVC-Fork такую хуйню высирает, пошли-ка они нахуй со своим манго
Аноним 24/10/23 Втр 14:13:08 528212 223
>>528207
>A very experimental fork of
Ебало непредставимо.
Аноним 24/10/23 Втр 14:20:16 528215 224
изображение.png 96Кб, 2097x96
2097x96
>>528207
>я там должен разбираться что этот пидорас от меня хочет
Аноним 24/10/23 Втр 14:25:58 528220 225
>>528207
Зачем тебе вообще этот форк? Чем оригинал с его "скочал zip, распаковал, запустил" не нравится?
Аноним 24/10/23 Втр 14:35:51 528233 226
image.png 15Кб, 640x252
640x252
>>528220
выше пчелы ноют что это некомельфо, чо поцоны только так делают

>>528215
это понятно анон, но если зайти на https://visualstudio.microsoft.com/ru/downloads/ и выбрать там Инструменты для Visual Studioа потом ебаный Инструменты сборки для Visual Studio 2022 и нажать СКОЧАТЬ БУИЛУД ТУЛЗ тебе тут же по ебалу скрин АДРЕС_ИНВАЛИЛД_ПОШЕЛ_НАХУЙ
Аноним 24/10/23 Втр 14:37:27 528235 227
>>528233
>АДРЕС_ИНВАЛИЛД_ПОШЕЛ_НАХУЙ
Страной не вышел.
Аноним 24/10/23 Втр 14:38:54 528236 228
image.png 871Кб, 1600x600
1600x600
Аноним 24/10/23 Втр 14:39:27 528237 229
>>528233
Остановись, пощади, человек-анекдот.
Аноним 24/10/23 Втр 14:46:01 528239 230
Аноним 24/10/23 Втр 14:46:54 528240 231
>>528233
> выше пчелы ноют что это некомельфо, чо поцоны только так делают
Чел, там просто объясняли, что мейнтейнерам, как правило, просто лень оформлять нормальные инсталлеры, но в случае RVC с этим как раз проблем нет.

Просто качни zip для своей платформы здесь и не сношай себе и треду мозг:
https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/releases

Сам себе выдумал проблему, и начал героически её решать.
Аноним 24/10/23 Втр 14:50:39 528244 232
image.png 10Кб, 464x270
464x270
>>528240
>>528235
нравится, так уже пол часа стоит не россия хотел просто по красоте сделать, а тут как всегда хуем по нод носом провели
Аноним 24/10/23 Втр 14:54:04 528247 233
Аноним 24/10/23 Втр 14:59:02 528251 234
>>528247
Тогда остаётся только возиться с зависимостями. Тут хотя бы EdgeTTS+RVC а не просто форк RVC, сделанный хер значет зачем, так что здесь это имеет какой-то смысл.
Аноним 24/10/23 Втр 15:18:47 528264 235
image.png 26Кб, 616x221
616x221
ошибку установки Microsoft C++ Build Tools высирает https://github.com/facebookresearch/fairseq смотрим описание, понятно, пидоры, пидоры говноеды, вот и не работает
Аноним 24/10/23 Втр 15:21:08 528268 236
Аноним 24/10/23 Втр 15:35:51 528272 237
>>528268
какое нормальное приложение/раширение/сайт будет собирать деньги на войну в стране воров, только пидорское
Аноним 24/10/23 Втр 15:37:07 528273 238
>>528090
это кэш. чисти руками
Аноним 24/10/23 Втр 15:39:31 528274 239
Кто может объяснить почему установка библиотек для https://github.com/litagin02/rvc-tts-webui вызывает ошибку требующую установки Visual Studio? Что за бред? Это же просто куча .py файлов
Аноним 24/10/23 Втр 15:47:56 528277 240
>>528274
> Это же просто куча .py файлов
Нет, там ещё куча бинарников
> вызывает ошибку требующую установки Visual Studio
Потому что некоторые библиотеки при установке собираются из исходников
Аноним 24/10/23 Втр 15:48:37 528278 241
Аноним 24/10/23 Втр 15:49:24 528280 242
>>528274
Не понимаю, нафига люди качают какую то хрень если есть простой едж ттс и рвс отдельно. Нервы скажут спасибо, да и место на диске
Аноним 24/10/23 Втр 16:26:00 528306 243
>>528280
может быть чтобы сразу из текста получить озвучку нужным голосом, как думаешь?
Аноним 24/10/23 Втр 16:27:35 528308 244
>>528277
>Потому что некоторые библиотеки при установке собираются из исходников
Спасибо не знал, а нельзя никак наебать систему скопировав эти библиотеки из оригинального RVC?

>>528278
Не качается
Аноним 24/10/23 Втр 16:46:19 528316 245
>>528306
пипец. там качество плохое выходит
Аноним 24/10/23 Втр 16:47:59 528318 246
Аноним 24/10/23 Втр 17:00:46 528328 247
Аноним 24/10/23 Втр 17:20:01 528346 248
Аноним 24/10/23 Втр 17:24:51 528355 249
Что в RVC делают вкладки Обработка ckpt и Экспорт ONNX?
Аноним 24/10/23 Втр 18:18:52 528412 250
Аноним 24/10/23 Втр 18:25:39 528421 251
АНОНЫ!

Подскажите есть какой-то способ переводить порнушку ? Пиздец так хочется понимать о чем они там говорят, подскажите идеи как можно хотя бы англ субтитры прикрутить к видосам локальным?
Аноним 24/10/23 Втр 18:32:32 528432 252
>>528421
Перевод из аудио/видео в текст: https://github.com/openai/whisper
Вызови команду --help, там была возможность сохранять в формате субтитров. У меня он сейчас не настроен, точную команду не подскажу.
Аноним 24/10/23 Втр 19:00:45 528457 253
lenin.mp4 2456Кб, 1920x1920, 00:00:26
1920x1920
ну и что это за хуйня, пропустил текст через edge-tts, потом через rvc с моделью ленина, последняя в aihub, а на выходе вот это дерьмо, кто там пиздел что edge-tts идеально для rvc
Аноним 24/10/23 Втр 19:03:11 528460 254
Аноним 24/10/23 Втр 19:09:32 528466 255
>>528264
Пипец сжв обиженка. Закенсили их, не пользуйся их софтом, тогда они поймут
Аноним 24/10/23 Втр 19:16:27 528471 256
>>528457
членин не матюкался. поэтому не похоже
Аноним 24/10/23 Втр 19:17:51 528473 257
А где то можно послушать примеры голосов которые доступны в бесплатной Silero которая у себя на компе юзается?
Аноним 24/10/23 Втр 19:18:07 528474 258
Аноним 24/10/23 Втр 19:21:55 528478 259
забыли спросить.mp4 333Кб, 600x400, 00:00:07
600x400
Аноним 24/10/23 Втр 19:26:24 528483 260
>>528457
а ты на каком режиме делал? Лучше там делать в рвс в режиме crepe
Аноним 24/10/23 Втр 19:26:56 528484 261
image.png 42Кб, 864x288
864x288
Аноним 24/10/23 Втр 19:28:35 528487 262
Аноним 24/10/23 Втр 19:29:27 528488 263
>>528483
> 'rmvpe': лучшее качество и минимальная нагрузка на GPU
Аноним 24/10/23 Втр 19:35:14 528500 264
Аноним 24/10/23 Втр 19:35:44 528503 265
>>528487
почему не качается? Там должна быть какая то ошибка. Сними на видео процесс установки или покопайся в тырнете
Аноним 24/10/23 Втр 19:40:25 528508 266
crepe хуйня.mp4 1043Кб, 1180x730, 00:00:26
1180x730
Аноним 24/10/23 Втр 19:41:41 528510 267
>>528503
нет доступа из страны, не вошёл в список избранных у пидорасов
Аноним 24/10/23 Втр 19:50:05 528517 268
слава какаину.mp4 706Кб, 950x534, 00:00:23
950x534
Аноним 24/10/23 Втр 19:55:12 528522 269
>>528510
че ж у тебя за страна? Я месяц назад скачивал и все норм. Живу в России
Аноним 24/10/23 Втр 19:55:23 528523 270
>>528508
ну я хз. мб модель плохая
Аноним 24/10/23 Втр 19:55:30 528524 271
Аноним 24/10/23 Втр 20:46:47 528574 272
>>511205 (OP)
Какой нейронкой можно скачать аудиодорожку из видео с ютуба? Желательно чтобы обращаться к ней можно было по API
Аноним 24/10/23 Втр 21:12:15 528599 273
Аноним 24/10/23 Втр 21:17:51 528607 274
>>528574
> скачать аудиодорожку из видео с ютуба
> нейронкой
Зачем?.. Для загрузки видео с ютуба есть браузерные плагины и онлайн-сервисы. Нейросетки-то тут причём.
Аноним 24/10/23 Втр 21:25:14 528618 275
>>528607
вы совсем там? Я за 5 минут в том году накидал бота для вк который простым ттс обрабатывает текст и потом загружает как голосовое смс в вк. Один хочет скачать аудиодорожку, другой хочет по апи к ттс обращаться. Ну совсем уже. Совсем уже мозги поехали с нейронками.
Для анона >>528574 тут логика простая. Скачиваешь с ютуба видос либо сразу аудио скачиваешь либо потом преобразовываешь через модуль os.
Для анона >>528040
Че тут думать? Это силеро или эдж ттс. Там апи легкие. простое обращение и потом конвертация в файл. Загружать его можно в питоне либы есть реквест та же
Аноним 24/10/23 Втр 21:58:53 528642 276
Аноним 25/10/23 Срд 01:32:45 528805 277
>>528264
А ты хотел там увидеть САППОРТ ПЫНЕСТАН? Лол, не удивительно, что у тебя нихуя не получается
Аноним 25/10/23 Срд 13:30:55 529015 278
Аноним 25/10/23 Срд 15:39:27 529113 279
ищу чтобы загрузил известную композицию и оно само ремикс сделало, есть вот статья с подборкой програм, но примеры в ней не работают или не разобрался

https://filme.imyfone.com/cover-song/ai-music-remixer/
Аноним 25/10/23 Срд 16:18:52 529144 280
video.mp4 1101Кб, 256x454, 00:00:50
256x454
вот эта херня работает, но попробовать дает мало, дальше плати
https://covers.ai/
Аноним 25/10/23 Срд 20:06:35 529356 281
Аноны. А как удалить то говно чем насрала нейронка?
Аноним 25/10/23 Срд 20:38:28 529375 282
Аноним 26/10/23 Чтв 19:26:28 529980 283
16935134438660.[...].mp4 5855Кб, 720x1280, 00:00:08
720x1280
Аноним 26/10/23 Чтв 20:01:34 529996 284
15877702751570 [...].mp4 475Кб, 640x360, 00:00:06
640x360
Аноним 26/10/23 Чтв 20:55:27 530029 285
Синагога.mp4 5729Кб, 1000x1000, 00:01:58
1000x1000
Аноним 26/10/23 Чтв 21:01:07 530035 286
Здесь есть пользователи ControlNet?
Аноним 26/10/23 Чтв 21:02:33 530038 287
>>530035
Это тебе в треды с стейбл диффюшн. Тут все про аудио
Аноним 26/10/23 Чтв 21:03:21 530039 288
>>530038
Мда, я совсем уже обдвачевался.
Аноним 26/10/23 Чтв 21:04:13 530041 289
Аноним 26/10/23 Чтв 22:13:50 530104 290
image.png 21Кб, 898x80
898x80
Привет, анон. Хочу переозвучить некоторые моменты в фильме. Нарежу фраз одного персонажа, сделаю голосовую модель в RVC. На Линухе этим методом можно воспользоваться? Подводных камней нет? Не хочу несколько часов трахаться с тем, что в итоге не получится.

Я слышал, что ему нужно 8ГБ VRAM, верно? У меня Steam Deck, вроде в описании написано что оперативная и видеопамять в нём как бы объединены (пикрил), хотя я впервые об этом слышу.
Аноним 27/10/23 Птн 07:19:20 530302 291
>>530104
конечно можно. запускать рвс можно через infer-web.py
Аноним 27/10/23 Птн 07:47:14 530306 292
>>530104
Ебать, ты собрался это на стимдэке делать? И этот человек ещё будет говорить что-то про беспощадное трахание
Аноним 28/10/23 Суб 09:25:41 530991 293
>>530104
На стим деке видеопамять lpddr, и это амд Какие нахрен нейронки?
Аноним 29/10/23 Вск 09:05:46 531535 294
Ух ля охено, рвс спокойно переозвучивает с обученным ранее на колабе голосом на моем говноноуте без жпу. Как же я счастлив анончики. Правда если переделать долгую запись, начинает какую-то ошибку выдавать до перезапуска
Аноним 29/10/23 Вск 09:22:22 531539 295
edgeTTS.mp4 9664Кб, 1280x720, 00:00:59
1280x720
silero1.mp4 6781Кб, 1280x720, 00:00:44
1280x720
silero3.mp4 9077Кб, 1280x720, 00:00:54
1280x720
silero2.mp4 8596Кб, 1280x720, 00:00:52
1280x720
Сравнение обработки в рвс голоса от еджттс и трех силероттс
Аноним 29/10/23 Вск 13:18:11 531617 296
>>531539
всё звучит как хуйня
Аноним 29/10/23 Вск 19:17:44 531898 297
image.png 41Кб, 770x574
770x574
>>511502
анон, можешь переделать скрипт app.py чтобы он сохранял в папке temp озвученные файлы не как gradio/рандомназваниепапки/output.mp3, а рандомное gradio/рандомназваниефайла.mp3, чтобы видеть все файлы в 1 папке, а не блять по 1 файлу в тонне папок, я пытался переделать то что на пике, но пиздец обосрался, не получается, нет знаний работы с глобальными переменными типа __file__
Аноним 29/10/23 Вск 19:44:25 531927 298
Стикер 0Кб, 234x250
234x250
Сап аноны.
Можно ли перетренить модель в so-vits-svc-fork? Я пока не спешу и включаю обучение на несколько часиков каждый день. Так может и до бесконечности продолжаться. Не будет ли хуже от этого, или в определенный момент модель просто не будет меняться т.к. "научится всему" образно говоря и дальше уже не будет развиваться?
Или тут может быть ситуация, что модель будет становиться хуже если передержать?

Ещё вопрос, просто давно не заходил к вам, появилось ли что-нибудь новенькое и более продвинутое в области копирования голоса в попенсорсе? Вроде SVC\RVC, а то всё-таки с русской речью эта модель не очень справляется сколько её не мучай - фонемы другие.
Аноним 29/10/23 Вск 19:46:19 531929 299
>>531898
а нафига те вообще сохранять в папки? Там есть кнопка скачать. Жмешь и скачиваешь куда надо
Аноним 29/10/23 Вск 19:56:37 531935 300
>>531898
Сцдя по твоему скрину файл сохраняется не в этом куске кода, а в классе comunicate, в методе save.
В куске кода со скрина только проверяется наличие файла, чтобы ссылочку отобразить. А в методе clearSpeech файл удаляется.
Аноним 29/10/23 Вск 20:46:15 531964 301
Аноним 29/10/23 Вск 21:03:37 531977 302
image.png 19Кб, 616x259
616x259
>>531964
я те по секрету скажу, но выходной файл появляется в папке нейросети.... Вон от. оутпут мп3
Аноним 29/10/23 Вск 21:08:34 531981 303
image.png 54Кб, 729x455
729x455
аноны, объясните зачем нужно указывать файл .index? мне показалось что без него нет разницы, он обязательно нужен?

и какие настройки кроме тона от -12 до +12 можно покрутить? я просто нихуя не понимаю что делают остальные крутилки в rvc
Аноним 29/10/23 Вск 21:10:13 531986 304
>>531977
там только последний файл, а хочется все, которые в папке gradio появляются в рандомпапках
Аноним 29/10/23 Вск 21:17:01 531989 305
>>531986
а че там появляется? Покажи
Аноним 29/10/23 Вск 21:27:03 531998 306
image.png 32Кб, 295x462
295x462
>>531989
типа того, в каждой папке 1 файл output.mp3, а хочется чтобы вместо папок сами файлы были с этим рандомназванием
Аноним 29/10/23 Вск 21:34:23 532006 307
>>531998
дружище. это кэщ. Его переодически чистить надо если он сам не очищается.....
Аноним 29/10/23 Вск 21:41:04 532012 308
>>532006
вот я хочу чтобы этот кеш не выводился по 1 файлу в папке, а чтобы все сгенерированные мной файлы были в 1 папке, чтобы видеть их размер и продолжительность, кстати почему он сам не чистится, это же пиздец засрать диск можно
Аноним 29/10/23 Вск 21:43:51 532014 309
>>532012
>вот я хочу чтобы этот кеш не выводился по 1 файлу в папке,
иди к создателям градио. пусть кэш переделывают
Аноним 29/10/23 Вск 21:47:42 532016 310
>>531964
Похоже скрипт просто затирает файл оутпут. не влезая в подкапот можно просто на выходе каждый раз результат переименовывать. Без лишних импортов и нарушений скрипта, встроенными средствами питона это может выглядеть вот так.
Учти, я просто мимокрок и тот скрипт который ты используешь в глаза не видел, так что если что-то не заработает сам уже ковыряй.

Строка 38
if (os.path.exists(audio_file)):
....return audio_file

Замени на
if (os.path.exists(audio_file)):
....new_name, pe, i = audio_file, audio_file.rsplit(".",1), 2
....while os.path.exists(new_name):
........print('in loop')
........new_name, i = f"{pe[0]}_{i}.{pe[1]}", i+1
....if i != 2:
........os.rename(audio_file, new_name)
........audio_file = new_name
....return audio_file
Аноним 29/10/23 Вск 21:48:55 532019 311
>>532016
>........print('in loop')
Это можно удалить
Аноним 29/10/23 Вск 21:55:49 532025 312
>>532014
у rvc кстати с этим нормально, он сохраняет просто в папку temp с рандомназванием

>>532016
да оно похоже так и есть, но они охуели дополнительно срать в папку temp, зачем это делать если просто заменяют файл в папке с нейронкой, с твоим вариантом получается срать будет и в temp и в саму нейронку
Аноним 29/10/23 Вск 21:57:53 532027 313
>>532025
это ж каким нужно быть чтобы жаловаться на кэш? Эта папка удалится в худшем случае через неделю лол. А в лучшем случае после перезапуска пк..
Аноним 29/10/23 Вск 21:59:27 532028 314
>>532025
Ну а как ты хотел? Лезть в подкапот и искать где там насрано никто не будет. Удаляй временные файлы сам.
Аноним 29/10/23 Вск 22:11:12 532036 315
И вообще наверняка этого требует технический процесс и где-то в дебрях скрипта есть функция удаления кэша, которая отключена в релизе, потому что по какой-то причине комьюнити решило кэш оставлять. Такой софт не школьники пишут а студенты, которые прекрасно ЗНАЮТ что делаю. Не зная что ты делаешь и для чего ты ничего и не напишешь тащемта.
Аноним 30/10/23 Пнд 03:08:27 532137 316
>>511205 (OP)
На сивитае дохуя анимаций вижу. На чем их делают?
Аноним 30/10/23 Пнд 04:51:32 532190 317
>>527544
а как ты склонировал голос Лукашенко в ElevenLabs?
разве они не требуют подтверждения, что это реально твой голос?
Аноним 30/10/23 Пнд 09:52:06 532257 318
image.png 24Кб, 493x279
493x279
>>532190
>разве они не требуют подтверждения, что это реально твой голос?
Требуют, но подтверждение нужно тому, что ты не будешь использовать функцию клонирования голоса в злоумышленных целях.

Ну я и подтвердил. Больше ничего не нужно.
Аноним 30/10/23 Пнд 16:38:13 532396 319
321312312.mp4 6332Кб, 1280x720, 00:00:08
1280x720
Alan Wake 2 202[...].mp4 49242Кб, 1920x1080, 00:00:48
1920x1080
Аноним 30/10/23 Пнд 17:00:31 532411 320
e4839c65-0037-4[...].mp4 6028Кб, 1280x720, 00:00:08
1280x720
Аноним 30/10/23 Пнд 17:03:30 532415 321
image.png 69Кб, 898x454
898x454
>>511502
анон скачал rus-silero-webui, в папке с питоном создал виртуальную среду, закинул туда содержимое гитхаба, запустил пип инстал requirements, запускаю app_aud.py, открываю выданный айпи, ввожу текст, жму генерация а мне выводит эрор, а в сосноли пишет то что на пике, как лечить? на всякий скопировал папку силеро в виртуальную среду к другим файлам, закинул туда файл hubconf и отредактировал его как в примере, не помогло, нихуя не озвучивает
Аноним 30/10/23 Пнд 17:14:22 532422 322
image.png 1Кб, 88x96
88x96
Аноним 30/10/23 Пнд 17:45:12 532436 323
image.png 91Кб, 796x901
796x901
>>532415
там снизу написано как фиксить.
Аноним 30/10/23 Пнд 18:21:34 532460 324
>>532436
>скопировал папку силеро в виртуальную среду к другим файлам, закинул туда файл hubconf и отредактировал его как в примере, не помогло
Аноним 30/10/23 Пнд 18:29:20 532470 325
>>532460
а блин. Так. Попробуй еще раз запустить.
Аноним 30/10/23 Пнд 18:55:27 532486 326
Бля, натренируйте Сюткина гайз. Почему ББПЕ никто не сделал с ним?
Аноним 30/10/23 Пнд 20:04:49 532530 327
image.png 82Кб, 631x790
631x790
>>518696
Я так понимаю сейчас это сделать бесплатно невозможно? Только платно, а заплатить из РФ нельзя
Аноним 30/10/23 Пнд 20:20:52 532546 328
vc.mp4 4721Кб, 854x480, 00:00:08
854x480
Аноним 30/10/23 Пнд 20:29:14 532552 329
>>532470
я конечо это делал, не помогает, уже ffmpeg скорировал во все папки и папку selero, нихуя, никак не подцепляется
Аноним 30/10/23 Пнд 20:30:07 532553 330
>>532552
хмммм. щас разберемся
Аноним 30/10/23 Пнд 20:30:18 532554 331
Аноним 30/10/23 Пнд 20:31:36 532556 332
Аноним 30/10/23 Пнд 20:32:06 532557 333
>>532556
у тебя кодеки установлены?
Аноним 30/10/23 Пнд 20:32:43 532558 334
image.png 1Кб, 161x64
161x64
Аноним 30/10/23 Пнд 20:38:16 532560 335
Аноним 30/10/23 Пнд 20:59:20 532577 336
>>532560
скинь полный текст ошибки. Просто из консоли скопируй
Аноним 30/10/23 Пнд 21:33:56 532619 337
>>532577
Running on local URL: http://127.0.0.1:7860

To create a public link, set `share=True` in `launch()`.
[nltk_data] Downloading package punkt to C:\Python\silero...
[nltk_data] Package punkt is already up-to-date!
Using cache found in C:\Users\2ch/.cache\torch\hub\snakers4_silero-models_master
Traceback (most recent call last):
File "C:\Python\silero\lib\site-packages\gradio\queueing.py", line 407, in call_prediction
output = await route_utils.call_process_api(
File "C:\Python\silero\lib\site-packages\gradio\route_utils.py", line 226, in call_process_api
output = await app.get_blocks().process_api(
File "C:\Python\silero\lib\site-packages\gradio\blocks.py", line 1550, in process_api
result = await self.call_function(
File "C:\Python\silero\lib\site-packages\gradio\blocks.py", line 1185, in call_function
prediction = await anyio.to_thread.run_sync(
File "C:\Python\silero\lib\site-packages\anyio\to_thread.py", line 33, in run_sync
return await get_asynclib().run_sync_in_worker_thread(
File "C:\Python\silero\lib\site-packages\anyio\_backends\_asyncio.py", line 877, in run_sync_in_worker_thread
return await future
File "C:\Python\silero\lib\site-packages\anyio\_backends\_asyncio.py", line 807, in run
result = context.run(func, args)
File "C:\Python\silero\lib\site-packages\gradio\utils.py", line 661, in wrapper
response = f(
args, kwargs)
File "C:\Python\silero\app_aud.py", line 79, in generate
torchaudio.save(output_file, audio, params['sample_rate'])
File "C:\Python\silero\lib\site-packages\torchaudio\_backend\utils.py", line 287, in save
backend = dispatcher(uri, format, backend)
File "C:\Python\silero\lib\site-packages\torchaudio\_backend\utils.py", line 220, in dispatcher
raise RuntimeError(f"Couldn't find appropriate backend to handle uri {uri} and format {format}.")
RuntimeError: Couldn't find appropriate backend to handle uri output.wav and format None.
Аноним 30/10/23 Пнд 21:40:07 532629 338
>>532619
Это просто при запуске?
Аноним 30/10/23 Пнд 21:41:08 532630 339
>>532619
попробуй кэш очистить
Аноним 30/10/23 Пнд 22:11:39 532663 340
image.png 56Кб, 1540x654
1540x654
image.png 97Кб, 961x613
961x613
>>532629
нет при запуске только Running on local URL: http://127.0.0.1:7860, а когда пишу текст и нажимаю генерировать - снизу пишет эрор с 1 пика, а в консоли эту хуйню

кеш это папка темп? чистил, сейчас удалил папку .cache и запустил, появилось чтото новое но тоже не завелось, пик 2

C:\Python\silero\lib\site-packages\torch\hub.py:294: UserWarning: You are about to download and run code from an untrusted repository. In a future release, this won't be allowed. To add the repository to your trusted list, change the command to {calling_fn}(..., trust_repo=False) and a command prompt will appear asking for an explicit confirmation of trust, or load(..., trust_repo=True), which will assume that the prompt is to be answered with 'yes'. You can also use load(..., trust_repo='check') which will only prompt for confirmation if the repo is not already trusted. This will eventually be the default behaviour
warnings.warn(
Аноним 31/10/23 Втр 06:50:19 532855 341
>>532663
а нук попробуй закинуть любой файл .wav с названием output в папку с проектом
Аноним 31/10/23 Втр 08:35:17 532874 342
VC2.mp4 4988Кб, 854x480, 00:00:08
854x480
Vice city. Довольно неплохо
Аноним 31/10/23 Втр 08:58:57 532882 343
3.mp4.mp4 3920Кб, 1280x720, 00:00:08
1280x720
Аноним 31/10/23 Втр 08:59:23 532883 344
Alan Wake 2 202[...].mp4 28198Кб, 1920x1080, 00:00:38
1920x1080
Аноним 31/10/23 Втр 09:19:19 532892 345
Аноним 31/10/23 Втр 09:22:19 532894 346
>>532892
тогда хз. гугли по ошибке
Аноним 31/10/23 Втр 09:41:43 532898 347
>>532894
а я правильно установил? мой порядок действий - из папки питона запустил cmd, создал окружение python - m venv silero, скачал https://github.com/hinaichigo-fox/rus-silero-webui/archive/refs/heads/main.zip и распоковал в папку silero, перейдя к ней через cd silero сделал активацию среды scripts\activate и запустил pip install -r requirements.txt, потом скачал https://github.com/BtbN/FFmpeg-Builds/releases/download/latest/ffmpeg-master-latest-win64-gpl-shared.zip распоковал в папку ffmpeg 3 файла из папки bin и указал путь в ней в path, потом в консоли прописал python app_aud.py, и вот тут начинает проблема, пишу русский текст и жму сгенерировать и вылетает error а в консоли это дерьмо
Аноним 31/10/23 Втр 11:05:54 532932 348
>>532898
ааааа. Ты не так сделал все.
Аноним 31/10/23 Втр 11:08:37 532934 349
image.png 20Кб, 1303x152
1303x152
image.png 23Кб, 444x629
444x629
анон, вот такую хуйню выдало при установке pip install fairseq нужной для работы проекта, какую из хуйнь качать отсюда? https://visualstudio.microsoft.com/ru/vs/older-downloads/

я скачал Microsoft Build Tools 2015 в самом конце, при запуске меня просит выбрать что установить со 2 пика, что выбирать? пиздец, какого хуя вообще для установки модуля для работы нейронки нужно устанавливать хуйню занимающую 3гб места с отключенными всеми компонентами, пиздец
Аноним 31/10/23 Втр 11:29:22 532941 350
>>532898
Короче. Сначала скачиваешь проект. Распаковываешь его, потом переходишь в папку эту и создаешь окружение. Активируешь и запускаешь пип инсталл. Так должно сработать
Аноним 31/10/23 Втр 11:29:33 532942 351
image.png 9Кб, 302x206
302x206
блять, это говно без VPN даже не качается, заебись
Аноним 31/10/23 Втр 11:30:46 532943 352
>>532942
пипец. Качал в августе норм все было
Аноним 31/10/23 Втр 11:33:37 532944 353
>>532941
не понимаю разницы, edge-tts работал и по моему способу установки, а в самом проекте как назвать папку виртуальной среды в таком случае? venv? я думал виртуальная среда и должна содержать файлы проекта, а не проект содержать папку с виртуальной средой
Аноним 31/10/23 Втр 11:42:57 532949 354
>>532944
виртуальная среда это папка венв и проект. Они должны находится в одной общей папке
Аноним 31/10/23 Втр 11:43:53 532950 355
>>532941
как я и думал это не помогло анон, ладно хуй с ним, а что есть кроме edge и silero? edge слишком деревянный, silero сам понимаешь
Аноним 31/10/23 Втр 11:44:53 532953 356
>>532950
Обидно что не помогло. Ну смотри. Едж ттс после обработки в rvc нормальный. А так ттс больше не знаю
Аноним 31/10/23 Втр 11:50:38 532956 357
>>532953
ладно спасибо анон, может кто-то подскажет что-то подобное
Аноним 31/10/23 Втр 11:53:15 532957 358
>>532956
в гитхабе набери tts
Аноним 31/10/23 Втр 14:21:37 533020 359
>>532934
Ну кидайте свои озвучки! Я что на тред подписался чтобы на ваши черные скриншоты смотреть?
Аноним 02/11/23 Чтв 17:16:16 534251 360
Аноним 02/11/23 Чтв 17:46:10 534261 361
>>534251
можно ли как нить их перенести на свой хг?
Аноним 02/11/23 Чтв 17:50:31 534264 362
Аноним 02/11/23 Чтв 18:33:28 534275 363
Аноним 02/11/23 Чтв 19:14:50 534305 364
>>534251
>Буду вынужден выпилить эти репы через сутки по определённым обстоятельствам
За модель гитлера посадить хотят?
Аноним 02/11/23 Чтв 19:31:34 534318 365
Аноним 02/11/23 Чтв 19:47:52 534330 366
Аноним 02/11/23 Чтв 20:18:07 534351 367
>>534251
потом вернешь же?
Аноним 02/11/23 Чтв 22:01:09 534473 368
.mp4 8883Кб, 768x512, 00:03:53
768x512
>>534305
Нет, дело в копирайте. По сути, от меня требуют следующее:
1. У всех публичных моделей должны быть проставлены ссылки на их оригинальный хг-репозиторий (так что можно будет проследить авторство)
2. В репе не должно быть приватных моделей, которые продают на бусти и т.п.

Сама репа, по факту, должна быть пустым каталогом русскоязычных моделей. В rvc-репе суммарно 200+ моделей, так что провести такое займёт много времени.

Предъяву мне выкатили русскоязычные мочухи AI Hub'а (он недавно снова ожил), которые сами пытаются заработать на продаже своих моделей. Немного подумав, я решил, что мне нет смысла цепляться за эту репу, поскольку эти модели, в настоящий момент, и так доступны публично, просто чуть менее удобно.

https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki
Кроме того, они пилят русскоязычный справочник по голосовым моделям, поэтому у меня нет желания идти на конфликт, т.к. на русском языке инфы очень мало и я ценю их вклад, хотя сама концепция "платных" моделей для меня какой-то сюр. Иди попробуй чекпоинты с лорами для SD/ламы продавать - тебя только на смех поднимут. Сам факт наличия огромной бесплатной базы моделей и лор для того же SD - это один из основных факторов, почему SD 1.5 ещё может потягаться с DALLE 3, несмотря на своё техническое отставание. Если бы в SD-комьюнити сложилась подобная традиция создания платных чекпоинтов/лор (просто представьте, что у вас нет ничего, кроме базовых SD1.5/2/XL и NAI), то он был бы никому не интересен и все пошли бы сдаваться в рабство облачных решений в виде Midjourney/DALLE.

Кроме того, на площадках рода YouTube/Pixiv/DeviantArt сложилась традиция дискриминации AI-generated контента - на нём либо прямо запрещено зарабатывать (YouTube), либо его показ режется алгоритмами (DA/Pixiv). Понятное дело, что, в подобной ситуации, есть и вина самого AI-комьюнити, а именно тех, кто бездумно дампал условный DeviantArt тысячами однотипных картинок. Я клоню к тому, что AI-модели, в настоящий момент, не являются средствами заработка, и, поэтому, надо искать очень странных людей, которые будут выкладывать свои кровные, просто что бы делать переозвучку мемчиков/песенок, на которых нельзя заработать. Особенно если мы говорим про страны пост-СНГ, где за десятилетия отсутствия доступного простым людям платного контента сложилась традиция пиратства, что снова обострилось после начала сами знаете каких событий.

Нет, я, конечно, могу устроить клоунаду в репе на хг, когда прилетит жалоба, заставляя их как-то пруфать авторство моделей. Можно поступить в стиле Хачатура - поменять веса моделей на уровне погрешности и выложить под видом своих моделей. Как ультимативное решение, я мог бы просто арендовать сидбокс и выложить магнет-ссылку на торрент.

Но есть причины, по которым я не хочу так поступать:
Во-первых, модели всё ещё будут доступны публично через тг, так что смысла устраивать драку за зеркало не вижу.
Во-вторых, русскоязычное комьюнити по звуковым моделям и так довольно слабое, не хочу в открытую противостоять тем, кто что-то пытается сделать.
В третьих, то, что попало в интернет, остаётся там навсегда. Попытки нападок на держателей зеркал приведут лишь к тому, что зеркал станет ещё больше. Эффект Стрейзанд никто не отменял.
Аноним 02/11/23 Чтв 22:10:06 534481 369
>>534473
Насчёт срача - возможно стоило бы немного повонять, может быть это привлекло немного внимания к ру комьюнити с последующим вкатом мимокроков. Как я замети, даже после мизерного инфоповода залетают по паре человек в этот мёртвый тред на мёртвой доске.
Но как знаешь. В последнее время и так говна расплодилось что-бы ещё самому набрасывать...
Аноним 02/11/23 Чтв 22:39:54 534504 370
>>534473
Не, твоё право конечно, но пидоров с идеями брать за что-то там деньги нужно давить как гнойные прыщи.
Аноним 02/11/23 Чтв 22:41:48 534506 371
>>534275
Пиздец пориджи пошли, без гуя в браузере уже репу залить не могут.
>>534473
>Можно поступить в стиле Хачатура - поменять веса моделей на уровне погрешности и выложить под видом своих моделей.
Лол, такой рофл я пропустил. Есть ссылки с инфой?
Аноним 02/11/23 Чтв 22:52:24 534513 372
>>534506
> Пиздец пориджи пошли, без гуя в браузере уже репу залить не могут.
Покажи мне как форкнуть репу с LFS при помощи git не скачивая несколько стотен гигабайт моделей.
Аноним 02/11/23 Чтв 23:18:13 534523 373
изображение.png 48Кб, 1514x481
1514x481
>>534513
>не скачивая несколько стотен гигабайт моделей.
А может обойдёмся без камазов под водой? Берёшь и качаешь. Иначе зачем оптику в квартиру проводить?
Да и там всего лишь гиг 50 в сумме.
Аноним 03/11/23 Птн 06:39:21 534593 374
Аноним 04/11/23 Суб 13:43:51 535570 375
Кто свои модели делал, подскажите сколько по времени занимает и сколько эпох надо?
У меня дохуя материала для обучения, пробовал по разному:
1. Разбил 8 чаасовую запись на 8 штук по часу - понял что хуйня
2. Взял часовую, её наслайсил на 3000 кусков, понял что тоже хуйня
3. В итоге сейчас взял 20 минут, насэмплил через саму сетку и сижу жду обучения.
Но тоже думаю будет полная хуйня и занимает это 5+ часов.
Аноним 04/11/23 Суб 13:46:00 535574 376
>>535570
8 часов записи чистого голоса?????
Да это ж офигенная модель будет. Берешь и режешь на записи по 10 сек(в тырнетах полно прог для этого на питоне) Потом это все закидываешь в рвс. Ну тут в зависимости от карточки. Если карточка норм то быстро часа 3-4 будет. Эпох ставь 200-250.
Аноним 04/11/23 Суб 13:49:51 535575 377
>>535574
да я бы не против, но у меня 1660Ti и как я уже говорил даже 400 сэмплов по 10 секунд у меня одна эпоха занимает 4-6 минут, получается в час штук 10. Чтобы сделать 200-250 эпох - придётся сутки обучать.
На время так то похуй, но во время обучения ПК становится почти кирпичом, игори на фоне не поиграть, ютубы и твичи в фулхд тоже начинают через пол часа- час тормозить
Меня инетерсут это адекватное время для обучения или нет?
Аноним 04/11/23 Суб 13:54:38 535578 378
Аноним 04/11/23 Суб 15:27:06 535613 379
>>535578
ебанул 2 часа речи (1300 сэмплов) на 500 эпох, посмотрим как быстро закончит и что на выходе будет
Аноним 04/11/23 Суб 16:26:00 535649 380
>>535578
сам давно пробовал по этому гайду?
у меня за 20 минут 500 эпох пролетает, но в папке аутпут ничего нет, в комментах на ютубе так же пишут, похоже на сегодняшний день не работает
Аноним 04/11/23 Суб 19:15:47 535728 381
.png 370Кб, 1400x1028
1400x1028
>>535570
https://docs.aihub.wtf/guide-to-create-a-model/tensorboard-rvc
У AI Hub'а есть статьи по обучению, в них советуют по тензорборду оверфит отслеживать. График лосса должен дойти до минимума и дальше будет болтаться на месте. В этот момент и начинается оверфит, если им верить.
Аноним 04/11/23 Суб 19:21:45 535734 382
>>535728
у меня тенсор по вертикальной оси не показывал значения, только количество шагов на горизонтальной
вроде видел как зафиксить, но не накатыва
Аноним 04/11/23 Суб 19:42:20 535750 383
>>535649
пробовал. И 3 модели сделал. Все на высоком уровне
Аноним 04/11/23 Суб 19:43:20 535751 384
>>535575
я те скажу. 1 минута на эпоху это уже пипец
Аноним 04/11/23 Суб 20:16:02 535777 385
>>535751
Может я че то не так делаю просто?
У меня есть голос на 8 часов. Я его вручную порезал на 8 кусков по одному часу. Сохранил в wav. Через svc (когда он у меня был) я его насемплил на дохуя мелких кусков, порядка 5 тысяч. Каждый кусок 3-10 секунд и там чистый голос. Всё это в формате wav. Как бы с этим и работаю.
Последний раз оставил 1000 сэмплов и этот архив на https://www.kaggle.com/varaslaw/rvc-tg-aisingers-by-rus-no-gradio загнал.
Только я потом заметил что у этого чела из гайда выбирается акселиратор - для этого надо телефон подтвердить.
В остальном у меня всё так же как у него.
Ну и когда 500 эпох проходят - в разделе аутпут у меня только одна папка, в ней пара других но кроме 2 файлов 0Кб ничего в них нет.
Аноним 04/11/23 Суб 20:41:44 535794 386
>>535777
а в чем проблема телефон подтвердить? Я не парился и подтвердил своим. Все работает
Аноним 04/11/23 Суб 20:42:24 535796 387
>>535777
500 эпох для 8 часов это дофига. ставь 200-250
Аноним 04/11/23 Суб 20:43:26 535799 388
>>535794
только что подтвердил через сервис на тайландский номер, рашку нельзя. да я заметил что у него есть выбор ГПУ, а у меня нет. но в этом гайде он про это не говорит, случайно наткнулся на ютубе на другой его видос, где он показывает как регаться на каггле и там как раз было про верификацию телефона. сейчас еще раз запустил трейн
Аноним 04/11/23 Суб 20:43:56 535801 389
>>535799
рашку нельзя? Я своим подтвердил лол.
Аноним 04/11/23 Суб 20:46:56 535803 390
image.png 2Кб, 260x85
260x85
image.png 125Кб, 1301x572
1301x572
>>535796
1300 сэмплов почти на час закинул на 500 эпох
какой же уродский лог, как будто ничего не работает
Аноним 04/11/23 Суб 20:47:57 535804 391
image.png 7Кб, 520x193
520x193
>>535801
может у каких то операторов пропускает. я заплатил за это 3 рубля 90 копеек
Аноним 04/11/23 Суб 20:48:30 535806 392
>>535803
оно не завершило работу лол
Аноним 04/11/23 Суб 20:49:00 535807 393
>>535803
когда вместо ранинг будет написано сексесфулл тогда и смотри файлы
Аноним 04/11/23 Суб 20:50:14 535809 394
image.png 90Кб, 777x637
777x637
>>535806
да я понял, но уже 300 секунд лог не двигается
Аноним 04/11/23 Суб 20:50:54 535810 395
image.png 18Кб, 316x280
316x280
а во, просралось кажись
Аноним 04/11/23 Суб 20:51:41 535812 396
>>535809
гайд смотреть внимательней надо. Логи и не будут двигаться. там все по тихому. Эпохи не отображаются. Завтра приходи на сайт и там будет уже все завершено
Аноним 04/11/23 Суб 20:55:39 535816 397
image.png 23Кб, 1361x216
1361x216
image.png 28Кб, 267x666
267x666
лол, внатуре из-за отустствия гпу не обучалось
Аноним 04/11/23 Суб 20:56:57 535817 398
>>535816
вытаскивай по гайду.
Аноним 04/11/23 Суб 21:05:14 535821 399
image.png 25Кб, 309x562
309x562
но нету индекс файла, который начинается с "added", а сами модели в weights есть. он кажись не не нужен, rvc без него модель скушала и даже высрала что-то. короче работает, разобрался. пойду все 8 часов заебашу, лол
Аноним 04/11/23 Суб 21:15:33 535826 400
>>535821
так. Там смотри. В файлы переходишь(в меню сверху) и там жмешь лоад мор. Будет папка нужная
Аноним 04/11/23 Суб 21:28:23 535831 401
image.png 185Кб, 1293x548
1293x548
>>535826
не, по папкам всё ок но вот этого файла как в гайде я не нашёл. сразу взял модели из weights - локально прогнал, вроде работают. я хз зачем этот файл .index нужен
Аноним 04/11/23 Суб 21:37:04 535835 402
>>535831
лучше скачай и закинь куда надо.
Аноним 04/11/23 Суб 21:39:35 535836 403
>>535831
файл нужен чтоб настраивать акцент
Аноним 04/11/23 Суб 22:16:58 535863 404
>>535835
да я бы рад, но его нету.

Короче запустил на 2000 эпочей с шагом сохранения 200 сэмплов на 2 часа (вышло 3000 штук).
Так вопрос, а если хуевая модель получится - че делать? Поиграть длиной семплов или что можно сделать?
Аноним 05/11/23 Вск 07:50:19 536116 405
>>535863
какие 2000 эпох????? Тут не работает чем больше тем лучше. Чем больше тем лучше это про количество аудио. Грузи 5 часов и ставь 200 эпох. лучше всего будет
Аноним 05/11/23 Вск 16:57:51 536363 406
Я так понял просто скачал/онлайн ввел текст и получил норм записи сейчас нет? По крайней мере бесплатно нет?
Аноним 05/11/23 Вск 19:00:08 536407 407
Аноним 05/11/23 Вск 20:53:26 536461 408
image.png 203Кб, 1599x911
1599x911
чет нихуя не понимаю, скачал для проверки какую то анимешную модель, прогнал через неё тестовый сэмпл, нихуя не поменялось.
ЧЯДНТ?
Аноним 05/11/23 Вск 20:57:48 536467 409
>>536461
питч поставь на 12
Аноним 05/11/23 Вск 20:59:25 536469 410
>>536467
да, просто перезапустил - вроде сработало
Аноним 06/11/23 Пнд 02:21:16 536740 411
Для инфы:
В RVC v2 NO GRADIO сэмплы общей длительностью 2 часа выполнились на 125 эпох, дальше отключилось, т.к. лимит по времени 12 часов (43200 секунд).
Если там линейная зависимость, получается максимум можно 50-60 минут пронать на 200-250 эпох
Аноним 06/11/23 Пнд 03:21:49 536758 412
>>536740
UPD оказалось это не так, похоже овердохуя файлов в любом случае отваливаются по лимтиу. Закинул 1000 сэмплов на 650 эпох - обработалось за 15 минут.
Аноним 06/11/23 Пнд 04:33:19 536789 413
>>536740
>>536758
upd2 оказалось всё хуйня - просто ебучий каггле завис у меня на 12 часов.
Если он через 20 минут не выдаёт 200 эпох - надо перезапускать проект
Аноним 06/11/23 Пнд 15:48:40 537041 414
Чет бухтите что-то, а песенки забавные перестали выкладывать, а прошлых тредах так классно было, что случилось?
Аноним 06/11/23 Пнд 16:06:03 537058 415
Neco arc - анса[...].mp4 8725Кб, 700x700, 00:03:03
700x700
Аноним 06/11/23 Пнд 16:20:26 537067 416
Neco arc - ромп[...].mp4 25135Кб, 1078x1080, 00:03:20
1078x1080
Аноним 06/11/23 Пнд 22:33:17 537495 417
скиньте отделенные воис и инструментал какой нибудь, на котором нормально получаются каверы.
сделал свою модель, но какой-то всратый звук получается, как у робота.
хочу на нормальных записях проверить.
Аноним 07/11/23 Втр 02:38:19 537721 418
VOBLYA1.mp4 16154Кб, 4000x2000, 00:00:08
4000x2000
Аноним 07/11/23 Втр 04:06:18 537759 419
video2023-06-25[...].mp4 726Кб, 720x720, 00:00:40
720x720
Всем привте, тоько залетел, один вопрос - может доставить кто модель Бориса Репертура? Кто-тож уж точно должен был сделать, с меня как обычно
Аноним 07/11/23 Втр 04:20:29 537763 420
изображение.png 5Кб, 662x105
662x105
>>537759
а все ненад, почитал шапку и нашол
Хотел уже я написать, пока нашел чето в шапке, а там блять, мудак какой-то шутканул, вот и че это?
Короче вопрос актуален.
Аноним 07/11/23 Втр 04:22:36 537764 421
Аноним 07/11/23 Втр 04:22:40 537765 422
изображение.png 25Кб, 882x240
882x240
>>537763
впервые вижу ваще такую шнягу, погуглил метод, понял что это сдеано было при помощи py7zr, нет, это не дает возможности им открыть архива, но если типа захотите такую же хуйню забабахать то вы пидор
Аноним 07/11/23 Втр 05:13:35 537768 423
>>537764
Короче я понял примерно че там не работает, осталось понять как фиксить.
У меня G_.pth файлы с конфигом в жсоне нормально работают, а .pth (без конфига, как этот например) дают мегадлинную ошибку где последние строчки такие:

"C:\Users\user_name\AppData\Local\Programs\Python\Python310\lib\concurrent\futures\_base.py",
line 403, in __get_result
raise self._exception
PermissionError: [Errno 13] Permission denied: '.'

Как фиксить?
Аноним 07/11/23 Втр 05:28:35 537770 424
>>537768
баляя, полуркал, это оказуется для другой проги, то есть для so-vits-svc-fork не работает большая часть из шапки в том числе та, с Репертуром :с , ну, попробую чето еще, но походу придется свою делать блин...
Аноним 07/11/23 Втр 06:09:54 537787 425
>>537770
Баляяя, в телеге тоже один файл и он, удивительно, не работает.
Короче нашел на данный момент 2 модели и все, сука. одним pth файлом.
1. >>537764
2. С бота с телеги
траль-пидарас-уебок-мать-его-ебал не считается

Выручайте, котаны
Аноним 07/11/23 Втр 07:05:48 537793 426
>>537770
Ты бы сразу уточнил, что на SVC модель ищешь. Для неё модели несовместимы с моделями для RVC.

Вообще советую сразу RVC поставить, SVC со второй половины лета уже мало кто использует и моделей для RVC на порядок больше.
Аноним 07/11/23 Втр 07:47:05 537800 427
>>537768
А нахуя кстати нужны D_ и G_ файлы?
Аноним 07/11/23 Втр 08:20:20 537809 428
>>537800
G_*.pth это типа формат для одной проги конкретной другой формат короче я сам хуй знает D_ тоже хуй знает че реально

>>537793
Бля ок сяп учту
Аноним 07/11/23 Втр 14:30:32 538032 429
Да как нормально натренить модель. Я уже заебался, у меня безлимитное количество записей для тренировки, но что бы я не делал - выходит хуйня.
И 10 минут закидывал без сэмплов и с сэмплами
И 2 часа без сэмплов и с сэмплами
И в wav и в мп3
И 1000 и 200 эпох
Всегда одинаково выходит - хуйня 3/10 качество.
Может датасет сперва как то обработать?
Аноним 07/11/23 Втр 15:23:59 538089 430
>>538032
Качество датасета важнее длительности. Сами разрабы RVC говорят, что хватит датасета длительностью менее 10 минут голоса в разных диапазонах.

Если используешь UVR, то выбери нормальные модели, а не те, что идут в комплекте. Самая пиздатая это похоже MDX23C-InstVoc HQ, но она очень медленно работает и сильно грузит GPU. После неё мне больше всего нравится htdemucs_ft, но она более агрессивно режет эхо, судя по моим небольшим тестам. Хотя может это и плюс.

Если на датасете есть монотонные шумы, можешь их выпилить через Audacity: https://blog.selfpub.ru/not-noise-with-audacity
Аноним 07/11/23 Втр 17:24:49 538182 431
Здравствуйте аноны. С помощью какой локально нейронки можно сделать звуковую дорожку для видео без звука? Я слышал такое существует, но не понятно локально ли это
Аноним 07/11/23 Втр 20:38:45 538391 432
>>538089
Ну я так понимаю порядок такой:
1. Через UVR выдернуть и почистить голос
2. Через RVС засэмплить его, тут же тишина удалится
3. Обучать на сэмплах.

Формат файла как-то влияет? И можно ли в каггле дообучать имеющуся модель?
Аноним 08/11/23 Срд 06:41:45 538658 433
rosen.mp4 14510Кб, 640x480, 00:02:48
640x480
agatha.mp4 4301Кб, 600x480, 00:00:58
600x480
>>537041
> песенки забавные
)0
Аноним 08/11/23 Срд 06:43:27 538659 434
lippen.mp4 4937Кб, 640x360, 00:00:58
640x360
schneesturm.mp4 8084Кб, 640x480, 00:00:58
640x480
verstehe.mp4 4962Кб, 640x360, 00:00:58
640x360
Аноним 08/11/23 Срд 06:44:39 538661 435
bitten.mp4 5233Кб, 640x360, 00:00:58
640x360
fomalhaut.mp4 3743Кб, 526x360, 00:00:58
526x360
surreal.mp4 4340Кб, 526x360, 00:00:58
526x360
Аноним 08/11/23 Срд 06:47:12 538662 436
maxim.mp4 7359Кб, 640x480, 00:00:58
640x480
mein traum.mp4 8048Кб, 628x480, 00:00:58
628x480
wind.mp4 2985Кб, 476x360, 00:00:58
476x360
Аноним 08/11/23 Срд 06:48:59 538664 437
blatt.mp4 5242Кб, 640x360, 00:00:58
640x360
wolken.mp4 1978Кб, 352x240, 00:00:58
352x240
baby.mp4 5096Кб, 640x360, 00:00:58
640x360
Аноним 08/11/23 Срд 12:44:15 538802 438
Назрел вопрос, вот у меня есть модель натрененная на японском голосе, можно ли как-нибудь научить ее говорить по русски без дичайшего акцента?
Аноним 08/11/23 Срд 17:54:09 539118 439
SoftVC VITS Singing Voice Conversion Fork (SVC) модели этой хуиты можно заставить читать какой нибудь текст или они только для замены голоса?
Аноним 08/11/23 Срд 18:02:54 539131 440
Аноны, а шо за хуйня с этим llElevenLabs? Переводил короткие ролики с инглиша на русский, первые 3 заебись перевелись, все последующие просто нихера не происходит, только звук заглушается. Это мне так сообщают о том, что у меня попытки закончились чи шо
Аноним 08/11/23 Срд 18:53:55 539160 441
photo2023-03-31[...].jpg 70Кб, 750x897
750x897
Анон, можешь посоветовать сетку, где я смогу озвучить свой текст торжественнымголосом на русском и эхом? Будто речь в огромном зале перед сотнями тысяч людей.

И ещё вопрос первая предложенная в шапке русская сетка - она как вам? Можно рассказики озвучивать? Там можно выбирать только голоса?

А если мне хочется особого голоса или атмосферы, придётся в секвенсорах играться?
Аноним 08/11/23 Срд 18:54:33 539161 442
>>539131
Лан, вопрос неактуальный, понял, что прост работает через жопу зачастую
Аноним 08/11/23 Срд 19:02:45 539165 443
>>538802
что такое голосовая модель? Это просто голос. На любом языке говорит. Ей пофиг
Аноним 09/11/23 Чтв 02:55:37 539547 444
Есть способ делать батч для еджи ТТС? В интерфейсе только вставление куска текста.
Аноним 09/11/23 Чтв 04:06:28 539561 445
base.mp4 3039Кб, 488x360, 00:00:58
488x360
shit carrier.mp4 4010Кб, 640x356, 00:00:58
640x356
овощевоз vs. говновоз
Аноним 09/11/23 Чтв 07:39:12 539620 446
Аноним 09/11/23 Чтв 12:52:04 539768 447
Аноны я вот видел войс ченеджер на голоса известных стримеров, известных людей, название не могу найти, но он работал в реалтайме с микрофона, а есть ли какой-то софт для изменения голоса с файла? помогите пож
Аноним 09/11/23 Чтв 15:24:55 539904 448
>>539118
> SoftVC VITS Singing Voice Conversion Fork (SVC) модели этой хуиты можно заставить читать какой нибудь текст или они только для замены голоса?
Нет, придётся сначала генерить через TTS и потом прогонять через SVC или RVC. Были какие-то проекты, которые автоматизируют процесс TTS -> STS, но я их не смотрел, не могу чего-то конкретного посоветовать.

>>539160
> Анон, можешь посоветовать сетку, где я смогу озвучить свой текст торжественнымголосом на русском и эхом? Будто речь в огромном зале перед сотнями тысяч людей.
Про торжественность хз, русскоязычные опенсорсные TTS довольно монотонны, а при конвертации в RVC стилистику не поменяешь. Хотя тот же EdgeTTS, на мой взгляд, звучит гораздо более пафосно, по сравнению с Silero. Если в EdgeTTS никакие голоса не не заходят, то не знаю, что предложить можно. Эхо можно через Audacity добавить с плагином
FabFilter https://rutracker.org/forum/viewtopic.php?t=6198392

>>539768
RVC твой выбор. Там есть как realtime замена голоса, так и замена голоса в файле (или сразу в множестве файлов).
Аноним 09/11/23 Чтв 15:54:33 539949 449
>>538802
Насчет дичайшего не знаю, но акцент всё равно будет, звуки различаются. То же самое "р", "ш" и т.д.
Аноним 09/11/23 Чтв 22:04:35 540289 450
бамп
Аноним 10/11/23 Птн 13:26:19 540634 451
Kurwa Bobr bydl[...].mp4 3045Кб, 360x556, 00:00:30
360x556
Аноним 11/11/23 Суб 01:47:41 541145 452
Аноним 11/11/23 Суб 15:29:17 541442 453
169361388315252[...].jpg 313Кб, 640x553
640x553
image.png 867Кб, 550x748
550x748
Хочу сделать оффлайн windows приложуху с качественным (относительно майкрософтной говорилки) tts синтеза для курсача.

Какие есть открытые для скачивания ai-модели? Может не такие крутые как в шапке, но хотя бы быстрые
Аноним 12/11/23 Вск 10:43:34 542096 454
Стикер 0Кб, 512x512
512x512
Помогите найти голосовую модель для so-vits-svc Путина
Аноним 13/11/23 Пнд 08:21:03 542812 455
>>538182
Звуковую дорожку для видео без звука, чиво? Картинки в (слушабельный) звук еще пока вроде даже без нейронок не научились превращать, мне кажется ты хочешь сделать озвучку сам записать и потом прогнать под желаемый голос.
Аноним 13/11/23 Пнд 10:27:55 542853 456
>>542096
RVC лучше и на каждом углу
Аноним 14/11/23 Втр 02:57:23 543620 457
Куда вы все эти модели устанавливаете?
Софт есть какой то или только сайты?
Аноним 14/11/23 Втр 03:37:19 543643 458
>>543620
RVC для нейрокаверов и преобразования голоса локально ставится, глянь ссылки в шапке.

TTS из шапки и отсюда >>511502 тоже локально ставится при желании.
Аноним 14/11/23 Втр 04:11:58 543655 459
>>511205 (OP)
Умерла девушка, сколько нужно записей что бы синтезировать голос?
Аноним 14/11/23 Втр 04:32:09 543659 460
>>543655
Помогите, не хочу сам искать
Аноним 14/11/23 Втр 04:36:00 543661 461
>>543655
От пяти минут до одного часа для обучения RVC модели. Опытные челы писали, что лучшим датасетом будет датасет небольшой длины (~10 минут), но что бы голос в нём был представлен в разных диапазонах.
Аноним 14/11/23 Втр 09:47:05 543724 462
>>543655
Делал из 15мин голосовых в тг, 300 эпох, после тюнинга получилось 1 в 1, звонил мамке ее, говорил ее голосом, она ничего не поняла.
Аноним 14/11/23 Втр 11:22:01 543777 463
169994946189560[...].mp4 10610Кб, 1280x720, 00:00:08
1280x720
Аноним 14/11/23 Втр 17:07:25 543982 464
Под Windows 7 есть какой то софт?
Аноним 14/11/23 Втр 20:35:54 544155 465
изображение.png 27Кб, 1175x321
1175x321
Аноним 14/11/23 Втр 21:16:54 544186 466
>>544155
зачем мне твой сгенерированный шлак с отслеживанием мышки и отправкой скриншотов рабочего стола?

есть нормальный STS преобразователь чтобы песенки со спанчбобом делать, который будет работать на windows 7?
Аноним 14/11/23 Втр 21:58:23 544234 467
>>544186
Нету. Только шлак, ссылка выше.
Аноним 14/11/23 Втр 22:51:17 544292 468
>>544234
Правда? хуево вам там наверное с платными сайтиками и 2умя высерами с гитхаба написанными в глубинах тайваньских катакомб
Аноним 15/11/23 Срд 00:06:32 544350 469
>>544292
Кому вам? На сперме осталось 1,5 аксакала, все нормальные люди на дристянке.
Аноним 15/11/23 Срд 11:03:10 544542 470
>>544350
> все нормальные люди на
Линуксе.
Аноним 15/11/23 Срд 11:38:38 544552 471
La Foule.mp4 12521Кб, 512x768, 00:02:57
512x768
Минздрав.mp4 15991Кб, 512x768, 00:03:22
512x768
Песенка крокоди[...].mp4 11799Кб, 512x768, 00:02:28
512x768
есть понт обновлять rvc?
Аноним 15/11/23 Срд 12:19:40 544573 472
>>544350
>>544542
Нормальные на десятке, красноглазые на линуксе, бородатые старцы на семёрке, соевые криэйторы на макоси, зумеры на андроиде/иос - зачем этим эти ваши громоздкие ящики на столе?
Аноним 15/11/23 Срд 16:22:11 544725 473
>>544350
Нормальные — это ретрограды-реакционеры?
Аноним 15/11/23 Срд 22:51:38 545127 474
1658473481829.mp4 6887Кб, 1536x1024, 00:03:02
1536x1024
Дочитать до третьего куплета было нелегко
Аноним 15/11/23 Срд 23:50:59 545161 475
170008106674567[...].mp4 332Кб, 670x480, 00:00:08
670x480
Аноним 15/11/23 Срд 23:51:37 545162 476
170008095324587[...].mp4 7975Кб, 852x466, 00:00:06
852x466
Аноним 16/11/23 Чтв 00:00:10 545169 477
>>544573
> Нормальные на десятке
Быть кретином это не нормально, чел.

Нормальная ось это линукс, остальное от лукавого.
На мобилка андроид офкос.
Аноним 16/11/23 Чтв 00:46:27 545191 478
>>545169
Нормальная ось - Линукс.
Нормальный софт - опенсорс.

Всё остальное - от глюкавого.
Аноним 17/11/23 Птн 14:10:34 546422 479
Аноним 17/11/23 Птн 20:45:25 546673 480
Аноним 17/11/23 Птн 22:59:56 546781 481
>>545162
блять я подумал тесак допрашивает Дмитрия Комарова
Аноним 17/11/23 Птн 23:20:38 546788 482
бля rvc (релиз из шапки прям) не хочет хавать мп3 56кбпс на 49 минут пмргите
Аноним 18/11/23 Суб 00:21:53 546848 483
>>546673
>модель?
элевенпролапс даббинг с английского
Аноним 18/11/23 Суб 00:56:11 546870 484
Я заебался обучать модель в RVC, уже 3 недели ебусь с ней. Делал и локально и на Каггле. И дата сет брал 4 минуты и 15 и 30 и несколько часов. Сам дата сет чистил от тишин, убирал ревёрб, хотя его там нихуя нет. Пробовал и 30 эпох и 500 ( в приницпе на 40-50 уже максимальное качество получается, дальше перетрен идёт). Пробовал и продолжать тренировку. Пробовал даже выдёргивать голос через UVR, хотя в дата сете чистый голос без музыки и посторонних шумов.
Одна хуйня выходит модель, которая хуево похожа на соус. Думаю надо предварительно датасет как то отредактировать что ли хз.
Может есть кто шарит в подготовке дата сета или уже полученном на выходе файле? Искал советы по этой теме - нигде ничего нет, челы тупо берут 5 минут записи и у них нормально получается.
Аноним 18/11/23 Суб 01:15:21 546880 485
>>546422
Бля, чел, там же в названии видео и описании указано.
Аноним # OP 18/11/23 Суб 03:28:04 546930 486
1557334948010.png 198Кб, 1636x1185
1636x1185
https://2ch-ai.gitgud.site/wiki/speech/

Всю инфу из шапки структурировал и вынес по разделам сюда. Так же добавил инфу о нескольких других TTS'ках и ещё нескольких проектах, которые не упомянуты в шапке, включая UI, которые скидывали вначале треда.

Из ссылок убрал только китайский видеогайд для MoeTTS, т.к. нашёл для него английские доки на гитхабе.

Вики хранится в виде кучи md-файлов в git-репе, которые потом проливаются на статичный сайт. Из особенностей выбранного движка вики то, что все текстовые документы с вики прогружаются в момент загрузки любой страницы. Благорадя этому, поиск работает сразу по всей вики, несмотря на отсутствие какого-либо бекенда (пик).

Вики можно форкнуть и запустить локально, при желании. Я написал небольшие скрипты, которые облегчат этот процесс на винде - вам нужно лишь стянуть проект через git и запустить нужные батники, инфа здесь:
https://2ch-ai.gitgud.site/wiki/

Из требований только наличие python + pip в системе.

Приветствуются предложения по внесению правок посредством цитирования ОП-поста и запросом изменений в треде. Так же приветствуется участие посредством отправки Pull Requests.

Текущая версия шапки и так перегружена, что до сих пор спрашивают платину - в связи с этим, хочу переработать структуру шапки таким образом, что бы на ней была ссылка на вики и небольшой FAQ с разбором платины. А всю инфу о конкретных системах упрятать в вики.

Мнение, пчелы.
Аноним 18/11/23 Суб 03:42:53 546932 487
>>546880
Так там платно, не охота платить деньгу за это.
Аноним 19/11/23 Вск 14:57:01 548052 488
>>546930
> Всю инфу из шапки структурировал и вынес по разделам сюда.
Охуенно структурировал, прямо нравится.
> небольшой FAQ с разбором платины
Вот да, этого конечно действительно не хватает. Просто во всей этой инфе платиновый пайплайн ну для тех же нейрокаверов на песенки как то затерялся кмк.
Аноним 19/11/23 Вск 17:24:53 548118 489
>>546930
Я бы ещё добавил теги:
портабл
работает в облаке
только локально (ручная установка с гита)
Аноним 19/11/23 Вск 19:24:06 548214 490
1700410862866622.mp4 1539Кб, 720x720, 00:00:10
720x720
Аноним 19/11/23 Вск 22:41:04 548380 491
sgB1XWpTfy4.jpg 183Кб, 828x826
828x826
Привет аноны.
Я один из тех людей, которые внезапно возгораются энтузиазмом что-то делать, а потом энтузиазм спадает на неопределённый срок. Но пока волна энтузиазма есть, прёт энергия и можно свернуть горы.
Сейчас меня нахлынула такая волна, когда наткнулся на нейронный кавер на ДДТ голосом НекоАрк.
И хочу я перезаписать нейронную кавер-версию %песня-нейм% в исполнении %группа-нейм% так, чтобы голосом %группа-нейм% поверх минуса %песня-нейм% в мотив оригинальной %песни-нейм% другой текст, похожий интонационно и по рифмам
Вопросы от меня интеллекту тотального нуба в теме нейронок:
1) Эти ваши сети онлайн в бравузере или нужно будет что-то качать?
2) Там как двач - ввёл капчу и вперёд, или там анальный цирк с кармой, СМС и регистрацией
3) Правильно ли я понимаю, мне нужно сперва скормить оригинальную кучу песен %группа-нейм%, чтобы нейронка переняла интонации, затем скормить именно нужную мне песню несколько раз (разные студийки и лайвы), а потом как-то подключить текстовую нейронку к музыкальной, чтобы написанный мной текст нейронка наложила на минус %песня-нейм%, и только тогда я смогу получть в одной из сотен генераций песню, в которой поверх минуса/инструментальной версии %песня-нейм% будет наложен найросеточный голос, имитирующий голос, интонации и манеру исполнения оригинального исполнителя но с моим текстом?
Типа как в видриле Путину наложили арабскую речь изначально написанным текстом https://www.youtube.com/watch?v=kY6s1RRdktY
Какой в пизду обход бана? Я первый раз в разделе
Аноним 20/11/23 Пнд 04:45:30 548691 492
>>511205 (OP)
Что качать стейбл дифижн скачал
Аноним 20/11/23 Пнд 04:46:14 548692 493
>>548691
Я слушаю ваши нейронки на Ютубе, но мне этого нехватает
Аноним 20/11/23 Пнд 15:55:50 549020 494
>>548380
эт называется мэшап. Выходит нейромэшап
Аноним 20/11/23 Пнд 17:05:54 549065 495
img.jpg 193Кб, 428x604
428x604
>>549020
>эт называется мэшап. Выходит нейромэшап
Ну что ж, с терминами мы разобрались.
Это хорошо.
Теперь вопросы по существу:
1) Эти ваши мешап-мейкеры онлайн в бравузере или нужно будет что-то качать?
2) Там как двач - ввёл капчу и вперёд, или там анальный цирк с кармой, СМС и регистрацией?
3) 2) Там как двач - ввёл капчу и вперёд, или там анальный цирк с кармой, СМС и регистрацией....
и т.д.
В чём делать, короче, и как?
Аноним 20/11/23 Пнд 18:20:46 549114 496
>>548380
1. Берёшь голос/вокал будущего исполнителя. Если нету нормальной дорожки с голосом, то делаешь с трека через Ultimate Vocal Remover (разделяет музыку и голос).
2. Чистишь от тишины, шумов (ну или не чисти, при тренеровке само подчистится, но может хуево). Этот чистый голос называется датасет
3. Обучаешь модель под этот голос. Для этого качаешь Mangio-RVC или идёшь сюда https://www.kaggle.com/code/varaslaw/rvc-v2-no-gradio-https-t-me-aisingers-ru (загугли телегу его, там есть гайд).
4. Кормишь свой дата сет. Обучаешь до 100-150 эпох, с сохраненим каждой 10-20. На выходе получаешь разной степени обученности модели. Они могут "перетренироваться", поэтому надо будет потестить какая лучше
5. Потом делаешь то же самое что в п.1 но с целевой песней, которую будут перепевать. У тебя получится несколько файлов, один с вокалом, остальные (или 1) с музыкой.
6. Берёшь вокал из п.5 и накладываешь на него модель из п4. На выходе получаешь перепетый голос.
7. Склеиваешь это в аудио редакторе по дорожкам с музыкой из п.4.

Но у меня говно получается, 3 недели ебался, так и не сделал нормально. Думаю надо уметь работать со звуком чтобы все это подправлять и выравнитьвать
мимо >>546870
Аноним 20/11/23 Пнд 18:36:20 549132 497
Аноним 20/11/23 Пнд 20:44:02 549269 498
>>549132
Одна хуйня. То что ты скинул - это китайский первоисточник. Может там при установке все на китайском, хз. Так что ставь Мангио.
Аноним 20/11/23 Пнд 20:59:16 549281 499
>>549114
># Установка необходимых зависимостей
>!apt-get -y install build-essential python3-dev ffmpeg
Но Это Же на линукс. У меня-то шинда10
Аноним 20/11/23 Пнд 21:42:31 549341 500
>>549281
это на облаке делается
Аноним 20/11/23 Пнд 21:58:01 549357 501
>>549281
читай гайд внимательно, поди, смотришь в раздел для красноглазых. все для винды есть.
Аноним 21/11/23 Втр 02:40:42 549541 502
Анон, нет времени вникать во все самому, поэтому прошу у тебя помощи с такой задачей: нужно украсть голос, сделать его идентичным или хотя бы похожим на оригинал, озвучивать с ним тексты, либо в идеале изменение голоса в реальном времени, через дискорд, скайп, тг. Готов заплатить за труды.
Аноним 21/11/23 Втр 11:40:44 549693 503
>>549541
чей голос? Сколько минут есть этого голоса. Насколько чистый
Аноним 21/11/23 Втр 13:43:47 549799 504
>>549693
Голос знакомых, они в курсе, есть возможность записать этот голос столько, сколько нужно, ну и под определенные требования.
моя тг @Almironc
Аноним 21/11/23 Втр 14:22:18 549831 505
>>549799
там голоса минимум час нужно в хорошем качестве. сможешь?
Аноним 21/11/23 Втр 14:28:23 549837 506
Аноним 21/11/23 Втр 14:35:24 549843 507
>>549837
тогда делай. как будет напишешь
Аноним # OP 22/11/23 Срд 02:24:04 550779 508
Прошлый тред: >>
Вики треда: https://2ch-ai.gitgud.site/wiki/speech/

FAQ

Q: Хочу озвучивать пасты с двача голосом Путина/Неко-Арк/и т.п.

1. Используешь любой инструмент для синтеза голоса из текста - есть локальные, есть онлайн через huggingface или в виде ботов в телеге:
https://2ch-ai.gitgud.site/wiki/speech/#синтез-голоса-из-текста-tts

Спейс без лимитов для EdgeTTS:
https://huggingface.co/spaces/NeuroSenko/rus-edge-tts-webui

Так же можно использовать проприетарный комбайн Soundworks (часть фич платная):
https://dmkilab.com/soundworks

2. Перегоняешь голос в нужный тебе через RVC. Для него есть огромное число готовых голосов, можно обучать свои модели:
https://2ch-ai.gitgud.site/wiki/speech/sts/rvc/rvc/

Q: Как делать нейрокаверы?

1. Делишь оригинальную дорожку на вокал и музыку при помощи Ultimate Vocal Remover:
https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/UVR

2. Преобразуешь дорожку с вокалом к нужному тебе голосу через RVC

3. Объединяешь дорожки при помощи Audacity или любой другой тулзы для работы с аудио

Опционально: на промежуточных этапах обрабатываешь дорожку - удаляешь шумы и прочую кривоту. Кто-то сам перепевает проблемные участки.

Качество нейрокаверов определяется в первую очередь тем, насколько качественно выйдет разделить дорожку на составляющие в виде вокальной части и инструменталки. Если в треке есть хор или беквокал, то земля пухом в попытке преобразовать это.

Нейрокаверы проще всего делаются на песни с небольшим числом инструментов - песня под соло гитару или пианино почти наверняка выйдет без серьёзных артефактов.

Q: Хочу говорить в дискорде/телеге голосом определённого персонажа.
Используй RVC (запуск через go-realtime-gui.bat) либо Voice Changer:
https://github.com/w-okada/voice-changer/blob/master/README_en.md

Гайд по Voice Changer, там же рассказывается, как настроить виртуальный микрофон:
https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/Voice‐Changer (часть ссылок похоже сдохла)

Q: Как обучить свою RVC-модель?
Гайд на русском: https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/RVC#создание-собственной-модели
Гайд на английском: https://docs.aihub.wtf/guide-to-create-a-model/model-training-rvc
Определить переобучение через TensorBoard: https://docs.aihub.wtf/guide-to-create-a-model/tensorboard-rvc

Q: Надо распознать текст с аудио/видео файла
Используй Whisper от OpenAI: https://github.com/openai/whisper
Так же есть платные решения от Сбера/Яндекса/Тинькофф.

Шаблон для переката: http://
Аноним # OP 22/11/23 Срд 02:28:08 550783 509
Мнение по такому варианту шапки? Может ещё есть мысли, что добавить/поправить надо?

>>548052
Так норм?

>>548118
Хорошая идея, тоже думаю, что стоит добавить. В ближайшие пару дней сделаю.
Аноним 22/11/23 Срд 08:37:49 550899 510
170063104385232[...].mp4 576Кб, 1280x720, 00:00:10
1280x720
ПЕРЕКАТ Аноним # OP 23/11/23 Чтв 01:34:07 552020 511
Аноним 27/03/24 Срд 21:16:15 684328 512
Бамп
Ответить в тред Ответить в тред

Check this out!

Настройки X
Ответить в тред X
15000
Добавить файл/ctrl-v
Стикеры X
Избранное / Топ тредов