/ai/ - Голосовых нейронок тред (TTS, STS, STT) #5

Голосовых нейронок тред (TTS, STS, STT) #5 /speech/ Аноним 23/11/23 Чтв 01:31:54 № 552016 1

Обсуждаем нейросети, связанные с синтезом, преобразованием и распознаванием речи. Не забываем публиковать свои шедевры в треде.

Прошлый тред: >>511205 (OP)

Вики треда: https://2ch-ai.gitgud.site/wiki/speech/

FAQ

Q: Хочу озвучивать пасты с двача голосом Путина/Неко-Арк/и т.п.

1. Используешь любой инструмент для синтеза голоса из текста - есть локальные, есть онлайн через huggingface или в виде ботов в телеге:
https://2ch-ai.gitgud.site/wiki/speech/#синтез-голоса-из-текста-tts

Спейс без лимитов для EdgeTTS:
https://huggingface.co/spaces/NeuroSenko/rus-edge-tts-webui

Так же можно использовать проприетарный комбайн Soundworks (часть фич платная):
https://dmkilab.com/soundworks

2. Перегоняешь голос в нужный тебе через RVC. Для него есть огромное число готовых голосов, можно обучать свои модели:
https://2ch-ai.gitgud.site/wiki/speech/sts/rvc/rvc/

Q: Как делать нейрокаверы?

1. Делишь оригинальную дорожку на вокал и музыку при помощи Ultimate Vocal Remover:
https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/UVR

2. Преобразуешь дорожку с вокалом к нужному тебе голосу через RVC

3. Объединяешь дорожки при помощи Audacity или любой другой тулзы для работы с аудио

Опционально: на промежуточных этапах обрабатываешь дорожку - удаляешь шумы и прочую кривоту. Кто-то сам перепевает проблемные участки.

Качество нейрокаверов определяется в первую очередь тем, насколько качественно выйдет разделить дорожку на составляющие в виде вокальной части и инструменталки. Если в треке есть хор или беквокал, то земля пухом в попытке преобразовать это.

Нейрокаверы проще всего делаются на песни с небольшим числом инструментов - песня под соло гитару или пианино почти наверняка выйдет без серьёзных артефактов.

Q: Хочу говорить в дискорде/телеге голосом определённого персонажа.

Используй RVC (запуск через go-realtime-gui.bat) либо Voice Changer:
https://github.com/w-okada/voice-changer/blob/master/README_en.md

Гайд по Voice Changer, там же рассказывается, как настроить виртуальный микрофон:
https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/Voice‐Changer (часть ссылок похоже сдохла)

Q: Как обучить свою RVC-модель?

Гайд на русском: https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/RVC#создание-собственной-модели
Гайд на английском: https://docs.aihub.wtf/guide-to-create-a-model/model-training-rvc
Определить переобучение через TensorBoard: https://docs.aihub.wtf/guide-to-create-a-model/tensorboard-rvc

Q: Надо распознать текст с аудио/видео файла

Используй Whisper от OpenAI: https://github.com/openai/whisper
Так же есть платные решения от Сбера/Яндекса/Тинькофф.

Шаблон для переката: https://2ch-ai.gitgud.site/wiki/speech/speech-shapka/

Аноним 23/11/23 Чтв 09:54:20 № 552199 2

styletts2 годная тема
https://github.com/yl4579/StyleTTS2
https://huggingface.co/spaces/styletts2/styletts2

Аноним 23/11/23 Чтв 10:31:06 № 552221 3

>>552199
локально эта хрень не хочет работать, ждём нормальный web ui

Аноним 23/11/23 Чтв 14:33:03 № 552356 4

>>552016 (OP)
Нифига себе. Мой видос первый

Аноним 23/11/23 Чтв 15:57:20 № 552409 5

Треним в каггле. Там все можно фоном. https://www.kaggle.com/varaslaw/rvc-tg-aisingers-by-rus-no-gradio тут делать
https://youtu.be/uA92FDw_Xfw[РАСКРЫТЬ] тут обучалка

Аноним 23/11/23 Чтв 16:35:37 № 552461 6

>>552409
https://www.kaggle.com/code/varaslaw/aisingers-rvc-rmvpe-https-t-me-aisingers-ru/ новая версия
https://youtu.be/L-emE1pGUOM?feature=shared обучалка

Аноним 24/11/23 Птн 01:12:17 № 552992 7

>>552016 (OP)
Репост из предыдущего треда по причине 0 ответов:
rvc (релиз из шапки прям) не хочет хавать мп3 56кбпс длиною в 49 минут, как фиксить

Аноним 24/11/23 Птн 02:51:51 № 553028 8

>>552992
Это для обучения или преобразования? Если для преобразования - попробуй просто файл нарезать. А чтобы вручную их по отдельности потом не отправлять на конвертацию, в RVC можно батчами файлы обрабатывать, в нижней части интерфейса. Я сам ничего длиннее 10 минут не пробовал скармливать, может оно неоптимизированно просто для таких длинных файлов.

Аноним 24/11/23 Птн 10:34:26 № 553144 9

170081108345491[...].mp4 2218Кб, 1280x720, 00:00:08

Аноним 24/11/23 Птн 11:19:57 № 553170 10

>>552461
Ебать, спасибо анон, это по царски мне все сделало. Со старой ебался месяц хуйня получалось. Каеф.

Аноним 24/11/23 Птн 12:35:48 № 553224 11

>>552992
Ты же обучаешь? можно через какой нибудь адобе аудишн удалить тишину. У меня с 1 часа записи голоса на стриме после удаления тишины стало 25 минут чистого голоса.
А вообще советую юзать обучалку в облаке >>552409 . Тольго чтобы там можно было ГПУ подрубить - надо акк по телефону подтвердить. В РФ не работает, поэтому через какой-нибудь онлайн-сим сервис регни на другой регион. Цена 3-5 рублей.

Аноним 24/11/23 Птн 12:48:10 № 553233 12

>>553224
че за бред что в рф не работает? Нормально активировал.
Мимоднровец

Аноним 24/11/23 Птн 13:17:02 № 553267 13

>>553233
От оператора завист. Мой мегафон не пропустил. И где-то в гайде на ютубе видел, что там так же из РФ регали на тайланд.

Аноним 24/11/23 Птн 15:00:12 № 553360 14

Аноним 24/11/23 Птн 17:09:15 № 553462 15

firefoxwnuv2eXk[...].png 108Кб, 1530x885

>>552199
>>552221
короче поебавшись с docker и линуксоидным WSL 2 я заставил это работать.
Обязательные условия, если юзаете шиндовс 10 :
1. Установка ubuntu и его включение (см. пик 1) в уже установленном docker (это в моём случае, отличном от того что в видеоролике) https://www.youtube.com/watch?v=PB7zM3JrgkI
2. обязательная установка python 3.7, с 3.11 вообще не хочет работать
3. включение экспериментальной функции "containerd" в docker (см. ласт пик)
когда всё поставили - просто введите вот это в powershell с запуском от админа :
docker run -it -p 7860:7860 --platform=linux/amd64 --gpus all registry.hf.space/styletts2-styletts2:latest python app.py
потом в docker кликаете по ссылке и всё (см. пик 2), должно открыть gradio вебуй в браузере.
Не знаю как другим, но этот tts движок пока что ебёт все остальные как нехер делать, меньше одной секунды на генерацию семлпа используя ноутбучную rtx 3070 / 8gb vram. https://voca.ro/1jB9XdkllnRi когда другие tts всё ещё будут долбить гпу в сотку.

Аноним 24/11/23 Птн 20:58:27 № 553729 16

едж ттс светлан[...].mp4 180Кб, 1920x1080, 00:00:05

Какой голос звучит человечнее?

Аноним 24/11/23 Птн 22:05:48 № 553815 17

>>553729
Света питч 5. К силеро надо крутить библиотеки омонимов, перевода цифр в буквы, ударений и прочего.

Аноним 24/11/23 Птн 22:12:28 № 553832 18

>>553729
чето кряхтит пердит во всех версиях

Аноним 24/11/23 Птн 22:17:25 № 553844 19

>>553462
туда можно вкорячить свои модели, натрененые в RVC?
если нет, то где можно текс в аудио?

Аноним 24/11/23 Птн 23:10:51 № 553931 20

>>553462
Угараешь, штоле? Всё там прекрасно работает без WSL и докеров
1. git clone https://huggingface.co/spaces/styletts2/styletts2
2. pip install -r requirements.txt
3. pip install cached_path phonemizer
4. Устанавливаешь espeak-ng https://github.com/espeak-ng/espeak-ng/releases
5. Прописываешь в PATH :
PHONEMIZER_ESPEAK_LIBRARY="C:\Program Files\eSpeak NG\libespeak-ng.dll"
PHONEMIZER_ESPEAK_PATH=“C:\Program Files\eSpeak NG”
6. Запускаешь python ./app.py
7. ?????
8. PROFIT!

Аноним 24/11/23 Птн 23:13:47 № 553935 21

>>553931
Да, ещё torch и torchaudio нужно поставить с поддержкой CUDA, чтобы инференс работал на GPU. У меня уже стояли 2.1.0+cu121

Аноним 25/11/23 Суб 02:11:21 № 554224 22

>>553028
> попробуй просто файл нарезать
Спасибо кэп, только это лишний гемор, пушо помимо резки/склеивания, как я должен проверить что оно не разрежется именно по середине речи?
Нет, не для обучения, аудиокнигу хочу в другом голосе послушать.

>>553224
Нет, это не для обучения.

Аноним 25/11/23 Суб 07:37:22 № 554360 23

>>553844
это не RVC, но модель styletts2 можно зафайнтюнить на rtx 3090 за 4 часа, так говорит автор https://github.com/yl4579/StyleTTS2

Аноним 25/11/23 Суб 07:58:38 № 554364 24

>>553815
ударения там можно сделать через + звон+ит

Аноним 25/11/23 Суб 08:37:43 № 554370 25

>>554224
Берешь абсолютно любой аудиоредактор и вручную режешь блять, и там же склеиваешь.

Аноним 25/11/23 Суб 09:45:39 № 554399 26

Чо, когда exe софт сделаете, а не всю эту хуету с бубнами?

Аноним 25/11/23 Суб 10:59:07 № 554423 27

>>554399
те сложно чтоль пару команд ввести? Сразу видно виндузятника

Аноним 25/11/23 Суб 11:21:14 № 554431 28

>>554423
те сложно чтоль все в одной папке собрать? сразу видно гитхабодебила

Аноним 25/11/23 Суб 15:01:50 № 554564 29

>>554364
Спасибо, я знаю. Но хотелось бы автоматом. Но у автора силеро такая позиция, что они продают весь обвес вокруг их сырой модельки, так что увы.

Аноним 25/11/23 Суб 15:04:15 № 554565 30

>>554399
хочется верить что этот styletts2 герганыч портнёт в ggml, тогда можно будет тупо одной командой запускать один .exe файл с парой моделей, там кста их 10, это если считать энкодеры тоже.

Аноним 25/11/23 Суб 18:23:07 № 554732 31

как в едж ттс ставить ударения?

Аноним 25/11/23 Суб 23:08:23 № 555009 32

167616434565906[...].webm 1447Кб, 720x834, 00:02:53

Поясните за текущее состояние голосовых нейронок плз. Если я хочу генерить хорни пасты голосами милых тяночек, это возможно уже или нет? Или можно только переделывать уже существующую речь в другие голоса? Последний раз ттс трогал у яндекса, там неплохой был секси голос Алёны, но интонации все равно слишком роботизированы и одннобразны были.

Аноним 25/11/23 Суб 23:11:00 № 555013 33

Что будет лучше, если я хочу клонировать свой собственный голос и озвучивать им написанный текст - RVC или ElevenLabs? Обычно я делаю через второй вариант, но там это довольно заёбно, приходится много раз генерировать заново, а потом ещё и склеивать удачные куски из разных вариантов в единое целое. Уходит очень много времени

Ну или может быть у вас есть гайд, как записать подходящий датасет, пользуясь диктофоном из телефона? Вроде бы всё нормально, но нейронка часто сбоит, например ускоряя голос или наоборот замедляя, а иногда появляется сильный акцент

Аноним 26/11/23 Вск 08:10:24 № 555225 34

>>554370
Ебаный ты нахуй, там 24 файла по 50 минут, заебусь, во-вторых я не понимаю а че мешает просто один огромный файл обработать? Я понимаю когда я ставлю слишком огромное значение блока за раз обрабатываемого или че там, типа 60 секунд и он за оперативку вылазит, а тут че?

Аноним 26/11/23 Вск 09:27:34 № 555243 35

>>555009
Можно сгенерировать в TTS, а потом прогнать через RVC с нужным тебе голосом. Но TTS'кам эмоциональности под твою задачу не хватит, как мне кажется. Они больше под монотонное чтение подходят.

>>555013
У RVC нет возможности напрямую озвучивать по тексту, она только из одного голоса в другой преобразует. Тебе придётся сначала сгенерировать по тексту дефолтным голосом любой TTS'ки, а потом через RVC прогонять.

> как записать подходящий датасет
Для RVC нужно 5-10 минут чистого голоса, желательно, в разных диапазонах. Хорошие модели стабильно работают, там не надо что-либо роллить.

Аноним 26/11/23 Вск 11:55:51 № 555275 36

>>555225
Попробовал прогнать часовую аудиокнигу (58 минут). С моделью rmvpe всё обработалось, при обработке потребление VRAM было почти 20 Гб, но обработка заняла всего несколько секунд. Creepe — потребление VRAM около 4 Гб, но обрабатывалось долго — около 2 минут. Harvest — видеопамять не жрет, обрабатывалось минут десять и потом все упало нахуй, хотя потребление RAM было всего лишь около 22 Гб (из 64 Гб). Pm не проверял.

Аноним 26/11/23 Вск 13:23:27 № 555333 37

>>555275
А как результат?

Аноним 26/11/23 Вск 19:32:36 № 555755 38

>>552016 (OP)
Аноны, оценил предложенные tts проекты, XTTS в целом порадовала. На huggingface лимит в 200 символов, соответственно вопрос: если её ебануть локально можно ли за одну операцию озвучивать приличные тексты, например 10 страничные статьи? И, если да, сколько генерация будет занимать по времени на 3060 12 гигабайтной?

Аноним 27/11/23 Пнд 00:28:14 № 556093 39

90c7a292-a226-4[...].mp4 2924Кб, 600x900, 00:01:20

Годная вещь, аж залип

Аноним 27/11/23 Пнд 02:23:06 № 556139 40

was du brauchst.mp4 2446Кб, 480x360, 00:00:05

zwei kleine Hän[...].mp4 4516Кб, 648x480, 00:00:03

Почему-то именно с этим языком самый кек получается.

Аноним 27/11/23 Пнд 02:37:25 № 556147 41

wischegrad.mp4 16360Кб, 640x360, 00:02:45

Аноним 27/11/23 Пнд 02:39:29 № 556148 42

nach Hause.mp4 5888Кб, 640x480, 00:00:01

Аноним 27/11/23 Пнд 04:34:32 № 556194 43

А есть вообще сайты по типу цивита (куда лоры и модели заливают), но с готовыми голосовыми моделями?

Аноним 27/11/23 Пнд 04:49:33 № 556196 44

>>556194
https://discord .gg/aihub (канал voice-models)
Для RVC.

Аноним 27/11/23 Пнд 12:32:39 № 556453 45

>>555243
А если записать самому с нужной интонацией и потом свапнуть голос?

Аноним 28/11/23 Втр 02:22:19 № 557155 46

Аноны, для клонирования голоса обязательно микрофон?

Аноним 28/11/23 Втр 03:25:02 № 557166 47

Ай, наигрался. Не смешно как-то уже.

Аноним 28/11/23 Втр 11:57:16 № 557280 48

Анон, подскажи пожалуйста, есть ли возможность научить ИИ на чужой голос, при обучении выдаёт ошибку и ругается на GPU (У меня AMD 6800XT) И еще вопрос, ему datasaet можно даже видео в mp4 подставить, он его "скушает" или ему нужен именно свой определенный формат?

Аноним 28/11/23 Втр 13:00:09 № 557317 49

ÐÐ«Ð¡Ð¢Ð Ð«Ð [...].mp4 4256Кб, 720x1280, 00:00:20

Аноны, а есть сервис дубляжа своего голоса, но чтоб интонация была? Знает кто нибудь такой онлайн сервис?

Аноним 28/11/23 Втр 20:41:57 № 557640 50

Аноним 30/11/23 Чтв 23:49:07 № 559490 51

>>553462
для локал юзеров - убрали ограничение в 400 слов, но есть проблема, он начинает каждое новое предложение без сохранения интонации.

Аноним 01/12/23 Птн 12:27:11 № 559905 52

Я тупой. Не бейте, лучше обоссыте!
На hf есть вот такая модель для whisper:
https://huggingface.co/lorenzoncina/whisper-small-ru/tree/main
Но Whisper'у нужны модели с расширением .pt
Как конвертировать модель hf ---> pt?
Был бы рад, если кто-то шарящий просто сконвертирует и выложит ссылку.

Аноним 01/12/23 Птн 15:54:09 № 560007 53

>>559905
Эти веса можно подгружать через torch.load, если использовать whisper в качестве python-модуля.
Если тебе вдруг зачем-то нужно их использовать через stand-alone версию, то требуется небольшой костыль, так как stand-alone может работать только с предопределенными моделями.

Скачиваешь эту модель при помощи git
git clone https://huggingface.co/lorenzoncina/whisper-small-ru/
И конвертируешь этим скриптом https://gist.github.com/bofenghuang/3ba54bb338f4863e6ab710a2ceb65bf2 :
python convert_whisper_to_openai.py --hf_model_name_or_path "d:/whisper-small-ru" --whisper_state_path "./small.pt"

Либо скачиваешь сконвертированную модель отсюда https://huggingface.co/savayox919/small.pt/blob/main/small.ru.pt

Закидываешь cконвертированную модель в папку %user_profile%/.cache/whisper/
Чтобы whisper знал эту модель нужно в файле %python_path%\Lib\site-packages\whisper\__init__.py под 23 строкой добавить строку
"small.ru": "aefac90e59481eb3f15b7f6725fd1e398a08ec9d99ba8969336bde5c3f667695/small.ru.pt",
И под 39 строкой добавить строку
"small.ru": None,
Теперь whisper будет работать с этой моделью
whisper --model small.ru --language ru

Но на самом деле всё это ненужный пердолинг, потому что эта модель всратая и не лучше оригинальной small

Аноним 01/12/23 Птн 18:40:29 № 560112 54

>>560007
Спасибо, анончик! Аки боженька всё разжевал. Мне важно было попробовать работу этой модели на своих семплах. Результаты и впрямь так себе.
Я радиогубитель и в ИТ не большой знаток. Нейронки для меня - что-то типа магии. Хочу автоматически распознавать речь со своих радио-перехватов (приём SDR-свистком), но старое железо весьма ограничивает возможности. У меня gtx950 с 2 ГБ памяти, и её хватает только для base модели, а это полная хуита ни о чём. Даже small крашится от недостатка памяти. Поэтому ищу вменяемую по скорости и качеству распознавания модель под CPU. Может, посоветуешь что-то? Нужна только русская речь.

Аноним 01/12/23 Птн 19:31:03 № 560137 55

17014448286430.mp4 18865Кб, 600x600, 00:01:08

В какой нейронке это делали?

Аноним 01/12/23 Птн 22:28:46 № 560346 56

> coqui ai
Это годнота? Почему в шапке нет?

Аноним 01/12/23 Птн 22:41:32 № 560367 57

>>560137
В суно, сверху криво кинули войссвап совитсом.

Аноним 01/12/23 Птн 22:45:10 № 560371 58

>>560346
Потому что как и в дабе сосет письку. Плюс платное. Там никаких чудесных решений все еще нет, это комбайны из существующих технологий, которые по аналогии с фейс-свапом типа фейсхаба - ну продержаться год-два, выдавая хуевенький результат за нихуевенькие бабки. Потом технологию допилят и она обесценится (в хорошем смысле слова). Чмони конечно могут продолжать лазить в какойнибудь фейсап, но нахуя если везде лежит руп. Поэтому какой смысл добавлять в шапку очередную коммерческую прокладку?

Аноним 01/12/23 Птн 22:46:50 № 560376 59

>>560371
>Потому что как и элевенлабс в дабе сосет письку
фикс

Это максимум для инди проекта энивей и если бабки карман жмут, для чего-то серьезного проще нанять актера за миску риса. Да и для инди тоже.

Аноним 01/12/23 Птн 23:14:14 № 560434 60

>>555755
у меня тоже такая карточка, почти моментально 3000 символов генерит, так что в этом проблем нет

Аноним 01/12/23 Птн 23:17:58 № 560440 61

>>560371
Че за комбайны из готовых решений? У них собственные решения и опенсурс на гитхабе.

Аноним 02/12/23 Суб 00:04:23 № 560509 62

>>560440
>У них собственные решения
Из чужих моделей и разработок обмотанных петухоном. Огласи список "собственного", если не сложно.

Аноним 02/12/23 Суб 00:21:28 № 560525 63

>>560509
> https://github.com/coqui-ai
Ты шизик?

Аноним 02/12/23 Суб 00:22:25 № 560527 64

>>560509
https://huggingface.co/coqui

Аноним 02/12/23 Суб 00:24:59 № 560531 65

>>560525
>>560527
нахуй ехай

Аноним 02/12/23 Суб 00:29:25 № 560535 66

>>560531
И че? Ебать ты долбаеб, обосрался, так не закапывай себе дальше.

Аноним 02/12/23 Суб 20:24:08 № 561166 67

Голосовые нейронки самый мощный прорыв сделали я щитаю. Ни видео ни фото не может в годнонту, а вот голосовые модели могут имитировать голос человека на 100 процентов.

Аноним 02/12/23 Суб 23:28:24 № 561375 68

Есть какая-нибудь онлайн нейросеть, чтобы фразу озвучить? Мне буквально одну только. Или, может, итт кому-нибудь не лень? С меня сотни интернетов!

Аноним 02/12/23 Суб 23:45:16 № 561386 69

>>561375
А, все, я нашел. Шапку жопой читал.

Аноним 04/12/23 Пнд 14:11:28 № 562704 70

Бля а неплохо вышло

Аноним 04/12/23 Пнд 18:47:10 № 562947 71

>>562704
Вообще охрененно делает!

Аноним 04/12/23 Пнд 20:40:29 № 563105 72

Рейт

Аноним 05/12/23 Втр 12:38:54 № 563631 73

Так, я попробовал вариант для амудешников, по готовой модели генерит довольно быстро, а вот свое обучается очень долго, в связи с чем возник вопрос - есть ли какой-то вариант, для обучения на колабе или еще где-то? А то у меня получается, что 20 эпох часов 8 займут, а говорят, что под 200 надо для хорошей модели

Аноним 05/12/23 Втр 22:09:06 № 564287 74

На eleven labs появился speech to speech для склонированного голоса, но пока только на английском.

Аноним 06/12/23 Срд 07:05:40 № 564586 75

>>564287
Чем делал голос путина тот что на русском?

Аноним 06/12/23 Срд 15:08:48 № 564851 76

Аноним 07/12/23 Чтв 10:03:10 № 565990 77

>>557166
> наигрался
А может и нет...

Аноним 07/12/23 Чтв 16:31:59 № 566214 78

Я прочитал шапку, но уточнить хочу. Мне нужно делать озвучку персонажей амер мультиков.
>SileroTTS
>TeraTTS
Что из этого будет говорить с амер акцентом и выразительно как пожелаешь с настройками где ставить ударения и т.п.? Т.е. чтоб там можно было изображать гнев, грусть и т.п.?
>RVC
Я так понял оно не влияет на характер, эмоциональный оттенок голоса, а просто перекрашивает в нужного персонажа заранее подготовленные дорожки?

Аноним 07/12/23 Чтв 16:36:45 № 566220 79

>>566214
силеро ттс. Ударения ставить так: звон+ит +перед ударным.
Про рвс да

Аноним 07/12/23 Чтв 16:39:45 № 566224 80

>>564586

Аноним 07/12/23 Чтв 16:48:07 № 566234 81

>>566220
А что насчёт амер акцента?

Аноним 07/12/23 Чтв 16:49:53 № 566236 82

>>566234
силеро ттс там американское наверно

Аноним 07/12/23 Чтв 16:51:57 № 566238 83

>>566236
>Оффлайн-проект синтеза голоса от русскоязычной команды Silero.
Окей спорить не буду, но на всякий случай на форчане чек чем оно по-хорошему делается.

Аноним 07/12/23 Чтв 18:30:34 № 566384 84

Падажите, эта няша из консольки чтоли управляется онли? Нет удобного интерфейса, куда совать текст и язык, модели жмакать?
https://www.youtube.com/watch?v=yRHbDbHPJMo

Аноним 07/12/23 Чтв 18:52:12 № 566411 85

>>566384
тебе какой язык нужен?
https://github.com/hinaichigo-fox/rus-silero-webui вот там русский и украинский
https://github.com/GhostNaN/silero-webui тут все

Аноним 07/12/23 Чтв 19:01:51 № 566427 86

>>566411
Мне англ. Ну я разные пробовал и устанавливал https://github.com/snakers4/silero-models#installation-and-basics.
Вот что ты дал, юзаю гитбаш в папке, git clone https://github.com/GhostNaN/silero-webui.git
А где там установочное или как стартовать вообще, каким файлом?
Второй пик пробовал сборку от анона, но там ошибка если менять язык или модель, не поддерживает наверное.

Аноним 07/12/23 Чтв 19:05:28 № 566435 87

>>566427
Запускать app.py
Конечно же. если не менять язык будет ошибка. Смени язык и все

Аноним 07/12/23 Чтв 19:26:24 № 566471 88

>>566435
А понятно. Я просто не ожидал, что так можно, никогда не делал. Спасибо, что не рвонькнул однако.
Сейчас устанавливаю какое-то nltk, а то ошибка генерации.

Аноним 07/12/23 Чтв 19:40:26 № 566499 89

Не помогло nltk, опять чего-то не хватает. В requirements.txt
gradio
nltk
num2words
omegaconf
torch
torchaudio
Я понимаю это что-то у программистов имеющеюся само собой и что мне делать чтоб облегчить мучения?

Аноним 07/12/23 Чтв 19:56:26 № 566531 90

У одного меня какие-то спермопроблемы как обычно, ясно, у всех остальных всё само собой встало одним нажатием кнопачки.

Аноним 07/12/23 Чтв 19:58:16 № 566536 91

>>566499
покажи ошибки

Аноним 07/12/23 Чтв 20:08:50 № 566552 92

image 208Кб, 1245x287

>>566536
Это по-любому из-за отсутствия установки чего-то большого, что все нейросетчики по умолчаю юзают, поэтому автор и в шапке не пишут. Я просто только вкатываюсь.

Аноним 07/12/23 Чтв 20:16:02 № 566569 93

>>566552
комп перезапусти и попробуй все в ручную через пип инсталл устанавливать

Аноним 07/12/23 Чтв 20:16:49 № 566571 94

>>566552
Алсо, добавлю у меня подозрения на этот пи-торч. Может я его как-то криво поставил?
Я с сайта копирую в командную строку cmd что мне там дали pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
Установка какая-то прошла и я закрыл. Не так чтоли?

Аноним 07/12/23 Чтв 20:19:24 № 566573 95

>>566571
самая тупая ошибка. ПРОСТО ПИШИ ПИП ИНСТАЛЛ ТОРЧ И ВСЕ

Аноним 07/12/23 Чтв 20:30:09 № 566592 96

>>566573
В cmd писать? Или в какую-то конкретную папку перейти? написано Requirement already satisfied:
Я также перегрузил комп, но не помогло. Может снести и зано поставить этот торч?
Остальные требования тоже уже написано Requirement already satisfied:

Аноним 07/12/23 Чтв 20:48:57 № 566616 97

>>566592
в цмд пиши

Аноним 07/12/23 Чтв 20:52:45 № 566621 98

image 152Кб, 1094x123

image 11Кб, 548x31

Ну че, я пытался удалить и установить заново как было сказано.
1. Первый пикрил - ПРОСТО pip install torch, ошибка. С ним вообще консоль не выдаёт адресс для браузера.
2. Снёс п. 1 и поставил с сайта всё пик 2 без ошибок, всё равно не заработала, те же ошибки >>566552

А не может быть такого что мне какие-то модели там в папку с прогой докачать, чтоб не было ошибки? Я вам заскринил >>566552 чтоб вы расшифровали на что оно жалуется.

Аноним 07/12/23 Чтв 20:54:23 № 566624 99

>>566621
pip3 install pytorch

Аноним 07/12/23 Чтв 20:57:50 № 566631 100

image 102Кб, 923x140

>>566624
М?

Аноним 07/12/23 Чтв 21:00:01 № 566635 101

>>566631
фулл скрин

Аноним 07/12/23 Чтв 21:00:40 № 566636 102

>>566631
пошли ка в тг. тут не особо удобно

Аноним 07/12/23 Чтв 21:03:36 № 566642 103

image 257Кб, 1337x486

>>566635
Спасибо, что помогаешь. А можешь есть всеобщий гайд по работе с гитхабовскими нейросетками, чтоб я мог все их стандарты установить?

Аноним 07/12/23 Чтв 21:04:05 № 566643 104

>>566636
У меня нет тг.

Аноним 07/12/23 Чтв 21:05:16 № 566645 105

А может этот торч не в апдату, а куда-то ещё ставить?

Аноним 07/12/23 Чтв 21:06:14 № 566648 106

>>566645
просто консоль открываешь и сразу без ничего пишешь pip install pytorch

Аноним 07/12/23 Чтв 21:09:02 № 566653 107

>>566648
Ну да, так и пишу, но у меня при открытии путь C:\Users\Anonname>
А у тебя не так?

Аноним 07/12/23 Чтв 21:09:41 № 566654 108

>>566653
хмммм. перезагрузи пеку и пробуй снова

Аноним 07/12/23 Чтв 21:25:29 № 566677 109

>>566654
Ладно, я думал, тут кулцхакеры сидят, придётся замену придумать или насадку какую-то. Может онлайн придётся даже генерить.

Аноним 07/12/23 Чтв 21:29:18 № 566683 110

>>566677
просто хз как но у меня все что надо ставилось с 1 раза

Аноним 07/12/23 Чтв 21:36:12 № 566691 111

>>566683
Да я понимаю, как обычно у меня одного проклятие, срочно надо шамана вызывать.

Аноним 07/12/23 Чтв 23:06:25 № 566761 112

Ну что сказать, я напоследок пошалил ещё с этими вашими торчами, смыл весь питон и накатил последню версию и в резульатте через консоль этот торч вообще никак теперь не ставится, а силена даже в браузере теперь не запускается соответсвенно.

ERROR: Could not find a version that satisfies the requirement torch (from versions: none)
ERROR: No matching distribution found for torch

Сделал лучше, а стало хуже, ну и говнище этот ваши питон.

Аноним 07/12/23 Чтв 23:50:12 № 566793 113

Ладно вот последний вопрос.
# Create venv
python -m venv venv
source venv/bin/activate
Это что? Это куда?

Аноним 08/12/23 Птн 06:55:06 № 566992 114

>>566793
> Это что? Это куда?
В консоли последовательно выполни команды:
python -m venv venv
.\venv\Scripts\activate

У тебя формат второй команды под никсы, если я правильно понимаю.

>>556453
> А если записать самому с нужной интонацией и потом свапнуть голос?
Да, тогда интонация норм подхватится.

>>560346
> coqui ai
> Это годнота? Почему в шапке нет?
Там же вроде просто XTTS под капотом? Хз, может и стоит дополнить, я не вникал, если честно.

>>563631
> Так, я попробовал вариант для амудешников, по готовой модели генерит довольно быстро, а вот свое обучается очень долго, в связи с чем возник вопрос - есть ли какой-то вариант, для обучения на колабе или еще где-то? А то у меня получается, что 20 эпох часов 8 займут, а говорят, что под 200 надо для хорошей модели
Попробуй этот коллаб глянуть, я, правда, сам не смотрел:
https://colab.research.google.com/drive/13Ot_8SJYplkxSH1vkJptd79fmvMjFqIC

>>566214
> Что из этого будет говорить с амер акцентом и выразительно как пожелаешь с настройками где ставить ударения и т.п.? Т.е. чтоб там можно было изображать гнев, грусть и т.п.?
Из опенсорс с генерацией эмоций ничего нет для TTS, насколько я знаю. В bark можно вставлять конструкции типо [смех] и что-то ещё, но не смотрел её особо: https://github.com/suno-ai/bark

> Я так понял оно не влияет на характер, эмоциональный оттенок голоса, а просто перекрашивает в нужного персонажа заранее подготовленные дорожки?
Всё так, либо можешь менять голос в риалтайме - как вариант, можешь настроить виртуальный микрофон и сразу записывать свой видоизменённый голос с нужными тебе эмоциями, в этом случае RVC норм оттенок голоса передаст.

>>566427
> Второй пик пробовал сборку от анона, но там ошибка если менять язык или модель, не поддерживает наверное.
Увы, не нашёл времени пофиксить. Работает только русик, да.

Аноним 08/12/23 Птн 07:00:03 № 566993 115

>>566761
так емае. Те нужно максимум 3.10 ставить

Аноним 08/12/23 Птн 07:30:44 № 566997 116

А у edge tts из шапки можно как-то ударения ставить? И там ещё какой-то странный баг с внезапным сдвигом тональности на одном предложении есть, это победимо?

Аноним 08/12/23 Птн 07:55:37 № 567000 117

>>566997
я и сам щас думаю как ставить. Пришел пока к выводу. Ты его учи как ребенка. Вместо Зек пиши зэк вместо штирлицем пиши штир'лицэмъ и т.д. ударение либо ' перед нужной буквой либо о́ букву ударением

Аноним 08/12/23 Птн 13:28:18 № 567184 118

>>566992
>У тебя формат второй команды под никсы
Эээ? По-русски пиши. Я это это инструкции слепо пытался сделать.

Аноним 08/12/23 Птн 13:34:19 № 567201 119

А никто англоязычное не встречал? Я на форчане порылся, там только треды по стабл дифужну.

Аноним 08/12/23 Птн 13:48:26 № 567210 120

Как же хуёво быть нищюком. Я бы купил уже этот вокс бокс за 100 баксов и не ебался тут.

Аноним 08/12/23 Птн 14:52:51 № 567231 121

>Для винды, более продвинутый проект формата "всё в одном" (TTS/STS/TTS), часть функционала платная: SoundWorks, https://dmkilab.com/soundworks
Охуенно озвучили блять.

Аноним 08/12/23 Птн 15:14:26 № 567238 122

изображение.png 20Кб, 219x73

>>567231
А хули ты хотел? Плоти.

Аноним 08/12/23 Птн 16:00:21 № 567266 123

>>567238
Там нет на сайте для нищуков скромного. Что ж так плохо с этой озвучкой идёт, туго, жиды программисты не дают творить.

Аноним 08/12/23 Птн 16:01:40 № 567267 124

>>567266
Алсо с нормальными (не премиальными) голосами тоже говорят - плоти.

Аноним 08/12/23 Птн 19:54:04 № 567505 125

А неплохо это RVC работает, эмоции всё передаёт, не ожидал.
Но шляпа только что исходники хорошие искать, все эти TTS некудышные, говорят дикторской речью. И я так понимаю нельзя ттс научить в эмоции. Может посоветуете какую базу со фразочками всяких актрис озвучек и сэйу? А то я вижу на ютубе иногда фажики делают подборки фразочек всяких персонажей игр и аниму, может базы есть мне не очевидные.

Аноним 08/12/23 Птн 20:34:45 № 567544 126

У меня такая мысль возникла, что для эмоций надо TTS для каждого настроения модель отдельную, не заморачиваясь на персонажей голосов, например для женского один и тот же голос, но каждая модель отличная, что одна радуется, другая говорит визгливым голосом и т.п. Не встречал никто грустных, гневных роботов и т.п.? Этого бы хватило, потом в RVC перегнать, ей пофигу какой там персонаж в оригинале озвучил. Ну может только максимально отличные типы голосов разедлить - мужской, женский, детский. Этого бы хватило, чем клепать тысячи разных персонажей, которые говорят дикторским голосом.

Аноним 10/12/23 Вск 01:56:29 № 568817 127

>>567231
Там вообще нет возможности бесплатно TTS запускать? Мне несколько месяцев назад писали, что можно >>358924 → Но я правда забил и не тестил, ведь есть тот же EdgeTTS.

Аноним 10/12/23 Вск 19:36:14 № 569249 128

Аноны, у меня у одного перестал этот TTS работать?
https://huggingface.co/spaces/elevenlabs/tts

Выдает ошибку:

>RateLimitError('This request exceeds your quota. You have 0 characters remaining, while 103 characters are required for this request.')

Аноним 10/12/23 Вск 21:44:49 № 569330 129

>>568817
Похоже что нет. Вообще странность, что докуя онлайн голосовых сервисов бесплатных, но за стационарное плати.

Аноним 10/12/23 Вск 22:30:28 № 569361 130

>>556148
со второй просто начал хрюкать

Аноним 11/12/23 Пнд 17:23:23 № 570032 131

Аноны есть русская TTS по качеству лучше или сравнимо с silero, но на GPU, а то на ЦП пиздец долго даже не на самом донном проце.

Аноним 11/12/23 Пнд 17:26:08 № 570035 132

>>570032
Да под русской я имею ввиду что бы на русском адекватно воспроизводила текст.

Аноним 11/12/23 Пнд 18:45:42 № 570115 133

>>570032
>silero, но на GPU, а то на ЦП пиздец долго
Силеро долго? Ты уверен, что у тебя не дно? Оно на смартфоне работает х10.
Кстати, когда тестировал, силеро у меня на GPU (3080Ti) работало медленнее, чем на проце (на тот момент 5090х), лол.
Кидай своё железо, а то я знаю ваше "не самое донное".

Аноним 11/12/23 Пнд 18:52:45 № 570124 134

>>570115
Проц ryzen 7 5700x видюха не важно с ней проблем пока нет. Может у нас разное понятие под долго но примерно 10 часов звука за час делает. При том что RVC на GPU тот же час за минуты 3 делает.

Аноним 11/12/23 Пнд 19:27:11 № 570168 135

>>570124
Ебать что ты там такое звучишь?
>ryzen 7 5700x
Ну... Не шик, но окей, уговорил, не дно.
>10 часов звука за час
х10, я прям ванга.
>RVC на GPU тот же час за минуты 3 делает
Тот же, или просто час? Если просто час, то это х20, то есть ускорение относительно силеро всего в 2 раза.
Ну и да, запусти силеро на ГПУ, в чём проблема то?

Аноним 11/12/23 Пнд 19:31:06 № 570172 136

>>570168
>Ебать что ты там такое звучишь?
Книги.
>Ну и да, запусти силеро на ГПУ, в чём проблема то?
Надо будет тогда погуглить, а то я сейчас не совсем напрямую запускаю.

Аноним 11/12/23 Пнд 19:31:41 № 570174 137

>>570172
а нук скинь пример

Аноним 11/12/23 Пнд 19:33:15 № 570179 138

>>570174
Пример чего? И через что скинуть, а то я давно это не делал, а все нормальные сервисы типо ргхоста уже давно отлетели.

Аноним 11/12/23 Пнд 19:34:15 № 570184 139

>>570179
на ютуб залей хз

Аноним 11/12/23 Пнд 19:34:30 № 570187 140

>>570179
пример книги которую озвучиваешь

Аноним 11/12/23 Пнд 19:36:17 № 570194 141

>>570187
Завтра если не забуду скину. Хотя зачем я не совсем понял ибо там ничего необычного нет silero нормально отрабатывает.

Аноним 11/12/23 Пнд 19:39:41 № 570201 142

>>570179
Пример кода я думаю.
>>570179
>а все нормальные сервисы типо ргхоста уже давно отлетели.
Гитхаб всё ещё работает. А так https://rentry.co

Аноним 11/12/23 Пнд 20:06:44 № 570241 143

Оцени пока мою озвучку крипистори>>570194

Аноним 11/12/23 Пнд 20:15:05 № 570245 144

>>570241
Ну я плюс минус до такого же уровня дошел. Только без фонового звука. Мне хватает. Голос только пока не нашел еще чтоб прям нравился.

Аноним 11/12/23 Пнд 20:21:25 № 570257 145

>>570245
ну я звук на фон поставил потому что это страшилка как никак.

Аноним 11/12/23 Пнд 20:24:02 № 570263 146

>>570257
Я то для себя в основном пилю. Ибо читать не то что бы влом, но глаза лишний раз неохото напрягать.

Аноним 11/12/23 Пнд 21:13:56 № 570323 147

>>570241
Ну тут прям видно, что голос искусственный. Ты убирал пробелы между фразами?

Аноним 11/12/23 Пнд 21:34:59 № 570353 148

>>570323
какие пробелы?

Аноним 11/12/23 Пнд 22:31:23 № 570454 149

Аноним 11/12/23 Пнд 23:21:08 № 570492 150

>>552016 (OP)
https://www.weights.gg | https://voice-models.com
Сап двач. Как использовать эти модельки? Куда их можно вставить? А то я что-то не шарю в нейронках.

Аноним 11/12/23 Пнд 23:47:50 № 570509 151

изображение.png 83Кб, 853x241

>>570492
А теперь читаешь все материалы в шапке по этим трём буквам.

Аноним 11/12/23 Пнд 23:53:39 № 570516 152

>>570509
Что за сайт с моделями?

Аноним 12/12/23 Втр 03:38:58 № 570654 153

>>570509
Благодарю.

Аноним 12/12/23 Втр 09:53:55 № 570788 154

>>570492
птх файл в папку вейтс и моделс а индекс в папку с названием птх файла и в папку логс

Аноним 12/12/23 Втр 16:46:48 № 570996 155

Ананасы, пользоваться RVC в облаке больше нельзя? Сторонние сайты прикрыли фишку с бесплатным ElevenLabs, а оплатить подписку конкретно на их сайте без иностранной карты нельзя.

Получается, для озвучки остался только один вариант: генерация стандартным голосом из доступных -> замена этого голоса на нужный мне через RVC. Компьютер его вряд ли потянет, а в облаке было бы здорово. Сплошная ебанина, короче

Аноним 12/12/23 Втр 19:42:07 № 571311 156

>>552016 (OP)
Тред не читал
Надо распознавать где-то 25 часов лекций на русском в неделю. Вручную это делать больно и неприятно. Платно горько и обидно. Что можно сделать в данной ситуации? Есть ли бесплатные ИИ решения или хотя бы то что можно собрать на своем компе?

Аноним 12/12/23 Втр 20:08:33 № 571352 157

>>571311
whisper

Аноним 12/12/23 Втр 20:08:57 № 571354 158

>>571311
Whisper

Аноним 12/12/23 Втр 22:57:09 № 571547 159

>>570996
>Компьютер его вряд ли потянет
а ты попробуй. он не такой тяжелый, только памяти надо дохуя

Аноним 13/12/23 Срд 08:35:40 № 571712 160

Парни, кто может натренировать модель? По деньгам договоримся

Аноним 13/12/23 Срд 10:24:57 № 571738 161

Силеро не генерирует аудио из текста длиннее 1000 символов. Как обойти ограничение?

Аноним 13/12/23 Срд 13:40:12 № 571833 162

>>571712
я могу, что надо?

Аноним 13/12/23 Срд 15:48:46 № 571924 163

Аноним 13/12/23 Срд 15:50:23 № 571926 164

Аноним 13/12/23 Срд 16:03:25 № 571933 165

>>571738
а ты какое силеро юзаешь?

Аноним 13/12/23 Срд 16:04:09 № 571935 166

>>571933
бот или питоновский силеро из треда

Аноним 13/12/23 Срд 20:33:15 № 572107 167

>>552016 (OP)
ОП, прочитал гайды, но не совсем понял - написанно, что текст в речь нельзя научить нужному голосу. У меня есть запись 10+ минут голоса, мне нужно поставить офлайн софтину, скормить ей этот голос и потом писать текстом, а софтина должна преобразовывать текст в голос, на основе созданной модели. Такое возможно?

Аноним 13/12/23 Срд 20:35:17 № 572108 168

>>572107
Именно такое пока что нет. Но можно немного изловчиться. Просто юзать какие либо ттски. Например силероТТС или эджТТС и потом их через рвс с нужной моделью прогонять. Вот. Сравни.

Тред. Скажи, что лучше?

Аноним 13/12/23 Срд 21:23:38 № 572155 169

>>572108
Все три звучат как робот с задержкой в развитии. Всё-таки лучше ElevenLabs ещё ничего не придумали. Я наверное умру от старости, когда у них наконец появится нормальный конкурент

Аноним 13/12/23 Срд 21:36:11 № 572161 170

>>572107
Придётся использовать связку утилит - любую TTS (Text To Speech) и RVC. В качестве TTS мне больше всего зашла EdgeTTS, но она работает через бесплатное API Microsoft'а; если этот момент для тебя принципиален - глянь SileroTTS.

Полученную через TTS дорожку потом конвертишь к нужному голосу через RVC. И вот для RVC уже можно обучать свои модели - датасета в 10 минут должно хватить.

Кто-то реализовывал конвеера, которые сразу из текста делают генерацию нужным голосом через связку TTS+RVC (в шапке есть инфа, но мало) на Gradio-интерфейсах, но я их не смотрел и профукал ссылки. Может пробовали какие-то решения?

>>572108
Второе больше всего похоже на оригинал.

Аноним 13/12/23 Срд 22:42:45 № 572230 171

>>571935
Пробовал и в блокноте колаба, и локально, всё равно есть ограничение.

Аноним 14/12/23 Чтв 04:17:53 № 572616 172

>>572108
Пробуй юзать SSML-режим. Там можно ставить паузу сколько тебе нужно между словами, можно использовать параграфы, дохуя всего короче.
Тред, а вы не пробовали записывать свой собственный голос, а потом прогонять его через RVC? Опционально изменить питч/скорость изначальной дорожки.

Аноним 14/12/23 Чтв 05:58:11 № 572639 173

>>572230
хммммм. я делал пасты и на 2к символов и ничего

Аноним 14/12/23 Чтв 05:58:32 № 572640 174

>>572616
>SSML
Че?

Аноним 14/12/23 Чтв 06:08:55 № 572646 175

>>572640
https://colab.research.google.com/github/snakers4/silero-models/blob/master/examples_tts.ipynb
Скролль до SSML.
>>572639
Опытным путём выяснил, что длина аудиозаписи не должна превышать минуту, иначе выкидывает ошибку. Ты где и как генерировал?
Щас попробовал пропустить свой скрипучий голос через RVC гг-женщины из киберпанка, результат плохой, гораздо хуже silero. Какой-то некоарк-пидор выходит.

Аноним 14/12/23 Чтв 06:09:39 № 572647 176

Аноны поясните нуфагу плиз что это за пиздец? Одну дорожку переработал, дальше всё, это уебище вылетает на половине обработке и дальше тупо не генерит. Инет нормальный.

Аноним 14/12/23 Чтв 06:10:28 № 572649 177

>>572647
Ты окошко командной строки не закрыл случайно?

Аноним 14/12/23 Чтв 06:12:33 № 572651 178

>>572649
Неа, оно открыто всегда. Первый раз когда запускаю, загрузка кавера до половины доходит и вылетает эррор. При следующих попытках эррор сходу вылетает пока не перезапущу. При этом в первый раз у меня всё получилось сгенерить сразу.

Аноним 14/12/23 Чтв 06:18:54 № 572656 179

1.png 131Кб, 1703x615

>>572647
У меня вот такое вот в консоли в момент когда ошибка вылезает

Аноним 14/12/23 Чтв 06:29:30 № 572661 180

>>572646
https://github.com/hinaichigo-fox/rus-silero-webui вот тут делаю. За ССМЛ спасибо

Аноним 14/12/23 Чтв 06:35:59 № 572662 181

>>572647
Короче я разобрался у меня видимо компик дерьмовый слишком длинные песенки не вывозит почему то, прийдётся ебаться с обрезкой и склеиванием

Аноним 14/12/23 Чтв 06:43:57 № 572664 182

>>571833
натренировать модель под rvc, как свзяаться с тобой можно?

Аноним 14/12/23 Чтв 06:48:15 № 572665 183

>>572664
тг скинь напишу

Аноним 14/12/23 Чтв 07:26:56 № 572680 184

>>572661
Я тебе рекомендую на своей машине генерить, а не в колабе. У меня хром например не позволяет скачивать получившийся файл, при попытке открыть в отдельном окне просто закрывается.

Аноним 14/12/23 Чтв 07:31:40 № 572681 185

>>572680
ну дак я и делаю это локально

Аноним 14/12/23 Чтв 11:23:17 № 572804 186

>>572664
@nyanmyash

Аноним 15/12/23 Птн 12:10:29 № 573716 187

Что ему надо то? В факе написано что там ВСЁ включено и никаких библиотек с питонами не надо.

Аноним 15/12/23 Птн 13:22:35 № 573749 188

>>573716
Похоже на то, что у тебя часть файлов почему-то отсутствует. В папке runtine должен быть python.exe, но у тебя этого файла почему-то нет. Может антивирь потёр? Или поменяли что-то в последних версиях, я давно не обновлялся уже.

Аноним 15/12/23 Птн 14:25:11 № 573772 189

Как же ЫлэвынЛабз невыносимо жалко ПРОСТО дать поиграться с мемчиками и песенками бесплатно без регистрации мокрые писечки. 58 секунд максимум за раз, видос не больше 20 мегов. Принимает исключительно шебм, а выдаёт почему-то битые mp4 с какчеством звука уровня жёваной на электронике-302 кассеты. Норовит вставить всякую левую отсебятину про субтитры-подпиську-просмотр. То чёткое произношение вообще не распарсит, то неправильно переведёт, то превратит в лепет, то в шизофазию, то простое слово оставит без перевода. Просто взять напрямую со своего ойпи загрузить видос - хренушки, только один. Режим инкогнито после примерно десятка кусков подряд перестаёт выдавать ссылку на скачивание. Тор и тот через задницу помогает - каждую попытку всё стало открываться меееедленно, чтобы я заебался ждать пока очередная нода покажет "форбидден".
хотя логично - а то немедленно сайт задудосит всяким говном, вайпом, 10-часовыми стримами, фильмецами, политотой и проном

Аноним 16/12/23 Суб 09:40:18 № 574502 190

подскажите пожалуйста текста/скрипиты для начитки, создания базы для собственной модели
или где их взять

Аноним 16/12/23 Суб 14:58:55 № 574648 191

>>574502
тебе текст какой то нужен для того чтоб записать голос? Да хоть колобка читай главное чтоб качество было хорошее

Аноним 16/12/23 Суб 17:59:45 № 574821 192

>>574648
понял, спасибо, думал может есть какие-то специализированные уже

Аноним 17/12/23 Вск 00:09:07 № 575118 193

Здравствуй, анон. Нет денег, есть rtx4070, конденсаторный мик и звуковая карта, а также подготовленное помещение и, самое главное, время.
Подскажи, пожалуйста. Мне нужно изменять свой голос в реалтайме. Получается нужен только RVC? Пишу сэмплы и использую готовый датасет? Но какой? С английским датасетом проскакивает акцент, с японским вроде все нормально (в прошлых тредах прочел). Или мне самому нужно делать русский датасет, но это непосильная работа для одного. Что же делать?

Аноним 17/12/23 Вск 07:50:46 № 575324 194

>>555275
Бля. У меня всего 16, уже думал попробовать, а ты так обламываешь блин.

Аноним 17/12/23 Вск 09:03:53 № 575337 195

>>575324
Он долбоеб просто, силеро+вад, умеет резать/склеивать автоматически. Хуяришь чанки по 10 минут и вперед.

Аноним 17/12/23 Вск 09:39:26 № 575345 196

>>570032
В общем если кому интересно загуглил и примерно разобрался в проблеме. silero заколхозил на использование через gpu. И скорость я скажу мое почтение примерно в 6 раз быстрее прогнал примерно тот же объем текста чем я это делал на cpu.

Аноним 17/12/23 Вск 13:35:42 № 575460 197

>>575118
На RVC акцент минимальный вне зависимости от языка, используемого в датасете. Ты скорее всего про SVC читал, там акцент заметнее.

> Получается нужен только RVC?
Для изменения голоса в реальном времени либо RVC, либо Voice Changer: https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/Voice‐Changer

Аноним 17/12/23 Вск 15:58:29 № 575557 198

>>575460
>На RVC акцент минимальный
Спасибо. Тогда не буду заморачиваться с "датасетом с нуля".

Аноним 17/12/23 Вск 18:47:41 № 575695 199

>>552016 (OP)
Блять, аноны, какие же вы молодцы! Всё так по полочкам разложили, организовали! Вот она - сила двача

Аноним 18/12/23 Пнд 05:04:30 № 576299 200

существует ли open-source TTS (хотя бы для английского) сопоставимый по качеству с ElevenLabs? Те, что описаны в шапке, явно слабее.

Аноним 18/12/23 Пнд 06:36:23 № 576313 201

>>576299
пока еще нет

Аноним 18/12/23 Пнд 11:44:00 № 576411 202

>>576299
>сопоставимый по качеству с ElevenLabs
Даже там приходится постоянно ролить результат и высчитывать количество символов за раз, чтобы оно хотя бы постаралось звучать нормально

Аноним 18/12/23 Пнд 11:44:28 № 576412 203

>>572664
ну и куда ты ушел?

Аноним 18/12/23 Пнд 11:46:44 № 576413 204

StS через RVC будет таким же хорошим по качеству, относительно хорошо сгенерированного текста в ElevenLabs, или хуже?

Аноним 18/12/23 Пнд 11:51:34 № 576415 205

>>576413
в зависимости от модели

Аноним 18/12/23 Пнд 11:52:35 № 576417 206

>>576413
> StS через RVC будет таким же хорошим по качеству, относительно хорошо сгенерированного текста в ElevenLabs, или хуже?
depends от качества модели, но в большей мере от погоды на марсе. иногда идеально выходит, иногда с артефактами. прямой зависимости от качества инпута я не наблюдаю, можно идеально записать исходник, но оно все сжует, а можно плохо напердеть в микрофон и получится хорошо. пробуй, если нет своей карточки, можно арендовать сервер. правда не знаю, где дешевле, мне tesla t4 за 30 рублей в час дают, но наверное можно и дешевле

Аноним 18/12/23 Пнд 19:56:22 № 576795 207

>>564287
Лучше объясни как проплатить подписку на елевен лабс

Аноним 18/12/23 Пнд 20:15:41 № 576813 208

https://youtu.be/qCAHyBb6SD0?si=GSEUelE0UhI7J8sh
Какой нейросеткой сделана эта озвучка?

Аноним 18/12/23 Пнд 22:19:16 № 576958 209

>На eleven labs появился speech to speech
А вот кто пользовался, если я надиктую текст на своём английском, он поправит мне акцент на выходе, оставив только мой голос, или результат получится таким же ужасным, как и на входе?

Аноним 18/12/23 Пнд 23:02:54 № 576990 210

>>576958
>или результат получится таким же ужасным, как и на входе
Говно на входе- говно на выходе, акцентов только больше станет, лол.

Аноним 19/12/23 Втр 18:40:21 № 577684 211

>>576958
Честно говоря так себе, инпут должен быть идеально чистым, но акцент всё-таки убирает. Я не знаю, как он у них работает под капотом. По-моему, также как в дубляже, сначала speech-to-text, потом text-to-speech. У меня он меняет слова на выходе (скорее всего плохо понимает из-за акцента).

Аноним 19/12/23 Втр 23:04:25 № 577901 212

>>577684
>инпут должен быть идеально чистым, но акцент всё-таки убирает
То есть, в принципе я могу озвучить что-нибудь с горем пополам, запихнуть это в StS, выбрать для выходного результата свой собственный голос, и он выдаст мне мой же текст, но уже без акцента?

Аноним 20/12/23 Срд 04:56:23 № 578202 213

>>552016 (OP)
Нужно как то вокал подчистить, слишком много автотюна накрутило

Аноним 20/12/23 Срд 06:27:29 № 578270 214

>>578202
Проще эффектов каких нибудь накатить чем чистить

Аноним 21/12/23 Чтв 10:56:30 № 579283 215

>>576958
Кстати по-разному было, когда с "дубляжом" песенок игрался. То голос становится няшнее чем было, то наоборот металлическо-противным. То в оригинале гипертрофированный акцент, а на выходе обычное произношение. То на входе стандартный язык, а на выходе спик фром май харт. А качество самой записи точно повторяет, все завалы частот и шумы, даже уровень в децибелах и всякий паразитный фон.

Аноним 21/12/23 Чтв 11:17:51 № 579292 216

geschwader1.1.mp4 8949Кб, 654x480, 00:00:04

>>576411
> постоянно ролить результат
Тоже бесит. Мог сделать СЕМЬ попыток и всё равно ничего путного не получить. Хоть одно место, но запорото. А может и с первого раза выдать всё идеально.
как вообще один и тот же кусок абсолютно по-разному обрабатывается, где логика?

Аноним 22/12/23 Птн 00:46:07 № 579821 217

>>577901
в теории - да, но на практике, как всегда, есть нюансы,
но должен признаться, качество у них растет.
главная проблема - это стоимость всего этого удовольствия.

Аноним 23/12/23 Суб 12:55:31 № 580966 218

>>552016 (OP)
Анон, тред читал по диагонали, не обессудь. Сейчас очень много информации по нейросетям, все сразу уяснить невозможно.

Интересует вопрос: что нужно для того, чтобы обучить нейронку в домашних условиях? Цель - создать диктора для чтения художественной литературы. Возможно, придется использовать свой голос для обучения. Не хотелось бы делать это на сторонней платформе. Либо же нужен бесплатный вариант хорошего русскоязычного диктора, поскольку это хобби - проект, а текста много.

Аноним 23/12/23 Суб 13:04:22 № 580971 219

>>579292
О, ещё один глюк обнаружил - "залипание" на интонациях и эмоциях. Если в начале куска ор/визг - в переводе такой же визг до самого конца, даже если там на шёпот переходят. В начале спокойный голос - на выходе тоже вялый на всём видосе, даже если в конце в оригинале припев гроулом.
вот не знаю, как оно обрабатывает у тех, кто там зарегился и даже забашлял. Может и лосслесс стерео выдаёт?

Аноним 23/12/23 Суб 13:29:37 № 580992 220

>>580966
>обучить нейронку в домашних условиях
хорошая видюха и датасет.

Аноним 23/12/23 Суб 14:05:03 № 581019 221

>>580966
могу те с этим помочь. ТГ есть?

Аноним 23/12/23 Суб 19:10:51 № 581372 222

Имя отутствует.mp4 4464Кб, 512x512, 00:00:30

>>580966

Аноним 23/12/23 Суб 21:51:42 № 581600 223

>>580992
Хороший совет, но не хватает конкретики. "Хорошая" - понятие растяжимое. Нужно хотя бы минимально необходимое количество памяти указать.

>>581019
Спасибо, анон, но наверняка все не обойдется только одним обучением, потом не единожды потребуются корректировки. Да и хотелось бы самому понять, что и как.

Аноним 23/12/23 Суб 21:56:28 № 581615 224

>>581372
На русскоязычного диктора это слабо тянет, лол. Разве что фанфики в порядке лулзов зачитывать.

Аноним 24/12/23 Вск 02:16:56 № 582155 225

>>575337
Так у меня rvm же...

Аноним 24/12/23 Вск 10:33:02 № 582354 226

>>581600
>Хорошая" - понятие растяжимое
чистый звук и минимум 15 минут речи

Аноним 24/12/23 Вск 13:14:22 № 582483 227

>>582354
Ты обгенерировался звуком, что ли, анон? Я спрашиваю про видеокарту.

Аноним 24/12/23 Вск 13:23:58 № 582493 228

>>582483
а. ну 3080 хватит вполне

Аноним 24/12/23 Вск 16:52:36 № 582708 229

А вот какие сетки тут использовались?

Аноним 24/12/23 Вск 19:31:12 № 582835 230

>>582483
Жеска. Ясно, спасиба.

Аноним 25/12/23 Пнд 08:51:11 № 583461 231

И всё-таки может бац и с первого раза выдать шедевр.

Аноним 25/12/23 Пнд 14:39:06 № 583585 232

>>580971
> "залипание"
Вот из-за чего бабы-стервы не получались никак. Обрезал начиная с припева - вот теперь идеально, а не невнятный полушёпот как в куплете.
хотя без унтертителей не обошлось и "вир фрауэн зынд шлампен/хурен" не нароллил

Аноним 25/12/23 Пнд 16:44:14 № 583633 233

Треды не читал гуглить не гуглил.

Кто-то уже сделал хотябы пруфофконцепт озвучки ЖоЖо на русском но с голосами оригинальных сэйю?

https://www.youtube.com/watch?v=vZOwxCh4S44

Аноним 25/12/23 Пнд 18:12:23 № 583662 234

>Нейронка которую мы ждали: генерация музыки по промпту
>Нейронка которую мы получили:

Аноним 25/12/23 Пнд 21:20:17 № 583842 235

>>583662
Так это круто же, иногда такой музон в голове играет, что прям аж жалеешь, что пропадает. Крутая штука для композиторов, как по мне, хоть я больше любитель-теоретик в музле. У меня, например есть старая .gpt, которая проебалась, но я оттуда мотив помню. Можно восстановить и сделать полноценный трек. Вообще, нейронки для творчества - суперкрутая вещь, прямо приятно эту революцию наблюдать, раз за разом охуеваешь от возможностей.

Аноним 26/12/23 Втр 20:24:53 № 584620 236

Может кто пояснить это я туплю или у меня подели хуевые попадаются. В общем нужна ли дополнительно тонкая настройка для RVC моделей или нормальные модели и из "коробки" отлично работают? Может с индексом какие нюансы есть? Я в logs закидываю, да и в интерфейсе он их по идее находит.

Аноним 26/12/23 Втр 23:28:42 № 584766 237

Аноны, можете пожалуйста посоветовать всяких тянских rvc моделей? Всяких там игерл и тому подобного.

Аноним 27/12/23 Срд 00:14:14 № 584802 238

Аноны, помогите что ли немного. Хочу подавать свой поток wav байтов по сети в w-okada/voice-changer напрямую, как это проще сделать? В исходниках какой-то треш, не могу понять, как оно на фронте работает и какие методы у сервера вызывает. Есть тут, кто разбирался?

Аноним 27/12/23 Срд 14:47:43 № 585252 239

>>584620
Да, их нужно подстраивать под себя, особенно если у тебя амд карта, но в целом можешь просто посмотреть какие настройки на чем лучше использовать, такой инфы много.

Аноним 27/12/23 Срд 16:38:04 № 585317 240

>>585252
Может я не правильно сформулировал, модели работают, но голос порой сильно или не очень отличается от желаемого оригинала

Аноним 27/12/23 Срд 23:33:14 № 585523 241

>>585317
Есть параметр tune, его под себя настраиваешь, что-то около 17 обычно подходит.

Аноним 28/12/23 Чтв 16:09:24 № 585848 242

image.png 18Кб, 1104x247

Есть какой-нибудь гайд для альтернативно-развитых, чтобы было хорошо и не было плохо? Голос звучит немного как робот, хотя семпл хороший

Аноним 28/12/23 Чтв 22:46:23 № 586182 243

>>585848
Я немного не вдуплил, это ведь не w-okadaвский войсчендже, так?

Аноним 28/12/23 Чтв 22:56:37 № 586188 244

Вопрос: для распознавания голоса, лучшее open-source решение это whisper?

Аноним 28/12/23 Чтв 23:37:33 № 586218 245

>>585848
>>586182
Это единственные доступные настройки в ElevenLabs. Я так и не понял как ими пользоваться нормально, постоянно чего-то не хватает

Аноним 30/12/23 Суб 13:23:57 № 587082 246

Подскажите видео с президентом чтобы обучить eleven labs

Аноним 30/12/23 Суб 16:12:09 № 587159 247

>>587082
> видео с президентом

Аноним 30/12/23 Суб 17:41:48 № 587218 248

>>518695 →
>>518696 →
А как вместо аудио сделать видео? Ты просто в видеоредакторе пикчу подставил?

Аноним 30/12/23 Суб 19:16:15 № 587257 249

>>587218
А как липсинк подставить?

Аноним 31/12/23 Вск 00:33:43 № 587486 250

>>585848
У меня бывало такое когда семпл слишком короткий.
Настройки по умолчанию, норм., но при каждой попытке будет
ощутимо отличаться интонация.

Аноним 31/12/23 Вск 08:49:04 № 587671 251

>>585848

Аноним 01/01/24 Пнд 18:35:44 № 588634 252

Есть модель голоса диктора из 90х?
https://www.youtube.com/watch?v=lSuZmr3-UVs

Аноним 01/01/24 Пнд 22:50:08 № 588882 253

>>576299
Эти пидоры еще демо прикрыли

Аноним 01/01/24 Пнд 22:55:45 № 588887 254

image.png 15Кб, 427x122

Демке ElevenLabs поставили лимит
Есть способ обойти? Чистка кэша не помогла

Аноним 02/01/24 Втр 07:49:32 № 589178 255

>>588887
Купить подписку

Аноним 02/01/24 Втр 10:34:28 № 589285 256

>>588887
Дерни роутер
Зайди через инкогнито
Зайди через другой бразуер
Зайди с другого устройства
Сделай все вместе
???
Профит.

Аноним 03/01/24 Срд 22:01:57 № 590717 257

Доброго времени суток, уважаемые. Мне нужно узнать как мне преобразовывать текст в аудиодорожку. Быстро, удобно, и как угодно.

Аноним 06/01/24 Суб 17:09:28 № 593187 258

С новым годом нейроголосач!
Желаю вам хороших моделей в этом году!

Аноним 06/01/24 Суб 23:50:58 № 593518 259

>>593187
>06/01/24
>С новым годом
Тебя даже новогодний шум не разбудил?

Аноним 07/01/24 Вск 02:43:59 № 593706 260

>>552016 (OP)

Аноним 07/01/24 Вск 10:45:41 № 593886 261

>>593518
только отпустило

Аноним 10/01/24 Срд 21:57:09 № 600509 262

8ш6щ668щь6868щ6[...].mp4 15986Кб, 896x1344, 00:01:41

Аноним 10/01/24 Срд 23:43:33 № 600740 263

>>593706
Зелёный слоник уже не в моде?

Аноним 11/01/24 Чтв 17:11:19 № 601786 264

>>552016 (OP)
Аноны, кто-то из вас может предположить как сделана озвучка на этом видео? Со всеми вздохами и интонацией?

Аноним 11/01/24 Чтв 17:28:09 № 601820 265

>>601786
походу анон просто записал свой голос а потом прогнал через рвс

Аноним 11/01/24 Чтв 17:45:50 № 601861 266

>>601786
это оригинал, рвс оставляет ключи в аудио, тут их нет.

Аноним 11/01/24 Чтв 17:57:59 № 601892 267

>>601861
какие ключи?

Аноним 12/01/24 Птн 01:22:05 № 603054 268

Да, ElevenLabs конечно делает красиво, но все оплаченные символы ушли как дети в школу, хотя сначала кажется, что их дают довольно много. Вот Speech to Speech вроде бы может решить эту проблему, но где достать хороший входной голос, который был бы похож на человека? Если сначала озвучить через какой-нибудь Гугл переводчик, то в ElevenLabs на выходе всё равно получается тот же робот, хотя уже и с нужным голосом. Короче говоря, где можно найти бесплатную говорилку с нормальными человеческими интонациями, чтобы скормить её в Speech to Speech?

Аноним 12/01/24 Птн 18:06:27 № 604781 269

Анонче, есть чистый, минутный сэмл где вайфу на японском базарит без лишнего шума, но елевенлабс всё ещё выдаёт некачественную обработку, не уровень всяких ДЫО и Жотаро, которые на инглише почти как на радном болтают. Мне получается нужно больше сэмплов найти? Пойдёт просто нарезка этого же семпла с каждой фразой по отдельности?

Аноним 12/01/24 Птн 18:16:31 № 604791 270

>>604781
Не пробовал на RVC модель обучить? Видел, что писали, что если датасет качественный, то минуты как раз хватит. Правда я сам не проверял.

Аноним 12/01/24 Птн 18:19:12 № 604797 271

>>604791
Ставил тортойз, но он на этапе загрузок некоторых библиотек выдавал ошибку и слал нахуй

Аноним 12/01/24 Птн 18:22:51 № 604802 272

>>604797
RVC это STS (изменение голоса), а Tortoise это TTS (синтез голоса), насколько я понял. Tortoise можно дообучать на свой голос?

Аноним 13/01/24 Суб 04:01:19 № 605780 273

>>552016 (OP)
>Ultimate Vocal Remover:
кал ёбаный блядь
Установил себе на линукс мастер - в нем гпу не используется независимо от того, ставлю я чек на gpu conversion или нет.
5.6 вообще не ставиится из-за конфликта зависимостей requirements.txt
У проекта полна жопа ишшью на гитхабе, чел ебёт вола, играется с фоном программки и шрифтами сместо того, чтобы обеспечить базовый функционал

Аноним 13/01/24 Суб 08:00:22 № 605900 274

>>605780
ну хз. у меня бубнта все норм поставилось

Аноним 13/01/24 Суб 13:18:08 № 606088 275

>>605900
1. какой тег ставил?
2. какая версия питона у тебя?

Аноним 13/01/24 Суб 17:01:12 № 606465 276

>>606088
в смысле тег?

Аноним 13/01/24 Суб 17:01:39 № 606466 277

image.png 2Кб, 180x35

>>606088
питон 3.10.11

Аноним 13/01/24 Суб 17:04:13 № 606470 278

>>606088
вот такие настройки

Аноним 13/01/24 Суб 17:41:34 № 606533 279

>>605780
>линукс
дальше не читал

Аноним 14/01/24 Вск 03:25:55 № 608506 280

>>606533
я знаю, что читать - не входит в стандартные умения виндузятников, ты мог мне не напоминать лишний раз.
>>606465
в репозитории гитхаба есть теги. Обычно версии программы равны тегам.

Проблема с UVR как-то сама решилась, я не знаю как. Он начал использовать видеокарту.

альсо моя первая проба пера, оценки приветствуются.

Аноним 14/01/24 Вск 05:36:54 № 608550 281

копипаста вован.webm 1210Кб, 1240x1281, 00:00:39

хы

Аноним 14/01/24 Вск 11:11:10 № 608652 282

>>608550
как делал?

Аноним 14/01/24 Вск 11:16:42 № 608657 283

>>608506
>Проблема с UVR как-то сама решилась
>линукс

Аноним 14/01/24 Вск 11:30:29 № 608672 284

Привет двачик, помогите пожалуйста. Есть mp4 на английском языке, хочу перевести его на русский. Как мне это сделать?

Аноним 14/01/24 Вск 12:53:42 № 608709 285

>>608672
Заплати переводчику.

Аноним 14/01/24 Вск 14:16:11 № 608820 286

>>608672
Whisper'ом можешь речь в текст перегнать и потом хоть через гугл перевести.

https://www.heygen.com/video-translate
Если тебе нужен перевод сразу в виде голоса, наложенного на видео, то есть такой онлайн-сервис. Понятия не имею, платная сейчас эта фича или нет.

Аноним 14/01/24 Вск 21:30:41 № 609303 287

Вот вроде было 50к символов, а вот уже и нету. Я даже не всё успел исправить в уже сгенерированном. Когда уже завезут бесплатное клонирование голоса и ТТС?

Аноним 14/01/24 Вск 22:27:52 № 609456 288

залетел спросить так как сам не слежу, есть уже что-то где можно закинуть текст книги и скочать аудиокнигу разумеется без смс и регистрации?

Аноним 14/01/24 Вск 22:46:03 № 609485 289

>>608652
как описано в ОП-посте - сначала silerotts, потом результат в RVC
>>609456
что мешает обучить свою модель под голос этого великого озвучатора https://www.youtube.com/watch?v=AmFNCJnPuz8 и слушать любфые книги, какие захочешь?

Аноним 14/01/24 Вск 23:01:24 № 609515 290

>>609485
>что мешает обучить свою модель
слабый комплюктор

Аноним 14/01/24 Вск 23:12:49 № 609535 291

>>609485
у меня есть балаболка но голоса оставляют желать лучшего, а современных йоба голосов как я понимаю в открытом доступе нет, да и все равно это костыльно

Аноним 14/01/24 Вск 23:29:16 № 609558 292

педопаста 1.webm 576Кб, 225x350, 00:00:41

>>609535
а что именно тебя не устраивает в голосах?
Вот я сделал вот эту озвучку теми инструментами, которые описаны в ОП-посте. Тебе такого качества не достаточно?

Что ты понимаешь под "йоба-голосами"?

Аноним 14/01/24 Вск 23:42:07 № 609587 293

>>609558
так я и спрашиваю есть что то что позволяет работать с большим объемом текста за раз с возможностью скачать результат?

Аноним 15/01/24 Пнд 02:57:17 № 609697 294

>>609587
а голова тебе для чего? Суешь книгу в питонячий код, который разделит её на фрагменты и озвучит - получаешь на выходе звуковой файл.
От силы строчек 10 кода займёт.

Аноним 15/01/24 Пнд 03:22:00 № 609708 295

>>609587
вот тебе пример первой страницы пелевинского iphuck-10
У SileroTTS заметна картавость местами, неправильные ударения и она не умеет называть числа из цифр.
По идее с числами можно бороться просто питоном заменяя их на дуквенные обозначения. С ударениями и буквами ё по идее должен бфыл справляться акцентуатор в TeraTTS, но он сломан в мастере и чел забил хуй на проект 4 месяца назад. Ну а с картавостью поможет только обучение нормальной модели.
Тем не менее вот тебе пруф оф концепт работы длинной озвучки.

Аноним 15/01/24 Пнд 07:11:43 № 609756 296

>>609485
понял

Аноним 15/01/24 Пнд 07:12:34 № 609758 297

>>609515
так есть обучение онлайн. в каггле например. я кидал выше

Аноним 15/01/24 Пнд 07:13:54 № 609760 298

>>609708
силеро ттс в плане прогонки дальше через рвс сильно уступает еджттс. Едж умеет и числа читать и ударения в большинстве случаев правильное

Аноним 15/01/24 Пнд 12:37:45 № 609999 299

>>609760
>Бесплатная, не требующая СМС и регистраций онлайн-система синтеза голоса от Microsoft.
>от Microsoft
фу блять

Аноним 15/01/24 Пнд 12:47:06 № 610002 300

Нейроаноны вопрос такой, есть опенсорсные/офлайн аналоги chirp/suno?

Аноним 15/01/24 Пнд 14:32:48 № 610192 301

>>609697
>>609708
пощадите я подпивас, а не кулхацкер

Аноним 15/01/24 Пнд 15:11:27 № 610277 302

>>609999
ОНА И БЕЗ ТЫРНЕТА РАБОТАЕТ. А ТО ЧТО ОТ МАЙКРОСОФТ ТАК ЭТО ПРОСТО ПРОГРАММА. ДАННЫХ ОНА О ТЕБЕ НЕ СОБИРАЕТ

Аноним 15/01/24 Пнд 15:12:37 № 610280 303

>>610192
так что тебе надо? Текст озвучить? Так силероттс и еджттс без ограничений вроде локально озвучивают. Я пасты и на 30 минут и на час озвучивал. Потом через рвс прогоняешь. Как модель делать? Так датасет с голосом нужен а потом онлайн можно. Если есть вопросы пиши в тред помогу.

Аноним 15/01/24 Пнд 21:06:41 № 610790 304

>>610280
>рвс
что такое рвс? Кстати, такой нубовопрос. Если все говорилки кажутся пресными, есть способ как-то эмоции расставить в тексте? может с помощью параллельной дорожки?

Аноним 15/01/24 Пнд 21:22:47 № 610807 305

>>610790
rvc это смысл этого треда

Аноним 15/01/24 Пнд 21:43:17 № 610824 306

>>610790
ну эмоции примерно можно добавить через SSML https://github.com/snakers4/silero-models/blob/6b0bb8a7637d791fbb7adf22c56af1c89758ff19/examples_tts.ipynb

Аноним 15/01/24 Пнд 22:04:16 № 610844 307

>>610807
>rvc это смысл этого треда
Elevenlabs

Аноним 15/01/24 Пнд 22:09:07 № 610847 308

>>610824
там через тэги?
А нельзя как-нибудь прям через внутреннее представление нейросети? Играть с параметрами эмбеддингов? Там наверняка есть проекции связанные именно с эмоциями.

Аноним 16/01/24 Втр 06:42:44 № 611132 309

>>610844
эмммм. нет. опенсурс вперед rvc топ!!!!

Аноним 16/01/24 Втр 12:15:20 № 611275 310

>>611132
С RVC ещё надо поебаться, чтобы он хорошо работал

Аноним 16/01/24 Втр 14:19:21 № 611381 311

>>611275
что именно надо сделать?

Аноним 16/01/24 Втр 15:29:15 № 611461 312

Люди, вы не знаете названия той программы, которая очень хорошо воспроизводила речь людей, которая была в обороте в форчане ровно год назад?
При помощи которой Джоан Роулиг заставляли зачитывать пасту you will never be a real woman или Эму Уотсон Мою борьбу.

Аноним 16/01/24 Втр 15:30:56 № 611464 313

>>611381
Поставить на комплюктор, как-нибудь натренировать модель (а хорошо может получиться не с первого раза), потом ещё нужно где-нибудь сгенерировать более-менее нормальный голос и уже только тогда можно сконвертировать его в нужный. В ElevenLabs это всё делается за пару минут, вот только нужно много платить

Аноним 16/01/24 Втр 16:55:26 № 611529 314

>>611464
ЩАС НАШИ БРАТКИ КИТАЙЦЫ ПОДНАЖМУТ И БУДЕТ ЛУЧШЕ ЕВЕНТЛАБС НАШ РВС!!!!

Аноним 16/01/24 Втр 17:00:18 № 611534 315

>>611464
ндааа, дейсвительно. этож целый час ебаться

Аноним 16/01/24 Втр 17:17:49 № 611550 316

>>611534
>этож целый час ебаться
Это когда ты уже знаешь как там всё работает, и что тебе нужно примерно делать

Аноним 18/01/24 Чтв 03:48:37 № 614996 317

Только вкатываюсь, как рвс тренируется вроде понял и оно плюс-минус нормально работает если я сэмплы сам записываю своим голосом и потом их прогоняю.
Есть ли какая-то хуйня чтобы натренировать ттс чтобы оно паузы и ударения расставляло как надо?

Аноним 18/01/24 Чтв 04:54:51 № 615009 318

>>614996
> Есть ли какая-то хуйня чтобы натренировать ттс чтобы оно паузы и ударения расставляло как надо?
Не думаю, что ты что-то однокнопочное найдёшь под такую задачу. Весь попенсорс по TTS какими-то васянами на коленке пишется.

https://habr.com/ru/articles/767560/
В TeraTTS пытались именно ударения пофиксить, но вышел какой-то кал, на мой взгляд.

https://github.com/coqui-ai/TTS
XTTS выкладывали какие-то скрипты для файнтьюна и обучения своих моделей с нуля, можешь их попробовать раскурить.

Аноним 18/01/24 Чтв 05:16:13 № 615012 319

>>615009
Спасибо. Я еще погуглил немного, но пока выглядит не очень радужно.

Аноним 18/01/24 Чтв 19:10:57 № 615669 320

>>565990
а можешь прогнать на итальянском?

Аноним 18/01/24 Чтв 22:00:08 № 615894 321

>>608672

Аноним 19/01/24 Птн 01:24:34 № 616112 322

>>615669
+ немецкая версия без кривых стыков

Аноним 19/01/24 Птн 02:29:16 № 616171 323

>>616112

охуеть. Но мат перводит плохо

последний запрос пожалуста

https://www.youtube.com/watch?v=_Hv-iypFLrU

Аноним 19/01/24 Птн 02:45:11 № 616174 324

>>615894
> время.mp4
Омерзительно, но в то же время ностальгически гипнотично.

Аноним 19/01/24 Птн 02:48:59 № 616175 325

>>616171
It failed.

Аноним 19/01/24 Птн 05:07:18 № 616216 326

>>616171
Что бы ещё попробовать...

Аноним 19/01/24 Птн 05:11:12 № 616217 327

Жалко нет латыни, иврита, белмовы, баскского, албанского...

Аноним 19/01/24 Птн 05:22:03 № 616221 328

>>616216
>>616217
мне б еще на итальянском что нибудь

Аноним 19/01/24 Птн 08:37:17 № 616254 329

carro di merda.mp4 4686Кб, 640x356, 00:00:58

>>616221

Аноним 19/01/24 Птн 09:07:00 № 616270 330

того же кринжа навалил, что и на немецком

Аноним 19/01/24 Птн 09:07:34 № 616271 331

Аноним 19/01/24 Птн 14:44:34 № 616807 332

Есть чё по STT лучше виспера? Кал же натуральный, ну. Кое-как понимает английский, а русский вообще ни в пизду, ни в красную армию.

Аноним 19/01/24 Птн 16:29:00 № 617086 333

Чуваки, ищу человека который сможет помочь спич ту спич

Аноним 19/01/24 Птн 16:40:41 № 617108 334

>>617086
За деревянные естественно

Аноним 19/01/24 Птн 19:57:40 № 617598 335

>>617086
а чем там помочь?

Аноним 20/01/24 Суб 00:19:12 № 618529 336

Аноним 20/01/24 Суб 00:19:47 № 618531 337

Ну а тут не знаю, ржать или плакать.

Аноним 20/01/24 Суб 06:15:08 № 619164 338

Аноним 20/01/24 Суб 08:55:44 № 619225 339

вся игра слов конечно заруинилась

Аноним 20/01/24 Суб 13:30:17 № 619460 340

>>617598
Спич2спич

Аноним 20/01/24 Суб 13:51:46 № 619469 341

>>619460
а че делать то? Модель обучить или просто прогнать голос через рвс?

Аноним 20/01/24 Суб 15:50:25 № 619589 342

>>619469
Обучить модельку (или найти готовую для рвс) и прогнать мою озвучку в голос модельки

Аноним 20/01/24 Суб 16:20:42 № 619627 343

>>619589
готов. кидай тг

Аноним 21/01/24 Вск 07:12:50 № 620870 344

самое современное что знаю

Аноним 22/01/24 Пнд 17:33:55 № 622448 345

>>552016 (OP)
Насколько RVC умеет в экстремальный вокал? Получить на подобии криков Рушии https://www.youtube.com/watch?v=PcvATSahB8o в сочетании с обычным возможно?

Аноним 22/01/24 Пнд 18:42:37 № 622595 346

https://riverside.fm/transcription
Вот это я понимаю, все бы нейронки такими были. ПРОСТО зашёл с ноги на сает, засунул туда что угодно и сколько угодно и играйся себе до усрачки.

Аноним 22/01/24 Пнд 21:17:37 № 622840 347

>>619589
так где ты анон?

Аноним 23/01/24 Втр 01:43:59 № 623142 348

Аноним 23/01/24 Втр 07:43:59 № 623351 349

Аноним 23/01/24 Втр 14:40:51 № 623660 350

Ебёна мать, я всего лишь хочу озвучить свой сценарий в Арме 3, а тут какую-то документацию курить надо, куда меня занесло...

Аноним 23/01/24 Втр 15:36:22 № 623733 351

дымбыр-дамбыр.webm 3556Кб, 320x240, 00:03:24

Какой нейронкой можно одним кликом перевести это to text?

Аноним 23/01/24 Втр 17:57:55 № 623918 352

Подскажите нейросеть которая меняет язык говорящего на другой

Аноним 23/01/24 Втр 18:43:37 № 623969 353

>>623918
в евент лабс все

Аноним 23/01/24 Втр 20:34:30 № 624152 354

>>623918
Из локальных rvc в шапке глянь.

Аноним 25/01/24 Чтв 02:53:28 № 625276 355

Анон, сейчас есть что то близкое к качеству Eleven Labs в плане TTS? На инглише.

Аноним 25/01/24 Чтв 14:53:16 № 625545 356

>>622448
Бамп

Аноним 25/01/24 Чтв 16:41:18 № 625737 357

image.png 13Кб, 790x230

Подписка на elevenlabs заканчивается через 4 дня. Анон можешь реквестировать что-либо

Аноним 25/01/24 Чтв 22:46:13 № 626337 358

Есть какая-нибудь нейронка, чтобы по одному клику бесплатно без реги можно было:
- "дорисовать" всратый/жатый некачественный монозвук с кассеты до вылизанного студийного стерео?
- отделить вокал от музыки и скачать оба файла? Если выход в вавках, то вообще круто.
консольно-пердольное с кучей команд тоже норм

Аноним 25/01/24 Чтв 22:47:38 № 626344 359

>>625737
Ну вот это на немецкий например)0

Аноним 25/01/24 Чтв 22:52:13 № 626350 360

Или это.
небось слишком тянуче и оруче, ничего не распарсит

Аноним 25/01/24 Чтв 22:53:45 № 626356 361

Тоже на немецкий порофлить.

Аноним 25/01/24 Чтв 22:57:06 № 626358 362

Всё, хватит.
ещё кто-то на итальянский просил что угодно, тоже можно всё это прогнать

Аноним 26/01/24 Птн 08:27:36 № 626716 363

Ладно, сам одну запилил. Ну вот так звучит блатняк на немецком, кек.

Аноним 26/01/24 Птн 11:06:45 № 626821 364

Поможет ли мне AI спик фром май харт без акцента? Я видел демку, где чучмекам заменяют их голоса на синтезированные, но мне надо, чтобы голос оставался мой. Не в реальном времени.

Аноним 26/01/24 Птн 11:35:37 № 626835 365

>>626356
эскадрон уже на все языки перевели мне кажется, смотри по тредам

Аноним 26/01/24 Птн 18:14:37 № 627218 366

А никто не пробовал еще https://github.com/myshell-ai/OpenVoice/ ?

Аноним 28/01/24 Вск 01:12:12 № 628793 367

>>622595
О, и сразу в виде сабов может распаршенный текст оформить. А вот что получается, если языка нет даже в этой широчайшей базе и выбираешь хоть как-то похожий...

Аноним 28/01/24 Вск 17:07:50 № 629291 368

Какая нейронка нужна чтобы извлечь японскую речь а потом преобразовать ее в русскую? Чтобы перс говорил голосом как на японском но русскими словами.

Аноним 28/01/24 Вск 20:12:07 № 629512 369

>>629291
Локалок под такое не завезли. Можешь через elevenlabs или heygen сделать. Везде лимиты на бесплатных тарифах.

https://elevenlabs.io/dubbing
https://labs.heygen.com/video-translate

Аноним 29/01/24 Пнд 09:11:08 № 630013 370

изображение.png 10Кб, 715x212

>>622595

Аноним 29/01/24 Пнд 16:25:34 № 630274 371

>>626337
Нет

Аноним 29/01/24 Пнд 17:32:37 № 630343 372

>>626337
> - отделить вокал от музыки и скачать оба файла? Если выход в вавках, то вообще круто.
Здесь глянь:
https://2ch-ai.gitgud.site/wiki/speech/#разделение-вокала-и-инстументалки

Работает хорошо только на композициях с малым числом инструментов.

Аноним 30/01/24 Втр 14:13:52 № 631010 373

>>552016 (OP)
Как сделать чтобы голос ебаным противным металлом не отдавал? От чего это вообще зависит? От качества песни? Да вроде нихуя я попробовал кавернуть несколько идеальных песен без посторонних шумов(чистил их через UVR звучали идеально в итоге) и с ровным голосом всё равно этой хуйнёй в некоторых моментах отдавало. От используемой модели голоса? Вот тут хуй знает, но идеальных мне не попадалось хотя я использовал не то что бы мало. При этом на ютубе смотрю видосики с каверами ну там прям небо и земля, есть такие где даже очень сложные песни сетки поют сука с идеальной интонацией без скрежетящего говна. Может я что-то не так делаю? Каверю вроде по гайду через RVC.

Аноним 30/01/24 Втр 15:46:30 № 631104 374

>>631010
Зависит от исходника вокальной дорожки, модели RVC и последующего мастеринга и сведения.

Аноним 30/01/24 Втр 16:41:46 № 631166 375

>>631104
Мне кажется ни от чего не зависит, это баг самой RVC, оно совершенно случайно может начать запинаться, жужжать просто потому что и хуй че сделаешь. Хотя наверное можно нарезать и по отдельности рендерить и возможно конкретные участки получится исправить, но такое себе, хуйня короче это ваше rvc

Аноним 30/01/24 Втр 19:18:44 № 631352 376

>>631166
Проблема RVC в том, что она заточена под нищекарты и процессоры, по идее там нужно вручную играться с параметрами x_pad, x_query, x_center, x_max в файле config.py для достижения наилучших результатов (если у тебя видеокарта с объёмом VRAM больше, чем 6гб).
Плюс для каждого конкретного случая нужно выбирать модель инференса: pm — днище, harvest — вроде как хорошо работает в низкочастотном диапазоне, crepe — хорошо работает с длинными звуками, rmvpe — даёт широкий вокальный диапазон, хорошо передает интонации, но на длинных звуках моут быть артефакты.
Я обычно прогоняю через 3 модели и потом в аудишне склеиваю лучшие куски как мне надо. Ну и мастеринг, реверб, студио дилей, RX 10. Ручной ебли много, да.
Уже полгода обещают пиздатую-распиздатую RVCv3, но воз пока на месте.

Аноним 30/01/24 Втр 20:54:16 № 631501 377

>>631352
>тебя видеокарта с объёмом VRAM больше, чем 6гб)
у меня 2 гб, но она из озу отжирает и вроде норм, но чем больше отжирает, тем больше артефактов, странно. вот еще, чем мне не нравится rvc, так это тем, что настроек минимум, документации тоже, никто особо не понимает, как она работает, что конкретно писать в эти x_... итд

Аноним 02/02/24 Птн 05:18:43 № 633550 378

Почему буквально все нейронки, которые связаны со звуком - протухшее говно мамонта? Постоянно натыкаюсь на то, что все репозитории заброшены уже лет по пять-семь, а авторы пропали без вести. Да даже рвц не ставится на современное окружение, нужны какие-то дремучие версии библиотек.

Аноним 02/02/24 Птн 08:57:42 № 633583 379

>>633550
Сделай нормально сам.

Аноним 02/02/24 Птн 13:12:34 № 633704 380

>>633550
>Да даже рвц не ставится на современное окружение, нужны какие-то дремучие версии библиотек.
ну во-первых для винды уже все готово, а для линукса есть conda, не так уж и сложно подобрать версии, я же смог как-то, причем там только один пакет выебистый, насколько я помню

алсо вот, но никто не заценил
>>627218

Аноним 02/02/24 Птн 16:49:44 № 633828 381

Ну вот, маленько попердел вчера и запилил три Генкиных ковра на аукцыон и один на Леонтьева. Душевно. Ссаными тряпками не кидайтесь, няши.

https://youtu.be/wWISPDmGWic
https://youtu.be/rWM5op1tA1w

Его манера под довольно раслабленный вокал аукцыона не прямо чтоб очень подходит, зато всякие завывания и рррыки прямо заебись, даже специально из живого исполнения вырезал и конвертил.
На очереди одна подходящая данному персонажу шуточная песня Владимира Семёныча, но там нужно сводить уже наконверченый вокал, где хорошие акценты и интонации, с нормальным гитарным фоном из другой записи, то есть хз когда будет.

Аноним 02/02/24 Птн 19:56:43 № 633930 382

>>633583
Если б я мог нормально сделать - готовое не искал бы.
>>633704
>ну во-первых для винды уже все готово
Ага, конечно.
>но никто не заценил
Они пишут, что нет поддержки ничего, кроме линукса. Даже если заработает, то непонятно как и надолго ли.

Накатил в одно окружение xtts, whisper и рвц. Видеокарту видит только xtts. Переустановил торч с кудой. Рвц заметил видеокарту, xtts всё ещё норм. Виспер такой - какая видеокарта? Нет нихуя. При том что rvc полудохлый, xtts умирающий, в виспер вроде как живой и должен поддерживаться. Ебётся в одно ядро, спасибо, что даже так быстро работает.

Аноним 02/02/24 Птн 20:26:58 № 633942 383

>>633930
>Ага, конечно.
что ага, качаешь архив, распаковываешь и запускаешь файлик из папки, все работает, все окружение с нужными пакетами уже там, не выёбывайся. даже на дохлом амуде обожекакойпиздец работает. про видеопамять и шаманство с параметрами писали выше

btw когда я сервак арендовывал, проблем не было ни с 2080, ни с 4090, ни с теслой, хотя может потому что они все один и тот же драйвер кушают. там единственная ебля была в том, как pytorch с cuda накатить, но это один раз сделал и забыл

Аноним 02/02/24 Птн 21:58:19 № 633980 384

>>633942
>и запускаешь файлик из папки
Хуй знает, у меня даже рекваирментс не все поставились автоматом. Да и пути к окружению нужно исправлять. Пока оно там переустанавливалось три раза, уже скачал другой софт и сделал, что хотел, по-другому. Вроде, запускается рвц без ошибок, но использовать пока так и не использовал.

Транскрибировал виспером тысячу+ файлов, текст, озвученный профессиональным актёром на студии, без фонового шума и помех, частота 22050. Идеальные условия, по сути. Отслушал пока сотню, ошибки в 45, причём если на файл две-три ошибки, это всё ещё считается за одного. Нет, это не смолл модель. Что смешно, есть ошибки в одинаковых фразах, но виспер ошибается в разных местах.
Ещё закинул аудио после пары фильтров, небольшой реверб и понижение тона. Где-то вдвое хуже результат, посмотрел десяток файлов, в четырёх даже язык неправильно опознал, без ошибок два. Что будет с фоновыми шумами, страшно представить.

Аноним 03/02/24 Суб 09:28:57 № 634162 385

ЕСЛИ У ТЕБЯ ЕСТЬ ТРУДНОСТИ, ТО У ТЕБЯ ЕСТЬ ЦЕЛЬ

Аноним 03/02/24 Суб 11:59:08 № 634227 386

Хм, а если разделить трек на вокал и музыку в вавках, засунуть вокал в ылэвынлабс, потом отремастерить и заново смиксовать с минусом? Ну какчество явно получше получается.

Аноним 03/02/24 Суб 14:20:23 № 634284 387

>>634227
>засунуть вокал в ылэвынлабс
Охуеть от количества символов, которые он там у себя насчитал

Аноним 04/02/24 Вск 03:57:52 № 634831 388

GPU.png 55Кб, 547x168

Хули с голосовыми нейронками такая боль дырка задница? С картинками проблем нет, с текстом проблем нет. Голос? Пизда. Запустил тренировку coqui-ai/TTS, сожрало всю vram, потом сожрало всю ram, карту ебёт на полшишечки, зато ебёт процессор. Серет ворнингами "депрекейтед" в консоль, что уже вот-вот и эти функции работать перестанут. Ну, думаю, мне-то что, сейчас один раз натренирую, а потом в рот оно ебись. В итоге один хуй отвалилось с ошибкой доступа к файлу.
>PermissionError: [WinError 32] Процесс не может получить доступ к файлу
Походу, у них какой-то долбоёб писал код, из одного потока логи создал, из другого пытается в них писать. В ишьюз нашёл, официальный ответ - мы не поддерживаем шиндовс. Типа в юникс-системах можно открывать один файл из разных потоков и всё будет хорошо.
Повезло, что из конфигов можно поставить один поток для работы, но, учитывая что оно не может работать только на GPU, тренировка будет супермедленная.

Что ещё не превратилось в окаменевшее говно мамонта и быстро делает text to speech? Пока что из всего, что тыкал, реально работает только силеро, но там нельзя добавить свои голоса или как-то это настроить. Кроме питча, лол.

Аноним 04/02/24 Вск 23:10:02 № 635357 389

Beidoutannerson[...].mp4 4225Кб, 1024x1024, 00:00:20

Первая годная генерация которая у меня вышла, все остальные песни с артефактами и скрежетом. Как вы вытаскиваете из песни вокал так, чтобы нейронка могла его нормально озвучить?

Аноним 04/02/24 Вск 23:24:56 № 635369 390

>>635357
> вытаскиваете из песни вокал
Нашёл такую хуиту: https://vocalremover.org/

Аноним 05/02/24 Пнд 09:38:47 № 635582 391

>>635369
двачую, давно использую, алсо там можно на инструменты разделить, полезно, если ты сам музыку делаешь

из минусов - оно как-то портит бас и в целом эквализацию музыки, поэтому никакой кавер не будет звучать так же хорошо, как и оригинал

Аноним 06/02/24 Втр 06:44:17 № 636494 392

>>634831
Я так понимаю, тред дальше rvc не ходит? Как вы текст в речь-то переводите?
Посмотрел в собаке силеро, у них такотрон и хайфайган, но реализация - моё почтение. Надеюсь, у них код автоматически генерируется, иначе это клиника. Зато понятно, почему на видимокарточке медленнее, везде хардкод cpu.
XTTS на "добавленных" моделях работает из-под палки, всё время норовит отрыгнуть, а родная 1.8гб, если тренировать - сразу улетает за 5 гигов. Работает это всё, очевидно, медленно. И хуёво.

Аноним 07/02/24 Срд 03:39:20 № 637261 393

327593779179600[...].mp4 275Кб, 640x558, 00:00:09

>>552016 (OP)
Нужен мой голос. Есть решения RVC для Win 7?
Или платно но не дорого

Аноним 07/02/24 Срд 12:40:52 № 637376 394

>>637261
>Нужен мой голос. Есть решения RVC для Win 7?
а че, из шапки не работает что-ли?

Аноним 07/02/24 Срд 13:11:36 № 637389 395

20240207-1010-1[...].mp4 8365Кб, 866x832, 00:00:52

>>636494

Аноним 07/02/24 Срд 15:23:15 № 637438 396

>>637376
Мне нужно обучить на мой голос
Десктоп Rvc не работает на Виндоус 7. Коллаб зпебывает лимитами Есть альтернативы? Желательно бесплатно

Аноним 07/02/24 Срд 15:56:29 № 637458 397

>>637438
бесплатно можно найти виндовс 11

Аноним 07/02/24 Срд 17:53:52 № 637629 398

2024-02-07 17-4[...].mp4 10752Кб, 568x320, 00:00:32

>>637389
Бля, я рилтайм хотел. Чтобы задержки пониже.
Олсо упёрся в ударения и прочее. Что смешно, в более толстожопых решениях ударений нет. Можно из силеро выдернуть, но, опять же, учитывая что это питон, задача та ещё.

Аноним 07/02/24 Срд 19:23:08 № 637687 399

>>637629
скинь ттску эту и как запускать

Аноним 07/02/24 Срд 19:23:29 № 637688 400

>>637687
я про видос

Аноним 07/02/24 Срд 19:33:36 № 637697 401

>>637687
https://docs.coqui.ai/en/latest/inference.html
Это вот это. Только они почти везде пишут про подключение сторонних штук типа витса, такотрона и т.д. При этом имеют свою gpt2 модель, которая XTTS_v2.0_original_model. Я гоняю файнтюн этой модели, который по каким-то причинам разожрался до пяти гигов с базовых 1.8 гигабайт. В сетке 16 языков, как выпилить все остальные - хуй его знает, при тренировке указывал, чтобы тренировался только русский, ему поебать.

Аноним 07/02/24 Срд 19:41:35 № 637707 402

>>637697
можешь нормально объяснить?

Аноним 07/02/24 Срд 19:41:56 № 637709 403

>>637697
как этим пользоваться

Аноним 07/02/24 Срд 19:51:33 № 637719 404

>>637707
Создаёшь окружение. Если совсем влом ебаться с питоном, то скачивай анаконду. В неё есть гуй, удобно. Создаёшь там новое окружение, environment. Гонять разные сетки в питоне без разных окружений околоневозможно. Потом запускаешь это окружение, там кнопка плей и жми опен терминал.
https://docs.coqui.ai/en/latest/tutorial_for_nervous_beginners.html
Установка описана здесь. По сути, всё что надо сделать - вбить в консоль
>pip install TTS
Это не даст тебе возможности редактировать файлы самой ттски, но оно тебе надо? Если надо, клонируй гит. Там это тоже есть.
Для генерации вот это
https://docs.coqui.ai/en/latest/inference.html
Скроль до Python 🐸TTS API, спизди весь этот код в файл.
speaker_wav="my/cloning/audio.wav"
Нужно отредактировать, это путь к голосу, который ттс будет пытаться имитировать, любой вав 6-10 секунд. Без него нельзя. И запускай файл.

Аноним 07/02/24 Срд 20:14:18 № 637740 405

>>637719
спасибо!

Аноним 07/02/24 Срд 21:08:02 № 637788 406

>>637438
у меня сервер оплачен и простаивает, кидай исходник, могу обучить

Аноним 07/02/24 Срд 22:02:31 № 637830 407

>>637719
>спизди весь этот код в файл.
Спиздил. Куда теперь этот файл сувать и как его через анаконду запускать?

Аноним 07/02/24 Срд 22:17:42 № 637843 408

>>637830
>Куда теперь этот файл сувать
Так проебом вообще.
В анаконде у тебя будет окружение, которое ты создавал и куда установил TTS. Там жмёшь опен терминал. Потом пиздуешь через cd к файлу, который сохранил.
cd C:/my_folder/
Здесь нужно помнить, что если твой файл не на том же диске, что окружение, то есть не на С, то нужно хуярить
cd /d D:/my_folder/
Потом хуяришь в консоль
python my_file.py
У меня файл называется bark.py и лежит в папке D:/tts, то есть в консоль я хуярю
cd /d D:\TTS
python bark.py

Аноним 07/02/24 Срд 22:26:36 № 637849 409

>>637843
Пон

Аноним 08/02/24 Чтв 10:06:59 № 638061 410

Как формируете датасет при обучении rvc? Обучал на 20 треках, 200 эпох. 3.3 минуты. Качество записи отвратительное. Нужно не для вокала, а для озвучения текста.
На сайтах пишут разные требования:
> For better quality, try to obtain at least 30 minutes of voice.
> Примерная длина всех аудио от 1 до 30 минут, оптимально от 3 до 10 минут (лучший вариант - 5 минут с большим охватом спектра голоса)

Если дообучать на новых данных, то старые можно удалить? Слышал о перетренировке.

Аноним 08/02/24 Чтв 20:09:01 № 638359 411

>>637788
А как я буду пользоваться если надо будет что озвучить, тебя снова просить?

Аноним 10/02/24 Суб 23:09:39 № 639743 412

Хочу натренировать RVC-модель на англоязычном датасете, чтобы потом использовать его на русской говорилке. Ничего, что датасет английский? Нормально получится?

Аноним 11/02/24 Вск 02:10:38 № 639842 413

>>639743
Должно быть ок. Во втором ОП-пике по идее англоязычная модель была для RVC.

Аноним 11/02/24 Вск 09:50:43 № 639957 414

>>634227
>>635369
Попытка перевести так песню целиком.

Аноним 11/02/24 Вск 15:58:03 № 640083 415

Аноним 11/02/24 Вск 16:01:37 № 640089 416

А я всё никак из 1999 не вылезу.

Аноним 11/02/24 Вск 19:36:04 № 640228 417

torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 20.00 MiB (GPU 0; 4.00 GiB total capacity; 2.78 GiB already allocated; 0 bytes free; 2.86 GiB reserved in total by PyTorch)

Чо делать? 1050ti.

Аноним 11/02/24 Вск 20:20:46 № 640254 418

>>640228
если просто - купить видяху поновее

Аноним 11/02/24 Вск 20:55:11 № 640267 419

>>640254
Вообще больше вариантов нет? Пробовал заменить 10 кусков по 10 минут на 1 длиной в 5 минут, результат тот же.
На колабе RVC можно тренировать?

Аноним 11/02/24 Вск 21:44:34 № 640309 420

>>640228
на 1050 не трень. есть множество способов онлайн тренить
https://www.kaggle.com/code/varaslaw/aisingers-rvc-rmvpe-https-t-me-aisingers-ru/ новая версия
https://youtu.be/L-emE1pGUOM?feature=shared обучалка

Аноним 12/02/24 Пнд 20:33:41 № 640842 421

>>637719
ну все. переставил систему. через пару дней забабахаю для этого гуй

Аноним 12/02/24 Пнд 21:17:33 № 640877 422

>>640309
Не работает. Заканчивает тренировку на необходимом количестве эпох и пишет:
Файл модели "mi-test" не найден.
При этом пишет, что промежуточные результаты при достижении n-ной эпохи сохранены, но в директории их нет.
Вот кусок кода, ответственный за сохранение:
https://pastebin.com/0K8qFQVG
Видимо баг, не позволяющий создать директорию, потому что в Output нет папки Weights.

Есть ли другие варианты?

Аноним 13/02/24 Втр 03:46:01 № 641136 423

Привет аноны, гость с издача в вашем треде
А вот эти ваши сетки можно как-то использовать для того чтобы аудиокнигу записать?

Аноним 13/02/24 Втр 06:55:01 № 641164 424

>>641136
А мне наоборот - чем быстро преобразовать кучу записей из многомногочасовых файлов в текст? Желательно чтоб работало без инета, идеально распаршивало хоть 20 спикеров на разных языках с качеством "диктофон в туалете" и помечало тайминг.
тупо хочу найти в записях нужные слова, чтобы не перелопачивать всё вручную

Аноним 13/02/24 Втр 07:04:13 № 641166 425

>>640877
хмммм. недавно тренил норм было все

Аноним 13/02/24 Втр 07:05:12 № 641167 426

>>641136
да, можно конечно. Сначала ттс книгу эту в речь преобразовываешь а потом через рвс и все

Аноним 13/02/24 Втр 07:12:45 № 641169 427

>>641164
Whisper

Аноним 13/02/24 Втр 12:39:35 № 641297 428

Ребят спасибо большое разобрался с RVC. Очень понравился форк mangio-RVC.

Теперь такой вопрос. Какие репозитории есть для tts. Можно ли так же тренировать для определенных людей?

Аноним 13/02/24 Втр 14:53:51 № 641412 429

>>641297
> Ребят спасибо большое разобрался с RVC. Очень понравился форк mangio-RVC.
Можешь рассказать, в чём его плюсы? Я его пробовал ставить, кроме различий по стилям и возможности выставлять эпохи выше 1к ничего не заметил.

> Теперь такой вопрос. Какие репозитории есть для tts. Можно ли так же тренировать для определенных людей?
https://2ch-ai.gitgud.site/wiki/speech/#синтез-голоса-из-текста-tts
На свои голоса вроде как никто не обучает, обычно делают TTS, а потом через тот же RVC перегоняют к нужному голосу, есть такая тулза чтобы одним кликом это делать - https://github.com/daswer123/silero-rvc-tts-ru-gui Я не видел проектов TTS, где были бы готовые скрипты для тренировки своих голосов. Может кто-нибудь другой знает.

Аноним 13/02/24 Втр 15:09:35 № 641422 430

>>641167
А есть клиенты для этого типо webui?

Аноним 14/02/24 Срд 07:15:52 № 642000 431

>>641422
для ттс? Полно.
https://github.com/hinaichigo-fox/rus-edge-tts-webui
https://github.com/hinaichigo-fox/rus-silero-webui
вот например

Аноним 14/02/24 Срд 13:03:00 № 642131 432

Аутизм с песнями задом наперёд можно поднять на новый уровень.

Аноним 16/02/24 Птн 07:47:55 № 643216 433

>>639957
Вторая попытка.

Аноним 16/02/24 Птн 13:24:09 № 643339 434

>>641412
Да это тоже самое просто там есть экстрактор mangio crepe

Если датасет качественный то он дает результаты намного намного лучше rmvpe. Ну а если неочень датасет то впе лучшее решение.

Ну и просто коллаб прописан намного лучше. Он на английском и очень удобный. Я видел колаб RVC он был на кеитайском и я в ужасе закрыл.

>На свои голоса вроде как никто не обучает, обычно делают TTS, а потом через тот же RVC перегоняют к нужному голосу

Аааааа теперь я понял.

>На свои голоса вроде как никто не обучает, обычно делают TTS, а потом через тот же RVC перегоняют к нужному голосу

Слушай а в TTS же задача намого шире чем RVC. А какого рода тренировках значит идет речь? Файн тюнинг под другой язык?

Я ктому что явно у TTS моделей ограниченное количество токенов в понимании. Значит он можно воспринимать текста только с натреннированных языков?

Аноним 17/02/24 Суб 18:27:00 № 644267 435

>>552016 (OP)
Сап аноны
А есть че для STT что может в потоковом режиме голос с микро в текст преобразовывать?

Аноним 17/02/24 Суб 18:27:49 № 644269 436

>>644267
Бля, забыл добавить, имеется ввиду локально, у себя на компе

Аноним 18/02/24 Вск 04:19:02 № 644764 437

А что если распарсить идиш как немецкий...

Аноним 18/02/24 Вск 21:39:18 № 645662 438

Кто-нибудь делал успешно клон своего голоса для генерации озвучки английского текста в ElevenLabs? Может есть какие-то неочевидные моменты или годные советы?

Аноним 19/02/24 Пнд 14:07:52 № 646222 439

>>645662
Делал для озвучки на русском, но не своего голоса.
Единственный совет качество источников голоса важнее их количества.
Речь свою наверное лучше записывать естественную, как если бы ты с кем-то говорил, а не монотонное чтение чего-либо, так как Елевенлабс копирует и манеру речи.

Аноним 21/02/24 Срд 17:55:15 № 647952 440

Есть тут кто-нибудь кто tts на русском языке тренил?

Аноним 21/02/24 Срд 20:30:50 № 648084 441

>>645662
Натрень tacotron модельку просто

Аноним 22/02/24 Чтв 22:40:15 № 649268 442

> https://github.com/Purfview/whisper-standalone-win

Быстрый скомпилированный для винды whisper, добавьте в шапку.

Аноним 22/02/24 Чтв 23:04:33 № 649288 443

Уважаемые, с weights.gg голоса скачать можно?

Аноним 23/02/24 Птн 07:56:02 № 649457 444

>>649288
конечно

Аноним 23/02/24 Птн 10:23:02 № 649496 445

11wtf.png 9Кб, 794x229

Всё, пиздарики, плоти регься подписька? Сколько раз ни пробовал, через что только ни стучался, даже тор - резко раз и ни в какую. В обед вчера обработало последний файл и теперь постоянно вот это говно вылазит, хоть какой файл подсунь, даже самый мелкий.

Аноним 23/02/24 Птн 13:44:32 № 649612 446

>>649457
А как? Мне предлагает только через сайт с голосом работать, а скачать не предлагает.

Аноним 23/02/24 Птн 14:16:44 № 649631 447

image.png 114Кб, 1049x269

>>649612

Аноним 23/02/24 Птн 15:00:09 № 649674 448

>>649268
https://github.com/SYSTRAN/faster-whisper
Они выходит вот это в exe упаковали? Смущает, что у проекта из твоего поста никаких сорцов нет. Или не там смотрю?

Хотя автор проекта faster-whisper в своём readme его упоминает как "Standalone CLI executables of faster-whisper for Windows, Linux & macOS".

Аноним 23/02/24 Птн 15:34:42 № 649695 449

.png 40Кб, 1018x222

>>649268
https://github.com/ggerganov/whisper.cpp
От жоры кстати не имеет смысл упомянуть версию? Или оригинальное решение от OpenAI + https://github.com/Purfview/whisper-standalone-win будет достаточно?

Добавил инфу об этом варианте whisper'а в шаблон и в вики:
https://2ch-ai.gitgud.site/wiki/speech/speech-shapka/
https://2ch-ai.gitgud.site/wiki/speech/#распознавание-речи-stt

Аноним 23/02/24 Птн 18:28:27 № 649841 450

>>552016 (OP)
>надо было ставить линукс
А есть ли ещё какая-то версия этой песни с ИИ голосом Линуса? Мне кажется я раньше слышал другую версию где-то.

Аноним 23/02/24 Птн 20:11:47 № 649924 451

Анон, просвети ньюфага. Вот если у меня есть только пожелания для песни (например, романтичная песня про линукс) - это в Suno Chirp. Если у меня есть только текст песни, то это туда же - мотив и музыку оно само подберëт.

А теперь задача посложнее. У меня есть минусовка (допустим, "Светит незнакомая звезда") и переделанный текст-пародия ("Глючит незнакомая винда"). Какая нейронка может мне его спеть на заданную музыку? Suno Chirp не может...

Аноним 24/02/24 Суб 15:51:37 № 650580 452

>>413975
Нету там нихуя. Бля, лень самому генерить, да и мощностей нету, есть у кого Денис Беспалый RVC?

Аноним 24/02/24 Суб 15:52:44 № 650581 453

>>650580
https://2ch.life/ai/arch/2024-01-02/res/314948.html
от данного треда если что

Аноним 24/02/24 Суб 16:05:26 № 650599 454

>>650580
Блять https://t.me/AINetSD_bot, ладно.

Аноним 24/02/24 Суб 16:29:02 № 650629 455

Что скажите по поводу использовал TTS для ютуб канала? Говно или уже норм?
И что лучше использовать? ElevenLabs?

Аноним 24/02/24 Суб 16:37:37 № 650648 456

>>650629
Я лично юзаю свой голос и через нейронку его обрабатываю, в итоге результат вроде и ты говорил, но понять что это был ты только через манеру речи, а так слышится норм.

Аноним 24/02/24 Суб 22:35:18 № 650964 457

>>650648
А через какую нейронку ты обрабатываешь голос?

Аноним 24/02/24 Суб 22:51:00 № 650979 458

Проплатить elevenlabs можно только через всякие платисру с большой наценкой?

Аноним 25/02/24 Вск 02:14:24 № 651151 459

есть гайд по обработке голоса перед кавером?
если в песне источнике голос с эхом или ревёрбом, то RVC делает звук говна. нужен именно гайд как в аудишне сделать голос "плоским" что ли, не знаю как правильно по терминологии, чтобы не было эхо, шумов на занем фоне. пробовал разные аи энхансеры, чуть лучше но всё равно говно выходит.

Аноним 25/02/24 Вск 03:16:08 № 651177 460

>>651151
Универсального метода нет, всё зависит от того как был сведён исходник. В некоторых случаях хорошо работает Center Channel Extractor (тоже самое, что vocal remover, только наоборот)

Аноним 25/02/24 Вск 12:04:22 № 651361 461

>>651177
>Center Channel Extractor (тоже самое, что vocal remover, только наоборот)
не наоборот, это работает только если инструменты сильно разведены по панораме, что делается далеко не всегда, ну и как можно догадаться, метод весьма примитивный и звучит как говно.

vocalremover org работает лучше, но жопит нч и вч, так что тут только идти на компромиссы остается

Аноним 25/02/24 Вск 22:27:59 № 651851 462

>>650648
>юзаю свой голос и через нейронку его обрабатываю
Английский/русский?

Аноним 26/02/24 Пнд 12:38:30 № 652171 463

>>650964
на фотке скинул
>>651851
Что английский, что русский, причем модели спокойно что тот, что этот язык обрабатывают (в большинстве случаев)

Аноним 26/02/24 Пнд 17:27:35 № 652413 464

Какие есть на данный момент лучшие варианты для TTS и STS, для БЫСТРОЙ генерации? Важно именно время генерации

Аноним 26/02/24 Пнд 17:28:10 № 652414 465

>>652413
Для англюсика, кстати, но не помешает и если будет русский

Аноним 26/02/24 Пнд 17:29:35 № 652415 466

>>649631
Точно, спасибо.

Аноним 26/02/24 Пнд 18:10:34 № 652465 467

Есть ли TTS с возможностью манипулировать эмоциональным тоном в разных частях текста?

Аноним 26/02/24 Пнд 19:01:32 № 652519 468

>>652465
https://github.com/snakers4/silero-models/wiki/SSML

Аноним 26/02/24 Пнд 20:19:04 № 652581 469

>>555243
Так, падажи. А подскажи вот что. У меня есть 30 минут голоса. Я хочу натренировать модель и потом писать текст и чтобы он озвучивался натренированым голосом. Я так понимаю что это не про RVC ?

Глобально задача такая - хотелось бы (не знаю есть такое или нет) качнуть локально голосовую нейронку, типа как качаешь локально SD или Foooocus, тренируешь модель и потом пишешь текст и оно локально тебе генерит голос. Не хотелось бы все это в облаках делать. Вижу что есть какая-то ебала с тем, что одна сетка только голос меняет, другая еще что-то, третью надо в облаке хуярить и т.д. Может в курсе?

Аноним 27/02/24 Втр 14:42:12 № 653260 470

>>652581
Есть XTTS, который по небольшой записи может делать синтез по тексту напрямую нужным тебе голосом. Я его мало тестил, мне не особо зашло, хотя многие нахваливают.
Спейс на хаггине: https://huggingface.co/spaces/coqui/xtts

В случае с RVC тебе действительно придётся использовать две разных сетки, так как RVC может преобразовывать голос только в уже существующей записи. Из-за этого сперва надо сгенерировать запись по тексту на любом голосе. Из локальных сеток для такой задачи мне больше всего зашла SileroTTS, из халявных облачных EdgeTTS (Edge явно лучше Silero работает). У Silero ещё проблема в том, что на русскоязычных голосах он не может англоязычный текст озвучивать.

Потестить их в онлайне можно здесь:
https://huggingface.co/spaces/NeuroSenko/tts-silero
https://huggingface.co/spaces/NeuroSenko/rus-edge-tts-webui

> пишешь текст и оно локально тебе генерит голос
Есть несколько проектов, которые реализуют конвеер с синтезом по тексту на одной нейронке, и потом приводят их к нужному голосу через RVC. То есть под капотом используются две разных нейронки, но тебе не нужно между ними вручную переключаться. В этом треде такую тулзу кто-то использовал:
https://github.com/daswer123/silero-rvc-tts-ru-gui

Аноним 27/02/24 Втр 14:46:15 № 653266 471

>>653260
Большое спасибо. Странно что с голосовыми такая ебала, но думаю и до них дойдет прогресс

Аноним 27/02/24 Втр 18:25:19 № 653437 472

>>552016 (OP)
>Как обучить свою RVC-модель?

Сделал все по инструкции, но вот что интересно, оно пишет, например :
Train Epoch: 33 [58%]

А почему не 100%? Или так и должно быть? Каждая эпоха должна быть соточка или у них там свой мир и свои цифры?

Попробовал промежуточную модель (после примерно 20 или 25 эпох) работает более менее исправно. Голос в RVC меняет, но отдает роботическим пердежом. Попробую пройти все 200 эпох, может будет лучше.

Аноним 27/02/24 Втр 18:40:26 № 653459 473

>>653437
так это от общего процента так то. 58% от всех эпох. короче забей. это норма

Аноним 27/02/24 Втр 22:30:29 № 653702 474

>>553729
Все роботы.

Аноним 27/02/24 Втр 22:52:35 № 653730 475

>>552016 (OP)
Натренил модель в RVC. Если просто чисто один голос и никаких шумов, вздохов и прочей хуеты, RVC все хорошо меняет. Но если есть что-то посторонее, то просто распидорашивает все, оно прямо все звуки пытается заменить что ли голосом? То есть если мне надо заменить голос, то его придется чистить от всего?

Аноним 27/02/24 Втр 23:22:44 № 653778 476

>>566224
Так ты сам написал
> speech to speech пока только на английском.

Аноним 27/02/24 Втр 23:40:58 № 653799 477

>>583662
Название этой чудо нейронки в студию, пожалуйста!

Аноним 28/02/24 Срд 06:52:22 № 653985 478

>>653730
Да, всё верно. Для разделения трека на голос/остальное есть такие решения:
Онлайн: https://vocalremover.org
Оффлайн-UI с поддержкой кучи нейронок для данной задачи: https://github.com/Anjok07/ultimatevocalremovergui

https://github.com/Anjok07/ultimatevocalremovergui/releases/tag/v5.6
Для последнего в секции релиза можно качнуть сразу архив со всеми зависимостями, чтобы не надо было вручную питон и прочее настраивать.

Аноним 28/02/24 Срд 16:59:17 № 654265 479

>>649496
Бамп. Пробовал на другом железе, подождать день, два, три - бесполезно, сразу после попытки загрузки webm - тот же самый Workspace None not found. Не гуглится по этому вообще ничего, в новостях про elevenlabs тоже молчок. Это что, шедоубан какой-то?

Аноним 29/02/24 Чтв 14:13:16 № 654878 480

Сап, нейрач.
Нужно менять голос в реалтайме.

Парни, где найти обстоятельный гайд по Voice Changer'у или RVC с данной задачей, чтоб прям было написано куда жать и что делать?
В шапке никакого гайда нет (пикрил)
В нейронках полный нубас, ничего не запускал ни разу.

Аноним 29/02/24 Чтв 23:31:12 № 655272 481

Есть ттс куда можно добавить словарь, что бы ттс нормально зачитала? Хочу себе аудиокнигу сделать

Аноним 01/03/24 Птн 00:55:57 № 655376 482

>>552016 (OP)
нужен гайд или нейронка чтобы можно было легчайшим способом сделать простую модель двух голосов и чтобы эта нейронка распознавала текст в сэмпле
мне надо видос сделать с текст ту спичем но чтобы основная часть была из оригинала наверн ну или максимально приближенная к оригиналу
самый быстрый варик это елевен лабс но там надо шекели платить каким то хуесосам а я не хочу у меня нет денег я нищий уебан
знаю что я быдло но тяга к творению у меня с рождения извините элитарии потерпите

Аноним 01/03/24 Птн 11:28:30 № 655545 483

Сап двач!
Хотел сделать аи кавер где персонаж из сериала поёт под один трек, прогонял акапеллу несколько раз через rvc с разными зипками этого персонажа но всегда получалось кринжовое говно с артефактами...
Трабл в том что сама капа из трека всратоватая по качеству и походу из за этого нихуя не выходит годно сделать.
Можно как-то отдельно записать как персонаж зачитывает текст и потом протюнить это всё под тон трека?

Аноним 03/03/24 Вск 01:00:48 № 657014 484

>>642000
а как туда поставить другой голос/найти другие голоса?

Аноним 03/03/24 Вск 07:47:20 № 657116 485

>>657014
я поставил все русские. другие голоса только пиндосские. создать низя такие вот ттс(

Аноним 03/03/24 Вск 20:05:48 № 657513 486

>>657116
А этот голос никак к ней нельзя присобачить?
(Но в целом спасибо тебе человек за сделанную тобой работу, очень благодарен) Просто, быстро, понятно и без ебли)

Аноним 03/03/24 Вск 20:06:18 № 657515 487

>>657513
https://t.me/modelkigolosov/485

Аноним 03/03/24 Вск 20:30:26 № 657537 488

>>657513
пиндосские?

Аноним 03/03/24 Вск 22:57:57 № 657699 489

>>657537
Брежнева

Аноним 04/03/24 Пнд 01:01:58 № 657775 490

>>654878
БАМП РЕКВЕСТУ, чуханы.

Аноним 04/03/24 Пнд 07:08:52 № 657871 491

>>657699
то голоса рвсшные а тут ттс. конечно же ты можешь делать как я . озвучивать в ттс текста а потом прогонять через рвс с нужным голосом

Аноним 04/03/24 Пнд 18:19:18 № 658218 492

Вот скажите, это разве Clear and high voice (написано в промте)? гавно какое то

Аноним 04/03/24 Пнд 20:02:21 № 658368 493

xttsv2-banana-f[...].webm 7519Кб, 1544x840, 00:02:06

Сделал разговорный файнтюн XTTSv2 Banana для русского языка. Основан на голосовых сообщениях с матом от 5 разных девушек.

- добавляет больше интонаций, эмоциональности, придыханий, делая речь более живой.
- лучше справляется с ударениями в словах (мат, разговорная лексика).
- только для русского языка, остальные языки остались неизменными.
- основан на женских голосах, поэтому все мужские голоса будут слегка феминными.
- обучение заняло всего 1 час.

Веса: https://huggingface.co/Ftfyhh/xttsv2_banana

Аноним 04/03/24 Пнд 20:08:32 № 658380 494

>>564287
>>566224
Как ты это сделал в элевенлабсе? Платный акк?
С бесплатным не даёт такого.

Аноним 06/03/24 Срд 14:32:29 № 661502 495

>>658368
Офигенно, анон. Не помню, чтобы тут кто-то ранее тьюны TTS-моделей делал. Ты в какой среде тренил - шинде, wsl или на никсах? Что-то на винде у меня проблемы с запуском, билд-тулзы не видит. Буду на wsl пробовать.

Аноним # OP 06/03/24 Срд 14:35:16 № 661506 496

Есть предложения по правкам шапки до переката?

В вики надо будет инфу про styletts2 и тьюн XTTS докинуть.

Аноним 06/03/24 Срд 14:44:35 № 661518 497

>>658368
> для дальнейшего улучшения качества ударений требуется еще больший датасет с проблемными словами и ручная проверка распознанного Виспером текста.
Анон, такой вопрос появился - а не думал попробовать расширить датасет синтетикой? Обучить на том же датасете RVC-модель, взять любую речь с готовыми титрами, перегнать её к нужному голосу и дообучить на этом результате?

Я просто хочу взять датасет с голосом моей аниме-вайфу (на японском) и русскоязычную TTS-модель на этом сделать. В моём случае это, кажется, единственный вариант.

Аноним 06/03/24 Срд 15:41:08 № 661623 498

>>661506
предложений нет. делай перекат

Аноним 06/03/24 Срд 19:11:09 № 662072 499

>>661506
Где ссылка на одиннадцать лаборатория?

Аноним 06/03/24 Срд 19:12:24 № 662075 500

>>662072
А нахуй она нужна? RVC во всем лучше, если у тебя комп не нищий

Аноним 06/03/24 Срд 23:46:45 № 662435 501

>>662075
>>662072
Тогда, вероятно, стоит добавить ссылки и на прочие проприетарные системы с краткой инфой, раз по ним тоже контент в тред кидают. Я их мало смотрел, есть что добавить?

Коммерческие системы

https://elevenlabs.io перевод видео, синтез и преобразование голоса
https://heygen.com перевод видео с сохранением оригинального голоса и синхронизацией движения губ на видеопотоке. Так же доступны функции TTS и ещё что-то
https://app.suno.ai генератор композиций прямо из текста. Есть отдельный тред на доске >>495948 (OP)

Аноним 07/03/24 Чтв 07:08:13 № 662628 502

aggressive scie[...].mp4 5291Кб, 1152x720, 00:00:01

>>662435
Можешь мемес в шапку добавить.

Аноним 07/03/24 Чтв 16:25:54 № 663142 503

>>661506
https://www.kaggle.com/code/varaslaw/aisingers-rvc-rmvpe-https-t-me-aisingers-ru/ скрипт для обучения модели рвс в каггл https://youtu.be/L-emE1pGUOM?feature=shared обучалка

Аноним 07/03/24 Чтв 16:35:10 № 663167 504

Насколько RVC сложнее для генерации голоса чем Elevenlabs, особенно без мощного компьютера?

Аноним 07/03/24 Чтв 16:59:16 № 663201 505

>>663167
ну хз. моя 1050 ти генерирует аи кавер за время аудио+1-2 минуты.
Тебе что надо? РВС только для того чтоб модели обучать или юзать. речь ты там не сгенерируешь. только голос преобразуешь. Генерировать речь эт нужно сначала в ттс а потом в рвс с моделью. Обучаешь модель(что можно сделать онлайн) и делаешь нужное аудио. профит

Аноним 07/03/24 Чтв 17:22:24 № 663259 506

>>658368
Всё звучит как всратый робот, че тут офигенного.
Но продолжай делать, будет лучше.

Аноним 07/03/24 Чтв 20:59:23 № 663553 507

>>661502
Тренировал в Win11. Проблем с софтом не было, все завелось с первого раза. Обнови репозиторий xtts, вдруг поможет.

>>661518
> расширить датасет синтетикой
Моя цель была сделать голос более живым, а тут, скорее, будет обратный эффект.
> аниме-вайфу
Простое клонирование голоса в XTTS не дало нужного эффекта? Закинь 10 секунд ее голоса в xtts на японском и попроси говорить на русском.

Аноним 07/03/24 Чтв 21:26:34 № 663596 508

>>663201
>Тебе что надо?
Как раз генерация речи. Приходится для этого оплачивать каждый месяц подписку в ElevenLabs, хотя там раз на раз не приходится и часто получается немного шлака среди хорошего материала, а на всё это уходят ограниченные символы

Аноним 08/03/24 Птн 01:25:57 № 664096 509

>>663142
Не хочу рекламу платных скриптов вставлять. Вставлю ссылку на видео и напрямую на фришный скрипт: https://www.kaggle.com/code/varaslaw/rvc-v2-no-gradio-https-t-me-aisingers-ru/notebook?scriptVersionId=143284909

ПЕРЕКАТ Аноним # OP 08/03/24 Птн 02:46:36 № 664166 510

>>664162 (OP)
>>664162 (OP)
>>664162 (OP)

Аноним 08/03/24 Птн 07:15:08 № 664235 511

>>664096
так в видосе обучалка только. а по ссылке скрипт