일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- waveglow
- 딥러닝 음성 합성
- melgan
- 딥러닝 보코더
- 음성 합성
- tacotron
- you only look once
- singing voice synthesis
- korean tts
- 트레이닝
- deep voice
- Vocoder
- 윈도우
- 한국어 음성 합성
- 학습
- 타코트론
- 딥러닝
- text-to-speech
- YOLO
- TTS
- 한국어 tts
- 노래합성
- 보코더
- DCTTS
- Today
- Total
chldkato
윈도우에서 DCTTS (Deep Convolutional TTS) 학습하기 본문
github.com/chldkato/DCTTS-Korean
github.com/chldkato/DCTTS-Korean-Tensorflow2
1. 한국어 음성 데이터 KSS preprocess
https://www.kaggle.com/bryanpark/korean-single-speaker-speech-dataset
위의 KSS 데이터를 사용합니다. (약 4기가)
다운로드 한 후 아래와 같이 압축을 풀어주세요
DCTTS-Korean
|- kss
|- 1
|- 2
|- 3
|- 4
|- transcript.v.1.x.txt
학습에 사용할 데이터를 만들기 위해 preprocess를 실행합니다
python preprocess.py
실행 후, data폴더에 학습에 필요한 파일들이 생성됩니다
text, mel, spec는 각각 텍스트, 멜스펙트로그램, 스펙트로그램이고 dec는 디코더 입력이 되는 멜스펙입니다
mel_len은 zero padding 최소화를 위한 각 멜스펙의 길이입니다
2. Train
train1.py - train2.py 순으로 실행하면 바로 학습이 진행됩니다
train1은 Text2Mel, train2는 SSRN입니다
python train1.py
python train2.py
실행 후에는 checkpoint 폴더에 학습한 모델이 각각 저장되고 attention alignment 그래프가 저장됩니다
tensorflow v1에서는 이전에 학습한 모델을 불러와서 다시 학습하려면 아래와 같이 실행하면 됩니다
python train1.py --step 100000
python train2.py --step 100000
본인이 학습한 모델에 맞게 숫자를 수정하면 됩니다
3. Synthesize
test1.py를 열어서 sentences에 합성할 문장을 정해줍니다
test1.py - test2.py 순으로 실행하면 됩니다
tensorflow v1에서는 불러올 모델을 지정하여 실행합니다
python test1.py --step 100000
python test2.py --step 100000
재학습과 마찬가지로 숫자는 본인에 맞게 수정하면 됩니다
output 폴더에 alignment 그래프와 wav 파일이 생성됩니다
'딥러닝' 카테고리의 다른 글
MelGAN 정리 (4) | 2020.04.03 |
---|---|
윈도우에서 Tacotron 한국어 TTS 학습하기 (98) | 2020.03.25 |
딥러닝 음성 합성 (TTS) / 보코더 github, 논문 모음 (0) | 2019.09.15 |
윈도우에서 waveglow 학습하기 (4) | 2019.09.14 |
윈도우에서 딥러닝 음성 합성(Multi-Speaker Tacotron) 학습하기 (12) | 2019.07.28 |