chldkato

윈도우에서 DCTTS (Deep Convolutional TTS) 학습하기 본문

딥러닝

윈도우에서 DCTTS (Deep Convolutional TTS) 학습하기

chldkato 2019. 10. 30. 00:31

github.com/chldkato/DCTTS-Korean

 

chldkato/DCTTS-Korean

Contribute to chldkato/DCTTS-Korean development by creating an account on GitHub.

github.com

github.com/chldkato/DCTTS-Korean-Tensorflow2

 

chldkato/DCTTS-Korean-Tensorflow2

Contribute to chldkato/DCTTS-Korean-Tensorflow2 development by creating an account on GitHub.

github.com

1. 한국어 음성 데이터 KSS preprocess

 

https://www.kaggle.com/bryanpark/korean-single-speaker-speech-dataset

 

Korean Single Speaker Speech Dataset

KSS Dataset: Korean Single Speaker Speech Dataset

www.kaggle.com

위의 KSS 데이터를 사용합니다. (약 4기가)

 

다운로드 한 후 아래와 같이 압축을 풀어주세요

DCTTS-Korean
  |- kss
      |- 1
      |- 2
      |- 3
      |- 4
      |- transcript.v.1.x.txt

학습에 사용할 데이터를 만들기 위해 preprocess를 실행합니다

python preprocess.py

 

실행 후, data폴더에 학습에 필요한 파일들이 생성됩니다

 

text, mel, spec는 각각 텍스트, 멜스펙트로그램, 스펙트로그램이고 dec는 디코더 입력이 되는 멜스펙입니다

 

mel_len은 zero padding 최소화를 위한 각 멜스펙의 길이입니다

 

 

2. Train

 

train1.py - train2.py 순으로 실행하면 바로 학습이 진행됩니다

 

train1은 Text2Mel, train2는 SSRN입니다

python train1.py
python train2.py

 

실행 후에는 checkpoint 폴더에 학습한 모델이 각각 저장되고 attention alignment 그래프가 저장됩니다

 

tensorflow v1에서는 이전에 학습한 모델을 불러와서 다시 학습하려면 아래와 같이 실행하면 됩니다

python train1.py --step 100000
python train2.py --step 100000

 

본인이 학습한 모델에 맞게 숫자를 수정하면 됩니다

 

 

3. Synthesize

 

test1.py를 열어서 sentences에 합성할 문장을 정해줍니다

 

test1.py - test2.py 순으로 실행하면 됩니다

 

tensorflow v1에서는 불러올 모델을 지정하여 실행합니다

python test1.py --step 100000
python test2.py --step 100000

 

재학습과 마찬가지로 숫자는 본인에 맞게 수정하면 됩니다

 

output 폴더에 alignment 그래프와 wav 파일이 생성됩니다

Comments