chldkato

Montreal Forced Aligner (MFA) 한국어 사용법 본문

딥러닝

Montreal Forced Aligner (MFA) 한국어 사용법

chldkato 2021. 6. 2. 17:01

FastSpeech 처럼 최근의 딥러닝 TTS synthesizer는 텍스트에 대한 align을 같이 입력하는게 많다.

 

이 align을 쉽게 만들어주는게 Montreal Forced Aligner (MFA) 이다.

 

MFA에서 제공하는 한국어 pretrained 모델을 사용하면 출력이 영어로 나온다.

 

한국어 TTS에 적합하도록 출력이 자음모음으로 나오게 했다.

 

리눅스 아나콘다에서 실행. 윈도우에서 되는지는 확인 X

 

 

1. 아래의 명령어를 순서대로 실행한다

conda create -n aligner -c conda-forge montreal-forced-aligner
conda activate aligner
conda update --all
conda install -c conda-forge montreal-forced-aligner

 

 

2. KSS를 다운받는다

https://www.kaggle.com/bryanpark/korean-single-speaker-speech-dataset

 

Korean Single Speaker Speech Dataset

KSS Dataset: Korean Single Speaker Speech Dataset

www.kaggle.com

 

 

3. 첨부한 ipynb 파일을 실행한다

align.ipynb
0.00MB

text 변수에는 transcript.v.1.4.txt 파일이 있는 경로를, base_dir 에는 kss 오디오 파일이 있는 경로를 지정한다

 

5번 셀 까지 실행하면 각 오디오 파일의 대본이 .lab 파일로 만들어진다.

 

다음 셀들을 실행하면 korean_dict.txt 라는 텍스트 파일이 생긴다.

 

KSS의 대본 파일에 맞춰서 만들었기 때문에 커스텀 데이터를 사용하려면 코드를 수정하거나 대본 형식을 맞춰야한다.

 

 

4. 다음 명령어를 순서대로 실행한다

mfa train_g2p korean_dict.txt korean.zip
mfa g2p korean.zip kss korean.txt
mfa train kss korean.txt out

각 명령어에 입력하는 인자는 사용자에 맞춰서 바꿔주면 된다.

 

mfa train_g2p는 korean_dict 경로, 실행 후 생성될 zip파일 경로

 

mfa g2p는 train_g2p에서 나온 zip파일 경로, 데이터가 있는 폴더 경로, 실행 후 생성될 txt파일 경로

 

mfa train은 데이터가 있는 폴더 경로, g2p에서 나온 txt파일 경로, 실행 후 TextGrid 파일이 저장될 경로를 입력받는다

 

모두 실행되면 out 폴더에 TextGrid 파일들이 저장된다

 

 

# g2pk는 설치에 실패해서 제외

 

 

# FastSpeech2 학습 되는것 확인

 

mfa 실행 후 unaligned.txt 라는 파일이 생길 수 있다.

 

열어보면 TextGrid 생성에 실패한 파일 리스트가 있는데, 해당 파일들은 align이 없기 때문에 학습에 제외해야한다.

'딥러닝' 카테고리의 다른 글

한국어 노래 합성 정리  (8) 2022.09.19
DCTTS 정리  (0) 2020.10.28
Tacotron2 정리  (0) 2020.05.08
윈도우에서 MelGAN 학습하기  (42) 2020.04.08
Tacotron 정리  (8) 2020.04.03
Comments