일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- waveglow
- 윈도우
- 딥러닝 보코더
- korean tts
- 음성 합성
- 보코더
- deep voice
- YOLO
- 한국어 tts
- 타코트론
- 노래합성
- tacotron
- you only look once
- 딥러닝
- singing voice synthesis
- 딥러닝 음성 합성
- melgan
- text-to-speech
- Vocoder
- 한국어 음성 합성
- DCTTS
- TTS
- 트레이닝
- 학습
- Today
- Total
chldkato
Montreal Forced Aligner (MFA) 한국어 사용법 본문
FastSpeech 처럼 최근의 딥러닝 TTS synthesizer는 텍스트에 대한 align을 같이 입력하는게 많다.
이 align을 쉽게 만들어주는게 Montreal Forced Aligner (MFA) 이다.
MFA에서 제공하는 한국어 pretrained 모델을 사용하면 출력이 영어로 나온다.
한국어 TTS에 적합하도록 출력이 자음모음으로 나오게 했다.
리눅스 아나콘다에서 실행. 윈도우에서 되는지는 확인 X
1. 아래의 명령어를 순서대로 실행한다
conda create -n aligner -c conda-forge montreal-forced-aligner
conda activate aligner
conda update --all
conda install -c conda-forge montreal-forced-aligner
2. KSS를 다운받는다
https://www.kaggle.com/bryanpark/korean-single-speaker-speech-dataset
3. 첨부한 ipynb 파일을 실행한다
text 변수에는 transcript.v.1.4.txt 파일이 있는 경로를, base_dir 에는 kss 오디오 파일이 있는 경로를 지정한다
5번 셀 까지 실행하면 각 오디오 파일의 대본이 .lab 파일로 만들어진다.
다음 셀들을 실행하면 korean_dict.txt 라는 텍스트 파일이 생긴다.
KSS의 대본 파일에 맞춰서 만들었기 때문에 커스텀 데이터를 사용하려면 코드를 수정하거나 대본 형식을 맞춰야한다.
4. 다음 명령어를 순서대로 실행한다
mfa train_g2p korean_dict.txt korean.zip
mfa g2p korean.zip kss korean.txt
mfa train kss korean.txt out
각 명령어에 입력하는 인자는 사용자에 맞춰서 바꿔주면 된다.
mfa train_g2p는 korean_dict 경로, 실행 후 생성될 zip파일 경로
mfa g2p는 train_g2p에서 나온 zip파일 경로, 데이터가 있는 폴더 경로, 실행 후 생성될 txt파일 경로
mfa train은 데이터가 있는 폴더 경로, g2p에서 나온 txt파일 경로, 실행 후 TextGrid 파일이 저장될 경로를 입력받는다
모두 실행되면 out 폴더에 TextGrid 파일들이 저장된다
# g2pk는 설치에 실패해서 제외
# FastSpeech2 학습 되는것 확인
mfa 실행 후 unaligned.txt 라는 파일이 생길 수 있다.
열어보면 TextGrid 생성에 실패한 파일 리스트가 있는데, 해당 파일들은 align이 없기 때문에 학습에 제외해야한다.
'딥러닝' 카테고리의 다른 글
한국어 노래 합성 정리 (8) | 2022.09.19 |
---|---|
DCTTS 정리 (0) | 2020.10.28 |
Tacotron2 정리 (0) | 2020.05.08 |
윈도우에서 MelGAN 학습하기 (42) | 2020.04.08 |
Tacotron 정리 (8) | 2020.04.03 |