일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- singing voice synthesis
- 음성 합성
- you only look once
- TTS
- 학습
- 윈도우
- 타코트론
- tacotron
- 딥러닝 보코더
- melgan
- Vocoder
- waveglow
- YOLO
- korean tts
- 트레이닝
- 보코더
- 딥러닝
- 한국어 tts
- 노래합성
- deep voice
- 한국어 음성 합성
- DCTTS
- 딥러닝 음성 합성
- text-to-speech
- Today
- Total
목록딥러닝 (13)
chldkato
음성 합성 TTS는 타코트론에서 hifigan을 거치면서 많은 발전이 있었고, diffusion을 적용한 모델 등 많은 모델이 있다.TTS의 다음 스텝으로 연구해볼 만한 분야는 노래 합성인데, 연구하기가 만만치 않다.이유로 첫째는 데이터 부족, 두번째는 TTS의 타코트론처럼 표준적인 모델이 없다는 점, 그리고 추가적으로 미디 데이터를 다루는 오디오 믹싱 지식이 어느정도는 필요하다는 점이다. 노래 합성은 singing voice synthesis (SVS) 를 키워드로 검색해보면 된다.오픈소스 중에서 begansing은 한국어 보컬 데이터 Children's Song Data (CSD) 를 사용했기 때문에 가장 접근하기 쉽다.CSD는 오픈된 데이터라서 검색하면 다운 받을 수 있다.그리고 aihub에 보컬 ..
FastSpeech 처럼 최근의 딥러닝 TTS synthesizer는 텍스트에 대한 align을 같이 입력하는게 많다. 이 align을 쉽게 만들어주는게 Montreal Forced Aligner (MFA) 이다. MFA에서 제공하는 한국어 pretrained 모델을 사용하면 출력이 영어로 나온다. 한국어 TTS에 적합하도록 출력이 자음모음으로 나오게 했다. 리눅스 아나콘다에서 실행. 윈도우에서 되는지는 확인 X 1. 아래의 명령어를 순서대로 실행한다 conda create -n aligner -c conda-forge montreal-forced-aligner conda activate aligner conda update --all conda install -c conda-forge montreal-..
DCTTS 논문은 타코트론과 타코트론2 사이에 발표됐다 DC는 deep convolutional 인데 lstm, gru 같은 recurrent layer가 하나도 없는 것이 특징이다 모든 레이어가 1d convolution이고 dilation을 적용해서 recurrent와 같이 유사하게 동작한다 DCTTS의 구조인데 convoluton으로 이루어진 seq2seq라고 생각하면 이해하기 쉽다 TextEnc, Attention, AudioEnc, AudioDec를 합쳐서 Text2Mel이라고 하고 이후는 SSRN이라고 칭했다 text2mel은 말그대로 텍스트를 입력해서 멜-스펙을 출력하도록 한다 SSRN은 멜-스펙을 입력해서 stft를 출력하는데 타코트론에서 post CBHG랑 역할이 같다 1. 데이터 전처리..
기존의 타코트론은 타코트론1로 칭함 타코트론2와 타코트론1의 가장 큰 차이점은 wavenet 보코더의 유무이다 wavenet 보코더는 여기서 따로 설명하지 않는다 타코트론2의 구조는 위와 같다 타코트론1보다 뭔가 복잡해보이지만 구조는 똑같다 타코트론1의 구조에 위의 layer들을 대입하면 된다 parameter 차이는 빼고 구조적인 차이는 다음과 같다 1) 인코더에서 FC - CBHG 구조가 아니라 conv - 양방향 zoneout LSTM으로 바꼈다 2) Attention에 location aware를 적용했다 3) 디코더에서 Attention RNN이 GRU에서 zoneout LSTM으로 바꼈다 (단방향) 4) 어텐션의 출력이 residual 양방향 GRU를 거쳐서 멜스펙트로그램을 출력하던 것에서 단..
Pytorch https://github.com/chldkato/MelGAN-pytorch chldkato/MelGAN-pytorch Contribute to chldkato/MelGAN-pytorch development by creating an account on GitHub. github.com Tensorflow2 https://github.com/chldkato/MelGAN-Tensorflow2 chldkato/MelGAN-Tensorflow2 Contribute to chldkato/MelGAN-Tensorflow2 development by creating an account on GitHub. github.com 1. 한국어 음성 데이터 KSS preprocess https://www.k..
타코트론은 딥러닝 기반 음성 합성의 대표적인 모델이다 타코트론을 이해하면 이후의 타코트론2, text2mel 등 seq2seq 기반의 TTS를 이해하기 쉬워진다 그리고 타코트론도 attention을 적용한 seq2seq를 기반으로 하기때문에 seq2seq와 attention을 먼저 알아둬야 한다 타코트론의 구조이다 처음보면 되게 복잡해보이지만 결국은 attention + seq2seq의 tts버전이라 보면된다 위 그림과 타코트론을 비교해보면 비슷하다는 느낌이 확 온다 타코트론은 4부분으로 나눌 수 있다 1) 인코더 2) 디코더 3) 어텐션 4) 오디오 생성 (보코더) 1,2,3 번은 묶어서 seq2seq attention인데 구조를 어떻게 하느냐로 볼 수 있다 그리고 오디오로 복원하기 위해서 그리핀-림 ..
melgan은 mel spectrogram을 입력받아서 오디오 신호를 생성해내는 gan 기반 보코더이다 딥러닝으로 오디오 신호를 처리하고자 할 때 스펙트로그램 (멜-스펙이 더 자주 쓰임)을 특징으로 하여 입력하게 된다 스펙트로그램은 크기와 위상으로 나눌 수 있는데 위상은 허수부이기 때문에 입력할 수 없다 그래서 딥러닝의 입력과 출력이 스펙트로그램의 크기가 되고 위상 없이 복원하기 위해 보코더가 필요하다 보코더는 여러 종류가 있는데 melgan을 맨 마지막으로 해서 시간순으로 크게 아래와 같이 나눌 수 있다 1) griffin-lim 2) wavenet 3) waveglow 4) melgan 그리핀림 알고리즘은 상당히 오래된 알고리즘인데 빠르게 합성할 수 있기 때문에 여전히 쓸만하다 물론 성능은 이후의 기..
Tensorflow1 github.com/chldkato/Tacotron-Korean chldkato/Tacotron-Korean Contribute to chldkato/Tacotron-Korean development by creating an account on GitHub. github.com Tensorflow2 github.com/chldkato/Tacotron-Korean-Tensorflow2 chldkato/Tacotron-Korean-Tensorflow2 Contribute to chldkato/Tacotron-Korean-Tensorflow2 development by creating an account on GitHub. github.com pytorch https://github.c..