上一個做的事情
在等formosa_all_sp的mfcc 重生,然後重新alignment跑完到
./formosa_all/lang_mapped/tri6a_gauss77000_numleaves3000_ADOS_train_happynvalid_formosa_DAAI_Deceipt_CSRCKID執行指令:
local/chain/prepare_chain_data.sh --train_set formosa_all --stage 0 --Alignment_ROOT .
整個pipeline跑過,實驗跑完
exp_DAAIKidFullDeceptCSRCformosa_all_ADOSHappyTrainvalid/nnet3/ivectors_ADOS_afraidangrysad1個epoch CER 52%繼續上次的進度到4 epoch
跑exp_DAAIKidFullDeceptCSRCformosa_ADOSHappyTrainvalid的實驗,但是發現formosa的cmvn有缺。所以來補一下: 執行了
local/chain/prepare_chain_data.sh --train_set formosa --stage 0 --Alignment_ROOT .如果ok 下個指令直接進行exp_DAAIKidFullDeceptCSRCformosa_ADOSHappyTrainvalid的training:
local/chain/prepare_chain_data.sh --train_set DAAIKidFullDeceptCSRCformosa_ADOSHappyTrainvalid --stage 5 --Alignment_ROOT exp_DAAIKidFullDeceptCSRCformosa_ADOSHappyTrainvalid --Feature_ROOT data --affix DAAIKidFullDeceptCSRCformosa_all_ADOSHappyTrainvalid
後來發現formosa mfcc_hires 的feature 只有16維, 重生一下。 生完後用hhpan的帳號執行
CUDA_VISIBLE_DEVICES=0,1 local/chain/run_train_chain.sh --stage 7 --train_set DAAIKidFullDeceptCSRCformosa_ADOSHappyTrainvalid --Alignment_ROOT exp_DAAIKidFullDeceptCSRCformosa_ADOSHappyTrainvalid --affix _DAAIKidFullDeceptCSRCformosa_ADOSHappyTrainvalid --num_epochs 1現在exp_DAAIKidFullDeceptCSRCformosa_ADOSHappyTrainvalid 開始跑了,執行指令為
CUDA_VISIBLE_DEVICES=0,1 local/chain/run_train_chain.sh --stage 7 --train_set DAAIKidFullDeceptCSRCformosa_ADOSHappyTrainvalid --affix _DAAIKidFullDeceptCSRCformosa_ADOSHappyTrainvalid --num_epochs 1 --Alignment_ROOT exp_DAAIKidFullDeceptCSRCformosa_ADOSHappyTrainvalid
記得寫一個run_prepar> e_features.sh 的array版本,不必每次都手動改set數 寫完後準備一下要拿來 Weight transfer的模型 (exp_PureFormosaallDAAIKidallDeceipt)
調各種learning rate factor 跟epoch數的實驗 (執行 ./run_tuneParameter_cmd.sh)
自動化生各個參數的Alignments的code還沒完成,有bug
- transfer weight on 現在已有的中文Kaldi model來測試
- 用NNET來align data做下一個階段的訓練 a. NNET 會很久(DAAIKidFullDeceptCSRCformosa_all_ADOSHappyTrainvalid_sp: 14小時 23分),所以最好將所有資料庫都準> 備一個ali 跟 lat的資料。 目前正在ali整合型的大資料集,事後看看可不可以用utils/copy_ali_dir.sh 來將需要的alignments 拆開
正要用NNET3 align後的model來做實驗,估計不會好到哪裡去。 要想想新辦法
- 問老師是不是可以繞過CER來呈現aligner的進步
- 問問看潘老師有沒有中文phone boundary的dataset,思考看看是不是可以直接拿boundary label來訓練acoustic model
準備好原本的拼音系統來做transfer learning
- 拿目前成功的transfer learning的setting a. 建好baseline exps_langorigin/exp_DAAIKidFullDeceptCSRCformosa_all_ADOSHappyTrainvalid b. 建立 exp_Pure_DAAIKidFullDeceptCSRCformosa 來準備transfer learning的動作
- transfer from 來自 大陸簡體中文的資料
- 看舊的拼音系統能不能稍微變化去match紹紝標的syllable
以後實驗架構改成 exps_langorigin/$experiment 的形式
以前的結果無法復現,試著跑單一資料庫的結果 ./run_setBaselines.sh
記得執行./run_setsBaseline.sh