上一個做的事情 (#3) · Issues · JackingChen / kaldi_jackchen

上一個做的事情

在等formosa_all_sp的mfcc 重生，然後重新alignment跑完到 ./formosa_all/lang_mapped/tri6a_gauss77000_numleaves3000_ADOS_train_happynvalid_formosa_DAAI_Deceipt_CSRCKID

執行指令： local/chain/prepare_chain_data.sh --train_set formosa_all --stage 0 --Alignment_ROOT .

整個pipeline跑過，實驗跑完 exp_DAAIKidFullDeceptCSRCformosa_all_ADOSHappyTrainvalid/nnet3/ivectors_ADOS_afraidangrysad 1個epoch CER 52%

繼續上次的進度到4 epoch

跑exp_DAAIKidFullDeceptCSRCformosa_ADOSHappyTrainvalid的實驗，但是發現formosa的cmvn有缺。所以來補一下：執行了 local/chain/prepare_chain_data.sh --train_set formosa --stage 0 --Alignment_ROOT .

如果ok 下個指令直接進行exp_DAAIKidFullDeceptCSRCformosa_ADOSHappyTrainvalid的training: local/chain/prepare_chain_data.sh --train_set DAAIKidFullDeceptCSRCformosa_ADOSHappyTrainvalid --stage 5 --Alignment_ROOT exp_DAAIKidFullDeceptCSRCformosa_ADOSHappyTrainvalid --Feature_ROOT data --affix DAAIKidFullDeceptCSRCformosa_all_ADOSHappyTrainvalid

後來發現formosa mfcc_hires 的feature 只有16維，重生一下。生完後用hhpan的帳號執行 CUDA_VISIBLE_DEVICES=0,1 local/chain/run_train_chain.sh --stage 7 --train_set DAAIKidFullDeceptCSRCformosa_ADOSHappyTrainvalid --Alignment_ROOT exp_DAAIKidFullDeceptCSRCformosa_ADOSHappyTrainvalid --affix _DAAIKidFullDeceptCSRCformosa_ADOSHappyTrainvalid --num_epochs 1

現在exp_DAAIKidFullDeceptCSRCformosa_ADOSHappyTrainvalid 開始跑了，執行指令為 CUDA_VISIBLE_DEVICES=0,1 local/chain/run_train_chain.sh --stage 7 --train_set DAAIKidFullDeceptCSRCformosa_ADOSHappyTrainvalid --affix _DAAIKidFullDeceptCSRCformosa_ADOSHappyTrainvalid --num_epochs 1 --Alignment_ROOT exp_DAAIKidFullDeceptCSRCformosa_ADOSHappyTrainvalid

記得寫一個run_prepar> e_features.sh 的array版本，不必每次都手動改set數寫完後準備一下要拿來 Weight transfer的模型 (exp_PureFormosaallDAAIKidallDeceipt)

調各種learning rate factor 跟epoch數的實驗（執行 ./run_tuneParameter_cmd.sh）

自動化生各個參數的Alignments的code還沒完成，有bug

transfer weight on 現在已有的中文Kaldi model來測試

用NNET來align data做下一個階段的訓練 a. NNET 會很久(DAAIKidFullDeceptCSRCformosa_all_ADOSHappyTrainvalid_sp: 14小時 23分)，所以最好將所有資料庫都準> 備一個ali 跟 lat的資料。目前正在ali整合型的大資料集，事後看看可不可以用utils/copy_ali_dir.sh 來將需要的alignments 拆開

正要用NNET3 align後的model來做實驗，估計不會好到哪裡去。要想想新辦法

問老師是不是可以繞過CER來呈現aligner的進步

問問看潘老師有沒有中文phone boundary的dataset，思考看看是不是可以直接拿boundary label來訓練acoustic model

準備好原本的拼音系統來做transfer learning

拿目前成功的transfer learning的setting a. 建好baseline exps_langorigin/exp_DAAIKidFullDeceptCSRCformosa_all_ADOSHappyTrainvalid b. 建立 exp_Pure_DAAIKidFullDeceptCSRCformosa 來準備transfer learning的動作

transfer from 來自大陸簡體中文的資料

看舊的拼音系統能不能稍微變化去match紹紝標的syllable

以後實驗架構改成 exps_langorigin/$experiment 的形式

以前的結果無法復現，試著跑單一資料庫的結果 ./run_setBaselines.sh

記得執行./run_setsBaseline.sh

Edited May 11, 2021 by JackingChen