實驗小紀錄
Articulation 上的實驗
Articulation 上面我們取了/a/ /u/ /i/ 三個音並算他的level of clustering。 其中定義注音裡面的以下幾個音當作我們分析的目標
a | i | u |
---|---|---|
A: | j | w |
A:1 | i:1 | u:1 |
A:2 | i:2 | u:2 |
A:3 | i:3 | u:3 |
A:4 | i:4 | u:4 |
A:5 | i:5 | u:5 |
i:7 | u:7 |
的結果是:
ijuw, N=5 | pearsonr | pears_pvalue | de-zero_num |
---|---|---|---|
FCR | 0.106 | 0.370 | 74 |
VSA1 | -0.228 | 0.051 | 74 |
F_vals_f1 | -0.298 | 0.010 | 74 |
F_vals_f2 | -0.200 | 0.087 | 74 |
F_val_mix | -0.261 | 0.025 | 74 |
MSB_f1 | -0.296 | 0.011 | 74 |
MSB_f2 | -0.306 | 0.008 | 74 |
可是如果把屬於滑音的w 和 j拿掉就會變成
iu, N=5 | pearsonr | pears_pvalue | de-zero_num |
---|---|---|---|
FCR | -0.046 | 0.724 | 61 |
VSA1 | -0.090 | 0.490 | 61 |
F_vals_f1 | -0.066 | 0.613 | 61 |
F_vals_f2 | -0.133 | 0.308 | 61 |
F_val_mix | -0.125 | 0.339 | 61 |
MSB_f1 | -0.242 | 0.061 | 61 |
MSB_f2 | -0.209 | 0.106 | 61 |
MSB_mix | -0.261 | 0.042 | 61 |
但是其實如果看MSB (between class variance)好像還是有效的
iu, N=2 | pearsonr | pears_pvalue | de-zero_num |
---|---|---|---|
FCR | 0.044 | 0.716 | 72 |
VSA1 | -0.113 | 0.346 | 72 |
F_vals_f1 | -0.117 | 0.326 | 72 |
F_vals_f2 | -0.183 | 0.123 | 72 |
F_val_mix | -0.182 | 0.125 | 72 |
MSB_f1 | -0.251 | 0.034 | 72 |
MSB_f2 | -0.262 | 0.026 | 72 |
MSB_mix | -0.307 | 0.009 | 72 |
如果硬要把人數衝上來的話還是能達到P-value < 0.01的效果。
將每個音檔都normalize成到-20 db之後 (Formants_people_symb_bymiddle_noextend.pkl)
首先來的是 ijuw 的結果
ijuw, N=5 | pearsonr | pears_pvalue | de-zero_num |
---|---|---|---|
FCR | 0.160 | 0.173 | 74 |
VSA1 | -0.277 | 0.017 | 74 |
F_vals_f1 | -0.307 | 0.008 | 74 |
F_vals_f2 | -0.298 | 0.010 | 74 |
F_val_mix | -0.333 | 0.004 | 74 |
MSB_f1 | -0.305 | 0.008 | 74 |
MSB_f2 | -0.358 | 0.002 | 74 |
MSB_mix | -0.437400779708174 | 9.75E-05 | 74 |
可以看到結果好很多
再來是純粹 u i
iu, N=5 | pearsonr | pears_pvalue | de-zero_num |
---|---|---|---|
FCR | 0.021633034705749 | 0.870809645085987 | 59 |
VSA1 | -0.059403343388301 | 0.654934246201381 | 59 |
F_vals_f1 | -0.195101665783303 | 0.138656774163098 | 59 |
F_vals_f2 | -0.207914967521422 | 0.114066247794693 | 59 |
F_val_mix | -0.24077658921496 | 0.066210318325618 | 59 |
MSB_f1 | -0.267597864357962 | 0.040460924300917 | 59 |
MSB_f2 | -0.237055564382257 | 0.070643490923486 | 59 |
MSB_mix | -0.297294824588028 | 0.022214795991251 | 59 |
MSB_mix 看起來好像堪用了
基於剛剛有正規化的音檔,做另一個調整:在切出每個phoneme出來之前都在前後extend一個window size的大小(做FFT的時候才不會有一個突升突降)
ijuw, N=5 | pearsonr | pears_pvalue | de-zero_num | iu, N=5 | pearsonr | pears_pvalue | de-zero_num |
---|---|---|---|---|---|---|---|
FCR | 0.288 | 0.013 | 74.000 | FCR | 0.150 | 0.258 | 59.000 |
VSA1 | -0.359 | 0.002 | 74.000 | VSA1 | -0.302 | 0.020 | 59.000 |
F_vals_f1 | -0.442 | 0.000 | 74.000 | F_vals_f1 | -0.373 | 0.004 | 59.000 |
F_vals_f2 | -0.382 | 0.001 | 74.000 | F_vals_f2 | -0.367 | 0.004 | 59.000 |
F_val_mix | -0.460 | 0.000 | 74.000 | F_val_mix | -0.450 | 0.000 | 59.000 |
MSB_f1 | -0.318 | 0.006 | 74.000 | MSB_f1 | -0.248 | 0.058 | 59.000 |
MSB_f2 | -0.386 | 0.001 | 74.000 | MSB_f2 | -0.348 | 0.007 | 59.000 |
MSB_mix | -0.459 | 0.000 | 74.000 | MSB_mix | -0.388 | 0.002 | 59.000 |
其實ijuw 跟iu的結果都非常好了
在ASD_doc 跟ASD_kid間的articulation value做t-test
ui | doc-kid | p-val | uwij | doc-kid | p-val |
---|---|---|---|---|---|
F_vals_f1 | -1.849 | 0.183 | F_vals_f1 | -1.265 | 0.477 |
F_vals_f2 | 4.861 | 0.066 | F_vals_f2 | 6.608 | 0.125 |
F_val_mix | 3.012 | 0.371 | F_val_mix | 5.344 | 0.316 |
MSB_f1 | -247462.266 | 0.070 | MSB_f1 | -343758.748 | 0.127 |
MSB_f2 | 334473.828 | 0.411 | MSB_f2 | 900484.247 | 0.208 |
MSB_mix | 87011.563 | 0.851 | MSB_mix | 556725.499 | 0.475 |
MSW_f1 | -16940.267 | 0.186 | MSW_f1 | -23758.450 | 0.036 |
MSW_f2 | -15018.018 | 0.076 | MSW_f2 | -9129.176 | 0.315 |
MSW_mix | -31958.285 | 0.082 | MSW_mix | -32887.626 | 0.059 |
在比較doc跟kid之間的level of clustering好像不太理想。 首先是不太顯著 再來就是doc在f1的表現跟預期相反,反而是小於kid的,原因出自於doc的MSB(between class variance)拉不開 但其實可以看出within class variance上面可以看出一點端倪