Time-Domain Beamforming and Blind Source Separation
Speech Input in the Car Environment
Samenvatting
This book addresses the problem of separating spontaneous multi-party speech by way of microphone arrays (beamformers) and adaptive signal processing techniques. It is written is a concise manner and an effort has been made such that all presented algorithms can be straightforwardly implemented by the reader. All experimental results have been obtained with real in-car microphone recordings involving simultaneous speech of the driver and the co-driver.
Specificaties
Inhoudsopgave
<P>1.1 Existing approaches: a brief overview. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1</P>
<P>1.2 Scope and objective of the thesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2</P>
<P>1.3 Outline of the thesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3</P>
<P>2 Non-adaptive stationary beamforming 5</P>
<P>2.1 Problemand notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5</P>
<P>2.2 The space-frequency response for omni-directional microphones . . . . . . . . . . . . . . . 6</P>
<P>2.3 Minimum VarianceDistortionless Response (MVDR) . . . . . . . . . . . . . . . . . . . . . 8</P>
<P>2.4 Data-independent beamformers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9</P>
<P>2.4.1 The delay-and-sumbeamformer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9</P>
<P>2.4.2 TheMVDR null beamformer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10</P>
<P>2.5 Statistically optimumMVDR beamformer . . . . . . . . . . . . . . . . . . . . . . . . . . . 11</P>
<P>2.6 FromMVDR to Generalized Sidelobe Canceller (GSC) . . . . . . . . . . . . . . . . . . . . 12</P>
<P>2.7 The target signal cancellation problem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14</P>
<P>2.7.1 The power-inversion effect . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14</P>
<P>2.7.2 Robust versions of the GSC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15</P>
<P>2.8 Use of directionalmicrophones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15</P>
<P>2.8.1 Directionalmicrophones with the same orientation . . . . . . . . . . . . . . . . . . 16</P>
<P>2.8.2 Directionalmicrophones oriented to the sources . . . . . . . . . . . . . . . . . . . . 16</P>
<P>2.9 Experiments under stationary acoustic conditions . . . . . . . . . . . . . . . . . . . . . . . 18<
<P>2.9.1 Experiments with the mirror array . . . . . . . . . . . . . . . . . . . . . . . . . . . 18</P>
<P>2.9.2 Experiments with the cocooning array . . . . . . . . . . . . . . . . . . . . . . . . . 22</P>
<P>2.10 Summary and conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24</P>
<P>3 Implicit adaptation control for beamforming 27</P>
<P>3.1 Adaptive interference canceller . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27</P>
<P>3.2 Implicit adaptation control with a pseudo-optimal step-size . . . . . . . . . . . . . . . . . 29</P>
<P>3.3 ILMS transient behavior and stability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31</P>
<P>3.3.1 Transient convergence and divergence . . . . . . . . . . . . . . . . . . . . . . . . . 31</P>
<P>3.3.2 About the stability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34</P>
<P>3.4 Robustness improvement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34</P>
<P>3.5 Experiments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35</P>
<P>3.5.1 Experiments with the mirror array . . . . . . . . . . . . . . . . . . . . . . . . . . . 36</P>
<P>3.5.2 Experiment with the cocooning array . . . . . . . . . . . . . . . . . . . . . . . . . 38</P>
<P>3.6 Summary and conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40</P>
<P>4 Second-Order Blind Source Separation 43</P>
<P>4.1 Problemand notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44</P>
<P>4.1.1 Froma scalar to a convolutivemixture model . . . . . . . . . . . . . . . . . . . . . 44</P>
<P>4.1.2 Separation constraints and degrees of freedom. . . . . . . . . . . . . . . . . . . . . 46</P>
<P>4.2 Nonstationarity and source separation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47</P>
<P>4.2.1 The insufficiency of decorrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47</P>
<P>i</P>
<P>4.2.2 Nonstationarity-based separation cost function. . . . . . . . . . . . . . . . . . . . . 47</P>
<P>4.3 Gradient-basedminimization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49</P>
<P>4.3.1 Standard gradient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49</P>
<P>4.3.2 Natural gradient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50</P>
<P>4.4 Natural gradient algorithmfor non-square systems . . . . . . . . . . . . . . . . . . . . . . 50</P>
<P>4.5 Summary and conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52</P>
<P>5 Implementation Issues in Blind Source Separation 53</P>
<P>5.1 Convolutive Natural Gradient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53</P>
<P>5.1.1 Gradient in the Sylvestermanifold . . . . . . . . . . . . . . . . . . . . . . . . . . . 53</P>
<P>5.1.2 From matrices to z-transforms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55</P>
<P>5.1.3 Self-closed and non-self-closed natural gradients . . . . . . . . . . . . . . . . . . . . 56</P>
<P>5.1.4 From z-transforms back to the time domain . . . . . . . . . . . . . . . . . . . . . . 57</P>
<P>5.1.5 Application to second-order BSS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59</P>
<P>5.1.6 Discussion: Which natural gradient is best? . . . . . . . . . . . . . . . . . . . . . . 60</P>
<P>5.2 Online adaptation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62</P>
<P>5.2.1 Blockwise batch BSS algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62</P>
<P>5.2.2 Sample-wise BSS algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63</P>
<P>5.3 Experimental results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63</P>
<P>5.3.1 Experiments with the mirror array . . . . . . . . . . . . . . . . . . . . . . . . . . . 64</P>
<P>5.3.2 Experiments with the cocooning array . . . . . . . . . . . . . . . . . . . . . . . . . 66</P>
<P>5.3.3 Comparison with other BSS algorithms in the frequency domain . . . . . . . . . . 66</P>
<P>5.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69</P>
<P>6 Blind Source Separation: Convergence and Stability 71</P>
<P>6.1 Global convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71</P>
<P>6.1.1 Difficulty of a global convergence analysis . . . . . . . . . . . . . . . . . . . . . . . 72</P>
<P>6.1.2 Convergence analysis for a simplified algorithm . . . . . . . . . . . . . . . . . . . . 73</P>
<P>6.2 Local stability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74</P>
<P>6.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76</P>
<P>7 Comparison of Beamforming and Blind Source Separation 77</P>
<P>7.1 System identification vs. interference cancellation . . . . . . . . . . . . . . . . . . . . . . . 77</P>
<P>7.2 Properties of the cost function . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80</P>
<P>7.2.1 Convergence of the gradient descent . . . . . . . . . . . . . . . . . . . . . . . . . . 80</P>
<P>7.2.2 Statistical efficiency . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80</P>
<P>7.3 Complexity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83</P>
<P>7.3.1 NLMS complexity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83</P>
<P>7.3.2 BSS complexity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84</P>
<P>7.3.3 NLMS vs. BSS complexity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85</P>
<P>7.3.4 Online BSS algorithm in the special case N =2 . . . . . . . . . . . . . . . . . . . . 86</P>
<P>7.4 Experimental comparison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87</P>
<P>7.5 Summary and conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89</P>
<P>8 Combining Blind Source Separation and Beamforming 91</P>
<P>8.1 Existing combinations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91</P>
<P>8.2 BSS and geometric prior information . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92</P>
<P>8.2.1 Causality information . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92</P>
<P>8.2.2 Prior information on the source direction of arrival . . . . . . . . . . . . . . . . . . 93</P>
<P>8.2.3 Geometric information at the initialization . . . . . . . . . . . . . . . . . . . . . . 95</P>
<P>8.2.4 Geometric information as a soft constraint . . . . . . . . . . . . . . . . . . . . . . . 96</P>
<P>8.2.5 Geometric information as a preprocessing . . . . . . . . . . . . . . . . . . . . . . . 99</P>
<P>8.3 Combining BSS and the power criterion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101</P>
<P>8.4 Combining BSS with geometric prior information and the power criterion . . . . . . . . . 102</P>
<P>ii</P>
<P>8.5 Experimental results on automatic speech recognition . . . . . . . . . . . . . . . . . . . . 104</P>
<P>8.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105</P>
<P>A Experimental setups 109</P>
<P>A.1 Mirror array . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109</P>
<P>A.2 Cocooning array . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109</P>
<P>A.3 Acoustic characteristics of the car cabin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111</P>
<P>B The RGSC according to Hoshuyama et al. 113</P>
<P>B.1 RGSC for the mirror array . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113</P>
<P>B.2 RGSC for the cocooning array. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114</P>
<P>B.3 Experimental comparison: GSC vs. RGSC. . . . . . . . . . . . . . . . . . . . . . . . . . . 115</P>
<P>B.3.1 Mirror array . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115</P>
<P>B.3.2 Cocooning array. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115</P>
<P>B.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115</P>
<P>C Stability Analysis 119</P>
<P>C.1 Mixing and separationmodels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119</P>
<P>C.2 Linearization of the BSS updates . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120</P>
<P>C.3 Local stability conditions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122</P>
<P>Bibliography 125</P>
<P>iii</P>

