index.html

<!DOCTYPE html>
<html lang="en">

<head>
    <meta charset="utf-8">
    <title>Demo for "Attention-Guided Generative Adversarial Network for Whisper to Normal Speech Conversion"</title>
</head>

<body>


    <h2 align="center"> Demo for "Attention-Guided Generative Adversarial Network for Whisper to Normal Speech Conversion"</h2>
    <!-- <div><b>Authors:</b> Teng Gao, Jian Zhou, Huabin Wang, Liang Tao, and Hon Keung Kwan</div> -->
    <div><b>Abstract:</b> Whispered speech is a special way of pronunciation without using vocal cord vibration. A whispered speech does not contain a fundamental frequency, and its energy is about 20dB lower than that of a normal speech. Converting a whispered speech into a normal speech can improve speech quality and intelligibility. In this paper, a novel attention-guided generative adversarial network model incorporating an autoencoder, a Siamese neural network, and an identity mapping loss function for whisper to normal speech conversion (AGAN-W2SC) is proposed. The proposed method avoids the challenge of estimating the fundamental frequency of the normal voiced speech converted from a whispered speech. Specifically, the proposed model is more amendable to practical applications because it does not need to align speech features for training. Experimental results demonstrate that the proposed AGAN-W2SC can obtain improved speech quality and intelligibility compared with dynamic-time-warping-based methods.</div>


    <h4>Comparing of different models(Whisper, Normal, GMM, BLSTM, CycleGAN, Ours ): </h4>

    <table border="1">
        <tr>
            <th>Whisper</th>
            <th>Normal</th>
            <!-- <th>lstm</th> -->
            <th>GMM</th>
            <th>BLSTM</th>
            <th>CycleGAN</th>
            <th>Ours</th>
            <!-- <th>Causal-local-att-expanded</th> -->
            <!-- <th>Causal-local-att-staecked</th> -->
        </tr>
        <tr>
            <td align="center">A</td>
            <td align="center">B</td>
            <td align="center">C</td>
            <td align="center">D</td>
            <td align="center">E</td>
            <td align="center">F</td>
            <!-- <td align="center">F</td>
	<td align="center">G</td>
	<td align="center">H</td> -->
        </tr>
    </table>

    <blockquote>
        <table>
            <tr>
                <td colspan=2><span>1. test001.wav.</span></td>
            </tr>
            <tr>
                <td>
                    <div style="float:left;width:20px; margin-top:16px;">A</div><audio controls>
                        <source src="Samples/Whisper/fw001.wav"></audio>
                </td>
                <td>
                    <div style="float:left;width:20px; margin-top:16px;">B</div><audio controls>
                        <source src="Samples/Normal/fn001.wav"></audio>
                </td>
                <td>
                    <div style="float:left;width:20px; margin-top:16px;">C</div><audio controls>
                        <source src="Samples/GMM/generated_fn001.wav"></audio>
                </td>
                <td>
                    <div style="float:left;width:20px; margin-top:16px;">D</div><audio controls>
                        <source src="Samples/BLSTM/generated_fn001.wav"></audio>
                </td>
            <!-- </tr>
            <tr> -->
                <td>
                    <div style="float:left;width:20px; margin-top:16px;">E</div><audio controls>
                        <source src="Samples/CycleGAN/generated_fn001.wav"></audio>
                </td>
                <td>
                    <div style="float:left;width:20px; margin-top:16px;">F</div><audio controls>
                        <source src="Samples/Ours/generated_fn001.wav"></audio>
                </td>

                <!-- <td><div style="float:left;width:20px;  margin-top:16px;">F</div><audio controls><source src="samples/d-s/test001.wav">  </audio></td> <td><div style="float:left;width:20px; margin-top: 16px;">G</div><audio controls>  <source src="samples/l-e/test001.wav"></audio></td><td><div style="float:left;width:20px; margin-top:16px;">H</div><audio controls><source src="samples/l-s/test001.wav"></audio></td></tr> -->
            </tr>
            <tr>
                <td colspan=2><span>2. test002.wav.</span></td>
            </tr>
            <tr>
                <td>
                    <div style="float:left;width:20px; margin-top:16px;">A</div><audio controls>
                        <source src="Samples/Whisper/fw002.wav"></audio>
                </td>
                <td>
                    <div style="float:left;width:20px; margin-top:16px;">B</div> <audio controls>
                        <source src="Samples/Normal/fn002.wav"></audio>
                </td>
                <td>
                    <div style="float:left;width:20px; margin-top:16px;">C</div> <audio controls>
                        <source src="Samples/GMM/generated_fn002.wav"></audio>
                </td>
                <td>
                    <div style="float:left;width:20px; margin-top:16px;">D</div> <audio controls>
                        <source src="Samples/BLSTM/generated_fn002.wav"></audio>
                </td>
            
            <!-- <tr> -->
                <td>
                    <div style="float:left;width:20px; margin-top:16px;">E</div><audio controls>
                        <source src="Samples/CycleGAN/generated_fn002.wav"></audio>
                </td>
                <td>
                   <div style="float:left;width:20px; margin-top:16px;">F</div><audio controls>
                       <source src="Samples/Ours/generated_fn002.wav"></audio>
                </td>

                <!-- <td><div style="float:left;width:20px; margin-top:16px;">F</div><audio controls><source src="samples/d-s/test002.wav"></audio></td><td><div style="float:left;width:20px; margin-top:16px;">G</div><audio controls><source src="samples/l-e/test002.wav"></audio> </td><td><div style="float:left;width:20px; margin-top:16px;">H</div> <audio controls><source src="samples/l-s/test002.wav"></audio></td></tr> -->
            </tr>
            
            <tr>
                <td colspan=2><span>3. test003.wav.</span></td>
            </tr>
            <tr>
                <td>
                    <div style="float:left;width:20px; margin-top:16px;">A</div><audio controls>
                        <source src="Samples/Whisper/fw003.wav"></audio>
                </td>
                <td>
                    <div style="float:left;width:20px; margin-top:16px;">B</div><audio controls>
                        <source src="Samples/Normal/fn003.wav"></audio>
                </td>
                <td>
                    <div style="float:left;width:20px; margin-top:16px;">C</div><audio controls>
                        <source src="Samples/GMM/generated_fn003.wav"></audio>
                </td>
                <td>
                    <div style="float:left;width:20px; margin-top:16px;">D</div><audio controls>
                        <source src="Samples/BLSTM/generated_fn003.wav"></audio>
            <!-- </tr>
            <tr> -->
                <td>
                    <div style="float:left;width:20px; margin-top:16px;">E</div><audio controls>
                        <source src="Samples/CycleGAN/generated_fn003.wav"></audio>
                </td>
                <td>
                   <div style="float:left;width:20px; margin-top:16px;">F</div><audio controls>
                       <source src="Samples/Ours/generated_fn003.wav"></audio>
                </td>

                <!-- <td><div style="float:left;width:20px; margin-top:16px;">F</div><audio controls><source src="samples/d-s/test003.wav"></audio></td><td><div style="float:left;width:20px; margin-top:16px;">G</div><audio controls><source src="samples/l-e/test003.wav"></audio></td><td><div style="float:left;width:20px; margin-top:16px;">H</div><audio controls><source src="samples/l-s/test003.wav"></audio></td></tr> -->
            </tr>

                
        </table>
    </blockquote>

</body>

</html>