Fix side-channel index for VAD/LBRR flags.
[opus.git] / silk / fixed / encode_frame_FIX.c
1 /***********************************************************************
2 Copyright (c) 2006-2011, Skype Limited. All rights reserved.
3 Redistribution and use in source and binary forms, with or without
4 modification, (subject to the limitations in the disclaimer below)
5 are permitted provided that the following conditions are met:
6 - Redistributions of source code must retain the above copyright notice,
7 this list of conditions and the following disclaimer.
8 - Redistributions in binary form must reproduce the above copyright
9 notice, this list of conditions and the following disclaimer in the
10 documentation and/or other materials provided with the distribution.
11 - Neither the name of Skype Limited, nor the names of specific
12 contributors, may be used to endorse or promote products derived from
13 this software without specific prior written permission.
14 NO EXPRESS OR IMPLIED LICENSES TO ANY PARTY'S PATENT RIGHTS ARE GRANTED
15 BY THIS LICENSE. THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND
16 CONTRIBUTORS ''AS IS'' AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING,
17 BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
18 FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE
19 COPYRIGHT OWNER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT,
20 INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT
21 NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF
22 USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON
23 ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
24 (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
25 OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
26 ***********************************************************************/
27
28 #ifdef HAVE_CONFIG_H
29 #include "config.h"
30 #endif
31
32 #include "main_FIX.h"
33 #include "tuning_parameters.h"
34
35 /****************/
36 /* Encode frame */
37 /****************/
38 opus_int silk_encode_frame_FIX(
39     silk_encoder_state_FIX          *psEnc,             /* I/O  Encoder state FIX                       */
40     opus_int32                       *pnBytesOut,        /*   O  Number of payload bytes                 */
41     ec_enc                          *psRangeEnc,        /* I/O  compressor data structure               */
42     opus_int                         condCoding         /* I    The type of conditional coding to use   */
43 )
44 {
45     silk_encoder_control_FIX sEncCtrl;
46     opus_int     ret = 0;
47     opus_int16   *x_frame, *res_pitch_frame;
48     opus_int16   xfw[ MAX_FRAME_LENGTH ];
49     opus_int16   res_pitch[ 2 * MAX_FRAME_LENGTH + LA_PITCH_MAX ];
50
51 TIC(ENCODE_FRAME)
52
53     psEnc->sCmn.indices.Seed = psEnc->sCmn.frameCounter++ & 3;
54
55     /**************************************************************/
56     /* Setup Input Pointers, and insert frame in input buffer    */
57     /*************************************************************/
58     /* pointers aligned with start of frame to encode */
59     x_frame         = psEnc->x_buf + psEnc->sCmn.ltp_mem_length;    /* start of frame to encode */
60     res_pitch_frame = res_pitch    + psEnc->sCmn.ltp_mem_length;    /* start of pitch LPC residual frame */
61
62     /****************************/
63     /* Voice Activity Detection */
64     /****************************/
65 TIC(VAD)
66     ret = silk_VAD_GetSA_Q8( &psEnc->sCmn, psEnc->sCmn.inputBuf + 1 );
67 TOC(VAD)
68
69     /**************************************************/
70     /* Convert speech activity into VAD and DTX flags */
71     /**************************************************/
72     if( psEnc->sCmn.speech_activity_Q8 < SILK_FIX_CONST( SPEECH_ACTIVITY_DTX_THRES, 8 ) ) {
73         psEnc->sCmn.indices.signalType = TYPE_NO_VOICE_ACTIVITY;
74         psEnc->sCmn.noSpeechCounter++;
75         if( psEnc->sCmn.noSpeechCounter < NB_SPEECH_FRAMES_BEFORE_DTX ) {
76             psEnc->sCmn.inDTX = 0;
77         } else if( psEnc->sCmn.noSpeechCounter > MAX_CONSECUTIVE_DTX + NB_SPEECH_FRAMES_BEFORE_DTX ) {
78             psEnc->sCmn.noSpeechCounter = NB_SPEECH_FRAMES_BEFORE_DTX;
79             psEnc->sCmn.inDTX           = 0;
80         }
81         psEnc->sCmn.VAD_flags[ psEnc->sCmn.nFramesEncoded ] = 0;
82     } else {
83         psEnc->sCmn.noSpeechCounter    = 0;
84         psEnc->sCmn.inDTX              = 0;
85         psEnc->sCmn.indices.signalType = TYPE_UNVOICED;
86         psEnc->sCmn.VAD_flags[ psEnc->sCmn.nFramesEncoded ] = 1;
87     }
88
89     /***************************************/
90     /* Ensure smooth bandwidth transitions */
91     /***************************************/
92     silk_LP_variable_cutoff( &psEnc->sCmn.sLP, psEnc->sCmn.inputBuf + 1, psEnc->sCmn.frame_length );
93
94     /*******************************************/
95     /* Copy new frame to front of input buffer */
96     /*******************************************/
97     silk_memcpy( x_frame + LA_SHAPE_MS * psEnc->sCmn.fs_kHz, psEnc->sCmn.inputBuf + 1, psEnc->sCmn.frame_length * sizeof( opus_int16 ) );
98
99     /*****************************************/
100     /* Find pitch lags, initial LPC analysis */
101     /*****************************************/
102 TIC(FIND_PITCH)
103     silk_find_pitch_lags_FIX( psEnc, &sEncCtrl, res_pitch, x_frame );
104 TOC(FIND_PITCH)
105
106     /************************/
107     /* Noise shape analysis */
108     /************************/
109 TIC(NOISE_SHAPE_ANALYSIS)
110     silk_noise_shape_analysis_FIX( psEnc, &sEncCtrl, res_pitch_frame, x_frame );
111 TOC(NOISE_SHAPE_ANALYSIS)
112
113     /***************************************************/
114     /* Find linear prediction coefficients (LPC + LTP) */
115     /***************************************************/
116 TIC(FIND_PRED_COEF)
117     silk_find_pred_coefs_FIX( psEnc, &sEncCtrl, res_pitch, x_frame, condCoding );
118 TOC(FIND_PRED_COEF)
119
120     /****************************************/
121     /* Process gains                        */
122     /****************************************/
123 TIC(PROCESS_GAINS)
124     silk_process_gains_FIX( psEnc, &sEncCtrl );
125 TOC(PROCESS_GAINS)
126
127     /*****************************************/
128     /* Prefiltering for noise shaper         */
129     /*****************************************/
130 TIC(PREFILTER)
131     silk_prefilter_FIX( psEnc, &sEncCtrl, xfw, x_frame );
132 TOC(PREFILTER)
133
134     /****************************************/
135     /* Low Bitrate Redundant Encoding       */
136     /****************************************/
137 TIC(LBRR)
138     silk_LBRR_encode_FIX( psEnc, &sEncCtrl, xfw, condCoding );
139 TOC(LBRR)
140
141     /*****************************************/
142     /* Noise shaping quantization            */
143     /*****************************************/
144 TIC(NSQ)
145     if( psEnc->sCmn.nStatesDelayedDecision > 1 || psEnc->sCmn.warping_Q16 > 0 ) {
146         silk_NSQ_del_dec( &psEnc->sCmn, &psEnc->sCmn.sNSQ, &psEnc->sCmn.indices, xfw, psEnc->sCmn.pulses,
147             sEncCtrl.PredCoef_Q12[ 0 ], sEncCtrl.LTPCoef_Q14, sEncCtrl.AR2_Q13, sEncCtrl.HarmShapeGain_Q14,
148             sEncCtrl.Tilt_Q14, sEncCtrl.LF_shp_Q14, sEncCtrl.Gains_Q16, sEncCtrl.pitchL, sEncCtrl.Lambda_Q10, sEncCtrl.LTP_scale_Q14 );
149     } else {
150         silk_NSQ( &psEnc->sCmn, &psEnc->sCmn.sNSQ, &psEnc->sCmn.indices, xfw, psEnc->sCmn.pulses,
151             sEncCtrl.PredCoef_Q12[ 0 ], sEncCtrl.LTPCoef_Q14, sEncCtrl.AR2_Q13, sEncCtrl.HarmShapeGain_Q14,
152             sEncCtrl.Tilt_Q14, sEncCtrl.LF_shp_Q14, sEncCtrl.Gains_Q16, sEncCtrl.pitchL, sEncCtrl.Lambda_Q10, sEncCtrl.LTP_scale_Q14 );
153     }
154 TOC(NSQ)
155
156     /* Update input buffer */
157     silk_memmove( psEnc->x_buf, &psEnc->x_buf[ psEnc->sCmn.frame_length ],
158         ( psEnc->sCmn.ltp_mem_length + LA_SHAPE_MS * psEnc->sCmn.fs_kHz ) * sizeof( opus_int16 ) );
159
160     /* Parameters needed for next frame */
161     psEnc->sCmn.prevLag        = sEncCtrl.pitchL[ psEnc->sCmn.nb_subfr - 1 ];
162     psEnc->sCmn.prevSignalType = psEnc->sCmn.indices.signalType;
163
164     /* Exit without entropy coding */
165     if( psEnc->sCmn.prefillFlag ) {
166         /* No payload */
167         *pnBytesOut = 0;
168         return ret;
169     }
170
171     /****************************************/
172     /* Encode Parameters                    */
173     /****************************************/
174 TIC(ENCODE_PARAMS)
175     silk_encode_indices( &psEnc->sCmn, psRangeEnc, psEnc->sCmn.nFramesEncoded, 0, condCoding );
176 TOC(ENCODE_PARAMS)
177
178     /****************************************/
179     /* Encode Excitation Signal             */
180     /****************************************/
181 TIC(ENCODE_PULSES)
182     silk_encode_pulses( psRangeEnc, psEnc->sCmn.indices.signalType, psEnc->sCmn.indices.quantOffsetType,
183         psEnc->sCmn.pulses, psEnc->sCmn.frame_length );
184 TOC(ENCODE_PULSES)
185
186     /****************************************/
187     /* Finalize payload                     */
188     /****************************************/
189     psEnc->sCmn.first_frame_after_reset = 0;
190     /* Payload size */
191     *pnBytesOut = silk_RSHIFT( ec_tell( psRangeEnc ) + 7, 3 );
192 TOC(ENCODE_FRAME)
193
194 #ifdef SAVE_ALL_INTERNAL_DATA
195     {
196         silk_float tmp[ MAX_NB_SUBFR * LTP_ORDER ];
197         int i;
198         DEBUG_STORE_DATA( xf.dat,                   x_frame + LA_SHAPE_MS * psEnc->sCmn.fs_kHz, psEnc->sCmn.frame_length * sizeof( opus_int16 ) );
199         DEBUG_STORE_DATA( xfw.dat,                  xfw,                            psEnc->sCmn.frame_length    * sizeof( opus_int16 ) );
200         DEBUG_STORE_DATA( pitchL.dat,               sEncCtrl.pitchL,                psEnc->sCmn.nb_subfr        * sizeof( opus_int ) );
201         for( i = 0; i < psEnc->sCmn.nb_subfr * LTP_ORDER; i++ ) {
202             tmp[ i ] = (silk_float)sEncCtrl.LTPCoef_Q14[ i ] / 16384.0f;
203         }
204         DEBUG_STORE_DATA( pitchG_quantized.dat,     tmp,                            psEnc->sCmn.nb_subfr * LTP_ORDER * sizeof( silk_float ) );
205         for( i = 0; i <psEnc->sCmn.predictLPCOrder; i++ ) {
206             tmp[ i ] = (silk_float)sEncCtrl.PredCoef_Q12[ 1 ][ i ] / 4096.0f;
207         }
208         DEBUG_STORE_DATA( PredCoef.dat,             tmp,                            psEnc->sCmn.predictLPCOrder * sizeof( silk_float ) );
209
210         tmp[ 0 ] = (silk_float)sEncCtrl.LTPredCodGain_Q7 / 128.0f;
211         DEBUG_STORE_DATA( LTPredCodGain.dat,        tmp,                            sizeof( silk_float ) );
212         tmp[ 0 ] = (silk_float)psEnc->LTPCorr_Q15 / 32768.0f;
213         DEBUG_STORE_DATA( LTPcorr.dat,              tmp,                            sizeof( silk_float ) );
214         tmp[ 0 ] = (silk_float)psEnc->sCmn.input_tilt_Q15 / 32768.0f;
215         DEBUG_STORE_DATA( tilt.dat,                 tmp,                            sizeof( silk_float ) );
216         for( i = 0; i < psEnc->sCmn.nb_subfr; i++ ) {
217             tmp[ i ] = (silk_float)sEncCtrl.Gains_Q16[ i ] / 65536.0f;
218         }
219         DEBUG_STORE_DATA( gains.dat,                tmp,                            psEnc->sCmn.nb_subfr * sizeof( silk_float ) );
220         DEBUG_STORE_DATA( gains_indices.dat,        &psEnc->sCmn.indices.GainsIndices, psEnc->sCmn.nb_subfr * sizeof( opus_int ) );
221         tmp[ 0 ] = (silk_float)sEncCtrl.current_SNR_dB_Q7 / 128.0f;
222         DEBUG_STORE_DATA( current_SNR_db.dat,       tmp,                            sizeof( silk_float ) );
223         DEBUG_STORE_DATA( quantOffsetType.dat,      &psEnc->sCmn.indices.quantOffsetType, sizeof( opus_int ) );
224         tmp[ 0 ] = (silk_float)psEnc->sCmn.speech_activity_Q8 / 256.0f;
225         DEBUG_STORE_DATA( speech_activity.dat,      tmp,                            sizeof( silk_float ) );
226         for( i = 0; i < VAD_N_BANDS; i++ ) {
227             tmp[ i ] = (silk_float)psEnc->sCmn.input_quality_bands_Q15[ i ] / 32768.0f;
228         }
229         DEBUG_STORE_DATA( input_quality_bands.dat,  tmp,                       VAD_N_BANDS * sizeof( silk_float ) );
230         DEBUG_STORE_DATA( signalType.dat,           &psEnc->sCmn.indices.signalType,         sizeof( opus_int8) );
231         DEBUG_STORE_DATA( lag_index.dat,            &psEnc->sCmn.indices.lagIndex,           sizeof( opus_int16 ) );
232         DEBUG_STORE_DATA( contour_index.dat,        &psEnc->sCmn.indices.contourIndex,       sizeof( opus_int8 ) );
233         DEBUG_STORE_DATA( per_index.dat,            &psEnc->sCmn.indices.PERIndex,           sizeof( opus_int8) );
234     }
235 #endif
236     return ret;
237 }
238
239 /* Low-Bitrate Redundancy (LBRR) encoding. Reuse all parameters but encode excitation at lower bitrate  */
240 void silk_LBRR_encode_FIX(
241     silk_encoder_state_FIX          *psEnc,         /* I/O  Pointer to Silk FIX encoder state           */
242     silk_encoder_control_FIX        *psEncCtrl,     /* I/O  Pointer to Silk FIX encoder control struct  */
243     const opus_int16                 xfw[],          /* I    Input signal                                */
244     opus_int                         condCoding     /* I    The type of conditional coding used so far for this frame */
245 )
246 {
247     opus_int32   TempGains_Q16[ MAX_NB_SUBFR ];
248     SideInfoIndices *psIndices_LBRR = &psEnc->sCmn.indices_LBRR[ psEnc->sCmn.nFramesEncoded ];
249     silk_nsq_state sNSQ_LBRR;
250
251     /*******************************************/
252     /* Control use of inband LBRR              */
253     /*******************************************/
254     if( psEnc->sCmn.LBRR_enabled && psEnc->sCmn.speech_activity_Q8 > SILK_FIX_CONST( LBRR_SPEECH_ACTIVITY_THRES, 8 ) ) {
255         psEnc->sCmn.LBRR_flags[ psEnc->sCmn.nFramesEncoded ] = 1;
256
257         /* Copy noise shaping quantizer state and quantization indices from regular encoding */
258         silk_memcpy( &sNSQ_LBRR, &psEnc->sCmn.sNSQ, sizeof( silk_nsq_state ) );
259         silk_memcpy( psIndices_LBRR, &psEnc->sCmn.indices, sizeof( SideInfoIndices ) );
260
261         /* Save original gains */
262         silk_memcpy( TempGains_Q16, psEncCtrl->Gains_Q16, psEnc->sCmn.nb_subfr * sizeof( opus_int32 ) );
263
264         if( psEnc->sCmn.nFramesEncoded == 0 || psEnc->sCmn.LBRR_flags[ psEnc->sCmn.nFramesEncoded - 1 ] == 0 ) {
265             /* First frame in packet or previous frame not LBRR coded */
266             psEnc->sCmn.LBRRprevLastGainIndex = psEnc->sShape.LastGainIndex;
267
268             /* Increase Gains to get target LBRR rate */
269             psIndices_LBRR->GainsIndices[ 0 ] = psIndices_LBRR->GainsIndices[ 0 ] + psEnc->sCmn.LBRR_GainIncreases;
270             psIndices_LBRR->GainsIndices[ 0 ] = silk_min_int( psIndices_LBRR->GainsIndices[ 0 ], N_LEVELS_QGAIN - 1 );
271         }
272
273         /* Decode to get gains in sync with decoder         */
274         /* Overwrite unquantized gains with quantized gains */
275         silk_gains_dequant( psEncCtrl->Gains_Q16, psIndices_LBRR->GainsIndices,
276             &psEnc->sCmn.LBRRprevLastGainIndex, condCoding == CODE_CONDITIONALLY, psEnc->sCmn.nb_subfr );
277
278         /*****************************************/
279         /* Noise shaping quantization            */
280         /*****************************************/
281         if( psEnc->sCmn.nStatesDelayedDecision > 1 || psEnc->sCmn.warping_Q16 > 0 ) {
282             silk_NSQ_del_dec( &psEnc->sCmn, &sNSQ_LBRR, psIndices_LBRR, xfw,
283                 psEnc->sCmn.pulses_LBRR[ psEnc->sCmn.nFramesEncoded ], psEncCtrl->PredCoef_Q12[ 0 ], psEncCtrl->LTPCoef_Q14,
284                 psEncCtrl->AR2_Q13, psEncCtrl->HarmShapeGain_Q14, psEncCtrl->Tilt_Q14, psEncCtrl->LF_shp_Q14,
285                 psEncCtrl->Gains_Q16, psEncCtrl->pitchL, psEncCtrl->Lambda_Q10, psEncCtrl->LTP_scale_Q14 );
286         } else {
287             silk_NSQ( &psEnc->sCmn, &sNSQ_LBRR, psIndices_LBRR, xfw,
288                 psEnc->sCmn.pulses_LBRR[ psEnc->sCmn.nFramesEncoded ], psEncCtrl->PredCoef_Q12[ 0 ], psEncCtrl->LTPCoef_Q14,
289                 psEncCtrl->AR2_Q13, psEncCtrl->HarmShapeGain_Q14, psEncCtrl->Tilt_Q14, psEncCtrl->LF_shp_Q14,
290                 psEncCtrl->Gains_Q16, psEncCtrl->pitchL, psEncCtrl->Lambda_Q10, psEncCtrl->LTP_scale_Q14 );
291         }
292
293         /* Restore original gains */
294         silk_memcpy( psEncCtrl->Gains_Q16, TempGains_Q16, psEnc->sCmn.nb_subfr * sizeof( opus_int32 ) );
295     }
296 }