2bc74a6f035d60ef10616db214df3fc6f30e904f
[opus.git] / src_FLP / SKP_Silk_encode_frame_FLP.c
1 /***********************************************************************\r
2 Copyright (c) 2006-2011, Skype Limited. All rights reserved. \r
3 Redistribution and use in source and binary forms, with or without \r
4 modification, (subject to the limitations in the disclaimer below) \r
5 are permitted provided that the following conditions are met:\r
6 - Redistributions of source code must retain the above copyright notice,\r
7 this list of conditions and the following disclaimer.\r
8 - Redistributions in binary form must reproduce the above copyright \r
9 notice, this list of conditions and the following disclaimer in the \r
10 documentation and/or other materials provided with the distribution.\r
11 - Neither the name of Skype Limited, nor the names of specific \r
12 contributors, may be used to endorse or promote products derived from \r
13 this software without specific prior written permission.\r
14 NO EXPRESS OR IMPLIED LICENSES TO ANY PARTY'S PATENT RIGHTS ARE GRANTED \r
15 BY THIS LICENSE. THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND \r
16 CONTRIBUTORS ''AS IS'' AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING,\r
17 BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND \r
18 FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE \r
19 COPYRIGHT OWNER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, \r
20 INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT\r
21 NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF \r
22 USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON \r
23 ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT \r
24 (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE \r
25 OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.\r
26 ***********************************************************************/\r
27 \r
28 #include "SKP_Silk_main_FLP.h"\r
29 #include "SKP_Silk_tuning_parameters.h"\r
30 \r
31 /****************/\r
32 /* Encode frame */\r
33 /****************/\r
34 SKP_int SKP_Silk_encode_frame_FLP( \r
35     SKP_Silk_encoder_state_FLP      *psEnc,             /* I/O  Encoder state FLP                       */\r
36     SKP_int32                       *pnBytesOut,        /*   O  Number of payload bytes                 */\r
37     ec_enc                          *psRangeEnc         /* I/O  compressor data structure               */\r
38 )\r
39 {\r
40     SKP_Silk_encoder_control_FLP sEncCtrl;\r
41     SKP_int     i, nBits, ret = 0;\r
42     SKP_uint8   flags;\r
43     SKP_float   *x_frame, *res_pitch_frame;\r
44     SKP_int16   pIn_HP[ MAX_FRAME_LENGTH ];\r
45     SKP_float   xfw[ MAX_FRAME_LENGTH ];\r
46     SKP_float   res_pitch[ 2 * MAX_FRAME_LENGTH + LA_PITCH_MAX ];\r
47 \r
48 TIC(ENCODE_FRAME)\r
49 \r
50     psEnc->sCmn.indices.Seed = psEnc->sCmn.frameCounter++ & 3;\r
51 \r
52     /**************************************************************/\r
53     /* Setup Input Pointers, and insert frame in input buffer    */\r
54     /*************************************************************/\r
55     /* pointers aligned with start of frame to encode */\r
56     x_frame         = psEnc->x_buf + psEnc->sCmn.ltp_mem_length;    /* start of frame to encode */\r
57     res_pitch_frame = res_pitch    + psEnc->sCmn.ltp_mem_length;    /* start of pitch LPC residual frame */\r
58 \r
59     /****************************/\r
60     /* Voice Activity Detection */\r
61     /****************************/\r
62 TIC(VAD)\r
63     ret = SKP_Silk_VAD_GetSA_Q8( &psEnc->sCmn, psEnc->sCmn.inputBuf );\r
64 TOC(VAD)\r
65 \r
66     /**************************************************/\r
67     /* Convert speech activity into VAD and DTX flags */\r
68     /**************************************************/\r
69     if( psEnc->sCmn.speech_activity_Q8 < SKP_FIX_CONST( SPEECH_ACTIVITY_DTX_THRES, 8 ) ) {\r
70         psEnc->sCmn.indices.signalType = TYPE_NO_VOICE_ACTIVITY;\r
71         psEnc->sCmn.noSpeechCounter++;\r
72         if( psEnc->sCmn.noSpeechCounter > NO_SPEECH_FRAMES_BEFORE_DTX ) {\r
73             psEnc->sCmn.inDTX = 1;\r
74         }\r
75         if( psEnc->sCmn.noSpeechCounter > MAX_CONSECUTIVE_DTX ) {\r
76             psEnc->sCmn.noSpeechCounter = 0;\r
77             psEnc->sCmn.inDTX           = 0;\r
78         }\r
79         psEnc->sCmn.VAD_flags[ psEnc->sCmn.nFramesAnalyzed ] = 0;\r
80     } else {\r
81         psEnc->sCmn.noSpeechCounter = 0;\r
82         psEnc->sCmn.inDTX           = 0;\r
83         psEnc->sCmn.indices.signalType = TYPE_UNVOICED;\r
84         psEnc->sCmn.VAD_flags[ psEnc->sCmn.nFramesAnalyzed ] = 1;\r
85     }\r
86 \r
87     if( psEnc->sCmn.nFramesAnalyzed == 0 && !psEnc->sCmn.prefillFlag && !( psEnc->sCmn.useDTX && psEnc->sCmn.inDTX ) ) {\r
88         /* Create space at start of payload for VAD and FEC flags */\r
89         SKP_uint8 iCDF[ 2 ] = { 0, 0 };\r
90         iCDF[ 0 ] = 256 - SKP_RSHIFT( 256, psEnc->sCmn.nFramesPerPacket + 1 );\r
91         ec_enc_icdf( psRangeEnc, 0, iCDF, 8 );\r
92 \r
93         /* Encode any LBRR data from previous packet */\r
94         SKP_Silk_LBRR_embed( &psEnc->sCmn, psRangeEnc );\r
95 \r
96         /* Reduce coding SNR depending on how many bits used by LBRR */\r
97         nBits = ec_tell( psRangeEnc );\r
98         psEnc->inBandFEC_SNR_comp = ( 6.0f * nBits ) / \r
99             ( psEnc->sCmn.nFramesPerPacket * psEnc->sCmn.frame_length );\r
100 \r
101         /* Reset LBRR flags */\r
102         SKP_memset( psEnc->sCmn.LBRR_flags, 0, sizeof( psEnc->sCmn.LBRR_flags ) );\r
103     }\r
104 \r
105     /*******************************************/\r
106     /* High-pass filtering of the input signal */\r
107     /*******************************************/\r
108 TIC(HP_IN)\r
109     SKP_Silk_HP_variable_cutoff( &psEnc->sCmn, pIn_HP, psEnc->sCmn.inputBuf, psEnc->sCmn.frame_length );\r
110 TOC(HP_IN)\r
111 \r
112 #if SWITCH_TRANSITION_FILTERING\r
113     /* Ensure smooth bandwidth transitions */\r
114     SKP_Silk_LP_variable_cutoff( &psEnc->sCmn.sLP, pIn_HP, psEnc->sCmn.frame_length );\r
115 #endif\r
116 \r
117     /*******************************************/\r
118     /* Copy new frame to front of input buffer */\r
119     /*******************************************/\r
120     SKP_short2float_array( x_frame + LA_SHAPE_MS * psEnc->sCmn.fs_kHz, pIn_HP, psEnc->sCmn.frame_length );\r
121 \r
122     /* Add tiny signal to avoid high CPU load from denormalized floating point numbers */\r
123     for( i = 0; i < 8; i++ ) {\r
124         x_frame[ LA_SHAPE_MS * psEnc->sCmn.fs_kHz + i * ( psEnc->sCmn.frame_length >> 3 ) ] += ( 1 - ( i & 2 ) ) * 1e-6f;\r
125     }\r
126 \r
127     /*****************************************/\r
128     /* Find pitch lags, initial LPC analysis */\r
129     /*****************************************/\r
130 TIC(FIND_PITCH)\r
131     SKP_Silk_find_pitch_lags_FLP( psEnc, &sEncCtrl, res_pitch, x_frame );\r
132 TOC(FIND_PITCH)\r
133 \r
134     /************************/\r
135     /* Noise shape analysis */\r
136     /************************/\r
137 TIC(NOISE_SHAPE_ANALYSIS)\r
138     SKP_Silk_noise_shape_analysis_FLP( psEnc, &sEncCtrl, res_pitch_frame, x_frame );\r
139 TOC(NOISE_SHAPE_ANALYSIS)\r
140 \r
141     /*****************************************/\r
142     /* Prefiltering for noise shaper         */\r
143     /*****************************************/\r
144 TIC(PREFILTER)\r
145     SKP_Silk_prefilter_FLP( psEnc, &sEncCtrl, xfw, x_frame );\r
146 TOC(PREFILTER)\r
147 \r
148     /***************************************************/\r
149     /* Find linear prediction coefficients (LPC + LTP) */\r
150     /***************************************************/\r
151 TIC(FIND_PRED_COEF)\r
152     SKP_Silk_find_pred_coefs_FLP( psEnc, &sEncCtrl, res_pitch, x_frame );\r
153 TOC(FIND_PRED_COEF)\r
154 \r
155     /****************************************/\r
156     /* Process gains                        */\r
157     /****************************************/\r
158 TIC(PROCESS_GAINS)\r
159     SKP_Silk_process_gains_FLP( psEnc, &sEncCtrl );\r
160 TOC(PROCESS_GAINS)\r
161     \r
162     /****************************************/\r
163     /* Low Bitrate Redundant Encoding       */\r
164     /****************************************/\r
165 TIC(LBRR)\r
166     SKP_Silk_LBRR_encode_FLP( psEnc, &sEncCtrl, xfw );\r
167 TOC(LBRR)\r
168 \r
169     /*****************************************/\r
170     /* Noise shaping quantization            */\r
171     /*****************************************/\r
172 TIC(NSQ)\r
173     SKP_Silk_NSQ_wrapper_FLP( psEnc, &sEncCtrl, &psEnc->sCmn.indices, &psEnc->sCmn.sNSQ, psEnc->sCmn.pulses, xfw );\r
174 TOC(NSQ)\r
175 \r
176     /* Update input buffer */\r
177     SKP_memmove( psEnc->x_buf, &psEnc->x_buf[ psEnc->sCmn.frame_length ], \r
178         ( psEnc->sCmn.ltp_mem_length + LA_SHAPE_MS * psEnc->sCmn.fs_kHz ) * sizeof( SKP_float ) );\r
179 \r
180     /* Parameters needed for next frame */\r
181     psEnc->sCmn.prevLag        = sEncCtrl.pitchL[ psEnc->sCmn.nb_subfr - 1 ];\r
182     psEnc->sCmn.prevSignalType = psEnc->sCmn.indices.signalType;\r
183 \r
184     /* Exit without entropy coding */\r
185     if( psEnc->sCmn.prefillFlag || ( psEnc->sCmn.useDTX && psEnc->sCmn.inDTX ) ) {\r
186         /* No payload */\r
187         *pnBytesOut = 0;\r
188         return ret;\r
189     }\r
190 \r
191     /****************************************/\r
192     /* Encode Parameters                    */\r
193     /****************************************/\r
194 TIC(ENCODE_PARAMS)\r
195     SKP_Silk_encode_indices( &psEnc->sCmn, psRangeEnc, psEnc->sCmn.nFramesAnalyzed, 0 );\r
196 TOC(ENCODE_PARAMS)\r
197 \r
198     /****************************************/\r
199     /* Encode Excitation Signal             */\r
200     /****************************************/\r
201 TIC(ENCODE_PULSES)\r
202     SKP_Silk_encode_pulses( psRangeEnc, psEnc->sCmn.indices.signalType, psEnc->sCmn.indices.quantOffsetType, \r
203         psEnc->sCmn.pulses, psEnc->sCmn.frame_length );\r
204 TOC(ENCODE_PULSES)\r
205 \r
206     /****************************************/\r
207     /* Simulate network buffer delay caused */\r
208     /* by exceeding TargetRate              */\r
209     /****************************************/\r
210     nBits = ec_tell( psRangeEnc );\r
211     psEnc->BufferedInChannel_ms += 1000.0f * ( nBits - psEnc->sCmn.prev_nBits ) / psEnc->sCmn.TargetRate_bps;\r
212     psEnc->BufferedInChannel_ms -= psEnc->sCmn.nb_subfr * SUB_FRAME_LENGTH_MS;\r
213     psEnc->BufferedInChannel_ms  = SKP_LIMIT_float( psEnc->BufferedInChannel_ms, 0.0f, 100.0f );\r
214     psEnc->sCmn.prev_nBits = nBits;\r
215     psEnc->sCmn.first_frame_after_reset = 0;\r
216 \r
217     /****************************************/\r
218     /* Finalize payload                     */\r
219     /****************************************/\r
220     if( ++psEnc->sCmn.nFramesAnalyzed >= psEnc->sCmn.nFramesPerPacket ) {\r
221         /* Insert VAD flags and FEC flag at beginning of bitstream */\r
222         flags = 0;\r
223         for( i = 0; i < psEnc->sCmn.nFramesPerPacket; i++ ) {\r
224             flags |= psEnc->sCmn.VAD_flags[i];\r
225             flags  = SKP_LSHIFT( flags, 1 );\r
226         }\r
227         flags |= psEnc->sCmn.LBRR_flag;\r
228         ec_enc_patch_initial_bits( psRangeEnc, flags, psEnc->sCmn.nFramesPerPacket + 1 );\r
229 \r
230         /* Payload size */\r
231         nBits = ec_tell( psRangeEnc );\r
232         *pnBytesOut = SKP_RSHIFT( nBits + 7, 3 );\r
233 \r
234         /* Reset the number of frames in payload buffer */\r
235         psEnc->sCmn.nFramesAnalyzed = 0;\r
236         psEnc->sCmn.prev_nBits = 0;\r
237     } else {\r
238         /* No payload this time */\r
239         *pnBytesOut = 0;\r
240     }\r
241 TOC(ENCODE_FRAME)\r
242 \r
243 #ifdef SAVE_ALL_INTERNAL_DATA\r
244     //DEBUG_STORE_DATA( xf.dat,                   pIn_HP_LP,                           psEnc->sCmn.frame_length * sizeof( SKP_int16 ) );\r
245     //DEBUG_STORE_DATA( xfw.dat,                  xfw,                                 psEnc->sCmn.frame_length * sizeof( SKP_float ) );\r
246     DEBUG_STORE_DATA( pitchL.dat,               sEncCtrl.pitchL,                                 MAX_NB_SUBFR * sizeof( SKP_int   ) );\r
247     DEBUG_STORE_DATA( pitchG_quantized.dat,     sEncCtrl.LTPCoef,            psEnc->sCmn.nb_subfr * LTP_ORDER * sizeof( SKP_float ) );\r
248     DEBUG_STORE_DATA( LTPcorr.dat,              &psEnc->LTPCorr,                                                sizeof( SKP_float ) );\r
249     DEBUG_STORE_DATA( gains.dat,                sEncCtrl.Gains,                          psEnc->sCmn.nb_subfr * sizeof( SKP_float ) );\r
250     DEBUG_STORE_DATA( gains_indices.dat,        &psEnc->sCmn.indices.GainsIndices,       psEnc->sCmn.nb_subfr * sizeof( SKP_int8  ) );\r
251     DEBUG_STORE_DATA( nBits.dat,                &nBits,                                                         sizeof( SKP_int   ) );\r
252     DEBUG_STORE_DATA( current_SNR_db.dat,       &sEncCtrl.current_SNR_dB,                                       sizeof( SKP_float ) );\r
253     DEBUG_STORE_DATA( quantOffsetType.dat,      &psEnc->sCmn.indices.quantOffsetType,                           sizeof( SKP_int8  ) );\r
254     DEBUG_STORE_DATA( speech_activity_q8.dat,   &psEnc->sCmn.speech_activity_Q8,                                sizeof( SKP_int   ) );\r
255     DEBUG_STORE_DATA( signalType.dat,           &psEnc->sCmn.indices.signalType,                                sizeof( SKP_int8  ) ); \r
256     DEBUG_STORE_DATA( lag_index.dat,            &psEnc->sCmn.indices.lagIndex,                                  sizeof( SKP_int16 ) ); \r
257     DEBUG_STORE_DATA( contour_index.dat,        &psEnc->sCmn.indices.contourIndex,                              sizeof( SKP_int8  ) ); \r
258     DEBUG_STORE_DATA( per_index.dat,            &psEnc->sCmn.indices.PERIndex,                                  sizeof( SKP_int8  ) );\r
259     DEBUG_STORE_DATA( PredCoef.dat,             &sEncCtrl.PredCoef[ 1 ],          psEnc->sCmn.predictLPCOrder * sizeof( SKP_float ) );\r
260     DEBUG_STORE_DATA( ltp_scale_idx.dat,        &psEnc->sCmn.indices.LTP_scaleIndex,                            sizeof( SKP_int8   ) );\r
261 //  DEBUG_STORE_DATA( xq.dat,                   psEnc->sCmn.sNSQ.xqBuf,                psEnc->sCmn.frame_length * sizeof( SKP_float ) );\r
262 #endif\r
263     return ret;\r
264 }\r
265 \r
266 /* Low-Bitrate Redundancy (LBRR) encoding. Reuse all parameters but encode excitation at lower bitrate  */\r
267 void SKP_Silk_LBRR_encode_FLP(\r
268     SKP_Silk_encoder_state_FLP      *psEnc,             /* I/O  Encoder state FLP                       */\r
269     SKP_Silk_encoder_control_FLP    *psEncCtrl,         /* I/O  Encoder control FLP                     */\r
270     const SKP_float                 xfw[]               /* I    Input signal                            */\r
271 )\r
272 {\r
273     SKP_int     k;\r
274     SKP_int32   Gains_Q16[ MAX_NB_SUBFR ];\r
275     SKP_float   TempGains[ MAX_NB_SUBFR ];\r
276     SideInfoIndices *psIndices_LBRR = &psEnc->sCmn.indices_LBRR[ psEnc->sCmn.nFramesAnalyzed ];\r
277     SKP_Silk_nsq_state sNSQ_LBRR;\r
278 \r
279     /*******************************************/\r
280     /* Control use of inband LBRR              */\r
281     /*******************************************/\r
282     if( psEnc->sCmn.LBRR_enabled && psEnc->sCmn.speech_activity_Q8 > SKP_FIX_CONST( LBRR_SPEECH_ACTIVITY_THRES, 8 ) ) {\r
283         psEnc->sCmn.LBRR_flags[ psEnc->sCmn.nFramesAnalyzed ] = 1;\r
284 \r
285         /* Copy noise shaping quantizer state and quantization indices from regular encoding */\r
286         SKP_memcpy( &sNSQ_LBRR, &psEnc->sCmn.sNSQ, sizeof( SKP_Silk_nsq_state ) );\r
287         SKP_memcpy( psIndices_LBRR, &psEnc->sCmn.indices, sizeof( SideInfoIndices ) );\r
288 \r
289         /* Save original gains */\r
290         SKP_memcpy( TempGains, psEncCtrl->Gains, psEnc->sCmn.nb_subfr * sizeof( SKP_float ) );\r
291 \r
292 \r
293         if( psEnc->sCmn.nFramesAnalyzed == 0 || psEnc->sCmn.LBRR_flags[ psEnc->sCmn.nFramesAnalyzed - 1 ] == 0 ) {\r
294             /* First frame in packet or previous frame not LBRR coded */\r
295             psEnc->sCmn.LBRRprevLastGainIndex = psEnc->sShape.LastGainIndex;\r
296 \r
297             /* Increase Gains to get target LBRR rate */\r
298             psIndices_LBRR->GainsIndices[ 0 ] += psEnc->sCmn.LBRR_GainIncreases;\r
299             psIndices_LBRR->GainsIndices[ 0 ] = SKP_min_int( psIndices_LBRR->GainsIndices[ 0 ], N_LEVELS_QGAIN - 1 );\r
300         }\r
301 \r
302         /* Decode to get gains in sync with decoder */\r
303         SKP_Silk_gains_dequant( Gains_Q16, psIndices_LBRR->GainsIndices, \r
304             &psEnc->sCmn.LBRRprevLastGainIndex, psEnc->sCmn.nFramesAnalyzed, psEnc->sCmn.nb_subfr );\r
305 \r
306         /* Overwrite unquantized gains with quantized gains and convert back to Q0 from Q16 */\r
307         for( k = 0; k <  psEnc->sCmn.nb_subfr; k++ ) {\r
308             psEncCtrl->Gains[ k ] = Gains_Q16[ k ] / 65536.0f;\r
309         }\r
310 \r
311         /*****************************************/\r
312         /* Noise shaping quantization            */\r
313         /*****************************************/\r
314         SKP_Silk_NSQ_wrapper_FLP( psEnc, psEncCtrl, psIndices_LBRR, &sNSQ_LBRR, \r
315             psEnc->sCmn.pulses_LBRR[ psEnc->sCmn.nFramesAnalyzed ], xfw );\r
316 \r
317         /* Restore original Gains */\r
318         SKP_memcpy( psEncCtrl->Gains, TempGains, psEnc->sCmn.nb_subfr * sizeof( SKP_float ) );\r
319     }\r
320 }\r