SILK update with LBRR and some bugfixes
[opus.git] / src_FLP / SKP_Silk_encode_frame_FLP.c
1 /***********************************************************************\r
2 Copyright (c) 2006-2011, Skype Limited. All rights reserved. \r
3 Redistribution and use in source and binary forms, with or without \r
4 modification, (subject to the limitations in the disclaimer below) \r
5 are permitted provided that the following conditions are met:\r
6 - Redistributions of source code must retain the above copyright notice,\r
7 this list of conditions and the following disclaimer.\r
8 - Redistributions in binary form must reproduce the above copyright \r
9 notice, this list of conditions and the following disclaimer in the \r
10 documentation and/or other materials provided with the distribution.\r
11 - Neither the name of Skype Limited, nor the names of specific \r
12 contributors, may be used to endorse or promote products derived from \r
13 this software without specific prior written permission.\r
14 NO EXPRESS OR IMPLIED LICENSES TO ANY PARTY'S PATENT RIGHTS ARE GRANTED \r
15 BY THIS LICENSE. THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND \r
16 CONTRIBUTORS ''AS IS'' AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING,\r
17 BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND \r
18 FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE \r
19 COPYRIGHT OWNER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, \r
20 INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT\r
21 NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF \r
22 USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON \r
23 ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT \r
24 (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE \r
25 OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.\r
26 ***********************************************************************/\r
27 \r
28 #include "SKP_Silk_main_FLP.h"\r
29 #include "SKP_Silk_tuning_parameters.h"\r
30 \r
31 /****************/\r
32 /* Encode frame */\r
33 /****************/\r
34 SKP_int SKP_Silk_encode_frame_FLP( \r
35     SKP_Silk_encoder_state_FLP      *psEnc,             /* I/O  Encoder state FLP                       */\r
36     SKP_int32                       *pnBytesOut,        /*   O  Number of payload bytes                 */\r
37     ec_enc                          *psRangeEnc         /* I/O  compressor data structure               */\r
38 )\r
39 {\r
40     SKP_Silk_encoder_control_FLP sEncCtrl;\r
41     SKP_int     i, nBits, ret = 0;\r
42     SKP_uint8   flags;\r
43     SKP_float   *x_frame, *res_pitch_frame;\r
44     SKP_int16   pIn_HP[ MAX_FRAME_LENGTH ];\r
45     SKP_float   xfw[ MAX_FRAME_LENGTH ];\r
46     SKP_float   res_pitch[ 2 * MAX_FRAME_LENGTH + LA_PITCH_MAX ];\r
47 \r
48 TIC(ENCODE_FRAME)\r
49 \r
50     if( psEnc->sCmn.nFramesAnalyzed == 0 ) {\r
51         /* Create space at start of payload for VAD and FEC flags */\r
52         SKP_uint8 iCDF[ 2 ] = { 0, 0 };\r
53         iCDF[ 0 ] = 256 - SKP_RSHIFT( 256, psEnc->sCmn.nFramesPerPacket + 1 );\r
54         ec_enc_icdf( psRangeEnc, 0, iCDF, 8 );\r
55 \r
56         /* Encode any LBRR data from previous packet */\r
57         SKP_Silk_LBRR_embed( &psEnc->sCmn, psRangeEnc );\r
58 \r
59         /* Reduce coding SNR depending on how many bits used by LBRR */\r
60         nBits = ec_tell( psRangeEnc );\r
61         psEnc->inBandFEC_SNR_comp = ( 6.0f * nBits ) / \r
62             ( psEnc->sCmn.nFramesPerPacket * psEnc->sCmn.frame_length );\r
63 \r
64         /* Reset LBRR flags */\r
65         SKP_memset( psEnc->sCmn.LBRR_flags, 0, sizeof( psEnc->sCmn.LBRR_flags ) );\r
66     }\r
67 \r
68     psEnc->sCmn.indices.Seed = psEnc->sCmn.frameCounter++ & 3;\r
69 \r
70     /**************************************************************/\r
71     /* Setup Input Pointers, and insert frame in input buffer    */\r
72     /*************************************************************/\r
73     /* pointers aligned with start of frame to encode */\r
74     x_frame         = psEnc->x_buf + psEnc->sCmn.ltp_mem_length;    /* start of frame to encode */\r
75     res_pitch_frame = res_pitch    + psEnc->sCmn.ltp_mem_length;    /* start of pitch LPC residual frame */\r
76 \r
77     /****************************/\r
78     /* Voice Activity Detection */\r
79     /****************************/\r
80 TIC(VAD)\r
81     SKP_Silk_VAD_FLP( psEnc, &sEncCtrl, psEnc->sCmn.inputBuf );\r
82 TOC(VAD)\r
83 \r
84     /**************************************************/\r
85     /* Convert speech activity into VAD and DTX flags */\r
86     /**************************************************/\r
87     if( psEnc->speech_activity < SPEECH_ACTIVITY_DTX_THRES ) {\r
88         psEnc->sCmn.indices.signalType = TYPE_NO_VOICE_ACTIVITY;\r
89         psEnc->sCmn.noSpeechCounter++;\r
90         if( psEnc->sCmn.noSpeechCounter > NO_SPEECH_FRAMES_BEFORE_DTX ) {\r
91             psEnc->sCmn.inDTX = 1;\r
92         }\r
93         if( psEnc->sCmn.noSpeechCounter > MAX_CONSECUTIVE_DTX ) {\r
94             psEnc->sCmn.noSpeechCounter = 0;\r
95             psEnc->sCmn.inDTX           = 0;\r
96         }\r
97         psEnc->sCmn.VAD_flags[ psEnc->sCmn.nFramesAnalyzed ] = 0;\r
98     } else {\r
99         psEnc->sCmn.noSpeechCounter = 0;\r
100         psEnc->sCmn.inDTX           = 0;\r
101         psEnc->sCmn.indices.signalType       = TYPE_UNVOICED;\r
102         psEnc->sCmn.VAD_flags[ psEnc->sCmn.nFramesAnalyzed ] = 1;\r
103     }\r
104 \r
105     /*******************************************/\r
106     /* High-pass filtering of the input signal */\r
107     /*******************************************/\r
108 TIC(HP_IN)\r
109 #if HIGH_PASS_INPUT\r
110     /* Variable high-pass filter */\r
111     SKP_Silk_HP_variable_cutoff_FLP( psEnc, &sEncCtrl, pIn_HP, psEnc->sCmn.inputBuf );\r
112 #else\r
113     SKP_memcpy( pIn_HP, psEnc->sCmn.inputBuf, psEnc->sCmn.frame_length * sizeof( SKP_int16 ) );\r
114 #endif\r
115 TOC(HP_IN)\r
116 \r
117 #if SWITCH_TRANSITION_FILTERING\r
118     /* Ensure smooth bandwidth transitions */\r
119     SKP_Silk_LP_variable_cutoff( &psEnc->sCmn.sLP, pIn_HP, psEnc->sCmn.frame_length );\r
120 #endif\r
121 \r
122     /*******************************************/\r
123     /* Copy new frame to front of input buffer */\r
124     /*******************************************/\r
125     SKP_short2float_array( x_frame + LA_SHAPE_MS * psEnc->sCmn.fs_kHz, pIn_HP, psEnc->sCmn.frame_length );\r
126 \r
127     /* Add tiny signal to avoid high CPU load from denormalized floating point numbers */\r
128     for( i = 0; i < 8; i++ ) {\r
129         x_frame[ LA_SHAPE_MS * psEnc->sCmn.fs_kHz + i * ( psEnc->sCmn.frame_length >> 3 ) ] += ( 1 - ( i & 2 ) ) * 1e-6f;\r
130     }\r
131 \r
132     /*****************************************/\r
133     /* Find pitch lags, initial LPC analysis */\r
134     /*****************************************/\r
135 TIC(FIND_PITCH)\r
136     SKP_Silk_find_pitch_lags_FLP( psEnc, &sEncCtrl, res_pitch, x_frame );\r
137 TOC(FIND_PITCH)\r
138 \r
139     /************************/\r
140     /* Noise shape analysis */\r
141     /************************/\r
142 TIC(NOISE_SHAPE_ANALYSIS)\r
143     SKP_Silk_noise_shape_analysis_FLP( psEnc, &sEncCtrl, res_pitch_frame, x_frame );\r
144 TOC(NOISE_SHAPE_ANALYSIS)\r
145 \r
146     /*****************************************/\r
147     /* Prefiltering for noise shaper         */\r
148     /*****************************************/\r
149 TIC(PREFILTER)\r
150     SKP_Silk_prefilter_FLP( psEnc, &sEncCtrl, xfw, x_frame );\r
151 TOC(PREFILTER)\r
152 \r
153     /***************************************************/\r
154     /* Find linear prediction coefficients (LPC + LTP) */\r
155     /***************************************************/\r
156 TIC(FIND_PRED_COEF)\r
157     SKP_Silk_find_pred_coefs_FLP( psEnc, &sEncCtrl, res_pitch, x_frame );\r
158 TOC(FIND_PRED_COEF)\r
159 \r
160     /****************************************/\r
161     /* Process gains                        */\r
162     /****************************************/\r
163 TIC(PROCESS_GAINS)\r
164     SKP_Silk_process_gains_FLP( psEnc, &sEncCtrl );\r
165 TOC(PROCESS_GAINS)\r
166     \r
167     /****************************************/\r
168     /* Low Bitrate Redundant Encoding       */\r
169     /****************************************/\r
170 TIC(LBRR)\r
171     SKP_Silk_LBRR_encode_FLP( psEnc, &sEncCtrl, xfw );\r
172 TOC(LBRR)\r
173 \r
174     /*****************************************/\r
175     /* Noise shaping quantization            */\r
176     /*****************************************/\r
177 TIC(NSQ)\r
178     SKP_Silk_NSQ_wrapper_FLP( psEnc, &sEncCtrl, &psEnc->sCmn.indices, &psEnc->sCmn.sNSQ, psEnc->sCmn.pulses, xfw );\r
179 TOC(NSQ)\r
180 \r
181     /****************************************/\r
182     /* Encode Parameters                    */\r
183     /****************************************/\r
184 TIC(ENCODE_PARAMS)\r
185     SKP_Silk_encode_indices( &psEnc->sCmn, psRangeEnc, psEnc->sCmn.nFramesAnalyzed, 0 );\r
186 TOC(ENCODE_PARAMS)\r
187 \r
188     /****************************************/\r
189     /* Encode Excitation Signal             */\r
190     /****************************************/\r
191 TIC(ENCODE_PULSES)\r
192     SKP_Silk_encode_pulses( psRangeEnc, psEnc->sCmn.indices.signalType, psEnc->sCmn.indices.quantOffsetType, \r
193         psEnc->sCmn.pulses, psEnc->sCmn.frame_length );\r
194 TOC(ENCODE_PULSES)\r
195 \r
196     /****************************************/\r
197     /* Simulate network buffer delay caused */\r
198     /* by exceeding TargetRate              */\r
199     /****************************************/\r
200     nBits = ec_tell( psRangeEnc );\r
201     psEnc->BufferedInChannel_ms += 1000.0f * ( nBits - psEnc->sCmn.prev_nBits ) / psEnc->sCmn.TargetRate_bps;\r
202     psEnc->BufferedInChannel_ms -= psEnc->sCmn.nb_subfr * SUB_FRAME_LENGTH_MS;\r
203     psEnc->BufferedInChannel_ms  = SKP_LIMIT_float( psEnc->BufferedInChannel_ms, 0.0f, 100.0f );\r
204     psEnc->sCmn.prev_nBits = nBits;\r
205 \r
206     /****************************************/\r
207     /* Update Buffers and State             */\r
208     /****************************************/\r
209     /* Update input buffer */\r
210     SKP_memmove( psEnc->x_buf, &psEnc->x_buf[ psEnc->sCmn.frame_length ], \r
211         ( psEnc->sCmn.ltp_mem_length + LA_SHAPE_MS * psEnc->sCmn.fs_kHz ) * sizeof( SKP_float ) );\r
212     \r
213     /* Parameters needed for next frame */\r
214     psEnc->sCmn.prevLag                 = sEncCtrl.pitchL[ psEnc->sCmn.nb_subfr - 1 ];\r
215     psEnc->sCmn.prevSignalType          = psEnc->sCmn.indices.signalType;\r
216     psEnc->sCmn.first_frame_after_reset = 0;\r
217     psEnc->sCmn.nFramesAnalyzed++;\r
218 \r
219     /****************************************/\r
220     /* Finalize payload                     */\r
221     /****************************************/\r
222     if( psEnc->sCmn.nFramesAnalyzed >= psEnc->sCmn.nFramesPerPacket ) {\r
223         /* Insert VAD flags and FEC flag at beginning of bitstream */\r
224         flags = 0;\r
225         for( i = 0; i < psEnc->sCmn.nFramesPerPacket; i++ ) {\r
226             flags |= psEnc->sCmn.VAD_flags[i];\r
227             flags  = SKP_LSHIFT( flags, 1 );\r
228         }\r
229         flags |= psEnc->sCmn.LBRR_flag;\r
230         ret = ec_enc_patch_initial_bits( psRangeEnc, flags, psEnc->sCmn.nFramesPerPacket + 1 );\r
231         SKP_assert( ret == 0 );\r
232 \r
233         /* Payload size */\r
234         nBits = ec_tell( psRangeEnc );\r
235         *pnBytesOut = SKP_RSHIFT( nBits + 7, 3 );\r
236 \r
237         /* Reset the number of frames in payload buffer */\r
238         psEnc->sCmn.nFramesAnalyzed = 0;\r
239         psEnc->sCmn.prev_nBits = 0;\r
240     } else {\r
241         /* No payload this time */\r
242         *pnBytesOut = 0;\r
243     }\r
244 TOC(ENCODE_FRAME)\r
245 \r
246 #ifdef SAVE_ALL_INTERNAL_DATA\r
247     //DEBUG_STORE_DATA( xf.dat,                   pIn_HP_LP,                           psEnc->sCmn.frame_length * sizeof( SKP_int16 ) );\r
248     //DEBUG_STORE_DATA( xfw.dat,                  xfw,                                 psEnc->sCmn.frame_length * sizeof( SKP_float ) );\r
249     DEBUG_STORE_DATA( pitchL.dat,               sEncCtrl.pitchL,                                 MAX_NB_SUBFR * sizeof( SKP_int   ) );\r
250     DEBUG_STORE_DATA( pitchG_quantized.dat,     sEncCtrl.LTPCoef,            psEnc->sCmn.nb_subfr * LTP_ORDER * sizeof( SKP_float ) );\r
251     DEBUG_STORE_DATA( pitch_freq_low_Hz.dat,    &sEncCtrl.pitch_freq_low_Hz,                                    sizeof( SKP_float ) );\r
252     DEBUG_STORE_DATA( LTPcorr.dat,              &psEnc->LTPCorr,                                                sizeof( SKP_float ) );\r
253     DEBUG_STORE_DATA( tilt.dat,                 &sEncCtrl.input_tilt,                                           sizeof( SKP_float ) );\r
254     DEBUG_STORE_DATA( gains.dat,                sEncCtrl.Gains,                          psEnc->sCmn.nb_subfr * sizeof( SKP_float ) );\r
255     DEBUG_STORE_DATA( gains_indices.dat,        &sEncCtrl.sCmn.GainsIndices,             psEnc->sCmn.nb_subfr * sizeof( SKP_int   ) );\r
256     DEBUG_STORE_DATA( nBits.dat,                &nBits,                                                         sizeof( SKP_int   ) );\r
257     DEBUG_STORE_DATA( current_SNR_db.dat,       &sEncCtrl.current_SNR_dB,                                       sizeof( SKP_float ) );\r
258     DEBUG_STORE_DATA( quantOffsetType.dat,      &sEncCtrl.sCmn.quantOffsetType,                                 sizeof( SKP_int   ) );\r
259     DEBUG_STORE_DATA( speech_activity.dat,      &psEnc->speech_activity,                                        sizeof( SKP_float ) );\r
260     DEBUG_STORE_DATA( input_quality_bands.dat,  sEncCtrl.input_quality_bands,                     VAD_N_BANDS * sizeof( SKP_float ) );\r
261     DEBUG_STORE_DATA( signalType.dat,           &sEncCtrl.sCmn.signalType,                                      sizeof( SKP_int   ) ); \r
262     DEBUG_STORE_DATA( ratelevel.dat,            &sEncCtrl.sCmn.RateLevelIndex,                                  sizeof( SKP_int   ) ); \r
263     DEBUG_STORE_DATA( lag_index.dat,            &sEncCtrl.sCmn.lagIndex,                                        sizeof( SKP_int   ) ); \r
264     DEBUG_STORE_DATA( contour_index.dat,        &sEncCtrl.sCmn.contourIndex,                                    sizeof( SKP_int   ) ); \r
265     DEBUG_STORE_DATA( per_index.dat,            &sEncCtrl.sCmn.PERIndex,                                        sizeof( SKP_int   ) );\r
266     DEBUG_STORE_DATA( PredCoef.dat,             &sEncCtrl.PredCoef[ 1 ],          psEnc->sCmn.predictLPCOrder * sizeof( SKP_float ) );\r
267     DEBUG_STORE_DATA( ltp_scale_idx.dat,        &sEncCtrl.sCmn.LTP_scaleIndex,                                  sizeof( SKP_int   ) );\r
268 //  DEBUG_STORE_DATA( xq.dat,                   psEnc->sCmn.sNSQ.xqBuf,                psEnc->sCmn.frame_length * sizeof( SKP_float ) );\r
269 #endif\r
270     return( ret );\r
271 }\r
272 \r
273 /* Low-Bitrate Redundancy (LBRR) encoding. Reuse all parameters but encode excitation at lower bitrate  */\r
274 void SKP_Silk_LBRR_encode_FLP(\r
275     SKP_Silk_encoder_state_FLP      *psEnc,             /* I/O  Encoder state FLP                       */\r
276     SKP_Silk_encoder_control_FLP    *psEncCtrl,         /* I/O  Encoder control FLP                     */\r
277     const SKP_float                 xfw[]               /* I    Input signal                            */\r
278 )\r
279 {\r
280     SKP_int     k;\r
281     SKP_int32   Gains_Q16[ MAX_NB_SUBFR ];\r
282     SKP_float   TempGains[ MAX_NB_SUBFR ];\r
283     SideInfoIndices *psIndices_LBRR = &psEnc->sCmn.indices_LBRR[ psEnc->sCmn.nFramesAnalyzed ];\r
284     SKP_Silk_nsq_state sNSQ_LBRR;\r
285 \r
286     /*******************************************/\r
287     /* Control use of inband LBRR              */\r
288     /*******************************************/\r
289     if( psEnc->sCmn.LBRR_enabled && psEnc->speech_activity > LBRR_SPEECH_ACTIVITY_THRES ) {\r
290         psEnc->sCmn.LBRR_flags[ psEnc->sCmn.nFramesAnalyzed ] = 1;\r
291 \r
292         /* Copy noise shaping quantizer state and quantization indices from regular encoding */\r
293         SKP_memcpy( &sNSQ_LBRR, &psEnc->sCmn.sNSQ, sizeof( SKP_Silk_nsq_state ) );\r
294         SKP_memcpy( psIndices_LBRR, &psEnc->sCmn.indices, sizeof( SideInfoIndices ) );\r
295 \r
296         /* Save original gains */\r
297         SKP_memcpy( TempGains, psEncCtrl->Gains, psEnc->sCmn.nb_subfr * sizeof( SKP_float ) );\r
298 \r
299 \r
300         if( psEnc->sCmn.nFramesAnalyzed == 0 || psEnc->sCmn.LBRR_flags[ psEnc->sCmn.nFramesAnalyzed - 1 ] == 0 ) {\r
301             /* First frame in packet or previous frame not LBRR coded */\r
302             psEnc->sCmn.LBRRprevLastGainIndex = psEnc->sShape.LastGainIndex;\r
303 \r
304             /* Increase Gains to get target LBRR rate */\r
305             psIndices_LBRR->GainsIndices[ 0 ] += psEnc->sCmn.LBRR_GainIncreases;\r
306             psIndices_LBRR->GainsIndices[ 0 ] = SKP_min_int( psIndices_LBRR->GainsIndices[ 0 ], N_LEVELS_QGAIN - 1 );\r
307         }\r
308 \r
309         /* Decode to get gains in sync with decoder */\r
310         SKP_Silk_gains_dequant( Gains_Q16, psIndices_LBRR->GainsIndices, \r
311             &psEnc->sCmn.LBRRprevLastGainIndex, psEnc->sCmn.nFramesAnalyzed, psEnc->sCmn.nb_subfr );\r
312 \r
313         /* Overwrite unquantized gains with quantized gains and convert back to Q0 from Q16 */\r
314         for( k = 0; k <  psEnc->sCmn.nb_subfr; k++ ) {\r
315             psEncCtrl->Gains[ k ] = Gains_Q16[ k ] / 65536.0f;\r
316         }\r
317 \r
318         /*****************************************/\r
319         /* Noise shaping quantization            */\r
320         /*****************************************/\r
321         SKP_Silk_NSQ_wrapper_FLP( psEnc, psEncCtrl, psIndices_LBRR, &sNSQ_LBRR, \r
322             psEnc->sCmn.pulses_LBRR[ psEnc->sCmn.nFramesAnalyzed ], xfw );\r
323 \r
324         /* Restore original Gains */\r
325         SKP_memcpy( psEncCtrl->Gains, TempGains, psEnc->sCmn.nb_subfr * sizeof( SKP_float ) );\r
326     }\r
327 }\r