Squashed commit of the following:
[opus.git] / silk / float / SKP_Silk_encode_frame_FLP.c
1 /***********************************************************************\r
2 Copyright (c) 2006-2011, Skype Limited. All rights reserved. \r
3 Redistribution and use in source and binary forms, with or without \r
4 modification, (subject to the limitations in the disclaimer below) \r
5 are permitted provided that the following conditions are met:\r
6 - Redistributions of source code must retain the above copyright notice,\r
7 this list of conditions and the following disclaimer.\r
8 - Redistributions in binary form must reproduce the above copyright \r
9 notice, this list of conditions and the following disclaimer in the \r
10 documentation and/or other materials provided with the distribution.\r
11 - Neither the name of Skype Limited, nor the names of specific \r
12 contributors, may be used to endorse or promote products derived from \r
13 this software without specific prior written permission.\r
14 NO EXPRESS OR IMPLIED LICENSES TO ANY PARTY'S PATENT RIGHTS ARE GRANTED \r
15 BY THIS LICENSE. THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND \r
16 CONTRIBUTORS ''AS IS'' AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING,\r
17 BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND \r
18 FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE \r
19 COPYRIGHT OWNER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, \r
20 INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT\r
21 NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF \r
22 USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON \r
23 ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT \r
24 (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE \r
25 OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.\r
26 ***********************************************************************/\r
27 \r
28 #include "SKP_Silk_main_FLP.h"\r
29 #include "SKP_Silk_tuning_parameters.h"\r
30 \r
31 /****************/\r
32 /* Encode frame */\r
33 /****************/\r
34 SKP_int SKP_Silk_encode_frame_FLP( \r
35     SKP_Silk_encoder_state_FLP      *psEnc,             /* I/O  Encoder state FLP                       */\r
36     SKP_int32                       *pnBytesOut,        /*   O  Number of payload bytes                 */\r
37     ec_enc                          *psRangeEnc         /* I/O  compressor data structure               */\r
38 )\r
39 {\r
40     SKP_Silk_encoder_control_FLP sEncCtrl;\r
41     SKP_int     i, ret = 0;\r
42     SKP_float   *x_frame, *res_pitch_frame;\r
43     SKP_int16   pIn_HP[ MAX_FRAME_LENGTH ];\r
44     SKP_float   xfw[ MAX_FRAME_LENGTH ];\r
45     SKP_float   res_pitch[ 2 * MAX_FRAME_LENGTH + LA_PITCH_MAX ];\r
46 \r
47 TIC(ENCODE_FRAME)\r
48 \r
49     psEnc->sCmn.indices.Seed = psEnc->sCmn.frameCounter++ & 3;\r
50 \r
51     /**************************************************************/\r
52     /* Setup Input Pointers, and insert frame in input buffer    */\r
53     /*************************************************************/\r
54     /* pointers aligned with start of frame to encode */\r
55     x_frame         = psEnc->x_buf + psEnc->sCmn.ltp_mem_length;    /* start of frame to encode */\r
56     res_pitch_frame = res_pitch    + psEnc->sCmn.ltp_mem_length;    /* start of pitch LPC residual frame */\r
57 \r
58     /****************************/\r
59     /* Voice Activity Detection */\r
60     /****************************/\r
61 TIC(VAD)\r
62     ret = SKP_Silk_VAD_GetSA_Q8( &psEnc->sCmn, psEnc->sCmn.inputBuf );\r
63 TOC(VAD)\r
64 \r
65     /**************************************************/\r
66     /* Convert speech activity into VAD and DTX flags */\r
67     /**************************************************/\r
68     if( psEnc->sCmn.nFramesAnalyzed == 0 ) {\r
69         psEnc->sCmn.inDTX = psEnc->sCmn.useDTX;\r
70     }\r
71     if( psEnc->sCmn.speech_activity_Q8 < SKP_FIX_CONST( SPEECH_ACTIVITY_DTX_THRES, 8 ) ) {\r
72         psEnc->sCmn.indices.signalType = TYPE_NO_VOICE_ACTIVITY;\r
73         psEnc->sCmn.noSpeechCounter++;\r
74         if( psEnc->sCmn.noSpeechCounter < NB_SPEECH_FRAMES_BEFORE_DTX ) {\r
75             psEnc->sCmn.inDTX = 0;\r
76         } else if( psEnc->sCmn.noSpeechCounter > MAX_CONSECUTIVE_DTX + NB_SPEECH_FRAMES_BEFORE_DTX ) {\r
77             psEnc->sCmn.noSpeechCounter = NB_SPEECH_FRAMES_BEFORE_DTX;\r
78             psEnc->sCmn.inDTX           = 0;\r
79         }\r
80         psEnc->sCmn.VAD_flags[ psEnc->sCmn.nFramesAnalyzed ] = 0;\r
81     } else {\r
82         psEnc->sCmn.noSpeechCounter    = 0;\r
83         psEnc->sCmn.inDTX              = 0;\r
84         psEnc->sCmn.indices.signalType = TYPE_UNVOICED;\r
85         psEnc->sCmn.VAD_flags[ psEnc->sCmn.nFramesAnalyzed ] = 1;\r
86     }\r
87 \r
88     /*******************************************/\r
89     /* High-pass filtering of the input signal */\r
90     /*******************************************/\r
91 TIC(HP_IN)\r
92     SKP_Silk_HP_variable_cutoff( &psEnc->sCmn, pIn_HP, psEnc->sCmn.inputBuf, psEnc->sCmn.frame_length );\r
93 TOC(HP_IN)\r
94 \r
95     /* Ensure smooth bandwidth transitions */\r
96     SKP_Silk_LP_variable_cutoff( &psEnc->sCmn.sLP, pIn_HP, psEnc->sCmn.frame_length );\r
97 \r
98     /*******************************************/\r
99     /* Copy new frame to front of input buffer */\r
100     /*******************************************/\r
101     SKP_short2float_array( x_frame + LA_SHAPE_MS * psEnc->sCmn.fs_kHz, pIn_HP, psEnc->sCmn.frame_length );\r
102 \r
103     /* Add tiny signal to avoid high CPU load from denormalized floating point numbers */\r
104     for( i = 0; i < 8; i++ ) {\r
105         x_frame[ LA_SHAPE_MS * psEnc->sCmn.fs_kHz + i * ( psEnc->sCmn.frame_length >> 3 ) ] += ( 1 - ( i & 2 ) ) * 1e-6f;\r
106     }\r
107 \r
108     /*****************************************/\r
109     /* Find pitch lags, initial LPC analysis */\r
110     /*****************************************/\r
111 TIC(FIND_PITCH)\r
112     SKP_Silk_find_pitch_lags_FLP( psEnc, &sEncCtrl, res_pitch, x_frame );\r
113 TOC(FIND_PITCH)\r
114 \r
115     /************************/\r
116     /* Noise shape analysis */\r
117     /************************/\r
118 TIC(NOISE_SHAPE_ANALYSIS)\r
119     SKP_Silk_noise_shape_analysis_FLP( psEnc, &sEncCtrl, res_pitch_frame, x_frame );\r
120 TOC(NOISE_SHAPE_ANALYSIS)\r
121 \r
122     /***************************************************/\r
123     /* Find linear prediction coefficients (LPC + LTP) */\r
124     /***************************************************/\r
125 TIC(FIND_PRED_COEF)\r
126     SKP_Silk_find_pred_coefs_FLP( psEnc, &sEncCtrl, res_pitch, x_frame );\r
127 TOC(FIND_PRED_COEF)\r
128 \r
129     /****************************************/\r
130     /* Process gains                        */\r
131     /****************************************/\r
132 TIC(PROCESS_GAINS)\r
133     SKP_Silk_process_gains_FLP( psEnc, &sEncCtrl );\r
134 TOC(PROCESS_GAINS)\r
135 \r
136     /****************************************/\r
137     /* Low Bitrate Redundant Encoding       */\r
138     /****************************************/\r
139 TIC(LBRR)\r
140     SKP_Silk_LBRR_encode_FLP( psEnc, &sEncCtrl, xfw );\r
141 TOC(LBRR)\r
142 \r
143     /*****************************************/\r
144     /* Prefiltering for noise shaper         */\r
145     /*****************************************/\r
146 TIC(PREFILTER)\r
147     SKP_Silk_prefilter_FLP( psEnc, &sEncCtrl, xfw, x_frame );\r
148 TOC(PREFILTER)\r
149 \r
150     /*****************************************/\r
151     /* Noise shaping quantization            */\r
152     /*****************************************/\r
153 TIC(NSQ)\r
154     SKP_Silk_NSQ_wrapper_FLP( psEnc, &sEncCtrl, &psEnc->sCmn.indices, &psEnc->sCmn.sNSQ, psEnc->sCmn.pulses, xfw );\r
155 TOC(NSQ)\r
156 \r
157     /* Update input buffer */\r
158     SKP_memmove( psEnc->x_buf, &psEnc->x_buf[ psEnc->sCmn.frame_length ], \r
159         ( psEnc->sCmn.ltp_mem_length + LA_SHAPE_MS * psEnc->sCmn.fs_kHz ) * sizeof( SKP_float ) );\r
160 \r
161     /* Parameters needed for next frame */\r
162     psEnc->sCmn.prevLag        = sEncCtrl.pitchL[ psEnc->sCmn.nb_subfr - 1 ];\r
163     psEnc->sCmn.prevSignalType = psEnc->sCmn.indices.signalType;\r
164 \r
165     /* Exit without entropy coding */\r
166     if( psEnc->sCmn.prefillFlag ) {\r
167         /* No payload */\r
168         *pnBytesOut = 0;\r
169         return ret;\r
170     }\r
171 \r
172     /****************************************/\r
173     /* Encode Parameters                    */\r
174     /****************************************/\r
175 TIC(ENCODE_PARAMS)\r
176     SKP_Silk_encode_indices( &psEnc->sCmn, psRangeEnc, psEnc->sCmn.nFramesAnalyzed, 0 );\r
177 TOC(ENCODE_PARAMS)\r
178 \r
179     /****************************************/\r
180     /* Encode Excitation Signal             */\r
181     /****************************************/\r
182 TIC(ENCODE_PULSES)\r
183     SKP_Silk_encode_pulses( psRangeEnc, psEnc->sCmn.indices.signalType, psEnc->sCmn.indices.quantOffsetType, \r
184         psEnc->sCmn.pulses, psEnc->sCmn.frame_length );\r
185 TOC(ENCODE_PULSES)\r
186 \r
187     /****************************************/\r
188     /* Finalize payload                     */\r
189     /****************************************/\r
190     psEnc->sCmn.first_frame_after_reset = 0;\r
191     if( ++psEnc->sCmn.nFramesAnalyzed >= psEnc->sCmn.nFramesPerPacket ) {\r
192         /* Payload size */\r
193         *pnBytesOut = SKP_RSHIFT( ec_tell( psRangeEnc ) + 7, 3 );\r
194 \r
195         /* Reset the number of frames in payload buffer */\r
196         psEnc->sCmn.nFramesAnalyzed = 0;\r
197     } else {\r
198         /* No payload this time */\r
199         *pnBytesOut = 0;\r
200     }\r
201 TOC(ENCODE_FRAME)\r
202 \r
203 #ifdef SAVE_ALL_INTERNAL_DATA\r
204     //DEBUG_STORE_DATA( xf.dat,                   pIn_HP_LP,                           psEnc->sCmn.frame_length * sizeof( SKP_int16 ) );\r
205     //DEBUG_STORE_DATA( xfw.dat,                  xfw,                                 psEnc->sCmn.frame_length * sizeof( SKP_float ) );\r
206     DEBUG_STORE_DATA( pitchL.dat,               sEncCtrl.pitchL,                                 MAX_NB_SUBFR * sizeof( SKP_int   ) );\r
207     DEBUG_STORE_DATA( pitchG_quantized.dat,     sEncCtrl.LTPCoef,            psEnc->sCmn.nb_subfr * LTP_ORDER * sizeof( SKP_float ) );\r
208     DEBUG_STORE_DATA( LTPcorr.dat,              &psEnc->LTPCorr,                                                sizeof( SKP_float ) );\r
209     DEBUG_STORE_DATA( gains.dat,                sEncCtrl.Gains,                          psEnc->sCmn.nb_subfr * sizeof( SKP_float ) );\r
210     DEBUG_STORE_DATA( gains_indices.dat,        &psEnc->sCmn.indices.GainsIndices,       psEnc->sCmn.nb_subfr * sizeof( SKP_int8  ) );\r
211     DEBUG_STORE_DATA( quantOffsetType.dat,      &psEnc->sCmn.indices.quantOffsetType,                           sizeof( SKP_int8  ) );\r
212     DEBUG_STORE_DATA( speech_activity_q8.dat,   &psEnc->sCmn.speech_activity_Q8,                                sizeof( SKP_int   ) );\r
213     DEBUG_STORE_DATA( signalType.dat,           &psEnc->sCmn.indices.signalType,                                sizeof( SKP_int8  ) ); \r
214     DEBUG_STORE_DATA( lag_index.dat,            &psEnc->sCmn.indices.lagIndex,                                  sizeof( SKP_int16 ) ); \r
215     DEBUG_STORE_DATA( contour_index.dat,        &psEnc->sCmn.indices.contourIndex,                              sizeof( SKP_int8  ) ); \r
216     DEBUG_STORE_DATA( per_index.dat,            &psEnc->sCmn.indices.PERIndex,                                  sizeof( SKP_int8  ) );\r
217     DEBUG_STORE_DATA( PredCoef.dat,             &sEncCtrl.PredCoef[ 1 ],          psEnc->sCmn.predictLPCOrder * sizeof( SKP_float ) );\r
218     DEBUG_STORE_DATA( ltp_scale_idx.dat,        &psEnc->sCmn.indices.LTP_scaleIndex,                            sizeof( SKP_int8   ) );\r
219 //  DEBUG_STORE_DATA( xq.dat,                   psEnc->sCmn.sNSQ.xqBuf,                psEnc->sCmn.frame_length * sizeof( SKP_float ) );\r
220 #endif\r
221     return ret;\r
222 }\r
223 \r
224 /* Low-Bitrate Redundancy (LBRR) encoding. Reuse all parameters but encode excitation at lower bitrate  */\r
225 void SKP_Silk_LBRR_encode_FLP(\r
226     SKP_Silk_encoder_state_FLP      *psEnc,             /* I/O  Encoder state FLP                       */\r
227     SKP_Silk_encoder_control_FLP    *psEncCtrl,         /* I/O  Encoder control FLP                     */\r
228     const SKP_float                 xfw[]               /* I    Input signal                            */\r
229 )\r
230 {\r
231     SKP_int     k;\r
232     SKP_int32   Gains_Q16[ MAX_NB_SUBFR ];\r
233     SKP_float   TempGains[ MAX_NB_SUBFR ];\r
234     SideInfoIndices *psIndices_LBRR = &psEnc->sCmn.indices_LBRR[ psEnc->sCmn.nFramesAnalyzed ];\r
235     SKP_Silk_nsq_state sNSQ_LBRR;\r
236 \r
237     /*******************************************/\r
238     /* Control use of inband LBRR              */\r
239     /*******************************************/\r
240     if( psEnc->sCmn.LBRR_enabled && psEnc->sCmn.speech_activity_Q8 > SKP_FIX_CONST( LBRR_SPEECH_ACTIVITY_THRES, 8 ) ) {\r
241         psEnc->sCmn.LBRR_flags[ psEnc->sCmn.nFramesAnalyzed ] = 1;\r
242 \r
243         /* Copy noise shaping quantizer state and quantization indices from regular encoding */\r
244         SKP_memcpy( &sNSQ_LBRR, &psEnc->sCmn.sNSQ, sizeof( SKP_Silk_nsq_state ) );\r
245         SKP_memcpy( psIndices_LBRR, &psEnc->sCmn.indices, sizeof( SideInfoIndices ) );\r
246 \r
247         /* Save original gains */\r
248         SKP_memcpy( TempGains, psEncCtrl->Gains, psEnc->sCmn.nb_subfr * sizeof( SKP_float ) );\r
249 \r
250         if( psEnc->sCmn.nFramesAnalyzed == 0 || psEnc->sCmn.LBRR_flags[ psEnc->sCmn.nFramesAnalyzed - 1 ] == 0 ) {\r
251             /* First frame in packet or previous frame not LBRR coded */\r
252             psEnc->sCmn.LBRRprevLastGainIndex = psEnc->sShape.LastGainIndex;\r
253 \r
254             /* Increase Gains to get target LBRR rate */\r
255             psIndices_LBRR->GainsIndices[ 0 ] += psEnc->sCmn.LBRR_GainIncreases;\r
256             psIndices_LBRR->GainsIndices[ 0 ] = SKP_min_int( psIndices_LBRR->GainsIndices[ 0 ], N_LEVELS_QGAIN - 1 );\r
257         }\r
258 \r
259         /* Decode to get gains in sync with decoder */\r
260         SKP_Silk_gains_dequant( Gains_Q16, psIndices_LBRR->GainsIndices, \r
261             &psEnc->sCmn.LBRRprevLastGainIndex, psEnc->sCmn.nFramesAnalyzed, psEnc->sCmn.nb_subfr );\r
262 \r
263         /* Overwrite unquantized gains with quantized gains and convert back to Q0 from Q16 */\r
264         for( k = 0; k <  psEnc->sCmn.nb_subfr; k++ ) {\r
265             psEncCtrl->Gains[ k ] = Gains_Q16[ k ] / 65536.0f;\r
266         }\r
267 \r
268         /*****************************************/\r
269         /* Noise shaping quantization            */\r
270         /*****************************************/\r
271         SKP_Silk_NSQ_wrapper_FLP( psEnc, psEncCtrl, psIndices_LBRR, &sNSQ_LBRR, \r
272             psEnc->sCmn.pulses_LBRR[ psEnc->sCmn.nFramesAnalyzed ], xfw );\r
273 \r
274         /* Restore original gains */\r
275         SKP_memcpy( psEncCtrl->Gains, TempGains, psEnc->sCmn.nb_subfr * sizeof( SKP_float ) );\r
276     }\r
277 }\r