Handle malloc failure in mode_create gracefully without leaking memory.
[opus.git] / libcelt / mdct.c
1 /* (C) 2008 Jean-Marc Valin, CSIRO
2 */
3 /*
4    Redistribution and use in source and binary forms, with or without
5    modification, are permitted provided that the following conditions
6    are met:
7    
8    - Redistributions of source code must retain the above copyright
9    notice, this list of conditions and the following disclaimer.
10    
11    - Redistributions in binary form must reproduce the above copyright
12    notice, this list of conditions and the following disclaimer in the
13    documentation and/or other materials provided with the distribution.
14    
15    - Neither the name of the Xiph.org Foundation nor the names of its
16    contributors may be used to endorse or promote products derived from
17    this software without specific prior written permission.
18    
19    THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
20    ``AS IS'' AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
21    LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
22    A PARTICULAR PURPOSE ARE DISCLAIMED.  IN NO EVENT SHALL THE FOUNDATION OR
23    CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL,
24    EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO,
25    PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR
26    PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF
27    LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING
28    NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS
29    SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
30 */
31
32 /* This is a simple MDCT implementation that uses a N/4 complex FFT
33    to do most of the work. It should be relatively straightforward to
34    plug in pretty much and FFT here.
35    
36    This replaces the Vorbis FFT (and uses the exact same API), which 
37    was a bit too messy and that was ending up duplicating code 
38    (might as well use the same FFT everywhere).
39    
40    The algorithm is similar to (and inspired from) Fabrice Bellard's
41    MDCT implementation in FFMPEG, but has differences in signs, ordering
42    and scaling in many places. 
43 */
44
45 #ifdef HAVE_CONFIG_H
46 #include "config.h"
47 #endif
48
49 #include "mdct.h"
50 #include "kfft_double.h"
51 #include <math.h>
52 #include "os_support.h"
53 #include "mathops.h"
54 #include "stack_alloc.h"
55
56 #ifndef M_PI
57 #define M_PI 3.141592653
58 #endif
59
60 void mdct_init(mdct_lookup *l,int N)
61 {
62    int i;
63    int N2;
64    l->n = N;
65    N2 = N>>1;
66    l->kfft = cpx32_fft_alloc(N>>2);
67    if (l->kfft==NULL)
68      return;
69    l->trig = (kiss_twiddle_scalar*)celt_alloc(N2*sizeof(kiss_twiddle_scalar));
70    if (l->trig==NULL)
71      return;
72    /* We have enough points that sine isn't necessary */
73 #if defined(FIXED_POINT)
74 #if defined(DOUBLE_PRECISION) & !defined(MIXED_PRECISION)
75    for (i=0;i<N2;i++)
76       l->trig[i] = SAMP_MAX*cos(2*M_PI*(i+1./8.)/N);
77 #else
78    for (i=0;i<N2;i++)
79       l->trig[i] = TRIG_UPSCALE*celt_cos_norm(DIV32(ADD32(SHL32(EXTEND32(i),17),16386),N));
80 #endif
81 #else
82    for (i=0;i<N2;i++)
83       l->trig[i] = cos(2*M_PI*(i+1./8.)/N);
84 #endif
85 }
86
87 void mdct_clear(mdct_lookup *l)
88 {
89    cpx32_fft_free(l->kfft);
90    celt_free(l->trig);
91 }
92
93 void mdct_forward(const mdct_lookup *l, kiss_fft_scalar *in, kiss_fft_scalar * restrict out, const celt_word16_t *window, int overlap)
94 {
95    int i;
96    int N, N2, N4;
97    VARDECL(kiss_fft_scalar, f);
98    SAVE_STACK;
99    N = l->n;
100    N2 = N>>1;
101    N4 = N>>2;
102    ALLOC(f, N2, kiss_fft_scalar);
103    
104    /* Consider the input to be compused of four blocks: [a, b, c, d] */
105    /* Window, shuffle, fold */
106    {
107       /* Temp pointers to make it really clear to the compiler what we're doing */
108       const kiss_fft_scalar * restrict xp1 = in+(overlap>>1);
109       const kiss_fft_scalar * restrict xp2 = in+N2-1+(overlap>>1);
110       kiss_fft_scalar * restrict yp = out;
111       const celt_word16_t * restrict wp1 = window+(overlap>>1);
112       const celt_word16_t * restrict wp2 = window+(overlap>>1)-1;
113       for(i=0;i<(overlap>>2);i++)
114       {
115          /* Real part arranged as -d-cR, Imag part arranged as -b+aR*/
116          *yp++ = MULT16_32_Q15(*wp2, xp1[N2]) + MULT16_32_Q15(*wp1,*xp2);
117          *yp++ = MULT16_32_Q15(*wp1, *xp1)    - MULT16_32_Q15(*wp2, xp2[-N2]);
118          xp1+=2;
119          xp2-=2;
120          wp1+=2;
121          wp2-=2;
122       }
123       wp1 = window;
124       wp2 = window+overlap-1;
125       for(;i<N4-(overlap>>2);i++)
126       {
127          /* Real part arranged as a-bR, Imag part arranged as -c-dR */
128          *yp++ = *xp2;
129          *yp++ = *xp1;
130          xp1+=2;
131          xp2-=2;
132       }
133       for(;i<N4;i++)
134       {
135          /* Real part arranged as a-bR, Imag part arranged as -c-dR */
136          *yp++ =  -MULT16_32_Q15(*wp1, xp1[-N2]) + MULT16_32_Q15(*wp2, *xp2);
137          *yp++ = MULT16_32_Q15(*wp2, *xp1)     + MULT16_32_Q15(*wp1, xp2[N2]);
138          xp1+=2;
139          xp2-=2;
140          wp1+=2;
141          wp2-=2;
142       }
143    }
144    /* Pre-rotation */
145    {
146       kiss_fft_scalar * restrict yp = out;
147       kiss_fft_scalar *t = &l->trig[0];
148       for(i=0;i<N4;i++)
149       {
150          kiss_fft_scalar re, im;
151          re = yp[0];
152          im = yp[1];
153          *yp++ = -S_MUL(re,t[0])  +  S_MUL(im,t[N4]);
154          *yp++ = -S_MUL(im,t[0])  -  S_MUL(re,t[N4]);
155          t++;
156       }
157    }
158
159    /* N/4 complex FFT, down-scales by 4/N */
160    cpx32_fft(l->kfft, out, f, N4);
161
162    /* Post-rotate */
163    {
164       /* Temp pointers to make it really clear to the compiler what we're doing */
165       const kiss_fft_scalar * restrict fp = f;
166       kiss_fft_scalar * restrict yp1 = out;
167       kiss_fft_scalar * restrict yp2 = out+N2-1;
168       kiss_fft_scalar *t = &l->trig[0];
169       /* Temp pointers to make it really clear to the compiler what we're doing */
170       for(i=0;i<N4;i++)
171       {
172          *yp1 = -S_MUL(fp[1],t[N4]) + S_MUL(fp[0],t[0]);
173          *yp2 = -S_MUL(fp[0],t[N4]) - S_MUL(fp[1],t[0]);
174          fp += 2;
175          yp1 += 2;
176          yp2 -= 2;
177          t++;
178       }
179    }
180    RESTORE_STACK;
181 }
182
183
184 void mdct_backward(const mdct_lookup *l, kiss_fft_scalar *in, kiss_fft_scalar * restrict out, const celt_word16_t * restrict window, int overlap)
185 {
186    int i;
187    int N, N2, N4;
188    VARDECL(kiss_fft_scalar, f);
189    VARDECL(kiss_fft_scalar, f2);
190    SAVE_STACK;
191    N = l->n;
192    N2 = N>>1;
193    N4 = N>>2;
194    ALLOC(f, N2, kiss_fft_scalar);
195    ALLOC(f2, N2, kiss_fft_scalar);
196    
197    /* Pre-rotate */
198    {
199       /* Temp pointers to make it really clear to the compiler what we're doing */
200       const kiss_fft_scalar * restrict xp1 = in;
201       const kiss_fft_scalar * restrict xp2 = in+N2-1;
202       kiss_fft_scalar * restrict yp = f2;
203       kiss_fft_scalar *t = &l->trig[0];
204       for(i=0;i<N4;i++) 
205       {
206          *yp++ = -S_MUL(*xp2, t[0])  - S_MUL(*xp1,t[N4]);
207          *yp++ =  S_MUL(*xp2, t[N4]) - S_MUL(*xp1,t[0]);
208          xp1+=2;
209          xp2-=2;
210          t++;
211       }
212    }
213
214    /* Inverse N/4 complex FFT. This one should *not* downscale even in fixed-point */
215    cpx32_ifft(l->kfft, f2, f, N4);
216    
217    /* Post-rotate */
218    {
219       kiss_fft_scalar * restrict fp = f;
220       kiss_fft_scalar *t = &l->trig[0];
221
222       for(i=0;i<N4;i++)
223       {
224          kiss_fft_scalar re, im;
225          re = fp[0];
226          im = fp[1];
227          /* We'd scale up by 2 here, but instead it's done when mixing the windows */
228          *fp++ = S_MUL(re,*t) + S_MUL(im,t[N4]);
229          *fp++ = S_MUL(im,*t) - S_MUL(re,t[N4]);
230          t++;
231       }
232    }
233    /* De-shuffle the components for the middle of the window only */
234    {
235       const kiss_fft_scalar * restrict fp1 = f;
236       const kiss_fft_scalar * restrict fp2 = f+N2-1;
237       kiss_fft_scalar * restrict yp = f2;
238       for(i = 0; i < N4; i++)
239       {
240          *yp++ =-*fp1;
241          *yp++ = *fp2;
242          fp1 += 2;
243          fp2 -= 2;
244       }
245    }
246
247    /* Mirror on both sides for TDAC */
248    {
249       kiss_fft_scalar * restrict fp1 = f2+N4-1;
250       kiss_fft_scalar * restrict xp1 = out+N2-1;
251       kiss_fft_scalar * restrict yp1 = out+N4-overlap/2;
252       const celt_word16_t * restrict wp1 = window;
253       const celt_word16_t * restrict wp2 = window+overlap-1;
254       for(i = 0; i< N4-overlap/2; i++)
255       {
256          *xp1 = *fp1;
257          xp1--;
258          fp1--;
259       }
260       for(; i < N4; i++)
261       {
262          kiss_fft_scalar x1;
263          x1 = *fp1--;
264          *yp1++ +=-MULT16_32_Q15(*wp1, x1);
265          *xp1-- += MULT16_32_Q15(*wp2, x1);
266          wp1++;
267          wp2--;
268       }
269    }
270    {
271       kiss_fft_scalar * restrict fp2 = f2+N4;
272       kiss_fft_scalar * restrict xp2 = out+N2;
273       kiss_fft_scalar * restrict yp2 = out+N-1-(N4-overlap/2);
274       const celt_word16_t * restrict wp1 = window;
275       const celt_word16_t * restrict wp2 = window+overlap-1;
276       for(i = 0; i< N4-overlap/2; i++)
277       {
278          *xp2 = *fp2;
279          xp2++;
280          fp2++;
281       }
282       for(; i < N4; i++)
283       {
284          kiss_fft_scalar x2;
285          x2 = *fp2++;
286          *yp2--  = MULT16_32_Q15(*wp1, x2);
287          *xp2++  = MULT16_32_Q15(*wp2, x2);
288          wp1++;
289          wp2--;
290       }
291    }
292    RESTORE_STACK;
293 }
294
295