Speed up the comb filter on ARM by using MAC16_32_Q16()
[opus.git] / celt / celt.c
1 /* Copyright (c) 2007-2008 CSIRO
2    Copyright (c) 2007-2010 Xiph.Org Foundation
3    Copyright (c) 2008 Gregory Maxwell
4    Written by Jean-Marc Valin and Gregory Maxwell */
5 /*
6    Redistribution and use in source and binary forms, with or without
7    modification, are permitted provided that the following conditions
8    are met:
9
10    - Redistributions of source code must retain the above copyright
11    notice, this list of conditions and the following disclaimer.
12
13    - Redistributions in binary form must reproduce the above copyright
14    notice, this list of conditions and the following disclaimer in the
15    documentation and/or other materials provided with the distribution.
16
17    THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
18    ``AS IS'' AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
19    LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
20    A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT OWNER
21    OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL,
22    EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO,
23    PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR
24    PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF
25    LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING
26    NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS
27    SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
28 */
29
30 #ifdef HAVE_CONFIG_H
31 #include "config.h"
32 #endif
33
34 #define CELT_C
35
36 #include "os_support.h"
37 #include "mdct.h"
38 #include <math.h>
39 #include "celt.h"
40 #include "pitch.h"
41 #include "bands.h"
42 #include "modes.h"
43 #include "entcode.h"
44 #include "quant_bands.h"
45 #include "rate.h"
46 #include "stack_alloc.h"
47 #include "mathops.h"
48 #include "float_cast.h"
49 #include <stdarg.h>
50 #include "celt_lpc.h"
51 #include "vq.h"
52
53 #ifndef PACKAGE_VERSION
54 #define PACKAGE_VERSION "unknown"
55 #endif
56
57
58 int resampling_factor(opus_int32 rate)
59 {
60    int ret;
61    switch (rate)
62    {
63    case 48000:
64       ret = 1;
65       break;
66    case 24000:
67       ret = 2;
68       break;
69    case 16000:
70       ret = 3;
71       break;
72    case 12000:
73       ret = 4;
74       break;
75    case 8000:
76       ret = 6;
77       break;
78    default:
79 #ifndef CUSTOM_MODES
80       celt_assert(0);
81 #endif
82       ret = 0;
83       break;
84    }
85    return ret;
86 }
87
88 #ifndef OVERRIDE_COMB_FILTER_CONST
89 /* This version should be faster on ARM */
90 #ifdef OPUS_ARM_ASM
91 static void comb_filter_const(opus_val32 *y, opus_val32 *x, int T, int N,
92       opus_val16 g10, opus_val16 g11, opus_val16 g12)
93 {
94    opus_val32 x0, x1, x2, x3, x4;
95    int i;
96    x4 = SHL32(x[-T-2], 1);
97    x3 = SHL32(x[-T-1], 1);
98    x2 = SHL32(x[-T], 1);
99    x1 = SHL32(x[-T+1], 1);
100    for (i=0;i<N;i++)
101    {
102       opus_val32 t;
103       x0=SHL32(x[i-T+2],1);
104       t = MAC16_32_Q16(x[i], g10, x2);
105       t = MAC16_32_Q16(t, g11, ADD32(x1,x3));
106       t = MAC16_32_Q16(t, g12, ADD32(x0,x4));
107       y[i] = t;
108       x4=x3;
109       x3=x2;
110       x2=x1;
111       x1=x0;
112    }
113
114 }
115 #else
116 static void comb_filter_const(opus_val32 *y, opus_val32 *x, int T, int N,
117       opus_val16 g10, opus_val16 g11, opus_val16 g12)
118 {
119    opus_val32 x0, x1, x2, x3, x4;
120    int i;
121    x4 = x[-T-2];
122    x3 = x[-T-1];
123    x2 = x[-T];
124    x1 = x[-T+1];
125    for (i=0;i<N;i++)
126    {
127       x0=x[i-T+2];
128       y[i] = x[i]
129                + MULT16_32_Q15(g10,x2)
130                + MULT16_32_Q15(g11,ADD32(x1,x3))
131                + MULT16_32_Q15(g12,ADD32(x0,x4));
132       x4=x3;
133       x3=x2;
134       x2=x1;
135       x1=x0;
136    }
137
138 }
139 #endif
140 #endif
141
142 void comb_filter(opus_val32 *y, opus_val32 *x, int T0, int T1, int N,
143       opus_val16 g0, opus_val16 g1, int tapset0, int tapset1,
144       const opus_val16 *window, int overlap)
145 {
146    int i;
147    /* printf ("%d %d %f %f\n", T0, T1, g0, g1); */
148    opus_val16 g00, g01, g02, g10, g11, g12;
149    opus_val32 x0, x1, x2, x3, x4;
150    static const opus_val16 gains[3][3] = {
151          {QCONST16(0.3066406250f, 15), QCONST16(0.2170410156f, 15), QCONST16(0.1296386719f, 15)},
152          {QCONST16(0.4638671875f, 15), QCONST16(0.2680664062f, 15), QCONST16(0.f, 15)},
153          {QCONST16(0.7998046875f, 15), QCONST16(0.1000976562f, 15), QCONST16(0.f, 15)}};
154
155    if (g0==0 && g1==0)
156    {
157       /* OPT: Happens to work without the OPUS_MOVE(), but only because the current encoder already copies x to y */
158       if (x!=y)
159          OPUS_MOVE(y, x, N);
160       return;
161    }
162    g00 = MULT16_16_P15(g0, gains[tapset0][0]);
163    g01 = MULT16_16_P15(g0, gains[tapset0][1]);
164    g02 = MULT16_16_P15(g0, gains[tapset0][2]);
165    g10 = MULT16_16_P15(g1, gains[tapset1][0]);
166    g11 = MULT16_16_P15(g1, gains[tapset1][1]);
167    g12 = MULT16_16_P15(g1, gains[tapset1][2]);
168    x1 = x[-T1+1];
169    x2 = x[-T1  ];
170    x3 = x[-T1-1];
171    x4 = x[-T1-2];
172    for (i=0;i<overlap;i++)
173    {
174       opus_val16 f;
175       x0=x[i-T1+2];
176       f = MULT16_16_Q15(window[i],window[i]);
177       y[i] = x[i]
178                + MULT16_32_Q15(MULT16_16_Q15((Q15ONE-f),g00),x[i-T0])
179                + MULT16_32_Q15(MULT16_16_Q15((Q15ONE-f),g01),ADD32(x[i-T0+1],x[i-T0-1]))
180                + MULT16_32_Q15(MULT16_16_Q15((Q15ONE-f),g02),ADD32(x[i-T0+2],x[i-T0-2]))
181                + MULT16_32_Q15(MULT16_16_Q15(f,g10),x2)
182                + MULT16_32_Q15(MULT16_16_Q15(f,g11),ADD32(x1,x3))
183                + MULT16_32_Q15(MULT16_16_Q15(f,g12),ADD32(x0,x4));
184       x4=x3;
185       x3=x2;
186       x2=x1;
187       x1=x0;
188
189    }
190    if (g1==0)
191    {
192       /* OPT: Happens to work without the OPUS_MOVE(), but only because the current encoder already copies x to y */
193       if (x!=y)
194          OPUS_MOVE(y+overlap, x+overlap, N-overlap);
195       return;
196    }
197
198    /* Compute the part with the constant filter. */
199    comb_filter_const(y+i, x+i, T1, N-i, g10, g11, g12);
200 }
201
202 const signed char tf_select_table[4][8] = {
203       {0, -1, 0, -1,    0,-1, 0,-1},
204       {0, -1, 0, -2,    1, 0, 1,-1},
205       {0, -2, 0, -3,    2, 0, 1,-1},
206       {0, -2, 0, -3,    3, 0, 1,-1},
207 };
208
209
210 void init_caps(const CELTMode *m,int *cap,int LM,int C)
211 {
212    int i;
213    for (i=0;i<m->nbEBands;i++)
214    {
215       int N;
216       N=(m->eBands[i+1]-m->eBands[i])<<LM;
217       cap[i] = (m->cache.caps[m->nbEBands*(2*LM+C-1)+i]+64)*C*N>>2;
218    }
219 }
220
221
222
223 const char *opus_strerror(int error)
224 {
225    static const char * const error_strings[8] = {
226       "success",
227       "invalid argument",
228       "buffer too small",
229       "internal error",
230       "corrupted stream",
231       "request not implemented",
232       "invalid state",
233       "memory allocation failed"
234    };
235    if (error > 0 || error < -7)
236       return "unknown error";
237    else
238       return error_strings[-error];
239 }
240
241 const char *opus_get_version_string(void)
242 {
243     return "libopus " PACKAGE_VERSION
244 #ifdef FIXED_POINT
245           "-fixed"
246 #endif
247 #ifdef FUZZING
248           "-fuzzing"
249 #endif
250           ;
251 }