Renamed celt_word* to opus_val*
[opus.git] / libcelt / vq.c
index d2c0a4d..58173d8 100644 (file)
@@ -1,5 +1,6 @@
-/* (C) 2007-2008 Jean-Marc Valin, CSIRO
-*/
+/* Copyright (c) 2007-2008 CSIRO
+   Copyright (c) 2007-2009 Xiph.Org Foundation
+   Written by Jean-Marc Valin */
 /*
    Redistribution and use in source and binary forms, with or without
    modification, are permitted provided that the following conditions
    notice, this list of conditions and the following disclaimer in the
    documentation and/or other materials provided with the distribution.
    
-   - Neither the name of the Xiph.org Foundation nor the names of its
-   contributors may be used to endorse or promote products derived from
-   this software without specific prior written permission.
-   
    THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
    ``AS IS'' AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
    LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
 #include "vq.h"
 #include "arch.h"
 #include "os_support.h"
+#include "bands.h"
+#include "rate.h"
+
+#ifndef M_PI
+#define M_PI 3.141592653
+#endif
+
+static void exp_rotation1(celt_norm *X, int len, int stride, opus_val16 c, opus_val16 s)
+{
+   int i;
+   celt_norm *Xptr;
+   Xptr = X;
+   for (i=0;i<len-stride;i++)
+   {
+      celt_norm x1, x2;
+      x1 = Xptr[0];
+      x2 = Xptr[stride];
+      Xptr[stride] = EXTRACT16(SHR32(MULT16_16(c,x2) + MULT16_16(s,x1), 15));
+      *Xptr++      = EXTRACT16(SHR32(MULT16_16(c,x1) - MULT16_16(s,x2), 15));
+   }
+   Xptr = &X[len-2*stride-1];
+   for (i=len-2*stride-1;i>=0;i--)
+   {
+      celt_norm x1, x2;
+      x1 = Xptr[0];
+      x2 = Xptr[stride];
+      Xptr[stride] = EXTRACT16(SHR32(MULT16_16(c,x2) + MULT16_16(s,x1), 15));
+      *Xptr--      = EXTRACT16(SHR32(MULT16_16(c,x1) - MULT16_16(s,x2), 15));
+   }
+}
+
+static void exp_rotation(celt_norm *X, int len, int dir, int stride, int K, int spread)
+{
+   static const int SPREAD_FACTOR[3]={15,10,5};
+   int i;
+   opus_val16 c, s;
+   opus_val16 gain, theta;
+   int stride2=0;
+   int factor;
+   /*int i;
+   if (len>=30)
+   {
+      for (i=0;i<len;i++)
+         X[i] = 0;
+      X[14] = 1;
+      K=5;
+   }*/
+   if (2*K>=len || spread==SPREAD_NONE)
+      return;
+   factor = SPREAD_FACTOR[spread-1];
+
+   gain = celt_div((opus_val32)MULT16_16(Q15_ONE,len),(opus_val32)(len+factor*K));
+   theta = HALF16(MULT16_16_Q15(gain,gain));
+
+   c = celt_cos_norm(EXTEND32(theta));
+   s = celt_cos_norm(EXTEND32(SUB16(Q15ONE,theta))); /*  sin(theta) */
+
+   if (len>=8*stride)
+   {
+      stride2 = 1;
+      /* This is just a simple way of computing sqrt(len/stride) with rounding.
+         It's basically incrementing long as (stride2+0.5)^2 < len/stride.
+         I _think_ it is bit-exact */
+      while ((stride2*stride2+stride2)*stride + (stride>>2) < len)
+         stride2++;
+   }
+   /*TODO: We should be passing around log2(B), not B, for both this and for
+      extract_collapse_mask().*/
+   len /= stride;
+   for (i=0;i<stride;i++)
+   {
+      if (dir < 0)
+      {
+         if (stride2)
+            exp_rotation1(X+i*len, len, stride2, s, c);
+         exp_rotation1(X+i*len, len, 1, c, s);
+      } else {
+         exp_rotation1(X+i*len, len, 1, c, -s);
+         if (stride2)
+            exp_rotation1(X+i*len, len, stride2, s, -c);
+      }
+   }
+   /*if (len>=30)
+   {
+      for (i=0;i<len;i++)
+         printf ("%f ", X[i]);
+      printf ("\n");
+      exit(0);
+   }*/
+}
 
 /** Takes the pitch vector and the decoded residual vector, computes the gain
     that will give ||p+g*y||=1 and mixes the residual with the pitch. */
-static void mix_pitch_and_residual(int * restrict iy, celt_norm_t * restrict X, int N, int K, const celt_norm_t * restrict P)
+static void normalise_residual(int * restrict iy, celt_norm * restrict X,
+      int N, opus_val32 Ryy, opus_val16 gain)
 {
    int i;
-   celt_word32_t Ryp, Ryy, Rpp;
-   celt_word32_t g;
-   VARDECL(celt_norm_t, y);
 #ifdef FIXED_POINT
-   int yshift;
+   int k;
 #endif
-   SAVE_STACK;
+   opus_val32 t;
+   opus_val16 g;
+
 #ifdef FIXED_POINT
-   yshift = 13-celt_ilog2(K);
+   k = celt_ilog2(Ryy)>>1;
 #endif
-   ALLOC(y, N, celt_norm_t);
-
-   /*for (i=0;i<N;i++)
-   printf ("%d ", iy[i]);*/
-   Rpp = 0;
-   i=0;
-   do {
-      Rpp = MAC16_16(Rpp,P[i],P[i]);
-      y[i] = SHL16(iy[i],yshift);
-   } while (++i < N);
-
-   Ryp = 0;
-   Ryy = 0;
-   /* If this doesn't generate a dual MAC (on supported archs), fire the compiler guy */
-   i=0;
-   do {
-      Ryp = MAC16_16(Ryp, y[i], P[i]);
-      Ryy = MAC16_16(Ryy, y[i], y[i]);
-   } while (++i < N);
-
-   /* g = (sqrt(Ryp^2 + Ryy - Rpp*Ryy)-Ryp)/Ryy */
-   g = MULT16_32_Q15(
-            celt_sqrt(MULT16_16(ROUND16(Ryp,14),ROUND16(Ryp,14)) + Ryy -
-                      MULT16_16(ROUND16(Ryy,14),ROUND16(Rpp,14)))
-            - ROUND16(Ryp,14),
-       celt_rcp(SHR32(Ryy,9)));
+   t = VSHR32(Ryy, (k-7)<<1);
+   g = MULT16_16_P15(celt_rsqrt_norm(t),gain);
 
    i=0;
-   do 
-      X[i] = P[i] + ROUND16(MULT16_16(y[i], g),11);
+   do
+      X[i] = EXTRACT16(PSHR32(MULT16_16(g, iy[i]), k+1));
    while (++i < N);
-
-   RESTORE_STACK;
 }
 
+static unsigned extract_collapse_mask(int *iy, int N, int B)
+{
+   unsigned collapse_mask;
+   int N0;
+   int i;
+   if (B<=1)
+      return 1;
+   /*TODO: We should be passing around log2(B), not B, for both this and for
+      exp_rotation().*/
+   N0 = N/B;
+   collapse_mask = 0;
+   i=0; do {
+      int j;
+      j=0; do {
+         collapse_mask |= (iy[i*N0+j]!=0)<<i;
+      } while (++j<N0);
+   } while (++i<B);
+   return collapse_mask;
+}
 
-void alg_quant(celt_norm_t *X, celt_mask_t *W, int N, int K, const celt_norm_t *P, ec_enc *enc)
+unsigned alg_quant(celt_norm *X, int N, int K, int spread, int B,
+      int resynth, ec_enc *enc, opus_val16 gain)
 {
-   VARDECL(celt_norm_t, y);
+   VARDECL(celt_norm, y);
    VARDECL(int, iy);
-   VARDECL(int, signx);
-   int j, is;
-   celt_word16_t s;
+   VARDECL(opus_val16, signx);
+   int i, j;
+   opus_val16 s;
    int pulsesLeft;
-   celt_word32_t sum;
-   celt_word32_t xy, yy, yp;
-   celt_word16_t Rpp;
-   int N_1; /* Inverse of N, in Q14 format (even for float) */
-#ifdef FIXED_POINT
-   int yshift;
-#endif
+   opus_val32 sum;
+   opus_val32 xy;
+   opus_val16 yy;
+   unsigned collapse_mask;
    SAVE_STACK;
 
-#ifdef FIXED_POINT
-   yshift = 13-celt_ilog2(K);
-#endif
+   celt_assert2(K!=0, "alg_quant() needs at least one pulse");
 
-   ALLOC(y, N, celt_norm_t);
+   ALLOC(y, N, celt_norm);
    ALLOC(iy, N, int);
-   ALLOC(signx, N, int);
-   N_1 = 512/N;
+   ALLOC(signx, N, opus_val16);
+   
+   exp_rotation(X, N, 1, B, K, spread);
 
+   /* Get rid of the sign */
    sum = 0;
    j=0; do {
       if (X[j]>0)
          signx[j]=1;
-      else
+      else {
          signx[j]=-1;
+         X[j]=-X[j];
+      }
       iy[j] = 0;
       y[j] = 0;
-      sum = MAC16_16(sum, P[j],P[j]);
    } while (++j<N);
-   Rpp = ROUND16(sum, NORM_SHIFT);
 
-   celt_assert2(Rpp<=NORM_SCALING, "Rpp should never have a norm greater than unity");
-
-   xy = yy = yp = 0;
+   xy = yy = 0;
 
    pulsesLeft = K;
-   while (pulsesLeft > 0)
+
+   /* Do a pre-search by projecting on the pyramid */
+   if (K > (N>>1))
+   {
+      opus_val16 rcp;
+      j=0; do {
+         sum += X[j];
+      }  while (++j<N);
+
+      /* If X is too small, just replace it with a pulse at 0 */
+#ifdef FIXED_POINT
+      if (sum <= K)
+#else
+      /* Prevents infinities and NaNs from causing too many pulses
+         to be allocated. 64 is an approximation of infinity here. */
+      if (!(sum > EPSILON && sum < 64))
+#endif
+      {
+         X[0] = QCONST16(1.f,14);
+         j=1; do
+            X[j]=0;
+         while (++j<N);
+         sum = QCONST16(1.f,14);
+      }
+      /* Do we have sufficient accuracy here? */
+      rcp = EXTRACT16(MULT16_32_Q16(K-1, celt_rcp(sum)));
+      j=0; do {
+#ifdef FIXED_POINT
+         /* It's really important to round *towards zero* here */
+         iy[j] = MULT16_16_Q15(X[j],rcp);
+#else
+         iy[j] = (int)floor(rcp*X[j]);
+#endif
+         y[j] = iy[j];
+         yy = MAC16_16(yy, y[j],y[j]);
+         xy = MAC16_16(xy, X[j],y[j]);
+         y[j] *= 2;
+         pulsesLeft -= iy[j];
+      }  while (++j<N);
+   }
+   celt_assert2(pulsesLeft>=1, "Allocated too many pulses in the quick pass");
+
+   /* This should never happen, but just in case it does (e.g. on silence)
+      we fill the first bin with pulses. */
+#ifdef FIXED_POINT_DEBUG
+   celt_assert2(pulsesLeft<=N+3, "Not enough pulses in the quick pass");
+#endif
+   if (pulsesLeft > N+3)
+   {
+      opus_val16 tmp = pulsesLeft;
+      yy = MAC16_16(yy, tmp, tmp);
+      yy = MAC16_16(yy, tmp, y[0]);
+      iy[0] += pulsesLeft;
+      pulsesLeft=0;
+   }
+
+   s = 1;
+   for (i=0;i<pulsesLeft;i++)
    {
-      int pulsesAtOnce=1;
       int best_id;
-      celt_word16_t magnitude;
+      opus_val32 best_num = -VERY_LARGE16;
+      opus_val16 best_den = 0;
 #ifdef FIXED_POINT
       int rshift;
 #endif
-      /* Decide on how many pulses to find at once */
-      pulsesAtOnce = (pulsesLeft*N_1)>>9; /* pulsesLeft/N */
-      if (pulsesAtOnce<1)
-         pulsesAtOnce = 1;
 #ifdef FIXED_POINT
-      rshift = yshift+1+celt_ilog2(K-pulsesLeft+pulsesAtOnce);
+      rshift = 1+celt_ilog2(K-pulsesLeft+i+1);
 #endif
-      magnitude = SHL16(pulsesAtOnce, yshift);
-
       best_id = 0;
       /* The squared magnitude term gets added anyway, so we might as well 
          add it outside the loop */
-      yy = ADD32(yy, MULT16_16(magnitude,magnitude));
-      /* Choose between fast and accurate strategy depending on where we are in the search */
-      if (pulsesLeft>1)
-      {
-         /* This should ensure that anything we can process will have a better score */
-         celt_word32_t best_num = -VERY_LARGE16;
-         celt_word16_t best_den = 0;
-         j=0;
-         do {
-            celt_word16_t Rxy, Ryy;
-            /* Select sign based on X[j] alone */
-            s = signx[j]*magnitude;
-            /* Temporary sums of the new pulse(s) */
-            Rxy = EXTRACT16(SHR32(xy + MULT16_16(s,X[j]),rshift));
-            /* We're multiplying y[j] by two so we don't have to do it here */
-            Ryy = EXTRACT16(SHR32(yy + MULT16_16(s,y[j]),rshift));
-            
-            /* Approximate score: we maximise Rxy/sqrt(Ryy) (we're guaranteed that 
-               Rxy is positive because the sign is pre-computed) */
-            Rxy = MULT16_16_Q15(Rxy,Rxy);
-            /* The idea is to check for num/den >= best_num/best_den, but that way
-               we can do it without any division */
-            /* OPT: Make sure to use conditional moves here */
-            if (MULT16_16(best_den, Rxy) > MULT16_16(Ryy, best_num))
-            {
-               best_den = Ryy;
-               best_num = Rxy;
-               best_id = j;
-            }
-         } while (++j<N);
-      } else {
-         celt_word16_t g;
-         celt_word16_t best_num = -VERY_LARGE16;
-         celt_word16_t best_den = 0;
-         j=0;
-         do {
-            celt_word16_t Rxy, Ryy, Ryp;
-            celt_word16_t num;
-            /* Select sign based on X[j] alone */
-            s = signx[j]*magnitude;
-            /* Temporary sums of the new pulse(s) */
-            Rxy = ROUND16(xy + MULT16_16(s,X[j]), 14);
-            /* We're multiplying y[j] by two so we don't have to do it here */
-            Ryy = ROUND16(yy + MULT16_16(s,y[j]), 14);
-            Ryp = ROUND16(yp + MULT16_16(s,P[j]), 14);
-
-            /* Compute the gain such that ||p + g*y|| = 1 
-               ...but instead, we compute g*Ryy to avoid dividing */
-            g = celt_psqrt(MULT16_16(Ryp,Ryp) + MULT16_16(Ryy,QCONST16(1.f,14)-Rpp)) - Ryp;
-            /* Knowing that gain, what's the error: (x-g*y)^2 
-               (result is negated and we discard x^2 because it's constant) */
-            /* score = 2*g*Rxy - g*g*Ryy;*/
-#ifdef FIXED_POINT
-            /* No need to multiply Rxy by 2 because we did it earlier */
-            num = MULT16_16_Q15(ADD16(SUB16(Rxy,g),Rxy),g);
-#else
-            num = g*(2*Rxy-g);
-#endif
-            if (MULT16_16(best_den, num) > MULT16_16(Ryy, best_num))
-            {
-               best_den = Ryy;
-               best_num = num;
-               best_id = j;
-            }
-         } while (++j<N);
-      }
+      yy = ADD32(yy, 1);
+      j=0;
+      do {
+         opus_val16 Rxy, Ryy;
+         /* Temporary sums of the new pulse(s) */
+         Rxy = EXTRACT16(SHR32(ADD32(xy, EXTEND32(X[j])),rshift));
+         /* We're multiplying y[j] by two so we don't have to do it here */
+         Ryy = ADD16(yy, y[j]);
+
+         /* Approximate score: we maximise Rxy/sqrt(Ryy) (we're guaranteed that
+            Rxy is positive because the sign is pre-computed) */
+         Rxy = MULT16_16_Q15(Rxy,Rxy);
+         /* The idea is to check for num/den >= best_num/best_den, but that way
+            we can do it without any division */
+         /* OPT: Make sure to use conditional moves here */
+         if (MULT16_16(best_den, Rxy) > MULT16_16(Ryy, best_num))
+         {
+            best_den = Ryy;
+            best_num = Rxy;
+            best_id = j;
+         }
+      } while (++j<N);
       
-      j = best_id;
-      is = signx[j]*pulsesAtOnce;
-      s = SHL16(is, yshift);
-
       /* Updating the sums of the new pulse(s) */
-      xy = xy + MULT16_16(s,X[j]);
+      xy = ADD32(xy, EXTEND32(X[best_id]));
       /* We're multiplying y[j] by two so we don't have to do it here */
-      yy = yy + MULT16_16(s,y[j]);
-      yp = yp + MULT16_16(s, P[j]);
+      yy = ADD16(yy, y[best_id]);
 
       /* Only now that we've made the final choice, update y/iy */
       /* Multiplying y[j] by 2 so we don't have to do it everywhere else */
-      y[j] += 2*s;
-      iy[j] += is;
-      pulsesLeft -= pulsesAtOnce;
+      y[best_id] += 2*s;
+      iy[best_id]++;
    }
-   
+
+   /* Put the original sign back */
+   j=0;
+   do {
+      X[j] = MULT16_16(signx[j],X[j]);
+      if (signx[j] < 0)
+         iy[j] = -iy[j];
+   } while (++j<N);
    encode_pulses(iy, N, K, enc);
    
-   /* Recompute the gain in one pass to reduce the encoder-decoder mismatch
-   due to the recursive computation used in quantisation. */
-   mix_pitch_and_residual(iy, X, N, K, P);
+   if (resynth)
+   {
+      normalise_residual(iy, X, N, yy, gain);
+      exp_rotation(X, N, -1, B, K, spread);
+   }
+   collapse_mask = extract_collapse_mask(iy, N, B);
    RESTORE_STACK;
+   return collapse_mask;
 }
 
 
 /** Decode pulse vector and combine the result with the pitch vector to produce
     the final normalised signal in the current band. */
-void alg_unquant(celt_norm_t *X, int N, int K, celt_norm_t *P, ec_dec *dec)
+unsigned alg_unquant(celt_norm *X, int N, int K, int spread, int B,
+      ec_dec *dec, opus_val16 gain)
 {
+   int i;
+   opus_val32 Ryy;
+   unsigned collapse_mask;
    VARDECL(int, iy);
    SAVE_STACK;
+
+   celt_assert2(K!=0, "alg_unquant() needs at least one pulse");
    ALLOC(iy, N, int);
    decode_pulses(iy, N, K, dec);
-   mix_pitch_and_residual(iy, X, N, K, P);
+   Ryy = 0;
+   i=0;
+   do {
+      Ryy = MAC16_16(Ryy, iy[i], iy[i]);
+   } while (++i < N);
+   normalise_residual(iy, X, N, Ryy, gain);
+   exp_rotation(X, N, -1, B, K, spread);
+   collapse_mask = extract_collapse_mask(iy, N, B);
    RESTORE_STACK;
+   return collapse_mask;
 }
 
+void renormalise_vector(celt_norm *X, int N, opus_val16 gain)
+{
+   int i;
 #ifdef FIXED_POINT
-static const celt_word16_t pg[11] = {32767, 24576, 21299, 19661, 19661, 19661, 18022, 18022, 16384, 16384, 16384};
-#else
-static const celt_word16_t pg[11] = {1.f, .75f, .65f, 0.6f, 0.6f, .6f, .55f, .55f, .5f, .5f, .5f};
+   int k;
 #endif
-
-#define MAX_INTRA 32
-#define LOG_MAX_INTRA 5
-      
-void intra_prediction(celt_norm_t *x, celt_mask_t *W, int N, int K, celt_norm_t *Y, celt_norm_t * restrict P, int B, int N0, ec_enc *enc)
-{
-   int i,j,c;
-   int best=0;
-   celt_word16_t best_num=-VERY_LARGE16;
-   celt_word16_t best_den=0;
-   celt_word16_t s = 1;
-   int sign;
-   celt_word32_t E;
-   celt_word16_t pred_gain;
-   int max_pos = N0-N;
-   celt_word32_t yy=0;
-   VARDECL(celt_norm_t, Xr);
-   SAVE_STACK;
-
-   ALLOC(Xr, B*N, celt_norm_t);
-   
-   if (max_pos > MAX_INTRA)
-      max_pos = MAX_INTRA;
-
-   /* Reverse the samples of x without reversing the channels */
-   for (c=0;c<B;c++)
-      for (j=0;j<N;j++)
-         Xr[B*N-B*j-B+c] = x[B*j+c];
-
-   /* Compute yy for i=0 */
-   j=0;
-   do {
-      yy = MAC16_16(yy, Y[j], Y[j]);
-   } while (++j<B*N); /* Promises we loop at least once */
-
-   for (i=0;i<max_pos;i++)
-   {
-      celt_word32_t xy=0;
-      celt_word16_t num, den;
-      const celt_word16_t * restrict xp = Xr;
-      const celt_word16_t * restrict yp = Y+B*i;
-      j=0;
-      do {
-         xy = MAC16_16(xy, *xp++, *yp++);
-      } while (++j<B*N); /* Promises we loop at least once */
-      /* Using xy^2/yy as the score but without having to do the division */
-      num = MULT16_16_Q15(ROUND16(xy,14),ROUND16(xy,14));
-      den = ROUND16(yy,14);
-      /* If you're really desperate for speed, just use xy as the score */
-      /* OPT: Make sure to use a conditional move here */
-      if (MULT16_16(best_den, num) >  MULT16_16(den, best_num))
-      {
-         best_num = num;
-         best_den = den;
-         best = i;
-         /* Store xy as the sign. We'll normalise it to +/- 1 later. */
-         s = ROUND16(xy,14);
-      }
-      /* Update yy for the next iteration */
-      yp = Y+B*i;
-      j=0;
-      do {
-         yy = yy - MULT16_16(*yp, *yp) + MULT16_16(yp[B*N], yp[B*N]);
-         yp++;
-      } while (++j<B);
-   }
-   if (s<0)
-   {
-      s = -1;
-      sign = 1;
-   } else {
-      s = 1;
-      sign = 0;
-   }
-   /*printf ("%d %d ", sign, best);*/
-   ec_enc_bits(enc,sign,1);
-   if (max_pos == MAX_INTRA)
-      ec_enc_bits(enc,best,LOG_MAX_INTRA);
-   else
-      ec_enc_uint(enc,best,max_pos);
-
-   /*printf ("%d %f\n", best, best_score);*/
-   
-   if (K>10)
-      pred_gain = pg[10];
-   else
-      pred_gain = pg[K];
-   E = EPSILON;
-   for (c=0;c<B;c++)
+   opus_val32 E = EPSILON;
+   opus_val16 g;
+   opus_val32 t;
+   celt_norm *xptr = X;
+   for (i=0;i<N;i++)
    {
-      for (j=0;j<N;j++)
-      {
-         P[B*j+c] = s*Y[B*best+B*(N-j-1)+c];
-         E = MAC16_16(E, P[B*j+c],P[B*j+c]);
-      }
-   }
-   /*pred_gain = pred_gain/sqrt(E);*/
-   pred_gain = MULT16_16_Q15(pred_gain,celt_rcp(SHL32(celt_sqrt(E),9)));
-   for (j=0;j<B*N;j++)
-      P[j] = PSHR32(MULT16_16(pred_gain, P[j]),8);
-   if (K>0)
-   {
-      for (j=0;j<B*N;j++)
-         x[j] -= P[j];
-   } else {
-      for (j=0;j<B*N;j++)
-         x[j] = P[j];
+      E = MAC16_16(E, *xptr, *xptr);
+      xptr++;
    }
-   /*printf ("quant ");*/
-   /*for (j=0;j<N;j++) printf ("%f ", P[j]);*/
-   RESTORE_STACK;
-}
+#ifdef FIXED_POINT
+   k = celt_ilog2(E)>>1;
+#endif
+   t = VSHR32(E, (k-7)<<1);
+   g = MULT16_16_P15(celt_rsqrt_norm(t),gain);
 
-void intra_unquant(celt_norm_t *x, int N, int K, celt_norm_t *Y, celt_norm_t * restrict P, int B, int N0, ec_dec *dec)
-{
-   int j, c;
-   int sign;
-   celt_word16_t s;
-   int best;
-   celt_word32_t E;
-   celt_word16_t pred_gain;
-   int max_pos = N0-N;
-   if (max_pos > MAX_INTRA)
-      max_pos = MAX_INTRA;
-   
-   sign = ec_dec_bits(dec, 1);
-   if (sign == 0)
-      s = 1;
-   else
-      s = -1;
-   
-   if (max_pos == MAX_INTRA)
-      best = B*ec_dec_bits(dec, LOG_MAX_INTRA);
-   else
-      best = B*ec_dec_uint(dec, max_pos);
-   /*printf ("%d %d ", sign, best);*/
-
-   if (K>10)
-      pred_gain = pg[10];
-   else
-      pred_gain = pg[K];
-   E = EPSILON;
-   for (c=0;c<B;c++)
+   xptr = X;
+   for (i=0;i<N;i++)
    {
-      for (j=0;j<N;j++)
-      {
-         P[B*j+c] = s*Y[best+B*(N-j-1)+c];
-         E = MAC16_16(E, P[B*j+c],P[B*j+c]);
-      }
-   }
-   /*pred_gain = pred_gain/sqrt(E);*/
-   pred_gain = MULT16_16_Q15(pred_gain,celt_rcp(SHL32(celt_sqrt(E),9)));
-   for (j=0;j<B*N;j++)
-      P[j] = PSHR32(MULT16_16(pred_gain, P[j]),8);
-   if (K==0)
-   {
-      for (j=0;j<B*N;j++)
-         x[j] = P[j];
+      *xptr = EXTRACT16(PSHR32(MULT16_16(g, *xptr), k+1));
+      xptr++;
    }
+   /*return celt_sqrt(E);*/
 }
 
-void intra_fold(celt_norm_t *x, int N, celt_norm_t *Y, celt_norm_t * restrict P, int B, int N0, int Nmax)
+int stereo_itheta(celt_norm *X, celt_norm *Y, int stereo, int N)
 {
-   int i, j;
-   celt_word32_t E;
-   celt_word16_t g;
-   
-   E = EPSILON;
-   if (N0 >= (Nmax>>1))
+   int i;
+   int itheta;
+   opus_val16 mid, side;
+   opus_val32 Emid, Eside;
+
+   Emid = Eside = EPSILON;
+   if (stereo)
    {
-      for (i=0;i<B;i++)
+      for (i=0;i<N;i++)
       {
-         for (j=0;j<N;j++)
-         {
-            P[j*B+i] = Y[(Nmax-N0-j-1)*B+i];
-            E += P[j*B+i]*P[j*B+i];
-         }
+         celt_norm m, s;
+         m = ADD16(SHR16(X[i],1),SHR16(Y[i],1));
+         s = SUB16(SHR16(X[i],1),SHR16(Y[i],1));
+         Emid = MAC16_16(Emid, m, m);
+         Eside = MAC16_16(Eside, s, s);
       }
    } else {
-      for (j=0;j<B*N;j++)
+      for (i=0;i<N;i++)
       {
-         P[j] = Y[j];
-         E = MAC16_16(E, P[j],P[j]);
+         celt_norm m, s;
+         m = X[i];
+         s = Y[i];
+         Emid = MAC16_16(Emid, m, m);
+         Eside = MAC16_16(Eside, s, s);
       }
    }
-   g = celt_rcp(SHL32(celt_sqrt(E),9));
-   for (j=0;j<B*N;j++)
-      P[j] = PSHR32(MULT16_16(g, P[j]),8);
-   for (j=0;j<B*N;j++)
-      x[j] = P[j];
-}
+   mid = celt_sqrt(Emid);
+   side = celt_sqrt(Eside);
+#ifdef FIXED_POINT
+   /* 0.63662 = 2/pi */
+   itheta = MULT16_16_Q15(QCONST16(0.63662f,15),celt_atan2p(side, mid));
+#else
+   itheta = (int)floor(.5f+16384*0.63662f*atan2(side,mid));
+#endif
 
+   return itheta;
+}