Fix misleading comments about ec_{enc|dec}_tell()
[opus.git] / libcelt / bands.c
index 43b4acb..31d4788 100644 (file)
@@ -132,29 +132,6 @@ void compute_band_energies(const CELTMode *m, const celt_sig *X, celt_ener *bank
    /*printf ("\n");*/
 }
 
-#ifdef EXP_PSY
-void compute_noise_energies(const CELTMode *m, const celt_sig *X, const celt_word16 *tonality, celt_ener *bank, int _C, int M)
-{
-   int i, c, N;
-   const celt_int16 *eBands = m->eBands;
-   const int C = CHANNELS(_C);
-   N = M*m->eBands[m->nbEBands+1];
-   for (c=0;c<C;c++)
-   {
-      for (i=0;i<m->nbEBands;i++)
-      {
-         int j;
-         celt_word32 sum = 1e-10;
-         for (j=M*eBands[i];j<M*eBands[i+1];j++)
-            sum += X[j*C+c]*X[j+c*N]*tonality[j];
-         bank[i+c*m->nbEBands] = sqrt(sum);
-         /*printf ("%f ", bank[i+c*m->nbEBands]);*/
-      }
-   }
-   /*printf ("\n");*/
-}
-#endif
-
 /* Normalise each band such that the energy is one. */
 void normalise_bands(const CELTMode *m, const celt_sig * restrict freq, celt_norm * restrict X, const celt_ener *bank, int _C, int M)
 {
@@ -339,12 +316,9 @@ void apply_pitch(const CELTMode *m, celt_sig *X, const celt_sig *P, int gain_id,
    }
 }
 
-#ifndef DISABLE_STEREO
-
-static void stereo_band_mix(const CELTMode *m, celt_norm *X, celt_norm *Y, const celt_ener *bank, int stereo_mode, int bandID, int dir, int M)
+static void stereo_band_mix(const CELTMode *m, celt_norm *X, celt_norm *Y, const celt_ener *bank, int stereo_mode, int bandID, int dir, int N)
 {
    int i = bandID;
-   const celt_int16 *eBands = m->eBands;
    int j;
    celt_word16 a1, a2;
    if (stereo_mode==0)
@@ -364,7 +338,7 @@ static void stereo_band_mix(const CELTMode *m, celt_norm *X, celt_norm *Y, const
       a1 = DIV32_16(SHL32(EXTEND32(left),14),norm);
       a2 = dir*DIV32_16(SHL32(EXTEND32(right),14),norm);
    }
-   for (j=0;j<M*eBands[i+1]-M*eBands[i];j++)
+   for (j=0;j<N;j++)
    {
       celt_norm r, l;
       l = X[j];
@@ -375,8 +349,6 @@ static void stereo_band_mix(const CELTMode *m, celt_norm *X, celt_norm *Y, const
 }
 
 
-#endif /* DISABLE_STEREO */
-
 int folding_decision(const CELTMode *m, celt_norm *X, celt_word16 *average, int *last_decision, int _C, int M)
 {
    int i, c, N0;
@@ -447,73 +419,230 @@ int folding_decision(const CELTMode *m, celt_norm *X, celt_word16 *average, int
    return *last_decision;
 }
 
-static void quant_band(int encode, const CELTMode *m, int i, celt_norm *X, celt_norm *Y, int N, int b, int spread, celt_norm *lowband, int resynth, ec_enc *ec, celt_int32 *remaining_bits, int LM, celt_norm *lowband_out, const celt_ener *bandE)
+static void interleave_vector(celt_norm *X, int N0, int stride)
+{
+   int i,j;
+   VARDECL(celt_norm, tmp);
+   int N;
+   SAVE_STACK;
+   N = N0*stride;
+   ALLOC(tmp, N, celt_norm);
+   for (i=0;i<stride;i++)
+      for (j=0;j<N0;j++)
+         tmp[j*stride+i] = X[i*N0+j];
+   for (j=0;j<N;j++)
+      X[j] = tmp[j];
+   RESTORE_STACK;
+}
+
+static void deinterleave_vector(celt_norm *X, int N0, int stride)
+{
+   int i,j;
+   VARDECL(celt_norm, tmp);
+   int N;
+   SAVE_STACK;
+   N = N0*stride;
+   ALLOC(tmp, N, celt_norm);
+   for (i=0;i<stride;i++)
+      for (j=0;j<N0;j++)
+         tmp[i*N0+j] = X[j*stride+i];
+   for (j=0;j<N;j++)
+      X[j] = tmp[j];
+   RESTORE_STACK;
+}
+
+static void haar1(celt_norm *X, int N0, int stride)
+{
+   int i, j;
+   N0 >>= 1;
+   for (i=0;i<stride;i++)
+      for (j=0;j<N0;j++)
+      {
+         celt_norm tmp = X[stride*2*j+i];
+         X[stride*2*j+i] = MULT16_16_Q15(QCONST16(.7070678f,15), X[stride*2*j+i] + X[stride*(2*j+1)+i]);
+         X[stride*(2*j+1)+i] = MULT16_16_Q15(QCONST16(.7070678f,15), tmp - X[stride*(2*j+1)+i]);
+      }
+}
+
+/* This function is responsible for encoding and decoding a band for both
+   the mono and stereo case. Even in the mono case, it can split the band
+   in two and transmit the energy difference with the two half-bands. It
+   can be called recursively so bands can end up being split in 8 parts. */
+static void quant_band(int encode, const CELTMode *m, int i, celt_norm *X, celt_norm *Y,
+      int N, int b, int spread, int tf_change, celt_norm *lowband, int resynth, void *ec,
+      celt_int32 *remaining_bits, int LM, celt_norm *lowband_out, const celt_ener *bandE, int level)
 {
    int q;
    int curr_bits;
    int stereo, split;
    int imid=0, iside=0;
    int N0=N;
+   int N_B=N;
+   int N_B0;
+   int spread0=spread;
+   int time_divide=0;
+   int recombine=0;
+
+   if (spread)
+      N_B /= spread;
+   N_B0 = N_B;
 
    split = stereo = Y != NULL;
 
-   if (!stereo && LM>0 && !fits_in32(N, get_pulses(bits2pulses(m, m->bits[LM][i], N, b))))
+   /* Special case for one sample */
+   if (N==1)
    {
-      N /= 2;
-      Y = X+N;
-      split = 1;
-      LM -= 1;
+      int c;
+      celt_norm *x = X;
+      for (c=0;c<1+stereo;c++)
+      {
+         int sign=0;
+         if (b>=1<<BITRES && *remaining_bits>=1<<BITRES)
+         {
+            if (encode)
+            {
+               sign = x[0]<0;
+               ec_enc_bits((ec_enc*)ec, sign, 1);
+            } else {
+               sign = ec_dec_bits((ec_dec*)ec, 1);
+            }
+            *remaining_bits -= 1<<BITRES;
+            b-=1<<BITRES;
+         }
+         if (resynth)
+            x[0] = sign ? -NORM_SCALING : NORM_SCALING;
+         x = Y;
+      }
+      if (lowband_out)
+         lowband_out[0] = X[0];
+      return;
+   }
+
+   /* Band recombining to increase frequency resolution */
+   if (!stereo && spread > 1 && level == 0 && tf_change>0)
+   {
+      while (spread>1 && tf_change>0)
+      {
+         spread>>=1;
+         N_B<<=1;
+         if (encode)
+            haar1(X, N_B, spread);
+         if (lowband)
+            haar1(lowband, N_B, spread);
+         recombine++;
+         tf_change--;
+      }
+      spread0=spread;
+      N_B0 = N_B;
+   }
+
+   /* Increasing the time resolution */
+   if (!stereo && level==0)
+   {
+      while ((N_B&1) == 0 && tf_change<0 && spread <= (1<<LM))
+      {
+         if (encode)
+            haar1(X, N_B, spread);
+         if (lowband)
+            haar1(lowband, N_B, spread);
+         spread <<= 1;
+         N_B >>= 1;
+         time_divide++;
+         tf_change++;
+      }
+      spread0 = spread;
+      N_B0 = N_B;
+   }
+
+   /* Reorganize the samples in time order instead of frequency order */
+   if (!stereo && spread0>1 && level==0)
+   {
+      if (encode)
+         deinterleave_vector(X, N_B, spread0);
+      if (lowband)
+         deinterleave_vector(lowband, N_B, spread0);
+   }
+
+   /* If we need more than 32 bits, try splitting the band in two. */
+   if (!stereo && LM != -1 && b > 32<<BITRES && N>2)
+   {
+      if (LM>0 || (N&1)==0)
+      {
+         N >>= 1;
+         Y = X+N;
+         split = 1;
+         LM -= 1;
+         spread = (spread+1)>>1;
+      }
    }
 
    if (split)
    {
       int qb;
-      int itheta;
+      int itheta=0;
       int mbits, sbits, delta;
       int qalloc;
       celt_word16 mid, side;
-      if (N>1)
-         qb = (b-2*(N-1)*(QTHETA_OFFSET-m->logN[i]-(LM<<BITRES)))/(32*(N-1));
-      else
-         qb = b-2;
-      if (qb > (b>>BITRES)-1)
-         qb = (b>>BITRES)-1;
+      int offset, N2;
+      offset = m->logN[i]+(LM<<BITRES)-QTHETA_OFFSET;
+
+      /* Decide on the resolution to give to the split parameter theta */
+      N2 = 2*N-1;
+      if (stereo && N>2)
+         N2--;
+      qb = (b+N2*offset)/(N2<<BITRES);
+      if (qb > (b>>(BITRES+1))-1)
+         qb = (b>>(BITRES+1))-1;
+
       if (qb<0)
          qb = 0;
       if (qb>14)
          qb = 14;
 
-      if (encode)
+      qalloc = 0;
+      if (qb!=0)
       {
-         if (stereo)
-            stereo_band_mix(m, X, Y, bandE, qb==0, i, 1, 1<<LM);
+         int shift;
+         shift = 14-qb;
 
-         mid = renormalise_vector(X, Q15ONE, N, 1);
-         side = renormalise_vector(Y, Q15ONE, N, 1);
+         if (encode)
+         {
+            if (stereo)
+               stereo_band_mix(m, X, Y, bandE, qb==0, i, 1, N);
+
+            mid = renormalise_vector(X, Q15ONE, N, 1);
+            side = renormalise_vector(Y, Q15ONE, N, 1);
+
+            /* theta is the atan() of the ration between the (normalized)
+               side and mid. With just that parameter, we can re-scale both
+               mid and side because we know that 1) they have unit norm and
+               2) they are orthogonal. */
+   #ifdef FIXED_POINT
+            /* 0.63662 = 2/pi */
+            itheta = MULT16_16_Q15(QCONST16(0.63662f,15),celt_atan2p(side, mid));
+   #else
+            itheta = floor(.5f+16384*0.63662f*atan2(side,mid));
+   #endif
 
-         /* 0.63662 = 2/pi */
-#ifdef FIXED_POINT
-         itheta = MULT16_16_Q15(QCONST16(0.63662f,15),celt_atan2p(side, mid));
-#else
-         itheta = floor(.5f+16384*0.63662f*atan2(side,mid));
-#endif
-      }
+            itheta = (itheta+(1<<shift>>1))>>shift;
+         }
 
-      qalloc = log2_frac((1<<qb)+1,BITRES);
-      if (encode)
-      {
-         if (qb==0)
+         /* Entropy coding of the angle. We use a uniform pdf for the
+            first stereo split but a triangular one for the rest. */
+         if (stereo || qb>9 || spread>1)
          {
-            itheta=0;
+            if (encode)
+               ec_enc_uint((ec_enc*)ec, itheta, (1<<qb)+1);
+            else
+               itheta = ec_dec_uint((ec_dec*)ec, (1<<qb)+1);
+            qalloc = log2_frac((1<<qb)+1,BITRES);
          } else {
-            int shift;
-            shift = 14-qb;
-            itheta = (itheta+(1<<shift>>1))>>shift;
-            if (stereo || qb>9)
-               ec_enc_uint(ec, itheta, (1<<qb)+1);
-            else {
+            int fs=1, ft;
+            ft = ((1<<qb>>1)+1)*((1<<qb>>1)+1);
+            if (encode)
+            {
                int j;
-               int fl=0, fs=1, ft;
+               int fl=0;
                j=0;
                while(1)
                {
@@ -526,25 +655,10 @@ static void quant_band(int encode, const CELTMode *m, int i, celt_norm *X, celt_
                      fs--;
                   j++;
                }
-               ft = ((1<<qb>>1)+1)*((1<<qb>>1)+1);
-               qalloc = log2_frac(ft,BITRES) - log2_frac(fs,BITRES) + 1;
-               ec_encode(ec, fl, fl+fs, ft);
-            }
-            itheta <<= shift;
-         }
-      } else {
-         if (qb==0)
-         {
-            itheta=0;
-         } else {
-            int shift;
-            shift = 14-qb;
-            if (stereo || qb>9)
-               itheta = ec_dec_uint((ec_dec*)ec, (1<<qb)+1);
-            else {
-               int fs=1, fl=0;
-               int j, fm, ft;
-               ft = ((1<<qb>>1)+1)*((1<<qb>>1)+1);
+               ec_encode((ec_enc*)ec, fl, fl+fs, ft);
+            } else {
+               int fl=0;
+               int j, fm;
                fm = ec_decode((ec_dec*)ec, ft);
                j=0;
                while (1)
@@ -559,12 +673,13 @@ static void quant_band(int encode, const CELTMode *m, int i, celt_norm *X, celt_
                   j++;
                }
                itheta = j;
-               qalloc = log2_frac(ft,BITRES) - log2_frac(fs,BITRES) + 1;
                ec_dec_update((ec_dec*)ec, fl, fl+fs, ft);
             }
-            itheta <<= shift;
+            qalloc = log2_frac(ft,BITRES) - log2_frac(fs,BITRES) + 1;
          }
+         itheta <<= shift;
       }
+
       if (itheta == 0)
       {
          imid = 32767;
@@ -578,9 +693,14 @@ static void quant_band(int encode, const CELTMode *m, int i, celt_norm *X, celt_
       } else {
          imid = bitexact_cos(itheta);
          iside = bitexact_cos(16384-itheta);
+         /* This is the mid vs side allocation that minimizes squared error
+            in that band. */
          delta = (N-1)*(log2_frac(iside,BITRES+2)-log2_frac(imid,BITRES+2))>>2;
       }
-#if 1
+
+      /* This is a special case for N=2 that only works for stereo and takes
+         advantage of the fact that mid and side are orthogonal to encode
+         the side with just one bit. */
       if (N==2 && stereo)
       {
          int c, c2;
@@ -613,17 +733,18 @@ static void quant_band(int encode, const CELTMode *m, int i, celt_norm *X, celt_
                w[0] = x2[0];
                w[1] = x2[1];
             }
+            /* Here we only need to encode a sign for the side */
+            if (v[0]*w[1] - v[1]*w[0] > 0)
+               sign = 1;
+            else
+               sign = -1;
          }
-         quant_band(encode, m, i, v, NULL, N, mbits, spread, lowband, resynth, ec, remaining_bits, LM, NULL, NULL);
+         quant_band(encode, m, i, v, NULL, N, mbits, spread, tf_change, lowband, resynth, ec, remaining_bits, LM, lowband_out, NULL, level+1);
          if (sbits)
          {
             if (encode)
             {
-               if (v[0]*w[1] - v[1]*w[0] > 0)
-                  sign = 1;
-               else
-                  sign = -1;
-               ec_enc_bits(ec, sign==1, 1);
+               ec_enc_bits((ec_enc*)ec, sign==1, 1);
             } else {
                sign = 2*ec_dec_bits((ec_dec*)ec, 1)-1;
             }
@@ -645,8 +766,15 @@ static void quant_band(int encode, const CELTMode *m, int i, celt_norm *X, celt_
             y2[1] = v[1];
          }
       } else
-#endif
       {
+         /* "Normal" split code */
+         celt_norm *next_lowband2=NULL;
+         celt_norm *next_lowband_out1=NULL;
+         int next_level=0;
+
+         /* Give more bits to low-energy MDCTs than they would otherwise deserve */
+         if (spread>1 && !stereo)
+            delta >>= 1;
 
          mbits = (b-qalloc/2-delta)/2;
          if (mbits > b-qalloc)
@@ -655,17 +783,25 @@ static void quant_band(int encode, const CELTMode *m, int i, celt_norm *X, celt_
             mbits=0;
          sbits = b-qalloc-mbits;
          *remaining_bits -= qalloc;
-         quant_band(encode, m, i, X, NULL, N, mbits, spread, lowband, resynth, ec, remaining_bits, LM, NULL, NULL);
+
+         if (lowband && !stereo)
+            next_lowband2 = lowband+N;
          if (stereo)
-            quant_band(encode, m, i, Y, NULL, N, sbits, spread, NULL, resynth, ec, remaining_bits, LM, NULL, NULL);
+            next_lowband_out1 = lowband_out;
          else
-            quant_band(encode, m, i, Y, NULL, N, sbits, spread, lowband ? lowband+N : NULL, resynth, ec, remaining_bits, LM, NULL, NULL);
+            next_level = level+1;
+
+         quant_band(encode, m, i, X, NULL, N, mbits, spread, tf_change, lowband, resynth, ec, remaining_bits, LM, next_lowband_out1, NULL, next_level);
+         quant_band(encode, m, i, Y, NULL, N, sbits, spread, tf_change, next_lowband2, resynth, ec, remaining_bits, LM, NULL, NULL, level);
       }
 
    } else {
+      /* This is the basic no-split case */
       q = bits2pulses(m, m->bits[LM][i], N, b);
       curr_bits = pulses2bits(m->bits[LM][i], N, q);
       *remaining_bits -= curr_bits;
+
+      /* Ensures we can never bust the budget */
       while (*remaining_bits < 0 && q > 0)
       {
          *remaining_bits += curr_bits;
@@ -673,41 +809,82 @@ static void quant_band(int encode, const CELTMode *m, int i, celt_norm *X, celt_
          curr_bits = pulses2bits(m->bits[LM][i], N, q);
          *remaining_bits -= curr_bits;
       }
+
       if (encode)
-         alg_quant(X, N, q, spread, lowband, resynth, ec);
+         alg_quant(X, N, q, spread, lowband, resynth, (ec_enc*)ec);
       else
          alg_unquant(X, N, q, spread, lowband, (ec_dec*)ec);
    }
 
-   if (resynth && lowband_out)
+   /* This code is used by the decoder and by the resynthesis-enabled encoder */
+   if (resynth)
    {
-      int j;
-      celt_word16 n;
-      n = celt_sqrt(SHL32(EXTEND32(N0),22));
-      for (j=0;j<N0;j++)
-         lowband_out[j] = MULT16_16_Q15(n,X[j]);
-   }
+      int k;
 
-   if (split && resynth)
-   {
-      int j;
-      celt_word16 mid, side;
+      if (split)
+      {
+         int j;
+         celt_word16 mid, side;
 #ifdef FIXED_POINT
-      mid = imid;
-      side = iside;
+         mid = imid;
+         side = iside;
 #else
-      mid = (1.f/32768)*imid;
-      side = (1.f/32768)*iside;
+         mid = (1.f/32768)*imid;
+         side = (1.f/32768)*iside;
 #endif
-      for (j=0;j<N;j++)
-         X[j] = MULT16_16_Q15(X[j], mid);
-      for (j=0;j<N;j++)
-         Y[j] = MULT16_16_Q15(Y[j], side);
+         for (j=0;j<N;j++)
+            X[j] = MULT16_16_Q15(X[j], mid);
+         for (j=0;j<N;j++)
+            Y[j] = MULT16_16_Q15(Y[j], side);
+      }
+
+      if (!stereo && spread0>1 && level==0)
+      {
+         interleave_vector(X, N_B, spread0);
+         if (lowband)
+            interleave_vector(lowband, N_B, spread0);
+      }
+
+      /* Undo time-freq changes that we did earlier */
+      N_B = N_B0;
+      spread = spread0;
+      for (k=0;k<time_divide;k++)
+      {
+         spread >>= 1;
+         N_B <<= 1;
+         haar1(X, N_B, spread);
+         if (lowband)
+            haar1(lowband, N_B, spread);
+      }
+
+      for (k=0;k<recombine;k++)
+      {
+         haar1(X, N_B, spread);
+         if (lowband)
+            haar1(lowband, N_B, spread);
+         N_B>>=1;
+         spread <<= 1;
+      }
 
+      if (lowband_out && !stereo)
+      {
+         int j;
+         celt_word16 n;
+         n = celt_sqrt(SHL32(EXTEND32(N0),22));
+         for (j=0;j<N0;j++)
+            lowband_out[j] = MULT16_16_Q15(n,X[j]);
+      }
+
+      if (stereo)
+      {
+         stereo_band_mix(m, X, Y, bandE, 0, i, -1, N);
+         renormalise_vector(X, Q15ONE, N, 1);
+         renormalise_vector(Y, Q15ONE, N, 1);
+      }
    }
 }
 
-void quant_all_bands(int encode, const CELTMode *m, int start, celt_norm *_X, celt_norm *_Y, const celt_ener *bandE, int *pulses, int shortBlocks, int fold, int resynth, int total_bits, ec_enc *ec, int LM)
+void quant_all_bands(int encode, const CELTMode *m, int start, celt_norm *_X, celt_norm *_Y, const celt_ener *bandE, int *pulses, int shortBlocks, int fold, int *tf_res, int resynth, int total_bits, void *ec, int LM)
 {
    int i, remaining_bits, balance;
    const celt_int16 * restrict eBands = m->eBands;
@@ -716,6 +893,9 @@ void quant_all_bands(int encode, const CELTMode *m, int start, celt_norm *_X, ce
    int B;
    int M;
    int spread;
+   celt_norm *lowband;
+   int update_lowband = 1;
+   int C = _Y != NULL ? 2 : 1;
    SAVE_STACK;
 
    M = 1<<LM;
@@ -723,11 +903,9 @@ void quant_all_bands(int encode, const CELTMode *m, int start, celt_norm *_X, ce
    spread = fold ? B : 0;
    ALLOC(_norm, M*eBands[m->nbEBands+1], celt_norm);
    norm = _norm;
-   /* Just in case the first bands attempts to fold -- not that rare for stereo */
-   for (i=0;i<M;i++)
-      norm[i] = 0;
 
    balance = 0;
+   lowband = NULL;
    for (i=start;i<m->nbEBands;i++)
    {
       int tell;
@@ -735,6 +913,7 @@ void quant_all_bands(int encode, const CELTMode *m, int start, celt_norm *_X, ce
       int N;
       int curr_balance;
       celt_norm * restrict X, * restrict Y;
+      int tf_change=0;
       
       X = _X+M*eBands[i];
       if (_Y!=NULL)
@@ -743,7 +922,7 @@ void quant_all_bands(int encode, const CELTMode *m, int start, celt_norm *_X, ce
          Y = NULL;
       N = M*eBands[i+1]-M*eBands[i];
       if (encode)
-         tell = ec_enc_tell(ec, BITRES);
+         tell = ec_enc_tell((ec_enc*)ec, BITRES);
       else
          tell = ec_dec_tell((ec_dec*)ec, BITRES);
 
@@ -757,17 +936,24 @@ void quant_all_bands(int encode, const CELTMode *m, int start, celt_norm *_X, ce
       b = IMIN(remaining_bits+1,pulses[i]+curr_balance);
       if (b<0)
          b = 0;
+      /* Prevents ridiculous bit depths */
+      if (b > C*16*N<<BITRES)
+         b = C*16*N<<BITRES;
+
+      if (M*eBands[i]-N >= M*eBands[start])
+      {
+         if (update_lowband)
+            lowband = norm+M*eBands[i]-N;
+      } else
+         lowband = NULL;
 
-      quant_band(encode, m, i, X, Y, N, b, spread, norm+M*eBands[start], resynth, ec, &remaining_bits, LM, norm+M*eBands[i], bandE);
+      tf_change = tf_res[i];
+      quant_band(encode, m, i, X, Y, N, b, spread, tf_change, lowband, resynth, ec, &remaining_bits, LM, norm+M*eBands[i], bandE, 0);
 
       balance += pulses[i] + tell;
 
-      if (resynth && _Y != NULL)
-      {
-         stereo_band_mix(m, X, Y, bandE, 0, i, -1, M);
-         renormalise_vector(X, Q15ONE, N, 1);
-         renormalise_vector(Y, Q15ONE, N, 1);
-      }
+      /* Update the folding position only as long as we have 2 bit/sample depth */
+      update_lowband = (b>>BITRES)>2*N;
    }
    RESTORE_STACK;
 }