Some details on the MDCT, fixed a bunch of warnings
[opus.git] / doc / ietf / draft-valin-celt-codec.xml
1 <?xml version='1.0'?>
2 <!DOCTYPE rfc SYSTEM 'rfc2629.dtd'>
3 <?rfc toc="yes" ?>
4
5 <rfc ipr="full3978" docName="Constrained-Energy Lapped Transform (CELT) Codec">
6
7 <front>
8 <title>draft-valin-celt-codec-00</title>
9
10
11
12 <author initials="J-M" surname="Valin" fullname="Jean-Marc Valin">
13 <organization>Octasic Semiconductor</organization>
14 <address>
15 <postal>
16 <street>4101, Molson Street, suite 300</street>
17 <city>Montreal</city>
18 <region>Quebec</region>
19 <code>H1Y 3L1</code>
20 <country>Canada</country>
21 </postal>
22 <email>jean-marc.valin@octasic.com</email>
23 </address>
24 </author>
25
26 <!-- <author initials="et" surname="al." fullname="et al.">
27 <organization></organization>
28 </author>
29 -->
30
31 <date day="18" month="December" year="2008" />
32
33 <area>General</area>
34 <workgroup>AVT Working Group</workgroup>
35 <keyword>I-D</keyword>
36
37 <keyword>Internet-Draft</keyword>
38 <keyword>CELT</keyword>
39 <abstract>
40 <t>
41 CELT <xref target="celt-website"/>is an open-source voice codec suitable for use in very low delay 
42 Voice over IP (VoIP) type applications.  This document describes the encoding
43 and decoding process.
44 </t>
45 </abstract>
46 </front>
47
48 <middle>
49
50 <section anchor="Conventions used in this document" title="Conventions used in this document">
51 <t>
52 The key words "MUST", "MUST NOT", "REQUIRED", "SHALL", "SHALL NOT",
53 "SHOULD", "SHOULD NOT", "RECOMMENDED", "MAY", and "OPTIONAL" in this
54 document are to be interpreted as described in RFC 2119 <xref target="rfc2119"></xref>.
55 </t>
56 </section>
57
58 <section anchor="Overview of the CELT Codec" title="Overview of the CELT Codec">
59
60 <t>
61 CELT stands for "Constrained Energy Lapped Transform". It applies some of the CELP principles, but does everything in the frequency domain, which removes some of the limitations of CELP. CELT is suitable for both speech and music and currently features:
62 </t>
63
64 <t>
65 <list style="symbols">
66 <t>Ultra-low latency (typically from 3 to 9 ms)</t>
67 <t>Full audio bandwidth (44.1 kHz and 48 kHz)</t>
68 <t>Support for both voice and music</t>
69 <t>Stereo support</t>
70 <t>Packet loss concealment</t>
71 <t>Constant bit-rates from 32 kbps to 128 kbps and above</t>
72 <t>Free software/open-source</t>
73 </list>
74 </t>
75
76 <t>CELT is designed for transmission over RTP <xref target="rfc3550"/></t>
77
78 </section>
79
80 <section anchor="CELT Encoder" title="CELT Encoder">
81
82 <t>Insert encoder overview</t>
83
84 <t>The input audio first goes through a pre-emphasis filter, which attenuates the
85 "spectral tilt". The filter is has the transfer function A(z)=1-alpha_p*z^-1, with
86 alpha_p=0.8. The inverse of the pre-emphasis is applied at the decoder.</t>
87
88 <section anchor="Range Coder" title="Range Coder">
89 </section>
90
91 <section anchor="Forward MDCT" title="Forward MDCT">
92
93 <t>CELT is a transform codec, based on the Modified Discrete Cosine Transform 
94 <xref target="mdct"></xref>, which is based on a DCT-IV, with overlap and time-domain
95 aliasing calcellation. The MDCT implementation has no special characteristic. The
96 input is a windowed signal (after pre-emphasis) of 2*N samples and the output is N
97 frequency-domain samples. A "low-overlap" window is used to reduce the algorithmc delay. 
98 It is composed of a smaller window with symmetric zero padding on both sides. The window
99 is the same as the one used in the Vorbis codec and defined as: W(n)=[sin(pi/2*sin(pi/2*(n+.5)/L))]^2
100 </t>
101
102 </section>
103
104 <section anchor="Energy Envelope Quantization" title="Energy Envelope Quantization">
105 <t>Coarse quantization with 6 dB resolution, prediction, Laplace distribution</t>
106 <t>Fine quantization using resolution determined by the bit allocation</t>
107 </section>
108
109 <section anchor="Bit Allocation" title="Bit Allocation">
110 <t>Bit allocation is performed based only on information available to both the encoder and decoder.
111 The same calculations are performed in a bit-exact manner in both the encoder and decoder to ensure
112 that the result is always exactly the same. Any mismatch would cause an error in the decoded output.</t>
113 </section>
114
115 <section anchor="Pitch Prediction" title="Pitch Prediction">
116 </section>
117
118 <section anchor="Spherical Vector Quantization" title="Spherical Vector Quantization">
119 <t>CELT uses a Pyramid Vector Quantization (PVQ) <xref target="PVQ"></xref> codebook for quantising the details
120 of the spectrum in each band that haven't been predicted by the pitch predictor.</t>
121
122 <section anchor="Index Encoding" title="Index Encoding">
123 </section>
124
125 </section>
126
127 <section anchor="Short windows" title="Short windows">
128 </section>
129
130
131 </section>
132
133 <section anchor="CELT Decoder" title="CELT Decoder">
134
135 <t>
136 Some more text
137 </t>
138
139 <section anchor="Range Decoder" title="Range Decoder">
140 </section>
141
142 <section anchor="Spherical VQ Decoder" title="Spherical VQ Decoder">
143 <t>CELT uses a Pyramid Vector Quantization (PVQ) [] codebook for quantising the details
144 of the spectrum in each band that haven't been predicted by the pitch predictor.</t>
145 </section>
146
147 <section anchor="Index Decoding" title="Index Decoding">
148 </section>
149
150
151 <section anchor="Backward MDCT" title="Backward MDCT">
152 </section>
153
154 <section anchor="Packet Loss Concealment" title="Packet Loss Concealment (PLC)">
155 </section>
156
157 </section>
158
159
160
161 <section anchor="Security Considerations" title="Security Considerations">
162
163 <t>
164 A potential denial-of-service threat exists for data encodings using
165 compression techniques that have non-uniform receiver-end
166 computational load.  The attacker can inject pathological datagrams
167 into the stream which are complex to decode and cause the receiver to
168 be overloaded.  However, this encoding does not exhibit any
169 significant non-uniformity.
170 </t>
171
172 </section> 
173
174 <section anchor="Evaluation of CELT Implementations" title="Evaluation of CELT Implementations">
175
176 <t>
177 Insert some text here.
178 </t>
179
180 </section>
181
182
183
184 <section anchor="Issues that need to be addressed" title="Issues that need to be addressed">
185
186 <t>
187 <list>
188 <t>Dynamic bit allocation</t>
189 <t>Stereo coupling</t>
190 </list>
191 </t>
192
193 </section>
194
195
196 <section anchor="Acknowledgments" title="Acknowledgments">
197
198 <t>
199 The authors would also like to thank the following members of the 
200 CELT and AVT communities for their input:
201 </t>
202 </section> 
203
204 </middle>
205
206 <back>
207
208 <references title="Normative References">
209
210 <reference anchor="rfc2119">
211 <front>
212 <title>Key words for use in RFCs to Indicate Requirement Levels </title>
213 <author initials="S." surname="Bradner" fullname="Scott Bradner"><organization/></author>
214 </front>
215 <seriesInfo name="RFC" value="2119" />
216 </reference> 
217
218 <reference anchor="rfc3550">
219 <front>
220 <title>RTP: A Transport Protocol for real-time applications</title>
221 <author initials="H." surname="Schulzrinne" fullname=""><organization/></author>
222 <author initials="S." surname="Casner" fullname=""><organization/></author>
223 <author initials="R." surname="Frederick" fullname=""><organization/></author>
224 <author initials="V." surname="Jacobson" fullname=""><organization/></author>
225 </front>
226 <seriesInfo name="RFC" value="3550" />
227 </reference> 
228
229
230 </references> 
231
232 <references title="Informative References">
233
234 <reference anchor="celt-website">
235 <front>
236 <title>The CELT ultra-low delay audio codec</title>
237 <author><organization/></author>
238 </front>
239 <seriesInfo name="CELT website" value="http://www.celt-codec.org/" />
240 </reference> 
241
242 <reference anchor="mdct">
243 <front>
244 <title>Modified Discrete Cosine Transform</title>
245 <author><organization/></author>
246 </front>
247 <seriesInfo name="MDCT" value="http://en.wikipedia.org/wiki/Modified_discrete_cosine_transform" />
248 </reference> 
249
250 <reference anchor="PVQ">
251 <front>
252 <title>A Pyramid Vector Quantizer</title>
253 <author initials="T." surname="Fischer" fullname=""><organization/></author>
254 <date month="July" year="1986" />
255 </front>
256 <seriesInfo name="Pyramid Vector Quantizer" value="http://en.wikipedia.org/wiki/Modified_discrete_cosine_transform" />
257 </reference> 
258
259 </references>
260
261 <section anchor="Reference Implementation" title="Reference Implementation">
262
263 <t>Insert a copy of the CELT source code here.</t>
264 <!--<t><?rfc include="source/celt.c"?></t>
265 <t><?rfc include="source/bands.c"?></t>
266 -->
267 </section>
268
269
270 </back>
271
272 </rfc>