Skip to content

Instantly share code, notes, and snippets.

@7aitsev
Created April 3, 2019 18:14
Show Gist options
  • Save 7aitsev/ffd83d2b6efee9d91320056cec376c9b to your computer and use it in GitHub Desktop.
Save 7aitsev/ffd83d2b6efee9d91320056cec376c9b to your computer and use it in GitHub Desktop.
Перевод субтитров к видео xiph.org/video/vid2.shtml + исправленные субтитры к первой части.
WEBVTT
1
00:00:08.252 --> 00:00:11.550
Привет! Я Монти Монтгомери из Red Hat и Xiph.Org.
Hi, I'm Monty Montgomery from Red Hat and Xiph.Org.
2
00:00:11.550 --> 00:00:18.430
Несколько месяцев назад я написал статью о цифровом аудио и почему нет смысла в загрузке музыки 24 бит / 192 кГц.
A few months ago, I wrote an article on digital audio and why 24bit/192kHz music downloads don't make sense.
3
00:00:18.430 --> 00:00:23.433
В той статье я почти вскользь отметил, что форма цифровой волны не ступенчатая,
In the article, I mentioned--almost in passing--that a digital waveform is not a stairstep,
4
00:00:23.433 --> 00:00:28.680
и что вы точно не получите ровные ступеньки, когда преобразуете из цифры обратно в аналог.
and you certainly don't get a stairstep when you convert from digital back to analog.
5
00:00:29.865 --> 00:00:33.865
Из всего, что было в статье, <b>это</b> было темой номер один, о чем люди писали.
Of everything in the entire article, <b>that</b> was the number one thing people wrote about.
6
00:00:33.865 --> 00:00:37.221
На самом деле, более половины всех полученных писем составили вопросы и комментарии
In fact, more than half the mail I got was questions and comments
7
00:00:37.221 --> 00:00:39.663
об основах поведения цифрового сигнала.
about basic digital signal behavior.
8
00:00:39.894 --> 00:00:45.285
Поскольку многим интересно, давайте уделим некоторое время, чтобы поиграться с <u>простым</u> цифровым сигналом.
Since there's interest, let's take a little time to play with some <u>simple</u> digital signals.
9
00:00:49.747 --> 00:00:51.006
Вспомним на секунду,
Pretend for a moment
10
00:00:51.006 --> 00:00:54.089
что мы без понятия, как на самом деле цифровой сигнал ведет себя.
that we have no idea how digital signals really behave.
11
00:00:54.734 --> 00:00:56.841
В этом случае нам также нет никакого смысла
In that case it doesn't make sense for us
12
00:00:56.841 --> 00:00:59.049
использовать цифровое испытательное оборудование.
to use digital test equipment either.
13
00:00:59.049 --> 00:01:00.937
К счастью, для данной работы где-то здесь
Fortunately for this exercise, there's still
14
00:01:00.937 --> 00:01:04.020
все еще имеется куча аналогового лабораторного оборудования.
plenty of working analog lab equipment out there.
15
00:01:04.020 --> 00:01:05.972
Во-первых, нам нужен генератор сигналов,
First up, we need a signal generator
16
00:01:05.972 --> 00:01:08.190
чтобы обеспечить нас аналоговыми входными сигналами.
to provide us with analog input signals--
17
00:01:08.190 --> 00:01:12.692
В данном случае это HP3325 1978 года.
in this case, an HP3325 from 1978.
18
00:01:12.692 --> 00:01:14.153
Это по-прежнему довольно хороший генератор,
It's still a pretty good generator,
19
00:01:14.153 --> 00:01:15.614
так что если вас не заботят габариты,
so if you don't mind the size,
20
00:01:15.614 --> 00:01:16.532
вес,
the weight,
21
00:01:16.532 --> 00:01:17.577
потребление электроэнергии
the power consumption,
22
00:01:17.577 --> 00:01:18.910
и шумный вентилятор,
and the noisy fan,
23
00:01:18.910 --> 00:01:20.329
то можете найти их на eBay.
you can find them on eBay.
24
00:01:20.329 --> 00:01:23.863
Иногда они чуть дороже, чем вы заплатите за доставку.
Occasionally for only slightly more than you'll pay for shipping.
25
00:01:24.617 --> 00:01:28.500
Затем, мы будем наблюдать за диаграммами аналоговых сигналов на аналоговых осциллографах,
Next, we'll observe our analog waveforms on analog oscilloscopes,
26
00:01:28.500 --> 00:01:31.550
таких как этот Tektronix 2246 из середины 90х –
like this Tektronix 2246 from the mid-90s,
27
00:01:31.550 --> 00:01:34.761
один из последних и самых лучших аналоговых осциллографов.
one of the last and very best analog scopes ever made.
28
00:01:34.761 --> 00:01:36.807
В каждой домашней лаборатории по-хорошему должен быть такой.
Every home lab should have one.
29
00:01:37.716 --> 00:01:40.852
Наконец, изучим спектр частот наших сигналов,
And finally inspect the frequency spectrum of our signals
30
00:01:40.852 --> 00:01:43.177
используя аналоговый анализатор спектра.
using an analog spectrum analyzer.
31
00:01:43.177 --> 00:01:47.732
Это HP3585 из той же линейки, что и генератор сигналов.
This HP3585 from the same product line as the signal generator.
32
00:01:47.732 --> 00:01:50.615
Как и другое имеющееся оборудование, он оснащен
Like the other equipment here it has a rudimentary
33
00:01:50.615 --> 00:01:52.905
элементарным и нереально большим микроконтроллером,
and hilariously large microcontroller,
34
00:01:52.905 --> 00:01:56.276
но сигнал на всем пути от входа до того, что вы видите на экране,
but the signal path from input to what you see on the scree
35
00:01:56.276 --> 00:01:58.537
полностью аналоговый.
is completely analog.
36
00:01:58.537 --> 00:02:00.329
Все это оборудование старинное,
All of this equipment is vintage,
37
00:02:00.329 --> 00:02:01.993
но, кроме внушительного веса,
but aside from its raw tonnage,
38
00:02:01.993 --> 00:02:03.844
характеристики все еще достаточно хорошие.
the specs are still quite good.
39
00:02:04.536 --> 00:02:06.868
В данный момент наш генератор сигналов вырабатывает
At the moment, we have our signal generator
40
00:02:06.868 --> 00:02:12.829
хорошую 1 кГц синусоиду со среднеквадратичным значением (СКЗ) напряжения 1 В.
set to output a nice 1kHz sine wave at one volt RMS,
41
00:02:13.414 --> 00:02:15.220
Мы видим синусоидальную волну на осциллографе,
we see the sine wave on the oscilloscope,
42
00:02:15.220 --> 00:02:21.428
можем убедиться, что действительно 1 кГц и имеет СКЗ напряжения 1 В,
can verify that it is indeed 1kHz at one volt RMS,
43
00:02:21.428 --> 00:02:24.108
то есть волна с размахом 2,8 В,
which is 2.8V peak-to-peak,
44
00:02:24.308 --> 00:02:27.561
и что она также соответствует измерениям спектрального анализатора.
and that matches the measurement on the spectrum analyzer as well.
45
00:02:27.561 --> 00:02:30.644
Анализатор еще показывает белый шум низкой амплитуды
The analyzer also shows some low-level white noise
46
00:02:30.644 --> 00:02:32.190
и небольшое гармоническое искажение
and just a bit of harmonic distortion
47
00:02:32.190 --> 00:02:36.649
с наибольшим пиком около 70 дБ ниже несущей частоты.
with the highest peak about 70dB or so below the fundamental.
48
00:02:36.649 --> 00:02:38.612
Хоть это и совсем не важно в наших опытах,
Now, this doesn't matter at all in our demos,
49
00:02:38.612 --> 00:02:40.574
но я хотел отметить это сейчас
but I wanted to point it out now
50
00:02:40.574 --> 00:02:42.452
на случай, если вы не замечали это ранее.
just in case you didn't notice it until later.
51
00:02:44.036 --> 00:02:47.142
Сейчас мы понизим частоту дискретизации до средних значений.
Now, we drop digital sampling in the middle.
52
00:02:48.557 --> 00:02:51.024
Для преобразования мы будем использовать непримечательное
For the conversion, we'll use a boring,
53
00:02:51.024 --> 00:02:53.374
потребительское аудиоустройство eMagic USB1.
consumer-grade, eMagic USB1 audio device.
54
00:02:53.374 --> 00:02:55.337
Оно уже тоже старше десяти лет
It's also more than ten years old at this point,
55
00:02:55.337 --> 00:02:57.257
и продолжает устаревать.
and it's getting obsolete.
56
00:02:57.964 --> 00:03:02.676
Современный конвертер без труда может иметь характеристики на порядок выше.
A recent converter can easily have an order of magnitude better specs.
57
00:03:03.076 --> 00:03:07.924
Неравномерность АЧХ, нелинейность, джиттер, шумовые характеристики и прочее…
Flatness, linearity, jitter, noise behavior, everything...
58
00:03:07.924 --> 00:03:09.353
что вы могли и не заметить.
you may not have noticed.
59
00:03:09.353 --> 00:03:11.604
То, что мы можем измерить улучшение,
Just because we can measure an improvement
60
00:03:11.604 --> 00:03:13.609
не значит, что мы можем это услышать,
doesn't mean we can hear it,
61
00:03:13.609 --> 00:03:16.404
и даже эти старые коробочки потребительского уровня
and even these old consumer boxes were already
62
00:03:16.404 --> 00:03:18.643
уже тогда были на грани прозрачности [Transparency (data compression)]
at the edge of ideal transparency.
63
00:03:20.244 --> 00:03:22.825
eMagic подключен к моему ThinkPad,
The eMagic connects to my ThinkPad,
64
00:03:22.825 --> 00:03:26.121
который отображает диаграмму цифрового сигнала и спектр для сравнения,
which displays a digital waveform and spectrum for comparison,
65
00:03:26.121 --> 00:03:28.788
затем ThinkPad отправляет цифровой сигнал обратно в
then the ThinkPad sends the digital signal right back out
66
00:03:28.788 --> 00:03:30.921
eMagic для преобразования обратно в аналоговый сигнал
to the eMagic for re-conversion to analog
67
00:03:30.921 --> 00:03:33.332
и наблюдения на экране осциллографа.
and observation on the output scopes.
68
00:03:33.332 --> 00:03:35.582
Со входа на выход. Слева направо.
Input to output, left to right.
69
00:03:40.211 --> 00:03:41.214
Все, пора начинать.
OK, it's go time.
70
00:03:41.214 --> 00:03:43.924
Начнем с преобразования аналогового сигнала в цифровой,
We begin by converting an analog signal to digital
71
00:03:43.924 --> 00:03:47.347
a потом – снова обратно в аналоговый, и больше ничего.
and then right back to analog again with no other steps.
72
00:03:47.347 --> 00:03:49.268
Генератор сигналов настроен на создание
The signal generator is set to produce
73
00:03:49.268 --> 00:03:52.649
синусоиды с частотой 1 кГц, как и прежде.
a 1kHz sine wave just like before.
74
00:03:52.649 --> 00:03:57.428
Со входа мы можем видеть нашу аналоговую синусоиду на осциллографе.
We can see our analog sine wave on our input-side oscilloscope.
75
00:03:57.428 --> 00:04:01.694
Мы оцифровываем сигнал с помощью ИКМ (16 бит, 44,1 кГц) –
We digitize our signal to 16 bit PCM at 44.1kHz,
76
00:04:01.694 --> 00:04:03.828
так же, как звук на CD.
same as on a CD.
77
00:04:03.828 --> 00:04:07.156
Спектр оцифрованного сигнала соответствует тому, что мы видели ранее. И-и…
The spectrum of the digitized signal matches what we saw earlier. And...
78
00:04:07.156 --> 00:04:10.836
вот что мы видим на аналоговом анализаторе спектра,
what we see now on the analog spectrum analyzer,
79
00:04:10.836 --> 00:04:15.154
не считая чуть прибавившихся шумов из-за входа с высоким сопротивлением.
aside from its high-impedance input being just a smidge noisier.
80
00:04:15.154 --> 00:04:15.956
В то же время
For now
81
00:04:18.248 --> 00:04:20.798
окно вывода диаграмм показывает нашу оцифрованную синусоиду
the waveform display shows our digitized sine wave
82
00:04:20.798 --> 00:04:23.966
в ступенчатом виде – по ступеньке на отсчет.
as a stairstep pattern, one step for each sample.
83
00:04:23.966 --> 00:04:26.388
И, когда мы смотрим на выходной сигнал,
And when we look at the output signal
84
00:04:26.388 --> 00:04:29.054
т.е. сконвертированный в аналоговый из цифрового, мы видим…
that's been converted from digital back to analog, we see...
85
00:04:29.054 --> 00:04:32.052
Он в точности такой же, как первоначальная синусоида.
It's exactly like the original sine wave.
86
00:04:32.052 --> 00:04:33.483
Никаких ступенек.
No stairsteps.
87
00:04:33.914 --> 00:04:37.193
Ладно, все же 1 кГц и правда низкая частота.
OK, 1kHz is still a fairly low frequency,
88
00:04:37.193 --> 00:04:40.633
Может ступеньки просто сложно разглядеть или они были сглажены?
maybe the stairsteps are just hard to see or they're being smoothed away.
89
00:04:40.739 --> 00:04:49.492
Логично. Давайте поднимем частоту примерно до частоты Найквиста. Скажем, до 15 кГц.
Fair enough. Let's choose a higher frequency, something close to Nyquist, say 15kHz.
90
00:04:49.492 --> 00:04:53.545
Теперь синусоида описывается менее чем тремя отсчетами за период, и…
Now the sine wave is represented by less than three samples per cycle, and...
91
00:04:53.545 --> 00:04:55.838
цифровая диаграмма выглядит довольно ужасно.
the digital waveform looks pretty awful.
92
00:04:55.838 --> 00:04:59.798
Что ж, внешность обманчива. Аналоговый выход…
Well, looks can be deceiving. The analog output...
93
00:05:01.876 --> 00:05:06.033
по-прежнему идеальная синусоида, точь-в-точь как исходная.
is still a perfect sine wave, exactly like the original.
94
00:05:06.633 --> 00:05:09.228
Продолжим поднимать частоту.
Let's keep going up.
95
00:05:17.353 --> 00:05:20.151
16 кГц
16kHz....
96
00:05:23.198 --> 00:05:25.616
17 кГц
17kHz...
97
00:05:28.201 --> 00:05:29.945
18 кГц
18kHz...
98
00:05:33.822 --> 00:05:35.548
19 кГц
19kHz...
99
00:05:40.457 --> 00:05:42.465
20 кГц
20kHz.
100
00:05:49.097 --> 00:05:52.350
Добро пожаловать в верхние пределы слышимости человеком.
Welcome to the upper limits of human hearing.
101
00:05:52.350 --> 00:05:54.377
Выходная диаграмма сигнала по-прежнему отличная.
The output waveform is still perfect.
102
00:05:54.377 --> 00:05:58.025
Ни рванных краев, ни завалов, ни ступенек.
No jagged edges, no dropoff, no stairsteps.
103
00:05:58.025 --> 00:06:01.342
Так куда пропали ступеньки?
So where'd the stairsteps go?
104
00:06:01.342 --> 00:06:03.198
Не отвечайте, это каверзный вопрос.
Don't answer, it's a trick question.
105
00:06:03.198 --> 00:06:04.318
Ступенек там никогда не было.
They were never there.
106
00:06:04.318 --> 00:06:06.652
Изображение цифровой диаграммы сигнала ступеньками
Drawing a digital waveform as a stairstep
107
00:06:08.712 --> 00:06:10.772
было изначально неправильным.
was wrong to begin with.
108
00:06:10.942 --> 00:06:11.998
Почему?
Why?
109
00:06:11.998 --> 00:06:14.366
Ступенчатая кривая – это график непрерывной функции.
A stairstep is a continuous-time function.
110
00:06:14.366 --> 00:06:16.201
Она угловатая и кусочно-постоянная,
It's jagged, and it's piecewise,
111
00:06:16.201 --> 00:06:19.700
но имеет определенное значение в каждый момент времени.
but it has a defined value at every point in time.
112
00:06:19.700 --> 00:06:22.004
Дискретизированный сигнал совершенно другой.
A sampled signal is entirely different.
113
00:06:22.004 --> 00:06:23.337
Он дискретен по времени
It's discrete-time;
114
00:06:23.337 --> 00:06:27.337
и определен только в каждой точке отсчета,
it's only got a value right at each instantaneous sample point
115
00:06:27.337 --> 00:06:32.596
и не определен, т.е. вообще нет значений, всюду между отсчетами.
and it's undefined, there is no value at all, everywhere between.
116
00:06:32.596 --> 00:06:36.666
Дискретный сигнал следует изображать как "чупа-чупсовый" график [lollipop graph].
A discrete-time signal is properly drawn as a lollipop graph.
117
00:06:40.020 --> 00:06:42.974
Непрерывный аналоговый коллега цифрового сигнала
The continuous, analog counterpart of a digital signal
118
00:06:42.974 --> 00:06:45.364
плавно проходит каждую точку отсчета,
passes smoothly through each sample point,
119
00:06:45.364 --> 00:06:50.153
и это также справедливо как для высоких частот, так и для низких.
and that's just as true for high frequencies as it is for low.
120
00:06:50.153 --> 00:06:53.033
Далее, интересная и совсем не очевидная часть:
Now, the interesting and not at all obvious bit is:
121
00:06:53.033 --> 00:06:55.454
существует только один сигнал с ограниченной полосой частот, проходящий
there's only one bandlimited signal that passes
122
00:06:55.454 --> 00:06:57.417
строго через каждую точку отсчета.
exactly through each sample point.
123
00:06:57.417 --> 00:06:58.708
Это единственное решение.
It's a unique solution.
124
00:06:58.708 --> 00:07:01.246
Так что если вы дискретизируете сигнал с ограниченной полосой частот
So if you sample a bandlimited signal
125
00:07:01.246 --> 00:07:02.612
и потом конвертируете обратно,
and then convert it back,
126
00:07:02.612 --> 00:07:06.462
то исходный входной сигнал – единственный возможный сигнал на выходе.
the original input is also the only possible output.
127
00:07:06.462 --> 00:07:07.838
И прежде, чем вы скажете:
And before you say,
128
00:07:07.838 --> 00:07:11.721
"Ну, я могу нарисовать другой сигнал, проходящий через эти точки".
"Oh, I can draw a different signal that passes through those points."
129
00:07:11.721 --> 00:07:14.283
Хорошо, да, вы можете, но…
Well, yes you can, but...
130
00:07:17.268 --> 00:07:20.521
Даже если сигнал отличается едва заметно от исходного,
if it differs even minutely from the original,
131
00:07:20.521 --> 00:07:24.905
то он содержит частотную составляющую на частоте Найквиста или за ее пределом,
it contains frequency content at or beyond Nyquist,
132
00:07:24.905 --> 00:07:26.185
нарушая требование ограниченности полосы частот,
breaks the bandlimiting requirement
133
00:07:26.185 --> 00:07:28.358
что делает такой сигнал неподходящим решением.
and isn't a valid solution.
134
00:07:28.574 --> 00:07:30.036
Как же так все сбились с толку
So how did everyone get confused
135
00:07:30.036 --> 00:07:32.702
и начали думать о цифровом сигнале как о ступенчатой кривой?
and start thinking of digital signals as stairsteps?
136
00:07:32.702 --> 00:07:34.900
Я могу придумать две хорошие причины.
I can think of two good reasons.
137
00:07:34.900 --> 00:07:37.956
Первая – довольно просто представить дискретизированный сигнал
First: It's easy enough to convert a sampled signal
138
00:07:37.972 --> 00:07:39.294
в виде ступенчатой кривой.
to a true stairstep.
139
00:07:39.294 --> 00:07:42.409
Просто расширьте значение каждой точки отсчета вперед до следующего отсчета.
Just extend each sample value forward until the next sample period.
140
00:07:42.409 --> 00:07:44.414
Это называется экстраполяцией нулевого порядка
This is called a zero-order hold,
141
00:07:44.414 --> 00:07:47.913
и является важной частью в работе некоторых цифро-аналоговых преобразователей,
and it's an important part of how some digital-to-analog converters work,
142
00:07:47.913 --> 00:07:50.089
особенно самых простых из них.
especially the simplest ones.
143
00:07:50.089 --> 00:07:55.591
Так что любой кто ищет о цифро-аналоговом преобразовании,
So, anyone who looks up digital-to-analog conversion
144
00:07:55.592 --> 00:07:59.550
вероятно, увидит где-нибудь диаграмму со ступенчатой кривой,
is probably going to see a diagram of a stairstep waveform somewhere,
145
00:07:59.550 --> 00:08:01.982
но это не законченное преобразование,
but that's not a finished conversion,
146
00:08:01.982 --> 00:08:04.250
и это не сигнал, получаемый на выходе.
and it's not the signal that comes out.
147
00:08:04.944 --> 00:08:05.684
Вторая причина –
Second,
148
00:08:05.684 --> 00:08:07.529
и это, видимо, более вероятная причина –
and this is probably the more likely reason,
149
00:08:07.529 --> 00:08:09.449
инженеры, которые вроде как знают лучше,
engineers who supposedly know better,
150
00:08:09.449 --> 00:08:10.441
прям как я,
like me,
151
00:08:10.441 --> 00:08:13.193
рисуют ступенчатые кривые, пусть даже эти графики технически неправильны.
draw stairsteps even though they're technically wrong.
152
00:08:13.193 --> 00:08:15.571
Это что-то типа одномерной версии
It's a sort of like a one-dimensional version of
153
00:08:15.571 --> 00:08:17.395
растолстевших бит в цифровых редакторах.
fat bits in an image editor.
154
00:08:17.395 --> 00:08:19.241
Пиксели тоже не квадратные, они –
Pixels aren't squares either,
155
00:08:19.241 --> 00:08:23.081
отсчеты функции, заданной на двумерном пространстве, так что они тоже,
they're samples of a 2-dimensional function space and so they're also,
156
00:08:23.081 --> 00:08:26.366
концептуально, – бесконечно маленькие точки.
conceptually, infinitely small points.
157
00:08:26.366 --> 00:08:28.500
На практике, это тот еще геморрой – смотреть
Practically, it's a real pain in the ass to see
158
00:08:28.500 --> 00:08:30.804
или обрабатывать что-либо бесконечно маленькое.
or manipulate infinitely small anything.
159
00:08:30.804 --> 00:08:32.212
Поэтому и большие квадраты.
So big squares it is.
160
00:08:32.212 --> 00:08:35.966
Тоже самое и с изображением цифровых сигналов ступеньками.
Digital stairstep drawings are exactly the same thing.
161
00:08:35.966 --> 00:08:37.684
Так просто удобнее рисовать.
It's just a convenient drawing.
162
00:08:37.684 --> 00:08:40.404
Никаких ступенек на самом деле нет.
The stairsteps aren't really there.
163
00:08:45.652 --> 00:08:48.233
Когда мы преобразовываем цифру обратно в аналог,
When we convert a digital signal back to analog,
164
00:08:48.233 --> 00:08:50.900
результат <u>такой же</u> плавный независимо от глубины дискретизации:
the result is <u>also</u> smooth regardless of the bit depth.
165
00:08:50.900 --> 00:08:53.193
24 бит или 16 бит…
24 bits or 16 bits...
166
00:08:53.193 --> 00:08:54.196
или 8 бит…
or 8 bits...
167
00:08:54.196 --> 00:08:55.486
– без разницы.
it doesn't matter.
168
00:08:55.486 --> 00:08:57.534
Значит ли это, что глубина дискретизации
So does that mean that the digital bit depth
169
00:08:57.534 --> 00:08:58.953
совсем ни на что не влияет?
makes no difference at all?
170
00:08:59.245 --> 00:09:00.521
Конечно нет.
Of course not.
171
00:09:02.121 --> 00:09:06.046
Второй канал здесь – это та же входная синусоида,
Channel 2 here is the same sine wave input,
172
00:09:06.046 --> 00:09:09.086
но мы квантуем с дизерингом, используя глубину 8 бит.
but we quantize with dither down to eight bits.
173
00:09:09.086 --> 00:09:14.174
На осциллографе мы все еще видим плавную синусоиду на 2-м канале.
On the scope, we still see a nice smooth sine wave on channel 2.
174
00:09:14.174 --> 00:09:18.014
Присмотритесь внимательнее, и вы также увидите немного больше шума.
Look very close, and you'll also see a bit more noise.
175
00:09:18.014 --> 00:09:19.305
Вот, в чем загвоздка.
That's a clue.
176
00:09:19.305 --> 00:09:21.273
Если мы посмотрим на спектр сигнала…
If we look at the spectrum of the signal...
177
00:09:22.889 --> 00:09:23.732
Ага!
aha!
178
00:09:23.732 --> 00:09:26.398
Наша синусоида все еще там нетронутая,
Our sine wave is still there unaffected,
179
00:09:26.398 --> 00:09:28.490
но уровень шума восьмибитного сигнала
but the noise level of the eight-bit signal
180
00:09:28.490 --> 00:09:32.470
на 2-м канале намного выше!
on the second channel is much higher!
181
00:09:32.948 --> 00:09:36.148
В этом и заключается отличие между разным числом бит.
And that's the difference the number of bits makes.
182
00:09:36.148 --> 00:09:37.434
Вот и все!
That's it!
183
00:09:37.822 --> 00:09:39.956
Когда мы оцифровываем сигнал, сперва мы дискретизируем его.
When we digitize a signal, first we sample it.
184
00:09:39.956 --> 00:09:42.366
Этап дискретизирования идеален: потерь не происходит.
The sampling step is perfect; it loses nothing.
185
00:09:42.366 --> 00:09:45.626
Но потом мы квантуем его, и квантование добавляет шум.
But then we quantize it, and quantization adds noise.
186
00:09:47.827 --> 00:09:50.793
Число бит определяет то, как много шума добавится,
The number of bits determines how much noise
187
00:09:50.793 --> 00:09:52.569
и потому – степень уровня шума.
and so the level of the noise floor.
188
00:10:00.170 --> 00:10:03.646
Как звучит этот шум квантования после дизеринга?
What does this dithered quantization noise sound like?
189
00:10:03.646 --> 00:10:06.012
Давайте послушаем нашу восьмибитную синусоиду.
Let's listen to our eight-bit sine wave.
190
00:10:12.521 --> 00:10:15.273
Наверно, было сложно что-либо услышать, кроме тона.
That may have been hard to hear anything but the tone.
191
00:10:15.273 --> 00:10:18.740
Давайте послушаем только шум, подавив сперва синусоиду,
Let's listen to just the noise after we notch out the sine wave
192
00:10:18.740 --> 00:10:21.683
а потом сделав все чуть громче, потому что шум тихий.
and then bring the gain up a bit because the noise is quiet.
193
00:10:32.009 --> 00:10:35.049
Те из вас, кто пользовался аналоговыми записывающими устройствами,
Those of you who have used analog recording equipment
194
00:10:35.049 --> 00:10:36.670
могли подумать про себя:
may have just thought to yourselves,
195
00:10:36.670 --> 00:10:40.382
"Боже мой! Это звучит как шипение ленты!"
"My goodness! That sounds like tape hiss!"
196
00:10:40.382 --> 00:10:41.929
Что ж, это не просто звучит как шипение магнитной ленты –
Well, it doesn't just sound like tape hiss,
197
00:10:41.929 --> 00:10:43.433
оно ведет себя также,
it acts like it too,
198
00:10:43.433 --> 00:10:45.225
и если мы применим дизеринг с гауссовой функцией плотности распределения вероятности,
and if we use a gaussian dither
199
00:10:45.225 --> 00:10:47.646
то этот шум будет математически эквивалентным во всех отношениях.
then it's mathematically equivalent in every way.
200
00:10:47.646 --> 00:10:49.225
Это и <u>есть</u> шипение ленты.
It <u>is</u> tape hiss.
201
00:10:49.225 --> 00:10:51.774
Легко догадаться, что мы можем измерить шипение ленты
Intuitively, that means that we can measure tape hiss
202
00:10:51.774 --> 00:10:54.196
и, следовательно, уровень шума магнитной аудиокассеты
and thus the noise floor of magnetic audio tape
203
00:10:54.196 --> 00:10:56.233
в битах, а не в децибелах,
in bits instead of decibels,
204
00:10:56.233 --> 00:10:59.902
чтобы рассмотреть все сквозь цифровую призму.
in order to put things in a digital perspective.
205
00:10:59.902 --> 00:11:03.028
Компакт-кассеты…
Compact cassettes...
206
00:11:03.028 --> 00:11:05.449
для тех из вас, кто достаточно взрослый, чтобы помнить их, –
for those of you who are old enough to remember them,
207
00:11:05.449 --> 00:11:09.161
они могли достигать глубины в 9 бит в идеальных условиях,
could reach as deep as nine bits in perfect conditions,
208
00:11:09.161 --> 00:11:11.209
хотя как правило – от 5 до 6 бит,
though five to six bits was more typical,
209
00:11:11.209 --> 00:11:13.876
особенно, если это была запись, сделанная на магнитофон.
especially if it was a recording made on a tape deck.
210
00:11:13.876 --> 00:11:19.422
Так и есть… ваши кассеты с миксами были лишь около 6 бит глубины дискретизации… если вам повезет!
That's right... your mix tapes were only about six bits deep... if you were lucky!
211
00:11:19.837 --> 00:11:22.345
Лучшие профессиональные ленты для катушечного магнитофона,
The very best professional open reel tape
212
00:11:22.345 --> 00:11:24.553
используемые в студиях, едва могли достигнуть…
used in studios could barely hit...
213
00:11:24.553 --> 00:11:26.473
как думаете, сколько?
any guesses?...
214
00:11:26.473 --> 00:11:27.604
13 бит
13 bits
215
00:11:27.604 --> 00:11:28.980
<u>с применением</u> улучшенного шумоподавления.
<u>with</u> advanced noise reduction.
216
00:11:28.980 --> 00:11:32.062
И вот почему видеть "DDD" на компакт-диске
And that's why seeing 'DDD' on a Compact Disc
217
00:11:32.062 --> 00:11:35.208
было таким важным, крутым делом.
used to be such a big, high-end deal.
218
00:11:40.116 --> 00:11:42.825
Я постоянно говорю, что при квантовании применяю дизеринг,
I keep saying that I'm quantizing with dither,
219
00:11:42.825 --> 00:11:44.734
что это вообще такое?
so what is dither exactly?
220
00:11:44.734 --> 00:11:47.284
А главное, что делает дизеринг?
More importantly, what does it do?
221
00:11:47.284 --> 00:11:49.876
Простым способом при квантовании сигнала является выбор
The simple way to quantize a signal is to choose
222
00:11:49.876 --> 00:11:52.329
ближайшего цифрового значения амплитуды
the digital amplitude value closest
223
00:11:52.329 --> 00:11:54.377
к исходной аналоговой амплитуде.
to the original analog amplitude.
224
00:11:54.377 --> 00:11:55.337
Очевидно, правда?
Obvious, right?
225
00:11:55.337 --> 00:11:57.545
К несчастью, точный уровень шума, получаемый,
Unfortunately, the exact noise you get
226
00:11:57.545 --> 00:11:59.220
используя такой простой подход при квантовании,
from this simple quantization scheme
227
00:11:59.220 --> 00:12:02.174
отчасти зависит от входного сигнала,
depends somewhat on the input signal,
228
00:12:02.174 --> 00:12:04.596
поэтому мы можем получить или нестабильный,
so we may get noise that's inconsistent,
229
00:12:04.596 --> 00:12:06.142
или вызывающий искажения,
or causes distortion,
230
00:12:06.142 --> 00:12:09.054
или нежелательный в каком-то другом смысле шум.
or is undesirable in some other way.
231
00:12:09.054 --> 00:12:11.764
Дизеринг – это специально созданный шум, которым
Dither is specially-constructed noise that
232
00:12:11.764 --> 00:12:15.273
подменяют производимый при квантовании шум.
substitutes for the noise produced by simple quantization.
233
00:12:15.273 --> 00:12:18.025
Дизеринг не заглушает или маскирует шум квантования,
Dither doesn't drown out or mask quantization noise,
234
00:12:18.025 --> 00:12:20.190
он фактически заменяет его
it actually replaces it
235
00:12:20.190 --> 00:12:22.612
желаемыми шумовыми характеристиками,
with noise characteristics of our choosing
236
00:12:22.612 --> 00:12:24.794
не попадающими под влияние входного сигнала.
that aren't influenced by the input.
237
00:12:25.256 --> 00:12:27.081
Давайте <u>посмотрим</u>, что делает дизеринг.
Let's <u>watch</u> what dither does.
238
00:12:27.081 --> 00:12:30.078
У генератора сигналов слишком много шумов для данного опыта,
The signal generator has too much noise for this test
239
00:12:30.431 --> 00:12:33.161
поэтому будем создавать математически
so we'll produce a mathematically
240
00:12:33.161 --> 00:12:34.782
идеальную синусоиду с помощью ThinkPad
perfect sine wave with the ThinkPad
241
00:12:34.782 --> 00:12:38.205
и квантовать с глубиной дискретизации 8 бит и дизерингом.
and quantize it to eight bits with dithering.
242
00:12:39.006 --> 00:12:41.342
Мы видим хорошую синусоиду на экране временных диаграмм
We see a nice sine wave on the waveform display
243
00:12:41.342 --> 00:12:43.452
и на выходе осциллографа
and output scope
244
00:12:44.222 --> 00:12:44.972
и…
and...
245
00:12:46.588 --> 00:12:49.375
как только аналоговый анализатор спектра оживится…
once the analog spectrum analyzer catches up...
246
00:12:50.713 --> 00:12:53.588
отчетливый частотный пик с равномерным уровнем шума
a clean frequency peak with a uniform noise floor
247
00:12:56.864 --> 00:12:58.611
на обоих экранах со спектром,
on both spectral displays
248
00:12:58.61 1 --> 00:12:59.646
как и ранее.
just like before
249
00:12:59.646 --> 00:13:01.549
Повторюсь, это с дизерингом.
Again, this is with dither.
250
00:13:02.196 --> 00:13:04.225
Теперь я выключаю дизеринг.
Now I turn dithering off.
251
00:13:05.779 --> 00:13:07.913
Шум квантования, который был распределен дизерингом
The quantization noise, that dither had spread out
252
00:13:07.913 --> 00:13:09.577
в хороший плоский уровень шума,
into a nice, flat noise floor,
253
00:13:09.577 --> 00:13:12.286
сплющился в пики гармонического искажения.
piles up into harmonic distortion peaks.
254
00:13:12.286 --> 00:13:16.030
Уровень шума ниже, но уровень искажений уже ненулевой,
The noise floor is lower, but the level of distortion becomes nonzero,
255
00:13:16.030 --> 00:13:19.668
и пики искажений установились выше, чем шум шум дизеринга.
and the distortion peaks sit higher than the dithering noise did.
256
00:13:19.668 --> 00:13:22.318
На восьми битах этот эффект утрирован.
At eight bits this effect is exaggerated.
257
00:13:22.488 --> 00:13:24.200
На шестнадцати битах,
At sixteen bits,
258
00:13:24.692 --> 00:13:25.929
даже без дизеринга,
even without dither,
259
00:13:25.929 --> 00:13:28.308
гармонические искажения будут такими низкими,
harmonic distortion is going to be so low
260
00:13:28.308 --> 00:13:30.708
что их практически не услышать.
as to be completely inaudible.
261
00:13:30.708 --> 00:13:34.581
Все равно, мы можем использовать дизеринг, чтобы полностью устранить искажения,
Still, we can use dither to eliminate it completely
262
00:13:34.581 --> 00:13:36.489
если мы так выберем.
if we so choose.
263
00:13:37.642 --> 00:13:39.273
Снова выключим дизеринг ненадолго,
Turning the dither off again for a moment,
264
00:13:40.934 --> 00:13:43.444
и вы заметите, что абсолютный уровень искажений
you'll notice that the absolute level of distortion
265
00:13:43.444 --> 00:13:47.070
при квантовании без дизеринга остается примерно постоянным
from undithered quantization stays approximately constant
266
00:13:47.070 --> 00:13:49.033
независимо от амплитуды входного сигнала.
regardless of the input amplitude.
267
00:13:49.033 --> 00:13:51.998
Но когда уровень сигнала опускается немного ниже половины,
But when the signal level drops below a half a bit,
268
00:13:51.998 --> 00:13:54.036
все квантуется в ноль.
everything quantizes to zero.
269
00:13:54.036 --> 00:13:54.910
По сути,
In a sense,
270
00:13:54.910 --> 00:13:58.557
"все квантуется в ноль" просто означает 100% искажение!
everything quantizing to zero is just 100% distortion!
271
00:13:58.833 --> 00:14:01.588
Дизеринг тоже устраняет эти искажения.
Dither eliminates this distortion too.
272
00:14:01.588 --> 00:14:03.599
Мы снова включаем дизеринг и…
We reenable dither and...
273
00:14:03.599 --> 00:14:06.377
наш сигнал появляется на 1/4 бит,
there's our signal back at 1/4 bit,
274
00:14:06.377 --> 00:14:09.076
вместе с хорошим плоским уровнем шума.
with our nice flat noise floor.
275
00:14:09.630 --> 00:14:11.220
Уровень шума не обязан быть плоским.
The noise floor doesn't have to be flat.
276
00:14:11.220 --> 00:14:12.798
Дизеринг – это шум, выбираемый нами,
Dither is noise of our choosing,
277
00:14:12.798 --> 00:14:15.006
так давайте выберем шум настолько безобидный
so let's choose a noise as inoffensive
278
00:14:15.006 --> 00:14:17.017
и труднозаметный, насколько возможно.
and difficult to notice as possible.
279
00:14:18.142 --> 00:14:22.484
Наш слух наиболее чувствителен в промежутке от 2 до 4 кГц,
Our hearing is most sensitive in the midrange from 2kHz to 4kHz,
280
00:14:22.484 --> 00:14:25.438
поэтому здесь фоновый шум будет наиболее заметным.
so that's where background noise is going to be the most obvious.
281
00:14:25.438 --> 00:14:29.406
Мы можем сформировать шум дизеринга подальше от чувствительных частот
We can shape dithering noise away from sensitive frequencies
282
00:14:29.406 --> 00:14:31.241
туда, где слух менее восприимчив –
to where hearing is less sensitive,
283
00:14:31.241 --> 00:14:33.910
обычно это область высоких частот.
usually the highest frequencies.
284
00:14:34.249 --> 00:14:37.460
16 бит шум дизеринга, как правило, слишком тихий, чтобы услышать,
16-bit dithering noise is normally much too quiet to hear at all,
285
00:14:37.460 --> 00:14:39.668
но давайте послушаем пример работы нойз-шейпинга,
but let's listen to our noise shaping example,
286
00:14:39.668 --> 00:14:42.234
опять же, с усилением сигнала…
again with the gain brought way up...
287
00:14:56.020 --> 00:14:59.977
И наконец, общая мощность шума квантования после дизеринга <u>выше</u>,
Lastly, dithered quantization noise <u>is</u> higher power overall
288
00:14:59.977 --> 00:15:04.276
чем шум квантования без дизеринга, даже если первый звучит тише.
than undithered quantization noise even when it sounds quieter.
289
00:15:04.276 --> 00:15:07.902
Можете увидеть это на измерителе уровня звука во время тишины.
You can see that on a VU meter during passages of near-silence.
290
00:15:07.902 --> 00:15:10.537
Но дизеринг не только можно включить или выключить.
But dither isn't only an on or off choice.
291
00:15:10.537 --> 00:15:14.712
Мы можем ослабить мощность дизеринга, балансируя между тишиной шума
We can reduce the dither's power to balance less noise against
292
00:15:14.712 --> 00:15:18.313
и незначительными искажениями, минимизируя общий эффект.
a bit of distortion to minimize the overall effect.
293
00:15:19.605 --> 00:15:22.790
Также мы будем модулировать входной сигнал вот так:
We'll also modulate the input signal like this:
294
00:15:27.098 --> 00:15:30.206
…чтобы показать, как изменение входного сигнала влияет на шум квантования.
...to show how a varying input affects the quantization noise.
295
00:15:30.206 --> 00:15:33.289
На полной мощности дизеринга, шум единообразен, постоянен
At full dithering power, the noise is uniform, constant,
296
00:15:33.289 --> 00:15:35.643
и невыразителен, как мы и ожидали:
and featureless just like we expect:
297
00:15:40.937 --> 00:15:42.772
При уменьшении мощности дизеринга,
As we reduce the dither's power,
298
00:15:42.772 --> 00:15:46.356
входной сигнал все больше и больше влияет на амплитуду и свойства
the input increasingly affects the amplitude and the character
299
00:15:46.356 --> 00:15:47.977
шума квантования:
of the quantization noise:
300
00:16:09.883 --> 00:16:13.844
Поведение дизеринга после ноиз-шейпинга схоже,
Shaped dither behaves similarly,
301
00:16:13.844 --> 00:16:16.553
но ноиз-шейпинг дает еще одно хорошее преимущество.
but noise shaping lends one more nice advantage.
302
00:16:16.553 --> 00:16:18.804
Короче говоря, он может использовать
To make a long story short, it can use
303
00:16:18.804 --> 00:16:20.937
слегка меньшую мощность дизеринга прежде, чем входной сигнал
a somewhat lower dither power before the input
304
00:16:20.937 --> 00:16:23.662
окажет соответствующее влияние на выходной.
has as much effect on the output.
305
00:16:49.172 --> 00:16:51.508
Несмотря на все это время, что я потратил на дизеринг,
Despite all the time I just spent on dither,
306
00:16:51.508 --> 00:16:53.012
мы говорим о различиях,
we're talking about differences
307
00:16:53.012 --> 00:16:56.372
начинающихся на 100 дБ ниже измеряемого диапазона.
that start 100 decibels below full scale.
308
00:16:56.372 --> 00:16:59.806
Возможно, если бы CD имели 14 бит, как изначально задумывалось,
Maybe if the CD had been 14 bits as originally designed,
309
00:16:59.806 --> 00:17:01.513
дизеринг <u>мог бы</u> быть важнее.
dither <u>might</u> be more important.
310
00:17:01.989 --> 00:17:02.644
Возможно.
Maybe.
311
00:17:02.644 --> 00:17:05.438
С 16 бит, на самом деле, почти без разницы.
At 16 bits, really, it's mostly a wash.
312
00:17:05.438 --> 00:17:08.019
Вы можете думать о дизеринге как о страховке,
You can think of dither as an insurance policy
313
00:17:08.019 --> 00:17:11.443
дающей несколько дополнительных дБ к динамическому диапазону
that gives several extra decibels of dynamic range
314
00:17:11.443 --> 00:17:12.804
на всякий случай.
just in case.
315
00:17:12.990 --> 00:17:14.196
Тем не менее, факт в том, что,
The simple fact is, though,
316
00:17:14.196 --> 00:17:16.361
никто не уничтожил великолепную запись,
no one ever ruined a great recording
317
00:17:16.361 --> 00:17:19.182
не воспользовавшись дизерингом при мастеринге звукозаписи.
by not dithering the final master.
318
00:17:24.414 --> 00:17:25.790
Мы использовали синусоиды.
We've been using sine waves.
319
00:17:25.790 --> 00:17:28.254
Они являются очевидным выбором когда то, что хотим увидеть –
They're the obvious choice when what we want to see
320
00:17:28.254 --> 00:17:32.212
это поведение системы на данной отдельной частоте.
is a system's behavior at a given isolated frequency.
321
00:17:32.212 --> 00:17:34.217
Теперь давайте рассмотрим кое-что посложнее.
Now let's look at something a bit more complex.
322
00:17:34.217 --> 00:17:35.923
Что нам следует ожидать,
What should we expect to happen
323
00:17:35.923 --> 00:17:39.671
когда я изменю входной сигнал на меандр?
when I change the input to a square wave...
324
00:17:42.718 --> 00:17:45.921
Осциллограф на входе выводит наш 1 кГц меандр.
The input scope confirms our 1kHz square wave.
325
00:17:45.921 --> 00:17:47.351
А осциллограф на выходе показывает…
The output scope shows..
326
00:17:48.614 --> 00:17:51.102
В точности, что и следует.
Exactly what it should.
327
00:17:51.102 --> 00:17:53.900
Что такое меандр на самом деле?
What is a square wave really?
328
00:17:54.654 --> 00:17:57.982
Скажем, это диаграмма сигнала, где есть положительное значение
Well, we can say it's a waveform that's some positive value
329
00:17:57.982 --> 00:18:00.788
во время одного полупериода, мгновенно меняющееся
for half a cycle and then transitions instantaneously
330
00:18:00.788 --> 00:18:02.910
на отрицательное в другом полупериоде.
to a negative value for the other half.
331
00:18:02.910 --> 00:18:05.076
Но это как-то не сообщает нам ничего полезного о том,
But that doesn't really tell us anything useful
332
00:18:05.076 --> 00:18:07.241
как этот входной сигнал
about how this input
333
00:18:07.241 --> 00:18:09.378
становится таким на выходе.
becomes this output.
334
00:18:10.132 --> 00:18:12.713
Далее, мы помним, что любая волна
Then we remember that any waveform
335
00:18:12.713 --> 00:18:15.508
также является суммой дискретных частот,
is also the sum of discrete frequencies,
336
00:18:15.508 --> 00:18:18.302
и меандр, в частности, – просто сумма
and a square wave is a particularly simple sum
337
00:18:18.302 --> 00:18:19.636
несущей частоты и
a fundamental and
338
00:18:19.636 --> 00:18:22.228
бесконечного числа нечетных гармоник.
an infinite series of odd harmonics.
339
00:18:22.228 --> 00:18:24.597
Сложите их все, и вы получите меандр.
Sum them all up, you get a square wave.
340
00:18:26.398 --> 00:18:27.433
На первый взгляд,
At first glance,
341
00:18:27.433 --> 00:18:29.225
это тоже не похоже на полезную информацию.
that doesn't seem very useful either.
342
00:18:29.225 --> 00:18:31.561
Необходимо сложить бесконечное число гармоник,
You have to sum up an infinite number of harmonics
343
00:18:31.561 --> 00:18:33.108
чтобы получить ответ.
to get the answer.
344
00:18:33.108 --> 00:18:35.977
А, но у нас нет бесконечного числа гармоник.
Ah, but we don't have an infinite number of harmonics.
345
00:18:36.960 --> 00:18:39.902
У нас антиалайзинговый фильтр с крутым спадом переходной полосы,
We're using a quite sharp anti-aliasing filter
346
00:18:39.902 --> 00:18:42.206
частота среза которого 20 кГц,
that cuts off right above 20kHz,
347
00:18:42.206 --> 00:18:44.158
поэтому наш сигнал ограничен по полосе частот,
so our signal is band-limited,
348
00:18:44.158 --> 00:18:46.421
что означает следующее:
which means we get this:
349
00:18:52.500 --> 00:18:56.468
…и это в точности, что мы видим на осциллографе с выхода.
..and that's exactly what we see on the output scope.
350
00:18:56.468 --> 00:18:59.550
Пульсация, которую вы видите по краям сигнала с ограниченной полосой частот,
The rippling you see around sharp edges in a bandlimited signal
351
00:18:59.550 --> 00:19:00.926
называется "явлением Гиббса".
is called the Gibbs effect.
352
00:19:00.926 --> 00:19:04.137
Оно происходит всякий раз, когда вы срезаете часть области частот
It happens whenever you slice off part of the frequency domain
353
00:19:04.137 --> 00:19:07.006
в пределах которой сосредоточена энергия сигнала.
in the middle of nonzero energy.
354
00:19:07.006 --> 00:19:09.854
Обычно вы услышите эмпирическое правило: чем круче спад переходной полосы,
The usual rule of thumb you'll hear is the sharper the cutoff,
355
00:19:09.854 --> 00:19:11.188
тем сильнее пульсация.
the stronger the rippling,
356
00:19:11.188 --> 00:19:12.777
Что в общем-то правда,
which is approximately true,
357
00:19:12.777 --> 00:19:14.900
но нужно быть осторожнее в наших представлениях.
but we have to be careful how we think about it.
358
00:19:14.900 --> 00:19:15.774
Например…
For example...
359
00:19:15.774 --> 00:19:19.529
Что по-вашему будет делать наш "крутой" антиалайзинговый
what would you expect our quite sharp anti-aliasing filter
360
00:19:19.529 --> 00:19:23.181
фильтр, если я пропущу через него сигнал дважды?
to do if I run our signal through it a second time?
361
00:19:34.136 --> 00:19:37.588
Помимо добавления нескольких незначительных циклов задержек,
Aside from adding a few fractional cycles of delay,
362
00:19:37.588 --> 00:19:39.348
ответ будет…
the answer is...
363
00:19:39.348 --> 00:19:40.857
вообще ничего.
nothing at all.
364
00:19:41.257 --> 00:19:43.302
Сигнал уже ограничен по полосе частот.
The signal is already bandlimited.
365
00:19:43.656 --> 00:19:46.590
Повторное ограничение полосы частот ни на что не влияет.
Bandlimiting it again doesn't do anything.
366
00:19:46.590 --> 00:19:50.686
Второй проход не может убрать частоты, которые уже были удалены.
A second pass can't remove frequencies that we already removed.
367
00:19:52.070 --> 00:19:53.737
И это важно.
And that's important.
368
00:19:53.737 --> 00:19:56.233
Люди склонны думать о пульсации как о своего рода артефакте,
People tend to think of the ripples as a kind of artifact
369
00:19:56.233 --> 00:19:59.945
добавляемом антиалайзинговым и реконструкционным фильтрами,
that's added by anti-aliasing and anti-imaging filters,
370
00:19:59.945 --> 00:20:01.737
считая, что пульсация становится хуже
implying that the ripples get worse
371
00:20:01.737 --> 00:20:03.913
с каждым проходом сигнала через них.
each time the signal passes through.
372
00:20:03.913 --> 00:20:05.950
Мы видим, что в данном случае этого не случилось.
We can see that in this case that didn't happen.
373
00:20:05.950 --> 00:20:09.492
Так был ли это на самом деле фильтр, добавивший пульсацию при 1-м проходе?
So was it really the filter that added the ripples the first time through?
374
00:20:09.492 --> 00:20:10.537
Нет, не совсем.
No, not really.
375
00:20:10.537 --> 00:20:12.126
Это деликатный момент,
It's a subtle distinction,
376
00:20:12.126 --> 00:20:15.252
т.к. пульсация при эффекте Гиббса добавляется не фильтрами –
but Gibbs effect ripples aren't added by filters,
377
00:20:15.252 --> 00:20:18.836
она просто часть того, чем является сигнал с ограниченной полосой частот.
they're just part of what a bandlimited signal <u>is</u>.
378
00:20:18.836 --> 00:20:20.798
Даже если мы искусственно сгенерируем сигнал,
Even if we synthetically construct
379
00:20:20.798 --> 00:20:23.508
который выглядит как идеальный цифровой меандр,
what looks like a perfect digital square wave,
380
00:20:23.508 --> 00:20:26.206
его полоса частот все равно ограничена полосой пропускания передающего канала.
it's still limited to the channel bandwidth.
381
00:20:26.206 --> 00:20:29.140
Вспомните, что ступенчатое представление кривой неточно.
Remember the stairstep representation is misleading.
382
00:20:29.140 --> 00:20:32.222
Что на самом деле есть у нас – это точки отсчета,
What we really have here are instantaneous sample points,
383
00:20:32.222 --> 00:20:36.148
и только 1 сигнал с ограниченной полосой частот подходит к этим точкам.
and only one bandlimited signal fits those points.
384
00:20:36.148 --> 00:20:39.614
Все что мы сделали, когда рисовали наш идеальный меандр,
All we did when we drew our apparently perfect square wave
385
00:20:39.614 --> 00:20:43.198
это расставили точки отсчета как раз, чтобы сложилось впечатление,
was line up the sample points just right so it appeared
386
00:20:43.198 --> 00:20:47.785
что здесь нет пульсаций, если мы сыграем в "Соедини точки".
that there were no ripples if we played connect-the-dots.
387
00:20:47.785 --> 00:20:49.449
Но исходный сигнал с ограниченной полосой частот
But the original bandlimited signal,
388
00:20:49.449 --> 00:20:52.742
вместе с пульсациями все еще там.
complete with ripples, was still there.
389
00:20:54.004 --> 00:20:56.542
И это ведет нас к еще одному важному моменту.
And that leads us to one more important point.
390
00:20:56.542 --> 00:20:59.550
Вы наверняка уже слышали, что точность синхронизации цифрового сигнала
You've probably heard that the timing precision of a digital signal
391
00:20:59.550 --> 00:21:02.409
ограничена его частотой дискретизации; другими словами,
is limited by its sample rate; put another way,
392
00:21:02.409 --> 00:21:05.140
якобы цифровые сигналы не могут представлять ничего,
that digital signals can't represent anything
393
00:21:05.140 --> 00:21:08.041
что попадает между точками отсчетов…
that falls between the samples...
394
00:21:08.041 --> 00:21:11.422
имеется в виду, что импульсы или резкие скачки должны быть четко
implying that impulses or fast attacks have to align
395
00:21:11.422 --> 00:21:14.473
выравнены с отсчетами, или синхронизация будет утрачена…
exactly with a sample, or the timing gets mangled...
396
00:21:14.473 --> 00:21:16.219
и они просто исчезнут.
or they just disappear.
397
00:21:16.711 --> 00:21:20.820
Теперь мы легко можем увидеть, почему это не так.
At this point, we can easily see why that's wrong.
398
00:21:20.820 --> 00:21:23.742
Еще раз, наш входной сигнал ограничен по полосе частот.
Again, our input signals are bandlimited.
399
00:21:23.742 --> 00:21:26.036
И цифровой сигнал – это точки отсчета,
And digital signals are samples,
400
00:21:26.036 --> 00:21:29.340
не ступеньки, не "Соедини точки".
not stairsteps, not 'connect-the-dots'.
401
00:21:31.572 --> 00:21:34.592
Мы определенно можем, например,
We most certainly can, for example,
402
00:21:36.777 --> 00:21:39.337
разместить фронт нашего меандра с ограниченной полосой частот
put the rising edge of our bandlimited square wave
403
00:21:39.337 --> 00:21:42.004
в любом месте между отсчетами.
anywhere we want between samples.
404
00:21:42.004 --> 00:21:44.354
Меандр отлично изображается
It's represented perfectly
405
00:21:47.508 --> 00:21:50.218
и отлично восстанавливается.
and it's reconstructed perfectly.
406
00:22:04.620 --> 00:22:06.526
Как и в предыдущей части,
Just like in the previous episode,
407
00:22:06.526 --> 00:22:08.393
мы охватили широкий круг тем,
we've covered a broad range of topics,
408
00:22:08.393 --> 00:22:10.868
и при этом лишь едва коснулись каждой из них.
and yet barely scratched the surface of each one.
409
00:22:10.868 --> 00:22:13.620
Если уж на то пошло, то в этот раз у меня больше грехов упущения…
If anything, my sins of omission are greater this time around...
410
00:22:13.620 --> 00:22:16.286
но это хороший момент все завершить.
but this is a good stopping point.
411
00:22:16.286 --> 00:22:17.833
Или, может, хорошая отправная точка.
Or maybe, a good starting point.
412
00:22:17.833 --> 00:22:18.708
Пробуйте копнуть глубже.
Dig deeper.
413
00:22:18.708 --> 00:22:19.710
Экспериментируйте.
Experiment.
414
00:22:19.710 --> 00:22:21.374
Я со всей тщательностью подбирал опыты,
I chose my demos very carefully
415
00:22:21.374 --> 00:22:23.668
чтобы они были простыми и красноречивыми.
to be simple and give clear results.
416
00:22:23.668 --> 00:22:26.217
Вы можете воспроизвести каждый из них самостоятельно, если хотите.
You can reproduce every one of them on your own if you like.
417
00:22:26.217 --> 00:22:28.766
Только давайте признаемся, что иногда мы узнаем больше
But let's face it, sometimes we learn the most
418
00:22:28.766 --> 00:22:30.516
о модной игрушке, разобрав ее до основания
about a spiffy toy by breaking it open
419
00:22:30.516 --> 00:22:32.553
и изучая все выпавшие кусочки.
and studying all the pieces that fall out.
420
00:22:32.553 --> 00:22:35.230
И это нормально – мы инженеры.
That's OK, we're engineers.
421
00:22:35.230 --> 00:22:36.350
Поиграйтесь с демо-параметрами,
Play with the demo parameters,
422
00:22:36.350 --> 00:22:37.972
хакерните код,
hack up the code,
423
00:22:37.972 --> 00:22:39.774
проведите другие опыты.
set up alternate experiments.
424
00:22:39.774 --> 00:22:40.692
Исходный код для всего,
The source code for everything,
425
00:22:40.692 --> 00:22:42.398
включая небольшое кнопочное демо-приложение,
including the little pushbutton demo application,
426
00:22:42.398 --> 00:22:44.361
выложен на Xiph.Org.
is up at Xiph.Org.
427
00:22:44.361 --> 00:22:45.940
В ходе экспериментов,
In the course of experimentation,
428
00:22:45.940 --> 00:22:47.401
вы, скорее всего, столкнетесь с чем-то,
you're likely to run into something
429
00:22:47.401 --> 00:22:49.950
чего не ожидали и не можете объяснить.
that you didn't expect and can't explain.
430
00:22:49.950 --> 00:22:51.198
Не переживайте!
Don't worry!
431
00:22:51.198 --> 00:22:54.537
Без шуток, Википедия потрясающе подходит
My earlier snark aside, Wikipedia is fantastic for
432
00:22:54.537 --> 00:22:56.788
как раз для подобных неформальных исследований.
exactly this kind of casual research.
433
00:22:56.788 --> 00:22:59.956
Если вы действительно серьезно намерены разобраться в сигналах,
If you're really serious about understanding signals,
434
00:22:59.956 --> 00:23:03.337
у некоторых университетов есть онлайн материалы продвинутого уровня,
several universities have advanced materials online,
435
00:23:03.337 --> 00:23:07.380
например курсы 6.003 и 6.007 "Signals and Systems"
such as the 6.003 and 6.007 Signals and Systems modules
436
00:23:07.380 --> 00:23:08.798
на MIT OpenCourseWare.
at MIT OpenCourseWare.
437
00:23:08.798 --> 00:23:11.593
И, конечно же, сообщество Xiph.Org всегда доступно вам.
And of course, there's always the community here at Xiph.Org.
438
00:23:12.792 --> 00:23:13.929
Копать глубже или нет,
Digging deeper or not,
439
00:23:13.929 --> 00:23:14.974
у меня кончился кофе,
I am out of coffee,
440
00:23:14.974 --> 00:23:16.436
так что до следующих встреч,
so, until next time,
441
00:23:16.436 --> 00:23:19.316
веселого хакинга!
happy hacking!
WEBVTT
1
00:00:05.700 --> 00:00:07.500
["Покажи и расскажи": цифровая версия]
2
00:00:08.252 --> 00:00:11.550
Привет! Я Монти Монтгомери из Red Hat и Xiph.Org.
3
00:00:11.550 --> 00:00:18.430
Несколько месяцев назад я написал статью о цифровом аудио и почему нет смысла в загрузке музыки 24 бит / 192 кГц.
4
00:00:18.430 --> 00:00:23.433
В той статье я почти вскользь отметил, что форма цифровой волны не ступенчатая,
5
00:00:23.433 --> 00:00:28.680
и что вы точно не получите ровные ступеньки, когда преобразуете из цифры обратно в аналог.
6
00:00:29.865 --> 00:00:33.865
Из всего, что было в статье, <b>это</b> было темой номер один, о чем люди писали.
7
00:00:33.865 --> 00:00:37.221
На самом деле, более половины всех полученных писем составили вопросы и комментарии
8
00:00:37.221 --> 00:00:39.663
об основах поведения цифрового сигнала.
9
00:00:39.894 --> 00:00:45.285
Поскольку многим интересно, давайте уделим некоторое время, чтобы поиграться с <u>простым</u> цифровым сигналом.
10
00:00:45.000 --> 00:00:49.000
["Истина из машины"]
11
00:00:49.747 --> 00:00:51.006
Вспомним на секунду,
12
00:00:51.006 --> 00:00:54.089
что мы без понятия, как на самом деле цифровой сигнал ведет себя.
13
00:00:54.734 --> 00:00:56.841
В этом случае нам также нет никакого смысла
14
00:00:56.841 --> 00:00:59.049
использовать цифровое испытательное оборудование.
15
00:00:59.049 --> 00:01:00.937
К счастью, для данной работы где-то здесь
16
00:01:00.937 --> 00:01:04.020
все еще имеется куча аналогового лабораторного оборудования.
17
00:01:04.020 --> 00:01:05.972
Во-первых, нам нужен генератор сигналов,
18
00:01:05.972 --> 00:01:08.190
чтобы обеспечить нас аналоговыми входными сигналами.
19
00:01:08.190 --> 00:01:12.692
В данном случае это HP3325 1978 года.
20
00:01:12.692 --> 00:01:14.153
Это по-прежнему довольно хороший генератор,
21
00:01:14.153 --> 00:01:15.614
так что если вас не заботят габариты,
22
00:01:15.614 --> 00:01:16.532
вес,
23
00:01:16.532 --> 00:01:17.577
потребление электроэнергии
24
00:01:17.577 --> 00:01:18.910
и шумный вентилятор,
25
00:01:18.910 --> 00:01:20.329
то можете найти их на eBay.
26
00:01:20.329 --> 00:01:23.863
Иногда они чуть дороже, чем вы заплатите за доставку.
27
00:01:24.617 --> 00:01:28.500
Затем, мы будем наблюдать за диаграммами аналоговых сигналов на аналоговых осциллографах,
28
00:01:28.500 --> 00:01:31.550
таких как этот Tektronix 2246 из середины 90х –
29
00:01:31.550 --> 00:01:34.761
один из последних и самых лучших аналоговых осциллографов.
30
00:01:34.761 --> 00:01:36.807
В каждой домашней лаборатории по-хорошему должен быть такой.
31
00:01:37.716 --> 00:01:40.852
Наконец, изучим спектр частот наших сигналов,
32
00:01:40.852 --> 00:01:43.177
используя аналоговый анализатор спектра.
33
00:01:43.177 --> 00:01:47.732
Это HP3585 из той же линейки, что и генератор сигналов.
34
00:01:47.732 --> 00:01:50.615
Как и другое имеющееся оборудование, он оснащен
35
00:01:50.615 --> 00:01:52.905
элементарным и нереально большим микроконтроллером,
36
00:01:52.905 --> 00:01:56.276
но сигнал на всем пути от входа до того, что вы видите на экране,
37
00:01:56.276 --> 00:01:58.537
полностью аналоговый.
38
00:01:58.537 --> 00:02:00.329
Все это оборудование старинное,
39
00:02:00.329 --> 00:02:01.993
но, кроме внушительного веса,
40
00:02:01.993 --> 00:02:03.844
характеристики все еще достаточно хорошие.
41
00:02:04.536 --> 00:02:06.868
В данный момент наш генератор сигналов вырабатывает
42
00:02:06.868 --> 00:02:12.829
хорошую 1 кГц синусоиду со среднеквадратичным значением (СКЗ) напряжения 1 В.
43
00:02:13.414 --> 00:02:15.220
Мы видим синусоидальную волну на осциллографе,
44
00:02:15.220 --> 00:02:21.428
можем убедиться, что действительно 1 кГц и имеет СКЗ напряжения 1 В,
45
00:02:21.428 --> 00:02:24.108
то есть волна с размахом 2,8 В,
46
00:02:24.308 --> 00:02:27.561
и что она также соответствует измерениям спектрального анализатора.
47
00:02:27.561 --> 00:02:30.644
Анализатор еще показывает белый шум низкой амплитуды
48
00:02:30.644 --> 00:02:32.190
и небольшое гармоническое искажение
49
00:02:32.190 --> 00:02:36.649
с наибольшим пиком около 70 дБ ниже несущей частоты.
50
00:02:36.649 --> 00:02:38.612
Хоть это и совсем не важно в наших опытах,
51
00:02:38.612 --> 00:02:40.574
но я хотел отметить это сейчас
52
00:02:40.574 --> 00:02:42.452
на случай, если вы не замечали это ранее.
53
00:02:44.036 --> 00:02:47.142
Сейчас мы понизим частоту дискретизации до средних значений.
54
00:02:48.557 --> 00:02:51.024
Для преобразования мы будем использовать непримечательное
55
00:02:51.024 --> 00:02:53.374
потребительское аудиоустройство eMagic USB1.
56
00:02:53.374 --> 00:02:55.337
Оно уже тоже старше десяти лет
57
00:02:55.337 --> 00:02:57.257
и продолжает устаревать.
58
00:02:57.964 --> 00:03:02.676
Современный конвертер без труда может иметь характеристики на порядок выше.
59
00:03:03.076 --> 00:03:07.924
Неравномерность АЧХ, нелинейность, джиттер, шумовые характеристики и прочее…
60
00:03:07.924 --> 00:03:09.353
что вы могли и не заметить.
61
00:03:09.353 --> 00:03:11.604
То, что мы можем измерить улучшение,
62
00:03:11.604 --> 00:03:13.609
не значит, что мы можем это услышать,
63
00:03:13.609 --> 00:03:16.404
и даже эти старые коробочки потребительского уровня
64
00:03:16.404 --> 00:03:18.643
уже тогда были на грани прозрачности [Transparency (data compression)]
65
00:03:20.244 --> 00:03:22.825
eMagic подключен к моему ThinkPad,
66
00:03:22.825 --> 00:03:26.121
который отображает диаграмму цифрового сигнала и спектр для сравнения,
67
00:03:26.121 --> 00:03:28.788
затем ThinkPad отправляет цифровой сигнал обратно в
68
00:03:28.788 --> 00:03:30.921
eMagic для преобразования обратно в аналоговый сигнал
69
00:03:30.921 --> 00:03:33.332
и наблюдения на экране осциллографа.
70
00:03:33.332 --> 00:03:35.582
Со входа на выход. Слева направо.
71
00:03:36.00 --> 00:03:39.000
["Ступеньки"]
72
00:03:40.211 --> 00:03:41.214
Все, пора начинать.
73
00:03:41.214 --> 00:03:43.924
Начнем с преобразования аналогового сигнала в цифровой,
74
00:03:43.924 --> 00:03:47.347
a потом – снова обратно в аналоговый, и больше ничего.
75
00:03:47.347 --> 00:03:49.268
Генератор сигналов настроен на создание
76
00:03:49.268 --> 00:03:52.649
синусоиды с частотой 1 кГц, как и прежде.
77
00:03:52.649 --> 00:03:57.428
Со входа мы можем видеть нашу аналоговую синусоиду на осциллографе.
78
00:03:57.428 --> 00:04:01.694
Мы оцифровываем сигнал с помощью ИКМ (16 бит, 44,1 кГц) –
79
00:04:01.694 --> 00:04:03.828
так же, как звук на CD.
80
00:04:03.828 --> 00:04:07.156
Спектр оцифрованного сигнала соответствует тому, что мы видели ранее. И-и…
81
00:04:07.156 --> 00:04:10.836
вот что мы видим на аналоговом анализаторе спектра,
82
00:04:10.836 --> 00:04:15.154
не считая чуть прибавившихся шумов из-за входа с высоким сопротивлением.
83
00:04:15.154 --> 00:04:15.956
В то же время
84
00:04:18.248 --> 00:04:20.798
окно вывода диаграмм показывает нашу оцифрованную синусоиду
85
00:04:20.798 --> 00:04:23.966
в ступенчатом виде – по ступеньке на отсчет.
86
00:04:23.966 --> 00:04:26.388
И, когда мы смотрим на выходной сигнал,
87
00:04:26.388 --> 00:04:29.054
т.е. сконвертированный в аналоговый из цифрового, мы видим…
88
00:04:29.054 --> 00:04:32.052
Он в точности такой же, как первоначальная синусоида.
89
00:04:32.052 --> 00:04:33.483
Никаких ступенек.
90
00:04:33.914 --> 00:04:37.193
Ладно, все же 1 кГц и правда низкая частота.
91
00:04:37.193 --> 00:04:40.633
Может ступеньки просто сложно разглядеть или они были сглажены?
92
00:04:40.739 --> 00:04:49.492
Логично. Давайте поднимем частоту примерно до частоты Найквиста. Скажем, до 15 кГц.
93
00:04:49.492 --> 00:04:53.545
Теперь синусоида описывается менее чем тремя отсчетами за период, и…
94
00:04:53.545 --> 00:04:55.838
цифровая диаграмма выглядит довольно ужасно.
95
00:04:55.838 --> 00:04:59.798
Что ж, внешность обманчива. Аналоговый выход…
96
00:05:01.876 --> 00:05:06.033
по-прежнему идеальная синусоида, точь-в-точь как исходная.
97
00:05:06.633 --> 00:05:09.228
Продолжим поднимать частоту.
98
00:05:17.353 --> 00:05:20.151
16 кГц
99
00:05:23.198 --> 00:05:25.616
17 кГц
100
00:05:28.201 --> 00:05:29.945
18 кГц
101
00:05:33.822 --> 00:05:35.548
19 кГц
102
00:05:40.457 --> 00:05:42.465
20 кГц
103
00:05:49.097 --> 00:05:52.350
Добро пожаловать в верхние пределы слышимости человеком.
104
00:05:52.350 --> 00:05:54.377
Выходная диаграмма сигнала по-прежнему отличная.
105
00:05:54.377 --> 00:05:58.025
Ни рванных краев, ни завалов, ни ступенек.
106
00:05:58.025 --> 00:06:01.342
Так куда пропали ступеньки?
107
00:06:01.342 --> 00:06:03.198
Не отвечайте, это каверзный вопрос.
108
00:06:03.198 --> 00:06:04.318
Ступенек там никогда не было.
109
00:06:04.318 --> 00:06:06.652
Изображение цифровой диаграммы сигнала ступеньками
110
00:06:08.712 --> 00:06:10.772
было изначально неправильным.
111
00:06:10.942 --> 00:06:11.998
Почему?
112
00:06:11.998 --> 00:06:14.366
Ступенчатая кривая – это график непрерывной функции.
113
00:06:14.366 --> 00:06:16.201
Она угловатая и кусочно-постоянная,
114
00:06:16.201 --> 00:06:19.700
но имеет определенное значение в каждый момент времени.
115
00:06:19.700 --> 00:06:22.004
Дискретизированный сигнал совершенно другой.
116
00:06:22.004 --> 00:06:23.337
Он дискретен по времени
117
00:06:23.337 --> 00:06:27.337
и определен только в каждой точке отсчета,
118
00:06:27.337 --> 00:06:32.596
и не определен, т.е. вообще нет значений, всюду между отсчетами.
119
00:06:32.596 --> 00:06:36.666
Дискретный сигнал следует изображать дискретными отсчетами.
120
00:06:40.020 --> 00:06:42.974
Непрерывный аналоговый коллега цифрового сигнала
121
00:06:42.974 --> 00:06:45.364
плавно проходит каждую точку отсчета,
122
00:06:45.364 --> 00:06:50.153
и это также справедливо как для высоких частот, так и для низких.
123
00:06:50.153 --> 00:06:53.033
Далее, интересная и совсем не очевидная часть:
124
00:06:53.033 --> 00:06:55.454
существует только один сигнал с ограниченной полосой частот, проходящий
125
00:06:55.454 --> 00:06:57.417
строго через каждую точку отсчета.
126
00:06:57.417 --> 00:06:58.708
Это единственное решение.
127
00:06:58.708 --> 00:07:01.246
Так что если вы дискретизируете сигнал с ограниченной полосой частот
128
00:07:01.246 --> 00:07:02.612
и потом конвертируете обратно,
129
00:07:02.612 --> 00:07:06.462
то исходный входной сигнал – единственный возможный сигнал на выходе.
130
00:07:06.462 --> 00:07:07.838
И прежде, чем вы скажете:
131
00:07:07.838 --> 00:07:11.721
"Ну, я могу нарисовать другой сигнал, проходящий через эти точки".
132
00:07:11.721 --> 00:07:14.283
Хорошо, да, вы можете, но…
133
00:07:17.268 --> 00:07:20.521
Даже если сигнал отличается едва заметно от исходного,
134
00:07:20.521 --> 00:07:24.905
то он содержит частотную составляющую на частоте Найквиста или за ее пределом,
135
00:07:24.905 --> 00:07:26.185
нарушая требование ограниченности полосы частот,
136
00:07:26.185 --> 00:07:28.358
что делает такой сигнал неподходящим решением.
137
00:07:28.574 --> 00:07:30.036
Как же так все сбились с толку
138
00:07:30.036 --> 00:07:32.702
и начали думать о цифровом сигнале как о ступенчатой кривой?
139
00:07:32.702 --> 00:07:34.900
Я могу придумать две хорошие причины.
140
00:07:34.900 --> 00:07:37.956
Первая – довольно просто представить дискретизированный сигнал
141
00:07:37.972 --> 00:07:39.294
в виде ступенчатой кривой.
142
00:07:39.294 --> 00:07:42.409
Просто расширьте значение каждой точки отсчета вперед до следующего отсчета.
143
00:07:42.409 --> 00:07:44.414
Это называется экстраполяцией нулевого порядка
144
00:07:44.414 --> 00:07:47.913
и является важной частью в работе некоторых цифро-аналоговых преобразователей,
145
00:07:47.913 --> 00:07:50.089
особенно самых простых из них.
146
00:07:50.089 --> 00:07:55.591
Так что любой кто ищет о цифро-аналоговом преобразовании,
147
00:07:55.592 --> 00:07:59.550
вероятно, увидит где-нибудь диаграмму со ступенчатой кривой,
148
00:07:59.550 --> 00:08:01.982
но это не законченное преобразование,
149
00:08:01.982 --> 00:08:04.250
и это не сигнал, получаемый на выходе.
150
00:08:04.944 --> 00:08:05.684
Вторая причина –
151
00:08:05.684 --> 00:08:07.529
и это, видимо, более вероятная причина –
152
00:08:07.529 --> 00:08:09.449
инженеры, которые вроде как знают лучше,
153
00:08:09.449 --> 00:08:10.441
типа меня,
154
00:08:10.441 --> 00:08:13.193
рисуют ступенчатые кривые, пусть даже эти графики технически неправильны.
155
00:08:13.193 --> 00:08:15.571
Это что-то типа одномерной версии
156
00:08:15.571 --> 00:08:17.395
растолстевших бит в цифровых редакторах.
157
00:08:17.395 --> 00:08:19.241
Пиксели тоже не квадратные, они –
158
00:08:19.241 --> 00:08:23.081
отсчеты функции, заданной на двумерном пространстве, так что они тоже,
159
00:08:23.081 --> 00:08:26.366
концептуально, – бесконечно маленькие точки.
160
00:08:26.366 --> 00:08:28.500
На практике, это тот еще геморрой – смотреть
161
00:08:28.500 --> 00:08:30.804
или обрабатывать что-либо бесконечно маленькое.
162
00:08:30.804 --> 00:08:32.212
Поэтому и большие квадраты.
163
00:08:32.212 --> 00:08:35.966
Тоже самое и с изображением цифровых сигналов ступеньками.
164
00:08:35.966 --> 00:08:37.684
Так просто удобнее рисовать.
165
00:08:37.684 --> 00:08:40.404
Никаких ступенек на самом деле нет.
166
00:08:41.000 --> 00:08:45.000
["Глубина дискретизации"]
167
00:08:45.652 --> 00:08:48.233
Когда мы преобразовываем цифру обратно в аналог,
168
00:08:48.233 --> 00:08:50.900
результат <u>такой же</u> плавный независимо от глубины дискретизации:
169
00:08:50.900 --> 00:08:53.193
24 бит или 16 бит…
170
00:08:53.193 --> 00:08:54.196
или 8 бит…
171
00:08:54.196 --> 00:08:55.486
– без разницы.
172
00:08:55.486 --> 00:08:57.534
Значит ли это, что глубина дискретизации
173
00:08:57.534 --> 00:08:58.953
совсем ни на что не влияет?
174
00:08:59.245 --> 00:09:00.521
Конечно нет.
175
00:09:02.121 --> 00:09:06.046
Второй канал здесь – это та же входная синусоида,
176
00:09:06.046 --> 00:09:09.086
но мы квантуем с дизерингом, используя глубину 8 бит.
177
00:09:09.086 --> 00:09:14.174
На осциллографе мы все еще видим плавную синусоиду на 2-м канале.
178
00:09:14.174 --> 00:09:18.014
Присмотритесь внимательнее, и вы также увидите немного больше шума.
179
00:09:18.014 --> 00:09:19.305
Вот, в чем загвоздка.
180
00:09:19.305 --> 00:09:21.273
Если мы посмотрим на спектр сигнала…
181
00:09:22.889 --> 00:09:23.732
Ага!
182
00:09:23.732 --> 00:09:26.398
Наша синусоида все еще там нетронутая,
183
00:09:26.398 --> 00:09:28.490
но уровень шума восьмибитного сигнала
184
00:09:28.490 --> 00:09:32.470
на 2-м канале намного выше!
185
00:09:32.948 --> 00:09:36.148
В этом и заключается отличие между разным числом бит.
186
00:09:36.148 --> 00:09:37.434
Вот и все!
187
00:09:37.822 --> 00:09:39.956
Когда мы оцифровываем сигнал, сперва мы дискретизируем его.
188
00:09:39.956 --> 00:09:42.366
Этап дискретизирования идеален: потерь не происходит.
189
00:09:42.366 --> 00:09:45.626
Но потом мы квантуем его, и квантование добавляет шум.
190
00:09:47.827 --> 00:09:50.793
Число бит определяет то, как много шума добавится,
191
00:09:50.793 --> 00:09:52.569
и потому – степень уровня шума.
192
00:10:00.170 --> 00:10:03.646
Как звучит этот шум квантования после дизеринга?
193
00:10:03.646 --> 00:10:06.012
Давайте послушаем нашу восьмибитную синусоиду.
194
00:10:12.521 --> 00:10:15.273
Наверно, было сложно что-либо услышать, кроме тона.
195
00:10:15.273 --> 00:10:18.740
Давайте послушаем только шум, подавив сперва синусоиду,
196
00:10:18.740 --> 00:10:21.683
а потом сделав все чуть громче, потому что шум тихий.
197
00:10:32.009 --> 00:10:35.049
Те из вас, кто пользовался аналоговыми записывающими устройствами,
198
00:10:35.049 --> 00:10:36.670
могли подумать про себя:
199
00:10:36.670 --> 00:10:40.382
"Боже мой! Это звучит как шипение ленты!"
200
00:10:40.382 --> 00:10:41.929
Что ж, это не просто звучит как шипение магнитной ленты –
201
00:10:41.929 --> 00:10:43.433
оно ведет себя также,
202
00:10:43.433 --> 00:10:45.225
и если мы применим дизеринг с гауссовой функцией плотности распределения вероятности,
203
00:10:45.225 --> 00:10:47.646
то этот шум будет математически эквивалентным во всех отношениях.
204
00:10:47.646 --> 00:10:49.225
Это и <u>есть</u> шипение ленты.
205
00:10:49.225 --> 00:10:51.774
Легко догадаться, что мы можем измерить шипение ленты
206
00:10:51.774 --> 00:10:54.196
и, следовательно, уровень шума магнитной аудиокассеты
207
00:10:54.196 --> 00:10:56.233
в битах, а не в децибелах,
208
00:10:56.233 --> 00:10:59.902
чтобы рассмотреть все сквозь цифровую призму.
209
00:10:59.902 --> 00:11:03.028
Компакт-кассеты…
210
00:11:03.028 --> 00:11:05.449
для тех из вас, кто достаточно взрослый, чтобы помнить их, –
211
00:11:05.449 --> 00:11:09.161
они могли достигать глубины в 9 бит в идеальных условиях,
212
00:11:09.161 --> 00:11:11.209
хотя как правило – от 5 до 6 бит,
213
00:11:11.209 --> 00:11:13.876
особенно, если это была запись, сделанная на магнитофон.
214
00:11:13.876 --> 00:11:19.422
Так и есть… ваши кассеты с миксами были лишь около 6 бит глубины дискретизации… если вам повезет!
215
00:11:19.837 --> 00:11:22.345
Лучшие профессиональные ленты для катушечного магнитофона,
216
00:11:22.345 --> 00:11:24.553
используемые в студиях, едва могли достигнуть…
217
00:11:24.553 --> 00:11:26.473
как думаете, сколько?
218
00:11:26.473 --> 00:11:27.604
13 бит
219
00:11:27.604 --> 00:11:28.980
<u>с применением</u> улучшенного шумоподавления.
220
00:11:28.980 --> 00:11:32.062
И вот почему видеть "DDD" на компакт-диске
221
00:11:32.062 --> 00:11:35.208
было таким важным, крутым делом.
222
00:11:35.800 --> 00:11:39.800
["Дизеринг"]
223
00:11:40.116 --> 00:11:42.825
Я постоянно говорю, что при квантовании применяю дизеринг,
224
00:11:42.825 --> 00:11:44.734
что это вообще такое?
225
00:11:44.734 --> 00:11:47.284
А главное, что делает дизеринг?
226
00:11:47.284 --> 00:11:49.876
Простым способом при квантовании сигнала является выбор
227
00:11:49.876 --> 00:11:52.329
ближайшего цифрового значения амплитуды
228
00:11:52.329 --> 00:11:54.377
к исходной аналоговой амплитуде.
229
00:11:54.377 --> 00:11:55.337
Очевидно, правда?
230
00:11:55.337 --> 00:11:57.545
К несчастью, точный уровень шума, получаемый,
231
00:11:57.545 --> 00:11:59.220
используя такой простой подход при квантовании,
232
00:11:59.220 --> 00:12:02.174
отчасти зависит от входного сигнала,
233
00:12:02.174 --> 00:12:04.596
поэтому мы можем получить или нестабильный,
234
00:12:04.596 --> 00:12:06.142
или вызывающий искажения,
235
00:12:06.142 --> 00:12:09.054
или нежелательный в каком-то другом смысле шум.
236
00:12:09.054 --> 00:12:11.764
Дизеринг – это специально созданный шум, которым
237
00:12:11.764 --> 00:12:15.273
подменяют производимый при квантовании шум.
238
00:12:15.273 --> 00:12:18.025
Дизеринг не заглушает или маскирует шум квантования,
239
00:12:18.025 --> 00:12:20.190
он фактически заменяет его
240
00:12:20.190 --> 00:12:22.612
желаемыми шумовыми характеристиками,
241
00:12:22.612 --> 00:12:24.794
не попадающими под влияние входного сигнала.
242
00:12:25.256 --> 00:12:27.081
Давайте <u>посмотрим</u>, что делает дизеринг.
243
00:12:27.081 --> 00:12:30.078
У генератора сигналов слишком много шумов для данного опыта,
244
00:12:30.431 --> 00:12:33.161
поэтому будем создавать математически
245
00:12:33.161 --> 00:12:34.782
идеальную синусоиду с помощью ThinkPad
246
00:12:34.782 --> 00:12:38.205
и квантовать с глубиной дискретизации 8 бит и дизерингом.
247
00:12:39.006 --> 00:12:41.342
Мы видим хорошую синусоиду на экране временных диаграмм
248
00:12:41.342 --> 00:12:43.452
и на выходе осциллографа
249
00:12:44.222 --> 00:12:44.972
и…
250
00:12:46.588 --> 00:12:49.375
как только аналоговый анализатор спектра оживится…
251
00:12:50.713 --> 00:12:53.588
отчетливый частотный пик с равномерным уровнем шума
252
00:12:56.864 --> 00:12:58.611
на обоих экранах со спектром,
253
00:12:58.61 1 --> 00:12:59.646
как и ранее.
254
00:12:59.646 --> 00:13:01.549
Повторюсь, это с дизерингом.
255
00:13:02.196 --> 00:13:04.225
Теперь я выключаю дизеринг.
256
00:13:05.779 --> 00:13:07.913
Шум квантования, который был распределен дизерингом
257
00:13:07.913 --> 00:13:09.577
в хороший плоский уровень шума,
258
00:13:09.577 --> 00:13:12.286
сплющился в пики гармонического искажения.
259
00:13:12.286 --> 00:13:16.030
Уровень шума ниже, но уровень искажений уже ненулевой,
260
00:13:16.030 --> 00:13:19.668
и пики искажений установились выше, чем шум шум дизеринга.
261
00:13:19.668 --> 00:13:22.318
На восьми битах этот эффект утрирован.
262
00:13:22.488 --> 00:13:24.200
На шестнадцати битах,
263
00:13:24.692 --> 00:13:25.929
даже без дизеринга,
264
00:13:25.929 --> 00:13:28.308
гармонические искажения будут такими низкими,
265
00:13:28.308 --> 00:13:30.708
что их практически не услышать.
266
00:13:30.708 --> 00:13:34.581
Все равно, мы можем использовать дизеринг, чтобы полностью устранить искажения,
267
00:13:34.581 --> 00:13:36.489
если мы так выберем.
268
00:13:37.642 --> 00:13:39.273
Снова выключим дизеринг ненадолго,
269
00:13:40.934 --> 00:13:43.444
и вы заметите, что абсолютный уровень искажений
270
00:13:43.444 --> 00:13:47.070
при квантовании без дизеринга остается примерно постоянным
271
00:13:47.070 --> 00:13:49.033
независимо от амплитуды входного сигнала.
272
00:13:49.033 --> 00:13:51.998
Но когда уровень сигнала опускается немного ниже половины,
273
00:13:51.998 --> 00:13:54.036
все квантуется в ноль.
274
00:13:54.036 --> 00:13:54.910
По сути,
275
00:13:54.910 --> 00:13:58.557
"все квантуется в ноль" просто означает 100% искажение!
276
00:13:58.833 --> 00:14:01.588
Дизеринг тоже устраняет эти искажения.
277
00:14:01.588 --> 00:14:03.599
Мы снова включаем дизеринг и…
278
00:14:03.599 --> 00:14:06.377
наш сигнал появляется на 1/4 бит,
279
00:14:06.377 --> 00:14:09.076
вместе с хорошим плоским уровнем шума.
280
00:14:09.630 --> 00:14:11.220
Уровень шума не обязан быть плоским.
281
00:14:11.220 --> 00:14:12.798
Дизеринг – это шум, выбираемый нами,
282
00:14:12.798 --> 00:14:15.006
так давайте выберем шум настолько безобидный
283
00:14:15.006 --> 00:14:17.017
и труднозаметный, насколько возможно.
284
00:14:18.142 --> 00:14:22.484
Наш слух наиболее чувствителен в промежутке от 2 до 4 кГц,
285
00:14:22.484 --> 00:14:25.438
поэтому здесь фоновый шум будет наиболее заметным.
286
00:14:25.438 --> 00:14:29.406
Мы можем сформировать шум дизеринга подальше от чувствительных частот
287
00:14:29.406 --> 00:14:31.241
туда, где слух менее восприимчив –
288
00:14:31.241 --> 00:14:33.910
обычно это область высоких частот.
289
00:14:34.249 --> 00:14:37.460
16 бит шум дизеринга, как правило, слишком тихий, чтобы услышать,
290
00:14:37.460 --> 00:14:39.668
но давайте послушаем пример работы нойз-шейпинга,
291
00:14:39.668 --> 00:14:42.234
опять же, с усилением сигнала…
292
00:14:56.020 --> 00:14:59.977
И наконец, общая мощность шума квантования после дизеринга <u>выше</u>,
293
00:14:59.977 --> 00:15:04.276
чем шум квантования без дизеринга, даже если первый звучит тише.
294
00:15:04.276 --> 00:15:07.902
Можете увидеть это на измерителе уровня звука во время тишины.
295
00:15:07.902 --> 00:15:10.537
Но дизеринг не только можно включить или выключить.
296
00:15:10.537 --> 00:15:14.712
Мы можем ослабить мощность дизеринга, балансируя между тишиной шума
297
00:15:14.712 --> 00:15:18.313
и незначительными искажениями, минимизируя общий эффект.
298
00:15:19.605 --> 00:15:22.790
Также мы будем модулировать входной сигнал вот так:
299
00:15:27.098 --> 00:15:30.206
…чтобы показать, как изменение входного сигнала влияет на шум квантования.
300
00:15:30.206 --> 00:15:33.289
На полной мощности дизеринга, шум единообразен, постоянен
301
00:15:33.289 --> 00:15:35.643
и невыразителен, как мы и ожидали:
302
00:15:40.937 --> 00:15:42.772
При уменьшении мощности дизеринга,
303
00:15:42.772 --> 00:15:46.356
входной сигнал все больше и больше влияет на амплитуду и свойства
304
00:15:46.356 --> 00:15:47.977
шума квантования:
305
00:16:09.883 --> 00:16:13.844
Поведение дизеринга после ноиз-шейпинга схоже,
306
00:16:13.844 --> 00:16:16.553
но ноиз-шейпинг дает еще одно хорошее преимущество.
307
00:16:16.553 --> 00:16:18.804
Короче говоря, он может использовать
308
00:16:18.804 --> 00:16:20.937
слегка меньшую мощность дизеринга прежде, чем входной сигнал
309
00:16:20.937 --> 00:16:23.662
окажет соответствующее влияние на выходной.
310
00:16:49.172 --> 00:16:51.508
Несмотря на все это время, что я потратил на дизеринг,
311
00:16:51.508 --> 00:16:53.012
мы говорим о различиях,
312
00:16:53.012 --> 00:16:56.372
начинающихся на 100 дБ ниже измеряемого диапазона.
313
00:16:56.372 --> 00:16:59.806
Возможно, если бы CD имели 14 бит, как изначально задумывалось,
314
00:16:59.806 --> 00:17:01.513
дизеринг <u>мог бы</u> быть важнее.
315
00:17:01.989 --> 00:17:02.644
Возможно.
316
00:17:02.644 --> 00:17:05.438
С 16 бит, на самом деле, почти без разницы.
317
00:17:05.438 --> 00:17:08.019
Вы можете думать о дизеринге как о страховке,
318
00:17:08.019 --> 00:17:11.443
дающей несколько дополнительных дБ к динамическому диапазону
319
00:17:11.443 --> 00:17:12.804
на всякий случай.
320
00:17:12.990 --> 00:17:14.196
Тем не менее, факт в том, что,
321
00:17:14.196 --> 00:17:16.361
никто не уничтожил великолепную запись,
322
00:17:16.361 --> 00:17:19.182
не воспользовавшись дизерингом при мастеринге звукозаписи.
323
00:17:19.600 --> 00:17:23.600
["Ограничение полосы частот и синхронизация"]
324
00:17:24.414 --> 00:17:25.790
Мы использовали синусоиды.
325
00:17:25.790 --> 00:17:28.254
Они являются очевидным выбором когда то, что хотим увидеть –
326
00:17:28.254 --> 00:17:32.212
это поведение системы на данной отдельной частоте.
327
00:17:32.212 --> 00:17:34.217
Теперь давайте рассмотрим кое-что посложнее.
328
00:17:34.217 --> 00:17:35.923
Что нам следует ожидать,
329
00:17:35.923 --> 00:17:39.671
когда я изменю входной сигнал на меандр?
330
00:17:42.718 --> 00:17:45.921
Осциллограф на входе выводит наш 1 кГц меандр.
331
00:17:45.921 --> 00:17:47.351
А осциллограф на выходе показывает…
332
00:17:48.614 --> 00:17:51.102
В точности, что и следует.
333
00:17:51.102 --> 00:17:53.900
Что такое меандр на самом деле?
334
00:17:54.654 --> 00:17:57.982
Скажем, это диаграмма сигнала, где есть положительное значение
335
00:17:57.982 --> 00:18:00.788
во время одного полупериода, мгновенно меняющееся
336
00:18:00.788 --> 00:18:02.910
на отрицательное в другом полупериоде.
337
00:18:02.910 --> 00:18:05.076
Но это на самом деле не сообщает ничего полезного о том,
338
00:18:05.076 --> 00:18:07.241
как этот входной сигнал
339
00:18:07.241 --> 00:18:09.378
становится таким на выходе.
340
00:18:10.132 --> 00:18:12.713
Далее, мы помним, что любая волна
341
00:18:12.713 --> 00:18:15.508
также является суммой дискретных частот,
342
00:18:15.508 --> 00:18:18.302
и меандр, в частности, – просто сумма
343
00:18:18.302 --> 00:18:19.636
несущей частоты и
344
00:18:19.636 --> 00:18:22.228
бесконечного числа нечетных гармоник.
345
00:18:22.228 --> 00:18:24.597
Сложите их все, и вы получите меандр.
346
00:18:26.398 --> 00:18:27.433
На первый взгляд,
347
00:18:27.433 --> 00:18:29.225
это тоже не похоже на полезную информацию.
348
00:18:29.225 --> 00:18:31.561
Необходимо сложить бесконечное число гармоник,
349
00:18:31.561 --> 00:18:33.108
чтобы получить ответ.
350
00:18:33.108 --> 00:18:35.977
А, но у нас нет бесконечного числа гармоник.
351
00:18:36.960 --> 00:18:39.902
У нас антиалиасинговый фильтр с крутым спадом переходной полосы,
352
00:18:39.902 --> 00:18:42.206
частота среза которого 20 кГц,
353
00:18:42.206 --> 00:18:44.158
поэтому наш сигнал ограничен по полосе частот,
354
00:18:44.158 --> 00:18:46.421
что означает следующее:
355
00:18:52.500 --> 00:18:56.468
…и это в точности, что мы видим на осциллографе с выхода.
356
00:18:56.468 --> 00:18:59.550
Пульсация, которую вы видите по краям сигнала с ограниченной полосой частот,
357
00:18:59.550 --> 00:19:00.926
называется "явлением Гиббса".
358
00:19:00.926 --> 00:19:04.137
Оно происходит всякий раз, когда вы срезаете часть области частот
359
00:19:04.137 --> 00:19:07.006
в пределах которой сосредоточена энергия сигнала.
360
00:19:07.006 --> 00:19:09.854
Обычно вы услышите эмпирическое правило: чем круче спад переходной полосы,
361
00:19:09.854 --> 00:19:11.188
тем сильнее пульсация.
362
00:19:11.188 --> 00:19:12.777
Что в общем-то правда,
363
00:19:12.777 --> 00:19:14.900
но нужно быть осторожнее в наших представлениях.
364
00:19:14.900 --> 00:19:15.774
Например…
365
00:19:15.774 --> 00:19:19.529
Что по-вашему будет делать наш "крутой" антиалиасинговый
366
00:19:19.529 --> 00:19:23.181
фильтр, если я пропущу через него сигнал дважды?
367
00:19:34.136 --> 00:19:37.588
Помимо добавления нескольких незначительных циклов задержек,
368
00:19:37.588 --> 00:19:39.348
ответ будет…
369
00:19:39.348 --> 00:19:40.857
вообще ничего.
370
00:19:41.257 --> 00:19:43.302
Сигнал уже ограничен по полосе частот.
371
00:19:43.656 --> 00:19:46.590
Повторное ограничение полосы частот ни на что не влияет.
372
00:19:46.590 --> 00:19:50.686
Второй проход не может убрать частоты, которые уже были удалены.
373
00:19:52.070 --> 00:19:53.737
И это важно.
374
00:19:53.737 --> 00:19:56.233
Люди склонны думать о пульсации как о своего рода артефакте,
375
00:19:56.233 --> 00:19:59.945
добавляемом антиалиасинговым и реконструкционным фильтрами,
376
00:19:59.945 --> 00:20:01.737
считая, что пульсация становится хуже
377
00:20:01.737 --> 00:20:03.913
с каждым проходом сигнала через них.
378
00:20:03.913 --> 00:20:05.950
Мы видим, что в данном случае этого не случилось.
379
00:20:05.950 --> 00:20:09.492
Так был ли это на самом деле фильтр, добавивший пульсацию при 1-м проходе?
380
00:20:09.492 --> 00:20:10.537
Нет, не совсем.
381
00:20:10.537 --> 00:20:12.126
Это деликатный момент,
382
00:20:12.126 --> 00:20:15.252
т.к. пульсация при эффекте Гиббса добавляется не фильтрами –
383
00:20:15.252 --> 00:20:18.836
она просто часть того, <u>чем является</u> сигнал с ограниченной полосой частот.
384
00:20:18.836 --> 00:20:20.798
Даже если мы искусственно сгенерируем сигнал,
385
00:20:20.798 --> 00:20:23.508
который выглядит как идеальный цифровой меандр,
386
00:20:23.508 --> 00:20:26.206
его полоса частот все равно ограничена полосой пропускания передающего канала.
387
00:20:26.206 --> 00:20:29.140
Вспомните, что ступенчатое представление кривой неточно.
388
00:20:29.140 --> 00:20:32.222
Что на самом деле есть у нас – это точки отсчета,
389
00:20:32.222 --> 00:20:36.148
и только 1 сигнал с ограниченной полосой частот подходит к этим точкам.
390
00:20:36.148 --> 00:20:39.614
Все что мы сделали, когда рисовали наш идеальный меандр,
391
00:20:39.614 --> 00:20:43.198
это расставили точки отсчета как раз, чтобы сложилось впечатление,
392
00:20:43.198 --> 00:20:47.785
что здесь нет пульсаций, если мы сыграем в "Соедини точки".
393
00:20:47.785 --> 00:20:49.449
Но исходный сигнал с ограниченной полосой частот
394
00:20:49.449 --> 00:20:52.742
вместе с пульсациями все еще там.
395
00:20:54.004 --> 00:20:56.542
И это ведет нас к еще одному важному моменту.
396
00:20:56.542 --> 00:20:59.550
Вы наверняка уже слышали, что точность синхронизации цифрового сигнала
397
00:20:59.550 --> 00:21:02.409
ограничена его частотой дискретизации; другими словами,
398
00:21:02.409 --> 00:21:05.140
якобы цифровые сигналы не могут представлять ничего,
399
00:21:05.140 --> 00:21:08.041
что попадает между точками отсчетов…
400
00:21:08.041 --> 00:21:11.422
имеется в виду, что импульсы или резкие скачки должны быть четко
401
00:21:11.422 --> 00:21:14.473
выравнены с отсчетами, или синхронизация будет утрачена…
402
00:21:14.473 --> 00:21:16.219
и они просто исчезнут.
403
00:21:16.711 --> 00:21:20.820
Теперь мы легко можем увидеть, почему это не так.
404
00:21:20.820 --> 00:21:23.742
Еще раз, наш входной сигнал ограничен по полосе частот.
405
00:21:23.742 --> 00:21:26.036
И цифровой сигнал – это точки отсчета,
406
00:21:26.036 --> 00:21:29.340
не ступеньки, не "Соедини точки".
407
00:21:31.572 --> 00:21:34.592
Мы определенно можем, например,
408
00:21:36.777 --> 00:21:39.337
разместить фронт нашего меандра с ограниченной полосой частот
409
00:21:39.337 --> 00:21:42.004
в любом месте между отсчетами.
410
00:21:42.004 --> 00:21:44.354
Меандр отлично изображается
411
00:21:47.508 --> 00:21:50.218
и отлично восстанавливается.
412
00:21:56.000 --> 00:22:02.000
["Эпилог"]
413
00:22:04.620 --> 00:22:06.526
Как и в предыдущей части,
414
00:22:06.526 --> 00:22:08.393
мы охватили широкий круг тем,
415
00:22:08.393 --> 00:22:10.868
и при этом лишь едва коснулись каждой из них.
416
00:22:10.868 --> 00:22:13.620
Если уж на то пошло, то в этот раз у меня больше грехов упущения…
417
00:22:13.620 --> 00:22:16.286
но это хороший момент все завершить.
418
00:22:16.286 --> 00:22:17.833
Или, может, хорошая отправная точка.
419
00:22:17.833 --> 00:22:18.708
Пробуйте копнуть глубже.
420
00:22:18.708 --> 00:22:19.710
Экспериментируйте.
421
00:22:19.710 --> 00:22:21.374
Я со всей тщательностью подбирал опыты,
422
00:22:21.374 --> 00:22:23.668
чтобы они были простыми и красноречивыми.
423
00:22:23.668 --> 00:22:26.217
Вы можете воспроизвести каждый из них самостоятельно, если хотите.
424
00:22:26.217 --> 00:22:28.766
Только давайте признаемся, что иногда мы узнаем больше
425
00:22:28.766 --> 00:22:30.516
о модной игрушке, разобрав ее до основания
426
00:22:30.516 --> 00:22:32.553
и изучая все выпавшие кусочки.
427
00:22:32.553 --> 00:22:35.230
И это нормально – мы инженеры.
428
00:22:35.230 --> 00:22:36.350
Поиграйтесь с демо-параметрами,
429
00:22:36.350 --> 00:22:37.972
хакните код,
430
00:22:37.972 --> 00:22:39.774
проведите другие опыты.
431
00:22:39.774 --> 00:22:40.692
Исходный код для всего,
432
00:22:40.692 --> 00:22:42.398
включая небольшое кнопочное демо-приложение,
433
00:22:42.398 --> 00:22:44.361
выложен на Xiph.Org.
434
00:22:44.361 --> 00:22:45.940
В ходе экспериментов,
435
00:22:45.940 --> 00:22:47.401
вы, скорее всего, столкнетесь с чем-то,
436
00:22:47.401 --> 00:22:49.950
чего не ожидали и не можете объяснить.
437
00:22:49.950 --> 00:22:51.198
Не переживайте!
438
00:22:51.198 --> 00:22:54.537
Без шуток, Википедия потрясающе подходит
439
00:22:54.537 --> 00:22:56.788
как раз для подобных неформальных исследований.
440
00:22:56.788 --> 00:22:59.956
Если вы действительно серьезно намерены разобраться в сигналах,
441
00:22:59.956 --> 00:23:03.337
у некоторых университетов есть онлайн материалы продвинутого уровня,
442
00:23:03.337 --> 00:23:07.380
например курсы 6.003 и 6.007 "Signals and Systems"
443
00:23:07.380 --> 00:23:08.798
на MIT OpenCourseWare.
444
00:23:08.798 --> 00:23:11.593
И, конечно же, сообщество Xiph.Org всегда доступно вам.
445
00:23:12.792 --> 00:23:13.929
Копать глубже или нет,
446
00:23:13.929 --> 00:23:14.974
у меня кончился кофе,
447
00:23:14.974 --> 00:23:16.436
так что до следующих встреч,
448
00:23:16.436 --> 00:23:19.316
веселого хакинга!
449
00:23:20.000 --> 00:23:23.000
[Титры]
WEBVTT
1
00:00:08.252 --> 00:00:11.550
Привет! Я Монти Монтгомери из Red Hat и Xiph.Org.
2
00:00:11.550 --> 00:00:18.430
Несколько месяцев назад я написал статью о цифровом аудио и почему нет смысла в загрузке музыки 24 бит / 192 кГц.
3
00:00:18.430 --> 00:00:23.433
В той статье я почти вскользь отметил, что форма цифровой волны не ступенчатая,
4
00:00:23.433 --> 00:00:28.680
и что вы точно не получите ровные ступеньки, когда преобразуете из цифры обратно в аналог.
5
00:00:29.865 --> 00:00:33.865
Из всего, что было в статье, <b>это</b> было темой номер один, о чем люди писали.
6
00:00:33.865 --> 00:00:37.221
На самом деле, более половины всех полученных писем составили вопросы и комментарии
7
00:00:37.221 --> 00:00:39.663
об основах поведения цифрового сигнала.
8
00:00:39.894 --> 00:00:45.285
Поскольку многим интересно, давайте уделим некоторое время, чтобы поиграться с <u>простым</u> цифровым сигналом.
9
00:00:49.747 --> 00:00:51.006
Вспомним на секунду,
10
00:00:51.006 --> 00:00:54.089
что мы без понятия, как на самом деле цифровой сигнал ведет себя.
11
00:00:54.734 --> 00:00:56.841
В этом случае нам также нет никакого смысла
12
00:00:56.841 --> 00:00:59.049
использовать цифровое испытательное оборудование.
13
00:00:59.049 --> 00:01:00.937
К счастью, для данной работы где-то здесь
14
00:01:00.937 --> 00:01:04.020
все еще имеется куча аналогового лабораторного оборудования.
15
00:01:04.020 --> 00:01:05.972
Во-первых, нам нужен генератор сигналов,
16
00:01:05.972 --> 00:01:08.190
чтобы обеспечить нас аналоговыми входными сигналами.
17
00:01:08.190 --> 00:01:12.692
В данном случае это HP3325 1978 года.
18
00:01:12.692 --> 00:01:14.153
Это по-прежнему довольно хороший генератор,
19
00:01:14.153 --> 00:01:15.614
так что если вас не заботят габариты,
20
00:01:15.614 --> 00:01:16.532
вес,
21
00:01:16.532 --> 00:01:17.577
потребление электроэнергии
22
00:01:17.577 --> 00:01:18.910
и шумный вентилятор,
23
00:01:18.910 --> 00:01:20.329
то можете найти их на eBay.
24
00:01:20.329 --> 00:01:23.863
Иногда они чуть дороже, чем вы заплатите за доставку.
25
00:01:24.617 --> 00:01:28.500
Затем, мы будем наблюдать за диаграммами аналоговых сигналов на аналоговых осциллографах,
26
00:01:28.500 --> 00:01:31.550
таких как этот Tektronix 2246 из середины 90х –
27
00:01:31.550 --> 00:01:34.761
один из последних и самых лучших аналоговых осциллографов.
28
00:01:34.761 --> 00:01:36.807
В каждой домашней лаборатории по-хорошему должен быть такой.
29
00:01:37.716 --> 00:01:40.852
Наконец, изучим спектр частот наших сигналов,
30
00:01:40.852 --> 00:01:43.177
используя аналоговый анализатор спектра.
31
00:01:43.177 --> 00:01:47.732
Это HP3585 из той же линейки, что и генератор сигналов.
32
00:01:47.732 --> 00:01:50.615
Как и другое имеющееся оборудование, он оснащен
33
00:01:50.615 --> 00:01:52.905
элементарным и нереально большим микроконтроллером,
34
00:01:52.905 --> 00:01:56.276
но сигнал на всем пути от входа до того, что вы видите на экране,
35
00:01:56.276 --> 00:01:58.537
полностью аналоговый.
36
00:01:58.537 --> 00:02:00.329
Все это оборудование старинное,
37
00:02:00.329 --> 00:02:01.993
но, кроме внушительного веса,
38
00:02:01.993 --> 00:02:03.844
характеристики все еще достаточно хорошие.
39
00:02:04.536 --> 00:02:06.868
В данный момент наш генератор сигналов вырабатывает
40
00:02:06.868 --> 00:02:12.829
хорошую 1 кГц синусоиду со среднеквадратичным значением (СКЗ) напряжения 1 В.
41
00:02:13.414 --> 00:02:15.220
Мы видим синусоидальную волну на осциллографе,
42
00:02:15.220 --> 00:02:21.428
можем убедиться, что действительно 1 кГц и имеет СКЗ напряжения 1 В,
43
00:02:21.428 --> 00:02:24.108
то есть волна с размахом 2,8 В,
44
00:02:24.308 --> 00:02:27.561
и что она также соответствует измерениям спектрального анализатора.
45
00:02:27.561 --> 00:02:30.644
Анализатор еще показывает белый шум низкой амплитуды
46
00:02:30.644 --> 00:02:32.190
и небольшое гармоническое искажение
47
00:02:32.190 --> 00:02:36.649
с наибольшим пиком около 70 дБ ниже несущей частоты.
48
00:02:36.649 --> 00:02:38.612
Хоть это и совсем не важно в наших опытах,
49
00:02:38.612 --> 00:02:40.574
но я хотел отметить это сейчас
50
00:02:40.574 --> 00:02:42.452
на случай, если вы не замечали это ранее.
51
00:02:44.036 --> 00:02:47.142
Сейчас мы понизим частоту дискретизации до средних значений.
52
00:02:48.557 --> 00:02:51.024
Для преобразования мы будем использовать непримечательное
53
00:02:51.024 --> 00:02:53.374
потребительское аудиоустройство eMagic USB1.
54
00:02:53.374 --> 00:02:55.337
Оно уже тоже старше десяти лет
55
00:02:55.337 --> 00:02:57.257
и продолжает устаревать.
56
00:02:57.964 --> 00:03:02.676
Современный конвертер без труда может иметь характеристики на порядок выше.
57
00:03:03.076 --> 00:03:07.924
Неравномерность АЧХ, нелинейность, джиттер, шумовые характеристики и прочее…
58
00:03:07.924 --> 00:03:09.353
что вы могли и не заметить.
59
00:03:09.353 --> 00:03:11.604
То, что мы можем измерить улучшение,
60
00:03:11.604 --> 00:03:13.609
не значит, что мы можем это услышать,
61
00:03:13.609 --> 00:03:16.404
и даже эти старые коробочки потребительского уровня
62
00:03:16.404 --> 00:03:18.643
уже тогда были на грани прозрачности [Transparency (data compression)]
63
00:03:20.244 --> 00:03:22.825
eMagic подключен к моему ThinkPad,
64
00:03:22.825 --> 00:03:26.121
который отображает диаграмму цифрового сигнала и спектр для сравнения,
65
00:03:26.121 --> 00:03:28.788
затем ThinkPad отправляет цифровой сигнал обратно в
66
00:03:28.788 --> 00:03:30.921
eMagic для преобразования обратно в аналоговый сигнал
67
00:03:30.921 --> 00:03:33.332
и наблюдения на экране осциллографа.
68
00:03:33.332 --> 00:03:35.582
Со входа на выход. Слева направо.
69
00:03:40.211 --> 00:03:41.214
Все, пора начинать.
70
00:03:41.214 --> 00:03:43.924
Начнем с преобразования аналогового сигнала в цифровой,
71
00:03:43.924 --> 00:03:47.347
a потом – снова обратно в аналоговый, и больше ничего.
72
00:03:47.347 --> 00:03:49.268
Генератор сигналов настроен на создание
73
00:03:49.268 --> 00:03:52.649
синусоиды с частотой 1 кГц, как и прежде.
74
00:03:52.649 --> 00:03:57.428
Со входа мы можем видеть нашу аналоговую синусоиду на осциллографе.
75
00:03:57.428 --> 00:04:01.694
Мы оцифровываем сигнал с помощью ИКМ (16 бит, 44,1 кГц) –
76
00:04:01.694 --> 00:04:03.828
так же, как звук на CD.
77
00:04:03.828 --> 00:04:07.156
Спектр оцифрованного сигнала соответствует тому, что мы видели ранее. И-и…
78
00:04:07.156 --> 00:04:10.836
вот что мы видим на аналоговом анализаторе спектра,
79
00:04:10.836 --> 00:04:15.154
не считая чуть прибавившихся шумов из-за входа с высоким сопротивлением.
80
00:04:15.154 --> 00:04:15.956
В то же время
81
00:04:18.248 --> 00:04:20.798
окно вывода диаграмм показывает нашу оцифрованную синусоиду
82
00:04:20.798 --> 00:04:23.966
в ступенчатом виде – по ступеньке на отсчет.
83
00:04:23.966 --> 00:04:26.388
И, когда мы смотрим на выходной сигнал,
84
00:04:26.388 --> 00:04:29.054
т.е. сконвертированный в аналоговый из цифрового, мы видим…
85
00:04:29.054 --> 00:04:32.052
Он в точности такой же, как первоначальная синусоида.
86
00:04:32.052 --> 00:04:33.483
Никаких ступенек.
87
00:04:33.914 --> 00:04:37.193
Ладно, все же 1 кГц и правда низкая частота.
88
00:04:37.193 --> 00:04:40.633
Может ступеньки просто сложно разглядеть или они были сглажены?
89
00:04:40.739 --> 00:04:49.492
Логично. Давайте поднимем частоту примерно до частоты Найквиста. Скажем, до 15 кГц.
90
00:04:49.492 --> 00:04:53.545
Теперь синусоида описывается менее чем тремя отсчетами за период, и…
91
00:04:53.545 --> 00:04:55.838
цифровая диаграмма выглядит довольно ужасно.
92
00:04:55.838 --> 00:04:59.798
Что ж, внешность обманчива. Аналоговый выход…
93
00:05:01.876 --> 00:05:06.033
по-прежнему идеальная синусоида, точь-в-точь как исходная.
94
00:05:06.633 --> 00:05:09.228
Продолжим поднимать частоту.
95
00:05:17.353 --> 00:05:20.151
16 кГц
96
00:05:23.198 --> 00:05:25.616
17 кГц
97
00:05:28.201 --> 00:05:29.945
18 кГц
98
00:05:33.822 --> 00:05:35.548
19 кГц
99
00:05:40.457 --> 00:05:42.465
20 кГц
100
00:05:49.097 --> 00:05:52.350
Добро пожаловать в верхние пределы слышимости человеком.
101
00:05:52.350 --> 00:05:54.377
Выходная диаграмма сигнала по-прежнему отличная.
102
00:05:54.377 --> 00:05:58.025
Ни рванных краев, ни завалов, ни ступенек.
103
00:05:58.025 --> 00:06:01.342
Так куда пропали ступеньки?
104
00:06:01.342 --> 00:06:03.198
Не отвечайте, это каверзный вопрос.
105
00:06:03.198 --> 00:06:04.318
Ступенек там никогда не было.
106
00:06:04.318 --> 00:06:06.652
Изображение цифровой диаграммы сигнала ступеньками
107
00:06:08.712 --> 00:06:10.772
было изначально неправильным.
108
00:06:10.942 --> 00:06:11.998
Почему?
109
00:06:11.998 --> 00:06:14.366
Ступенчатая кривая – это график непрерывной функции.
110
00:06:14.366 --> 00:06:16.201
Она угловатая и кусочно-постоянная,
111
00:06:16.201 --> 00:06:19.700
но имеет определенное значение в каждый момент времени.
112
00:06:19.700 --> 00:06:22.004
Дискретизированный сигнал совершенно другой.
113
00:06:22.004 --> 00:06:23.337
Он дискретен по времени
114
00:06:23.337 --> 00:06:27.337
и определен только в каждой точке отсчета,
115
00:06:27.337 --> 00:06:32.596
и не определен, т.е. вообще нет значений, всюду между отсчетами.
116
00:06:32.596 --> 00:06:36.666
Дискретный сигнал следует изображать дискретными отсчетами.
117
00:06:40.020 --> 00:06:42.974
Непрерывный аналоговый коллега цифрового сигнала
118
00:06:42.974 --> 00:06:45.364
плавно проходит каждую точку отсчета,
119
00:06:45.364 --> 00:06:50.153
и это также справедливо как для высоких частот, так и для низких.
120
00:06:50.153 --> 00:06:53.033
Далее, интересная и совсем не очевидная часть:
121
00:06:53.033 --> 00:06:55.454
существует только один сигнал с ограниченной полосой частот, проходящий
122
00:06:55.454 --> 00:06:57.417
строго через каждую точку отсчета.
123
00:06:57.417 --> 00:06:58.708
Это единственное решение.
124
00:06:58.708 --> 00:07:01.246
Так что если вы дискретизируете сигнал с ограниченной полосой частот
125
00:07:01.246 --> 00:07:02.612
и потом конвертируете обратно,
126
00:07:02.612 --> 00:07:06.462
то исходный входной сигнал – единственный возможный сигнал на выходе.
127
00:07:06.462 --> 00:07:07.838
И прежде, чем вы скажете:
128
00:07:07.838 --> 00:07:11.721
"Ну, я могу нарисовать другой сигнал, проходящий через эти точки".
129
00:07:11.721 --> 00:07:14.283
Хорошо, да, вы можете, но…
130
00:07:17.268 --> 00:07:20.521
Даже если сигнал отличается едва заметно от исходного,
131
00:07:20.521 --> 00:07:24.905
то он содержит частотную составляющую на частоте Найквиста или за ее пределом,
132
00:07:24.905 --> 00:07:26.185
нарушая требование ограниченности полосы частот,
133
00:07:26.185 --> 00:07:28.358
что делает такой сигнал неподходящим решением.
134
00:07:28.574 --> 00:07:30.036
Как же так все сбились с толку
135
00:07:30.036 --> 00:07:32.702
и начали думать о цифровом сигнале как о ступенчатой кривой?
136
00:07:32.702 --> 00:07:34.900
Я могу придумать две хорошие причины.
137
00:07:34.900 --> 00:07:37.956
Первая – довольно просто представить дискретизированный сигнал
138
00:07:37.972 --> 00:07:39.294
в виде ступенчатой кривой.
139
00:07:39.294 --> 00:07:42.409
Просто расширьте значение каждой точки отсчета вперед до следующего отсчета.
140
00:07:42.409 --> 00:07:44.414
Это называется экстраполяцией нулевого порядка
141
00:07:44.414 --> 00:07:47.913
и является важной частью в работе некоторых цифро-аналоговых преобразователей,
142
00:07:47.913 --> 00:07:50.089
особенно самых простых из них.
143
00:07:50.089 --> 00:07:55.591
Так что любой кто ищет о цифро-аналоговом преобразовании,
144
00:07:55.592 --> 00:07:59.550
вероятно, увидит где-нибудь диаграмму со ступенчатой кривой,
145
00:07:59.550 --> 00:08:01.982
но это не законченное преобразование,
146
00:08:01.982 --> 00:08:04.250
и это не сигнал, получаемый на выходе.
147
00:08:04.944 --> 00:08:05.684
Вторая причина –
148
00:08:05.684 --> 00:08:07.529
и это, видимо, более вероятная причина –
149
00:08:07.529 --> 00:08:09.449
инженеры, которые вроде как знают лучше,
150
00:08:09.449 --> 00:08:10.441
типа меня,
151
00:08:10.441 --> 00:08:13.193
рисуют ступенчатые кривые, пусть даже эти графики технически неправильны.
152
00:08:13.193 --> 00:08:15.571
Это что-то типа одномерной версии
153
00:08:15.571 --> 00:08:17.395
растолстевших бит в цифровых редакторах.
154
00:08:17.395 --> 00:08:19.241
Пиксели тоже не квадратные, они –
155
00:08:19.241 --> 00:08:23.081
отсчеты функции, заданной на двумерном пространстве, так что они тоже,
156
00:08:23.081 --> 00:08:26.366
концептуально, – бесконечно маленькие точки.
157
00:08:26.366 --> 00:08:28.500
На практике, это тот еще геморрой – смотреть
158
00:08:28.500 --> 00:08:30.804
или обрабатывать что-либо бесконечно маленькое.
159
00:08:30.804 --> 00:08:32.212
Поэтому и большие квадраты.
160
00:08:32.212 --> 00:08:35.966
Тоже самое и с изображением цифровых сигналов ступеньками.
161
00:08:35.966 --> 00:08:37.684
Так просто удобнее рисовать.
162
00:08:37.684 --> 00:08:40.404
Никаких ступенек на самом деле нет.
163
00:08:45.652 --> 00:08:48.233
Когда мы преобразовываем цифру обратно в аналог,
164
00:08:48.233 --> 00:08:50.900
результат <u>такой же</u> плавный независимо от глубины дискретизации:
165
00:08:50.900 --> 00:08:53.193
24 бит или 16 бит…
166
00:08:53.193 --> 00:08:54.196
или 8 бит…
167
00:08:54.196 --> 00:08:55.486
– без разницы.
168
00:08:55.486 --> 00:08:57.534
Значит ли это, что глубина дискретизации
169
00:08:57.534 --> 00:08:58.953
совсем ни на что не влияет?
170
00:08:59.245 --> 00:09:00.521
Конечно нет.
171
00:09:02.121 --> 00:09:06.046
Второй канал здесь – это та же входная синусоида,
172
00:09:06.046 --> 00:09:09.086
но мы квантуем с дизерингом, используя глубину 8 бит.
173
00:09:09.086 --> 00:09:14.174
На осциллографе мы все еще видим плавную синусоиду на 2-м канале.
174
00:09:14.174 --> 00:09:18.014
Присмотритесь внимательнее, и вы также увидите немного больше шума.
175
00:09:18.014 --> 00:09:19.305
Вот, в чем загвоздка.
176
00:09:19.305 --> 00:09:21.273
Если мы посмотрим на спектр сигнала…
177
00:09:22.889 --> 00:09:23.732
Ага!
178
00:09:23.732 --> 00:09:26.398
Наша синусоида все еще там нетронутая,
179
00:09:26.398 --> 00:09:28.490
но уровень шума восьмибитного сигнала
180
00:09:28.490 --> 00:09:32.470
на 2-м канале намного выше!
181
00:09:32.948 --> 00:09:36.148
В этом и заключается отличие между разным числом бит.
182
00:09:36.148 --> 00:09:37.434
Вот и все!
183
00:09:37.822 --> 00:09:39.956
Когда мы оцифровываем сигнал, сперва мы дискретизируем его.
184
00:09:39.956 --> 00:09:42.366
Этап дискретизирования идеален: потерь не происходит.
185
00:09:42.366 --> 00:09:45.626
Но потом мы квантуем его, и квантование добавляет шум.
186
00:09:47.827 --> 00:09:50.793
Число бит определяет то, как много шума добавится,
187
00:09:50.793 --> 00:09:52.569
и потому – степень уровня шума.
188
00:10:00.170 --> 00:10:03.646
Как звучит этот шум квантования после дизеринга?
189
00:10:03.646 --> 00:10:06.012
Давайте послушаем нашу восьмибитную синусоиду.
190
00:10:12.521 --> 00:10:15.273
Наверно, было сложно что-либо услышать, кроме тона.
191
00:10:15.273 --> 00:10:18.740
Давайте послушаем только шум, подавив сперва синусоиду,
192
00:10:18.740 --> 00:10:21.683
а потом сделав все чуть громче, потому что шум тихий.
193
00:10:32.009 --> 00:10:35.049
Те из вас, кто пользовался аналоговыми записывающими устройствами,
194
00:10:35.049 --> 00:10:36.670
могли подумать про себя:
195
00:10:36.670 --> 00:10:40.382
"Боже мой! Это звучит как шипение ленты!"
196
00:10:40.382 --> 00:10:41.929
Что ж, это не просто звучит как шипение магнитной ленты –
197
00:10:41.929 --> 00:10:43.433
оно ведет себя также,
198
00:10:43.433 --> 00:10:45.225
и если мы применим дизеринг с гауссовой функцией плотности распределения вероятности,
199
00:10:45.225 --> 00:10:47.646
то этот шум будет математически эквивалентным во всех отношениях.
200
00:10:47.646 --> 00:10:49.225
Это и <u>есть</u> шипение ленты.
201
00:10:49.225 --> 00:10:51.774
Легко догадаться, что мы можем измерить шипение ленты
202
00:10:51.774 --> 00:10:54.196
и, следовательно, уровень шума магнитной аудиокассеты
203
00:10:54.196 --> 00:10:56.233
в битах, а не в децибелах,
204
00:10:56.233 --> 00:10:59.902
чтобы рассмотреть все сквозь цифровую призму.
205
00:10:59.902 --> 00:11:03.028
Компакт-кассеты…
206
00:11:03.028 --> 00:11:05.449
для тех из вас, кто достаточно взрослый, чтобы помнить их, –
207
00:11:05.449 --> 00:11:09.161
они могли достигать глубины в 9 бит в идеальных условиях,
208
00:11:09.161 --> 00:11:11.209
хотя как правило – от 5 до 6 бит,
209
00:11:11.209 --> 00:11:13.876
особенно, если это была запись, сделанная на магнитофон.
210
00:11:13.876 --> 00:11:19.422
Так и есть… ваши кассеты с миксами были лишь около 6 бит глубины дискретизации… если вам повезет!
211
00:11:19.837 --> 00:11:22.345
Лучшие профессиональные ленты для катушечного магнитофона,
212
00:11:22.345 --> 00:11:24.553
используемые в студиях, едва могли достигнуть…
213
00:11:24.553 --> 00:11:26.473
как думаете, сколько?
214
00:11:26.473 --> 00:11:27.604
13 бит
215
00:11:27.604 --> 00:11:28.980
<u>с применением</u> улучшенного шумоподавления.
216
00:11:28.980 --> 00:11:32.062
И вот почему видеть "DDD" на компакт-диске
217
00:11:32.062 --> 00:11:35.208
было таким важным, крутым делом.
218
00:11:40.116 --> 00:11:42.825
Я постоянно говорю, что при квантовании применяю дизеринг,
219
00:11:42.825 --> 00:11:44.734
что это вообще такое?
220
00:11:44.734 --> 00:11:47.284
А главное, что делает дизеринг?
221
00:11:47.284 --> 00:11:49.876
Простым способом при квантовании сигнала является выбор
222
00:11:49.876 --> 00:11:52.329
ближайшего цифрового значения амплитуды
223
00:11:52.329 --> 00:11:54.377
к исходной аналоговой амплитуде.
224
00:11:54.377 --> 00:11:55.337
Очевидно, правда?
225
00:11:55.337 --> 00:11:57.545
К несчастью, точный уровень шума, получаемый,
226
00:11:57.545 --> 00:11:59.220
используя такой простой подход при квантовании,
227
00:11:59.220 --> 00:12:02.174
отчасти зависит от входного сигнала,
228
00:12:02.174 --> 00:12:04.596
поэтому мы можем получить или нестабильный,
229
00:12:04.596 --> 00:12:06.142
или вызывающий искажения,
230
00:12:06.142 --> 00:12:09.054
или нежелательный в каком-то другом смысле шум.
231
00:12:09.054 --> 00:12:11.764
Дизеринг – это специально созданный шум, которым
232
00:12:11.764 --> 00:12:15.273
подменяют производимый при квантовании шум.
233
00:12:15.273 --> 00:12:18.025
Дизеринг не заглушает или маскирует шум квантования,
234
00:12:18.025 --> 00:12:20.190
он фактически заменяет его
235
00:12:20.190 --> 00:12:22.612
желаемыми шумовыми характеристиками,
236
00:12:22.612 --> 00:12:24.794
не попадающими под влияние входного сигнала.
237
00:12:25.256 --> 00:12:27.081
Давайте <u>посмотрим</u>, что делает дизеринг.
238
00:12:27.081 --> 00:12:30.078
У генератора сигналов слишком много шумов для данного опыта,
239
00:12:30.431 --> 00:12:33.161
поэтому будем создавать математически
240
00:12:33.161 --> 00:12:34.782
идеальную синусоиду с помощью ThinkPad
241
00:12:34.782 --> 00:12:38.205
и квантовать с глубиной дискретизации 8 бит и дизерингом.
242
00:12:39.006 --> 00:12:41.342
Мы видим хорошую синусоиду на экране временных диаграмм
243
00:12:41.342 --> 00:12:43.452
и на выходе осциллографа
244
00:12:44.222 --> 00:12:44.972
и…
245
00:12:46.588 --> 00:12:49.375
как только аналоговый анализатор спектра оживится…
246
00:12:50.713 --> 00:12:53.588
отчетливый частотный пик с равномерным уровнем шума
247
00:12:56.864 --> 00:12:58.611
на обоих экранах со спектром,
248
00:12:58.61 1 --> 00:12:59.646
как и ранее.
249
00:12:59.646 --> 00:13:01.549
Повторюсь, это с дизерингом.
250
00:13:02.196 --> 00:13:04.225
Теперь я выключаю дизеринг.
251
00:13:05.779 --> 00:13:07.913
Шум квантования, который был распределен дизерингом
252
00:13:07.913 --> 00:13:09.577
в хороший плоский уровень шума,
253
00:13:09.577 --> 00:13:12.286
сплющился в пики гармонического искажения.
254
00:13:12.286 --> 00:13:16.030
Уровень шума ниже, но уровень искажений уже ненулевой,
255
00:13:16.030 --> 00:13:19.668
и пики искажений установились выше, чем шум шум дизеринга.
256
00:13:19.668 --> 00:13:22.318
На восьми битах этот эффект утрирован.
257
00:13:22.488 --> 00:13:24.200
На шестнадцати битах,
258
00:13:24.692 --> 00:13:25.929
даже без дизеринга,
259
00:13:25.929 --> 00:13:28.308
гармонические искажения будут такими низкими,
260
00:13:28.308 --> 00:13:30.708
что их практически не услышать.
261
00:13:30.708 --> 00:13:34.581
Все равно, мы можем использовать дизеринг, чтобы полностью устранить искажения,
262
00:13:34.581 --> 00:13:36.489
если мы так выберем.
263
00:13:37.642 --> 00:13:39.273
Снова выключим дизеринг ненадолго,
264
00:13:40.934 --> 00:13:43.444
и вы заметите, что абсолютный уровень искажений
265
00:13:43.444 --> 00:13:47.070
при квантовании без дизеринга остается примерно постоянным
266
00:13:47.070 --> 00:13:49.033
независимо от амплитуды входного сигнала.
267
00:13:49.033 --> 00:13:51.998
Но когда уровень сигнала опускается немного ниже половины,
268
00:13:51.998 --> 00:13:54.036
все квантуется в ноль.
269
00:13:54.036 --> 00:13:54.910
По сути,
270
00:13:54.910 --> 00:13:58.557
"все квантуется в ноль" просто означает 100% искажение!
271
00:13:58.833 --> 00:14:01.588
Дизеринг тоже устраняет эти искажения.
272
00:14:01.588 --> 00:14:03.599
Мы снова включаем дизеринг и…
273
00:14:03.599 --> 00:14:06.377
наш сигнал появляется на 1/4 бит,
274
00:14:06.377 --> 00:14:09.076
вместе с хорошим плоским уровнем шума.
275
00:14:09.630 --> 00:14:11.220
Уровень шума не обязан быть плоским.
276
00:14:11.220 --> 00:14:12.798
Дизеринг – это шум, выбираемый нами,
277
00:14:12.798 --> 00:14:15.006
так давайте выберем шум настолько безобидный
278
00:14:15.006 --> 00:14:17.017
и труднозаметный, насколько возможно.
279
00:14:18.142 --> 00:14:22.484
Наш слух наиболее чувствителен в промежутке от 2 до 4 кГц,
280
00:14:22.484 --> 00:14:25.438
поэтому здесь фоновый шум будет наиболее заметным.
281
00:14:25.438 --> 00:14:29.406
Мы можем сформировать шум дизеринга подальше от чувствительных частот
282
00:14:29.406 --> 00:14:31.241
туда, где слух менее восприимчив –
283
00:14:31.241 --> 00:14:33.910
обычно это область высоких частот.
284
00:14:34.249 --> 00:14:37.460
16 бит шум дизеринга, как правило, слишком тихий, чтобы услышать,
285
00:14:37.460 --> 00:14:39.668
но давайте послушаем пример работы нойз-шейпинга,
286
00:14:39.668 --> 00:14:42.234
опять же, с усилением сигнала…
287
00:14:56.020 --> 00:14:59.977
И наконец, общая мощность шума квантования после дизеринга <u>выше</u>,
288
00:14:59.977 --> 00:15:04.276
чем шум квантования без дизеринга, даже если первый звучит тише.
289
00:15:04.276 --> 00:15:07.902
Можете увидеть это на измерителе уровня звука во время тишины.
290
00:15:07.902 --> 00:15:10.537
Но дизеринг не только можно включить или выключить.
291
00:15:10.537 --> 00:15:14.712
Мы можем ослабить мощность дизеринга, балансируя между тишиной шума
292
00:15:14.712 --> 00:15:18.313
и незначительными искажениями, минимизируя общий эффект.
293
00:15:19.605 --> 00:15:22.790
Также мы будем модулировать входной сигнал вот так:
294
00:15:27.098 --> 00:15:30.206
…чтобы показать, как изменение входного сигнала влияет на шум квантования.
295
00:15:30.206 --> 00:15:33.289
На полной мощности дизеринга, шум единообразен, постоянен
296
00:15:33.289 --> 00:15:35.643
и невыразителен, как мы и ожидали:
297
00:15:40.937 --> 00:15:42.772
При уменьшении мощности дизеринга,
298
00:15:42.772 --> 00:15:46.356
входной сигнал все больше и больше влияет на амплитуду и свойства
299
00:15:46.356 --> 00:15:47.977
шума квантования:
300
00:16:09.883 --> 00:16:13.844
Поведение дизеринга после ноиз-шейпинга схоже,
301
00:16:13.844 --> 00:16:16.553
но ноиз-шейпинг дает еще одно хорошее преимущество.
302
00:16:16.553 --> 00:16:18.804
Короче говоря, он может использовать
303
00:16:18.804 --> 00:16:20.937
слегка меньшую мощность дизеринга прежде, чем входной сигнал
304
00:16:20.937 --> 00:16:23.662
окажет соответствующее влияние на выходной.
305
00:16:49.172 --> 00:16:51.508
Несмотря на все это время, что я потратил на дизеринг,
306
00:16:51.508 --> 00:16:53.012
мы говорим о различиях,
307
00:16:53.012 --> 00:16:56.372
начинающихся на 100 дБ ниже измеряемого диапазона.
308
00:16:56.372 --> 00:16:59.806
Возможно, если бы CD имели 14 бит, как изначально задумывалось,
309
00:16:59.806 --> 00:17:01.513
дизеринг <u>мог бы</u> быть важнее.
310
00:17:01.989 --> 00:17:02.644
Возможно.
311
00:17:02.644 --> 00:17:05.438
С 16 бит, на самом деле, почти без разницы.
312
00:17:05.438 --> 00:17:08.019
Вы можете думать о дизеринге как о страховке,
313
00:17:08.019 --> 00:17:11.443
дающей несколько дополнительных дБ к динамическому диапазону
314
00:17:11.443 --> 00:17:12.804
на всякий случай.
315
00:17:12.990 --> 00:17:14.196
Тем не менее, факт в том, что,
316
00:17:14.196 --> 00:17:16.361
никто не уничтожил великолепную запись,
317
00:17:16.361 --> 00:17:19.182
не воспользовавшись дизерингом при мастеринге звукозаписи.
318
00:17:24.414 --> 00:17:25.790
Мы использовали синусоиды.
319
00:17:25.790 --> 00:17:28.254
Они являются очевидным выбором когда то, что хотим увидеть –
320
00:17:28.254 --> 00:17:32.212
это поведение системы на данной отдельной частоте.
321
00:17:32.212 --> 00:17:34.217
Теперь давайте рассмотрим кое-что посложнее.
322
00:17:34.217 --> 00:17:35.923
Что нам следует ожидать,
323
00:17:35.923 --> 00:17:39.671
когда я изменю входной сигнал на меандр?
324
00:17:42.718 --> 00:17:45.921
Осциллограф на входе выводит наш 1 кГц меандр.
325
00:17:45.921 --> 00:17:47.351
А осциллограф на выходе показывает…
326
00:17:48.614 --> 00:17:51.102
В точности, что и следует.
327
00:17:51.102 --> 00:17:53.900
Что такое меандр на самом деле?
328
00:17:54.654 --> 00:17:57.982
Скажем, это диаграмма сигнала, где есть положительное значение
329
00:17:57.982 --> 00:18:00.788
во время одного полупериода, мгновенно меняющееся
330
00:18:00.788 --> 00:18:02.910
на отрицательное в другом полупериоде.
331
00:18:02.910 --> 00:18:05.076
Но это на самом деле не сообщает ничего полезного о том,
332
00:18:05.076 --> 00:18:07.241
как этот входной сигнал
333
00:18:07.241 --> 00:18:09.378
становится таким на выходе.
334
00:18:10.132 --> 00:18:12.713
Далее, мы помним, что любая волна
335
00:18:12.713 --> 00:18:15.508
также является суммой дискретных частот,
336
00:18:15.508 --> 00:18:18.302
и меандр, в частности, – просто сумма
337
00:18:18.302 --> 00:18:19.636
несущей частоты и
338
00:18:19.636 --> 00:18:22.228
бесконечного числа нечетных гармоник.
339
00:18:22.228 --> 00:18:24.597
Сложите их все, и вы получите меандр.
340
00:18:26.398 --> 00:18:27.433
На первый взгляд,
341
00:18:27.433 --> 00:18:29.225
это тоже не похоже на полезную информацию.
342
00:18:29.225 --> 00:18:31.561
Необходимо сложить бесконечное число гармоник,
343
00:18:31.561 --> 00:18:33.108
чтобы получить ответ.
344
00:18:33.108 --> 00:18:35.977
А, но у нас нет бесконечного числа гармоник.
345
00:18:36.960 --> 00:18:39.902
У нас антиалиасинговый фильтр с крутым спадом переходной полосы,
346
00:18:39.902 --> 00:18:42.206
частота среза которого 20 кГц,
347
00:18:42.206 --> 00:18:44.158
поэтому наш сигнал ограничен по полосе частот,
348
00:18:44.158 --> 00:18:46.421
что означает следующее:
349
00:18:52.500 --> 00:18:56.468
…и это в точности, что мы видим на осциллографе с выхода.
350
00:18:56.468 --> 00:18:59.550
Пульсация, которую вы видите по краям сигнала с ограниченной полосой частот,
351
00:18:59.550 --> 00:19:00.926
называется "явлением Гиббса".
352
00:19:00.926 --> 00:19:04.137
Оно происходит всякий раз, когда вы срезаете часть области частот
353
00:19:04.137 --> 00:19:07.006
в пределах которой сосредоточена энергия сигнала.
354
00:19:07.006 --> 00:19:09.854
Обычно вы услышите эмпирическое правило: чем круче спад переходной полосы,
355
00:19:09.854 --> 00:19:11.188
тем сильнее пульсация.
356
00:19:11.188 --> 00:19:12.777
Что в общем-то правда,
357
00:19:12.777 --> 00:19:14.900
но нужно быть осторожнее в наших представлениях.
358
00:19:14.900 --> 00:19:15.774
Например…
359
00:19:15.774 --> 00:19:19.529
Что по-вашему будет делать наш "крутой" антиалиасинговый
360
00:19:19.529 --> 00:19:23.181
фильтр, если я пропущу через него сигнал дважды?
361
00:19:34.136 --> 00:19:37.588
Помимо добавления нескольких незначительных циклов задержек,
362
00:19:37.588 --> 00:19:39.348
ответ будет…
363
00:19:39.348 --> 00:19:40.857
вообще ничего.
364
00:19:41.257 --> 00:19:43.302
Сигнал уже ограничен по полосе частот.
365
00:19:43.656 --> 00:19:46.590
Повторное ограничение полосы частот ни на что не влияет.
366
00:19:46.590 --> 00:19:50.686
Второй проход не может убрать частоты, которые уже были удалены.
367
00:19:52.070 --> 00:19:53.737
И это важно.
368
00:19:53.737 --> 00:19:56.233
Люди склонны думать о пульсации как о своего рода артефакте,
369
00:19:56.233 --> 00:19:59.945
добавляемом антиалиасинговым и реконструкционным фильтрами,
370
00:19:59.945 --> 00:20:01.737
считая, что пульсация становится хуже
371
00:20:01.737 --> 00:20:03.913
с каждым проходом сигнала через них.
372
00:20:03.913 --> 00:20:05.950
Мы видим, что в данном случае этого не случилось.
373
00:20:05.950 --> 00:20:09.492
Так был ли это на самом деле фильтр, добавивший пульсацию при 1-м проходе?
374
00:20:09.492 --> 00:20:10.537
Нет, не совсем.
375
00:20:10.537 --> 00:20:12.126
Это деликатный момент,
376
00:20:12.126 --> 00:20:15.252
т.к. пульсация при эффекте Гиббса добавляется не фильтрами –
377
00:20:15.252 --> 00:20:18.836
она просто часть того, <u>чем является</u> сигнал с ограниченной полосой частот.
378
00:20:18.836 --> 00:20:20.798
Даже если мы искусственно сгенерируем сигнал,
379
00:20:20.798 --> 00:20:23.508
который выглядит как идеальный цифровой меандр,
380
00:20:23.508 --> 00:20:26.206
его полоса частот все равно ограничена полосой пропускания передающего канала.
381
00:20:26.206 --> 00:20:29.140
Вспомните, что ступенчатое представление кривой неточно.
382
00:20:29.140 --> 00:20:32.222
Что на самом деле есть у нас – это точки отсчета,
383
00:20:32.222 --> 00:20:36.148
и только 1 сигнал с ограниченной полосой частот подходит к этим точкам.
384
00:20:36.148 --> 00:20:39.614
Все что мы сделали, когда рисовали наш идеальный меандр,
385
00:20:39.614 --> 00:20:43.198
это расставили точки отсчета как раз, чтобы сложилось впечатление,
386
00:20:43.198 --> 00:20:47.785
что здесь нет пульсаций, если мы сыграем в "Соедини точки".
387
00:20:47.785 --> 00:20:49.449
Но исходный сигнал с ограниченной полосой частот
388
00:20:49.449 --> 00:20:52.742
вместе с пульсациями все еще там.
389
00:20:54.004 --> 00:20:56.542
И это ведет нас к еще одному важному моменту.
390
00:20:56.542 --> 00:20:59.550
Вы наверняка уже слышали, что точность синхронизации цифрового сигнала
391
00:20:59.550 --> 00:21:02.409
ограничена его частотой дискретизации; другими словами,
392
00:21:02.409 --> 00:21:05.140
якобы цифровые сигналы не могут представлять ничего,
393
00:21:05.140 --> 00:21:08.041
что попадает между точками отсчетов…
394
00:21:08.041 --> 00:21:11.422
имеется в виду, что импульсы или резкие скачки должны быть четко
395
00:21:11.422 --> 00:21:14.473
выравнены с отсчетами, или синхронизация будет утрачена…
396
00:21:14.473 --> 00:21:16.219
и они просто исчезнут.
397
00:21:16.711 --> 00:21:20.820
Теперь мы легко можем увидеть, почему это не так.
398
00:21:20.820 --> 00:21:23.742
Еще раз, наш входной сигнал ограничен по полосе частот.
399
00:21:23.742 --> 00:21:26.036
И цифровой сигнал – это точки отсчета,
400
00:21:26.036 --> 00:21:29.340
не ступеньки, не "Соедини точки".
401
00:21:31.572 --> 00:21:34.592
Мы определенно можем, например,
402
00:21:36.777 --> 00:21:39.337
разместить фронт нашего меандра с ограниченной полосой частот
403
00:21:39.337 --> 00:21:42.004
в любом месте между отсчетами.
404
00:21:42.004 --> 00:21:44.354
Меандр отлично изображается
405
00:21:47.508 --> 00:21:50.218
и отлично восстанавливается.
406
00:22:04.620 --> 00:22:06.526
Как и в предыдущей части,
407
00:22:06.526 --> 00:22:08.393
мы охватили широкий круг тем,
408
00:22:08.393 --> 00:22:10.868
и при этом лишь едва коснулись каждой из них.
409
00:22:10.868 --> 00:22:13.620
Если уж на то пошло, то в этот раз у меня больше грехов упущения…
410
00:22:13.620 --> 00:22:16.286
но это хороший момент все завершить.
411
00:22:16.286 --> 00:22:17.833
Или, может, хорошая отправная точка.
412
00:22:17.833 --> 00:22:18.708
Пробуйте копнуть глубже.
413
00:22:18.708 --> 00:22:19.710
Экспериментируйте.
414
00:22:19.710 --> 00:22:21.374
Я со всей тщательностью подбирал опыты,
415
00:22:21.374 --> 00:22:23.668
чтобы они были простыми и красноречивыми.
416
00:22:23.668 --> 00:22:26.217
Вы можете воспроизвести каждый из них самостоятельно, если хотите.
417
00:22:26.217 --> 00:22:28.766
Только давайте признаемся, что иногда мы узнаем больше
418
00:22:28.766 --> 00:22:30.516
о модной игрушке, разобрав ее до основания
419
00:22:30.516 --> 00:22:32.553
и изучая все выпавшие кусочки.
420
00:22:32.553 --> 00:22:35.230
И это нормально – мы инженеры.
421
00:22:35.230 --> 00:22:36.350
Поиграйтесь с демо-параметрами,
422
00:22:36.350 --> 00:22:37.972
хакните код,
423
00:22:37.972 --> 00:22:39.774
проведите другие опыты.
424
00:22:39.774 --> 00:22:40.692
Исходный код для всего,
425
00:22:40.692 --> 00:22:42.398
включая небольшое кнопочное демо-приложение,
426
00:22:42.398 --> 00:22:44.361
выложен на Xiph.Org.
427
00:22:44.361 --> 00:22:45.940
В ходе экспериментов,
428
00:22:45.940 --> 00:22:47.401
вы, скорее всего, столкнетесь с чем-то,
429
00:22:47.401 --> 00:22:49.950
чего не ожидали и не можете объяснить.
430
00:22:49.950 --> 00:22:51.198
Не переживайте!
431
00:22:51.198 --> 00:22:54.537
Без шуток, Википедия потрясающе подходит
432
00:22:54.537 --> 00:22:56.788
как раз для подобных неформальных исследований.
433
00:22:56.788 --> 00:22:59.956
Если вы действительно серьезно намерены разобраться в сигналах,
434
00:22:59.956 --> 00:23:03.337
у некоторых университетов есть онлайн материалы продвинутого уровня,
435
00:23:03.337 --> 00:23:07.380
например курсы 6.003 и 6.007 "Signals and Systems"
436
00:23:07.380 --> 00:23:08.798
на MIT OpenCourseWare.
437
00:23:08.798 --> 00:23:11.593
И, конечно же, сообщество Xiph.Org всегда доступно вам.
438
00:23:12.792 --> 00:23:13.929
Копать глубже или нет,
439
00:23:13.929 --> 00:23:14.974
у меня кончился кофе,
440
00:23:14.974 --> 00:23:16.436
так что до следующих встреч,
441
00:23:16.436 --> 00:23:19.316
веселого хакинга!
1
00:00:08,124 --> 00:00:10,742
Рабочие станции и топовые персональные компьютеры справляются
2
00:00:10,742 --> 00:00:14,749
с обработкой цифрового звука довольно легко последние пятнадцать лет.
3
00:00:14,749 --> 00:00:17,470
Только около пяти лет приличные рабочие станции способны
4
00:00:17,470 --> 00:00:21,643
справляться с несжатым видео без кучи дорогого специализированного оборудования.
5
00:00:21,643 --> 00:00:25,400
Но сегодня даже самый дешевый домашний компьютер имеет процессор и
6
00:00:25,400 --> 00:00:28,092
жесткий диск, достаточные, чтобы реально раскидывать несжатое видео,
7
00:00:28,092 --> 00:00:30,479
по крайней мере, без излишнего напряжения.
8
00:00:30,479 --> 00:00:33,579
Итак, теперь, когда у каждого есть все это необходимое недорогое оборудование,
9
00:00:33,579 --> 00:00:36,651
все больше людей, что неудивительно, хотят заниматься интересными
10
00:00:36,651 --> 00:00:39,908
вещами с цифровым контентом, особенно потоковым воспроизведением.
11
00:00:39,908 --> 00:00:44,017
YouTube явился первым огромным успехом, и теперь каждый хочет поучаствовать.
12
00:00:44,017 --> 00:00:47,413
Ну хорошо! Потому что это очень весело!
13
00:00:48,250 --> 00:00:51,179
Совсем не проблема найти потребителя цифрового контента.
14
00:00:51,179 --> 00:00:54,649
Но здесь я бы хотел обратиться к инженерам, к математикам,
15
00:00:54,649 --> 00:00:57,869
хакерам, людям, заинтересованным в открытиях,
16
00:00:57,869 --> 00:01:01,302
создании вещей и создании самих технологий.
17
00:01:01,302 --> 00:01:03,282
Людям, близким мне по духу.
18
00:01:04,250 --> 00:01:08,723
Цифровой контент, особенно сжатие, воспринимается как что-то сверх-элитное,
19
00:01:08,723 --> 00:01:12,822
почему-то невероятно более сложное, чем что-либо другое в компьютерной науке.
20
00:01:12,822 --> 00:01:15,700
Крупные индустриальные игроки в этой области вообще не против такого восприятия;
21
00:01:15,700 --> 00:01:19,734
это помогает оправдывать ошеломляющее количество фундаментальных патентов, которые они держат.
22
00:01:19,734 --> 00:01:23,870
Им нравится образ, представляющий их исследователей лучшими из лучших,
23
00:01:23,870 --> 00:01:27,738
которые настолько умнее всех остальных, что их блестящие идеи не могут
24
00:01:27,738 --> 00:01:29,903
быть даже поняты простыми смертными.
25
00:01:30,625 --> 00:01:33,716
Это чушь.
26
00:01:35,205 --> 00:01:38,900
Цифровое аудио, видео, потоковая передача и сжатие
27
00:01:38,900 --> 00:01:42,738
представляют бесконечно глубокие и стимулирующие умственные испытания,
28
00:01:42,738 --> 00:01:44,662
как и любая другая дисциплина.
29
00:01:44,662 --> 00:01:47,929
Это выглядит элитным, потому что слишком мало людей вовлечены.
30
00:01:47,929 --> 00:01:51,223
Так мало людей были вовлечены, возможно, потому, что так мало людей
31
00:01:51,223 --> 00:01:54,665
могли позволить себе необходимое дорогое специализированное оборудование.
32
00:01:54,665 --> 00:01:58,792
Но сегодня почти любой смотрящий это видео, имеет дешевый
33
00:01:58,792 --> 00:02:03,317
универсальный компьютер, достаточно мощный, чтобы играть с большими парнями.
34
00:02:05,926 --> 00:02:11,108
Сегодня идут сражения вокруг HTML5, браузеров,
35
00:02:11,108 --> 00:02:13,671
видео и открытого против закрытого.
36
00:02:13,671 --> 00:02:17,048
Поэтому, сейчас самое подходящее время принять участие.
37
00:02:17,048 --> 00:02:20,000
Легче всего начать, возможно, с понимания
38
00:02:20,000 --> 00:02:22,619
имеющейся у нас технологии.
39
00:02:23,500 --> 00:02:25,071
Это - вступление.
40
00:02:25,071 --> 00:02:28,180
Поскольку это вступление, оно опускает массу деталей,
41
00:02:28,180 --> 00:02:30,882
так что большую картину несколько легче понять.
42
00:02:30,882 --> 00:02:33,908
Порядочное число смотрящих уже знакомы со всем,
43
00:02:33,908 --> 00:02:36,378
о чем я буду говорить, по крайней мере пока.
44
00:02:36,378 --> 00:02:39,293
С другой стороны, возможно, я буду рассказывать слишком быстро для тех,
45
00:02:39,293 --> 00:02:44,558
кто совсем не знаком со всем этим, поэтому, если все это ново для вас, расслабьтесь.
46
00:02:44,558 --> 00:02:48,629
Важно выделить все идеи, которые действительно захватывают ваше воображение.
47
00:02:48,629 --> 00:02:52,497
Особенно уделите внимание терминологии, связанной с этими идеями,
48
00:02:52,479 --> 00:02:56,078
потому что с ними, а так же с Гуглом и Википедией, вы можете копать
49
00:02:56,078 --> 00:02:57,753
настолько глубоко, насколько вы заинтересованы.
50
00:02:57,753 --> 00:03:00,094
Итак, без лишних церемоний,
51
00:03:00,094 --> 00:03:03,351
добро пожаловать в чертовски хорошее хобби.
52
00:03:10,291 --> 00:03:13,030
Звук - это распространение волн давления по воздуху,
53
00:03:13,030 --> 00:03:16,981
расходящихся от источника подобно кругам на воде от брошенного в пруд камня.
54
00:03:16,981 --> 00:03:19,489
Микрофон, или человеческое ухо в его роли,
55
00:03:19,489 --> 00:03:22,876
преобразовывает эту распространяющуюся пульсацию в электрический сигнал.
56
00:03:22,876 --> 00:03:25,800
Верно, это курс средней школы, это помнит каждый.
57
00:03:25,800 --> 00:03:26,771
Двигаемся дальше.
58
00:03:27,465 --> 00:03:32,527
Этот аудиосигнал является одномерной функцией, единственным значением, изменяющимся во времени.
59
00:03:32,527 --> 00:03:34,248
Если мы немного замедлим осциллограф...
60
00:03:36,450 --> 00:03:38,190
это будет несколько легче увидеть.
61
00:03:38,190 --> 00:03:40,688
Также важны несколько других аспектов сигнала.
62
00:03:40,688 --> 00:03:43,418
Он непрерывен и во времени и в значениях;
63
00:03:43,418 --> 00:03:46,813
то есть, в любой момент времени у него есть действительное значение,
64
00:03:46,813 --> 00:03:50,228
а также его значение плавно меняется от одной точки во времени к другой.
65
00:03:50,228 --> 00:03:52,439
Не важно, насколько мы увеличиваем масштаб,
66
00:03:54,068 --> 00:03:58,510
не будет никаких разрывов, сингулярностей, мгновенных изменений значений
67
00:03:58,510 --> 00:04:01,285
или точек, в которых сигнал прекращает существовать.
68
00:04:03,247 --> 00:04:08,475
Он определён везде. Классическая непрерывная математика хорошо применима к этим сигналам.
69
00:04:11,001 --> 00:04:15,378
Цифровой сигнал, с другой стороны, является дискретным по значению и по времени.
70
00:04:15,378 --> 00:04:19,107
В самой простой и наиболее общепринятой системе, которая называется "импульсно-кодовая модуляция",
71
00:04:19,107 --> 00:04:24,058
каждое из фиксированного числа значений напрямую представляет амплитуду непрерывного сигнала
72
00:04:24,058 --> 00:04:30,165
в точках времени, разделённых равными промежутками. Конечным результатом является поток чисел.
73
00:04:30,674 --> 00:04:35,309
Теперь это выглядит ужасно похоже на это.
74
00:04:35,309 --> 00:04:38,964
Кажется интуитивным, что должен быть способ как-то строго преобразовывать
75
00:04:38,964 --> 00:04:44,683
одно в другое, и, хорошие новости, теорема отсчетов гласит, что мы можем, и рассказывает, как.
76
00:04:44,683 --> 00:04:48,477
Опубликованная в своей самой известной форме Клодом Шенноном в 1949
77
00:04:48,477 --> 00:04:52,409
и основанная на работах Найквиста и Хартли, и многих других,
78
00:04:52,409 --> 00:04:56,138
теорема отсчетов не только утверждает, что мы можем переходить туда-обратно между
79
00:04:56,138 --> 00:05:00,913
аналоговым и цифровым представлением, но также устанавливает ряд условий, при которых конверсия
80
00:05:00,913 --> 00:05:06,779
происходит без потерь и два представления становятся эквивалентными и взаимозаменяемыми.
81
00:05:06,779 --> 00:05:10,601
Когда эти условия не выполняются, теорема отсчетов говорит нам,
82
00:05:10,601 --> 00:05:14,247
как и сколько информации потеряно или испорчено.
83
00:05:14,900 --> 00:05:21,270
До самого последнего времени, аналоговая технология была основой для практически всей работы со звуком,
84
00:05:21,270 --> 00:05:25,267
и не только потому, что большинство аудиоданных имеют аналоговое происхождение.
85
00:05:25,267 --> 00:05:28,450
Вы могли подумать, что раз компьютеры появились относительное недавно,
86
00:05:28,450 --> 00:05:31,643
технология аналогового сигнала, должно быть, появилась первой.
87
00:05:31,643 --> 00:05:34,428
Нет. Цифровая, на самом деле, старше.
88
00:05:34,428 --> 00:05:37,611
Телеграф предшествовал телефону на полвека
89
00:05:37,611 --> 00:05:41,951
и был почти полностью механически автоматизирован к 1860м, посылая закодированные,
90
00:05:41,951 --> 00:05:46,476
мультиплексированные цифровые сигналы на длинные дистанции. Вы знаете... Телеграфная лента.
91
00:05:46,476 --> 00:05:50,427
Гарри Найквист из Bell Labs исследовал импульсную телеграфическую передачу,
92
00:05:50,427 --> 00:05:53,027
когда опубликовал своё описание того, что потом стало известно как
93
00:05:53,027 --> 00:05:57,219
частота Найквиста, ключевая концепция теоремы отсчетов.
94
00:05:57,219 --> 00:06:01,642
Теперь правда в том, что телеграф передавал символьную информацию, текст,
95
00:06:01,642 --> 00:06:06,883
а не оцифрованный аналоговый сигнал, но с пришествием телефона и радио
96
00:06:06,883 --> 00:06:12,000
технологии аналогового и цифрового сигнала развивались быстро бок о бок.
97
00:06:12,699 --> 00:06:18,732
Аудио всегда обрабатывалось как аналоговый сигнал потому что... ну, это настолько легче!
98
00:06:18,732 --> 00:06:23,257
Фильтр низких частот второго порядка, например, требует двух пассивных компонентов.
99
00:06:23,257 --> 00:06:26,505
Полностью аналогичное оконное преобразование Фурье - нескольких сотен.
100
00:06:26,505 --> 00:06:30,752
Хорошо, возможно, тысячи, если вы хотите собрать что-то действительно хорошее.
101
00:06:31,844 --> 00:06:35,989
Обработка сигналов цифровым способом требует от миллионов до миллиардов транзисторов,
102
00:06:35,989 --> 00:06:40,366
работающих на микроволновых частотах, аппаратную поддержку по меньшей мере оцифровки
103
00:06:40,366 --> 00:06:43,836
и реконструкции аналоговых сигналов, законченную программную экосистему
104
00:06:43,836 --> 00:06:47,362
для программирования и управления этим миллиардно-транзисторным Джаггернаутом,
105
00:06:47,362 --> 00:06:51,091
и цифровое хранилище, на тот случай, если вы хотите сохранить результаты на будущее...
106
00:06:51,091 --> 00:06:56,171
Таким образом, мы приходим к выводу, что только аналоговый подход практичен для работы с аудио...
107
00:06:56,171 --> 00:07:07,019
ну, по крайней мере, если у вас не завалялись миллиард транзисторов и все остальное.
108
00:07:07,850 --> 00:07:12,660
А поскольку у нас завалялись, цифровая обработка сигнала становится очень заманчивой.
109
00:07:13,363 --> 00:07:18,906
Во-первых, аналоговые комплектующие просто не имеют гибкости компьютера общего назначения.
110
00:07:18,906 --> 00:07:21,182
Добавление новой функции в этого зверя...
111
00:07:22,191 --> 00:07:24,578
да, вероятно, этого не произойдёт.
112
00:07:24,578 --> 00:07:26,567
Хотя на цифровом процессоре...
113
00:07:28,668 --> 00:07:34,127
...просто напишите новую программу. Программирование не тривиально, но оно намного легче.
114
00:07:34,127 --> 00:07:39,550
Возможно более важно, что каждый аналоговый компонент является приближением.
115
00:07:39,550 --> 00:07:44,352
Не существует такой вещи как идеальный транзистор или идеальный проводник, или идеальный конденсатор.
116
00:07:44,352 --> 00:07:51,569
В аналоговой обработке каждый компонент добавляет шума и искажений, обычно не очень много, но они суммируются.
117
00:07:51,569 --> 00:07:55,669
Одна только передача аналогового сигнала, особенно на длинные дистанции,
118
00:07:55,669 --> 00:08:00,434
постепенно, ощутимо, необратимо портит его.
119
00:08:00,434 --> 00:08:06,513
Кроме того, все эти одноцелевые аналоговые компоненты занимают много места.
120
00:08:06,513 --> 00:08:09,946
Две строки кода на миллиарде транзисторов здесь
121
00:08:09,946 --> 00:08:14,702
могут реализовать фильтр, который бы потребовал катушку индуктивности размером с холодильник.
122
00:08:14,702 --> 00:08:17,941
Цифровые системы не имеют этих недостатков.
123
00:08:17,941 --> 00:08:24,335
Цифровые сигналы могут храниться, копироваться, обрабатываться и передаваться без наложения шумов и искажений.
124
00:08:24,335 --> 00:08:26,889
Да, мы используем время от времени алгоритмы с потерей,
125
00:08:26,889 --> 00:08:31,284
но единственно неизбежными неидеальными шагами являются оцифровка и восстановление,
126
00:08:31,284 --> 00:08:35,929
когда цифровое должно взаимодействовать со всем этим неряшливым аналоговым.
127
00:08:35,929 --> 00:08:40,750
Неряшливые или нет, современные этапы преобразования очень, очень хороши.
128
00:08:40,750 --> 00:08:45,849
По меркам наших ушей, мы можем также считать их без потерь.
129
00:08:45,849 --> 00:08:50,429
С небольшим дополнительным оборудованием, большинство из которого компактно и недорого
130
00:08:50,429 --> 00:08:55,379
благодаря нашей современной промышленной инфраструктуре, цифровое аудио одерживает чистую победу над аналоговым.
131
00:08:55,379 --> 00:09:00,857
Давайте тогда перейдем к хранению, копированию, обработке и передаче.
132
00:09:04,956 --> 00:09:08,639
Импульсно-кодовая модуляция - самое распространенное представление необработанного аудио.
133
00:09:08,639 --> 00:09:13,867
Существуют и другие представления, например, сигма-дельта кодирование, используемое в SACD,
134
00:09:13,867 --> 00:09:16,625
которое является разновидностью импульсно-кодовой модуляции.
135
00:09:16,625 --> 00:09:19,687
Что говорит, что импульсно-кодовая модуляция значительно доминирует,
136
00:09:19,687 --> 00:09:22,158
главным образом потому, что она так математически удобна.
137
00:09:22,158 --> 00:09:26,350
Аудио инженер может провести целую карьеру, не работая ни с чем другим.
138
00:09:26,350 --> 00:09:29,135
Кодирование ИКМ можно охарактеризовать тремя параметрами,
139
00:09:29,135 --> 00:09:34,187
что позволяет посчитать каждый возможный вариант ИКМ без больших хлопот.
140
00:09:34,187 --> 00:09:36,426
Первый параметр - это частота дискретизации.
141
00:09:36,426 --> 00:09:40,886
Наивысшая частота, которую кодирование может передать, называется частотой Найквиста.
142
00:09:40,886 --> 00:09:45,124
Частота Найквиста ИКМ равняется ровно половине частоты дискретизации.
143
00:09:45,124 --> 00:09:51,389
Следовательно, частота дискретизации непосредственно определяет наивысшую возможную частоту в оцифрованном сигнале.
144
00:09:51,389 --> 00:09:56,515
Аналоговые телефонные системы традиционно ограничивали полосу голосовых каналов до чуть менее, чем 4 кГц,
145
00:09:56,515 --> 00:10:02,224
поэтому цифровая телефония и самые классические голосовые приложения используют частоту дискретизации 8 кГц,
146
00:10:02,224 --> 00:10:07,277
минимальную частоту, необходимую для охвата целевой полосы в 4 кГц.
147
00:10:07,227 --> 00:10:14,263
Вот как звучит частота дискретизации в 8 кГц--- немного приглушенно, но совсем разборчиво для голоса.
148
00:10:17,263 --> 00:10:18,149
Это самая низкая частота дискретизации, когда-либо широко использованная на практике.
149
00:10:18,149 --> 00:10:23,322
С этих пор, с увеличением производительности, памяти и накопителей, компьютеры потребителей
150
00:10:23,322 --> 00:10:29,642
смогли обеспечить частоту 11, потом 16, потом 22, а потом - 32 кГц.
151
00:10:29,642 --> 00:10:33,491
Очевидно, что с каждым увеличением частоты дискретизации и частоты Найквиста,
152
00:10:33,491 --> 00:10:38,302
качество звучания топовых конфигураций становится немного чище и звучит более естественно.
153
00:10:38,301 --> 00:10:44,576
Compact-Disk использует частоту дискретизации 44,1 кГц, которая немного лучше, чем 32 кГц,
154
00:10:44,576 --> 00:10:46,788
но улучшения становятся все менее различимыми.
155
00:10:46,788 --> 00:10:52,053
44,1 кГц - это несколько странноватый выбор, особенно при том, что он никогда не использовался
156
00:10:52,053 --> 00:10:56,559
до Compact-Disk, но огромный успех компакт-дисков сделал его общепринятой частотой.
157
00:10:56,559 --> 00:11:01,195
Наиболее распространённой частотой дискретизации высокого качества за пределами CD является 48 кГц.
158
00:11:05,710 --> 00:11:08,597
Фактически между ними нет ощутимой разницы в звучании.
159
00:11:08,597 --> 00:11:13,640
Это видео, по крайней мере его оригинальная версия, было снято и выпущено с аудио 48 кГц,
160
00:11:13,640 --> 00:11:18,545
что является первоначальным стандартом для высококачественного звука в видеозаписях.
161
00:11:18,545 --> 00:11:25,100
Сверхвысококачественные частоты дискретизации в 88, 96 и 192кГц также имели место.
162
00:11:25,100 --> 00:11:30,888
Суть в дискретизации на частоте выше 48 кГц заключается не в дальнейшем расширении высокочастотного диапазона.
163
00:11:30,888 --> 00:11:32,489
Его суть в другом.
164
00:11:32,896 --> 00:11:37,319
Отвлекаясь на секунду, скажу, что французский математик Жан Батист Жозеф Фурье
165
00:11:37,319 --> 00:11:42,353
показал, что мы также можем рассматривать сигналы вроде аудио как набор составных частот.
166
00:11:42,353 --> 00:11:45,841
Это представление частотной области эквивалентно временному представлению;
167
00:11:45,841 --> 00:11:49,719
сигнал точно такой же, просто мы рассматриваем его по-другому.
168
00:11:49,719 --> 00:11:56,131
Здесь мы видим представление частотной области гипотетического аналогового сигнала, который мы собираемся оцифровать.
169
00:11:56,131 --> 00:11:59,888
Теорема Найквиста-Шеннона рассказывает о двух вещах, связанных с процессом дискретизации.
170
00:11:59,888 --> 00:12:04,727
Во-первых, цифровой сигнал не может передавать частоты выше частоты Найквиста.
171
00:12:04,727 --> 00:12:10,640
Во-вторых, и это новая часть, если мы не удалим их низкочастотным фильтром перед дискретизацией,
172
00:12:10,640 --> 00:12:16,414
при этом процессе они будут накладываться на допустимую полосу частот, создав искажения наложения.
173
00:12:16,414 --> 00:12:20,069
Наложение (алиасинг), в двух словах, звучит ужасно,
174
00:12:20,069 --> 00:12:25,242
поэтому весьма важно удалять все частоты выше частоты Найквиста перед дискретизацией и после восстановления.
175
00:12:25,871 --> 00:12:31,265
Считается, что восприятие звука человеком простирается примерно до 20 кГц.
176
00:12:31,265 --> 00:12:37,548
При частоте 44,1 или 48 кГц, фильтрация низких частот перед стадией дискретизации должна быть предельно точной,
177
00:12:37,548 --> 00:12:42,101
чтобы избежать удаления слышимых частот ниже 20 кГц,
178
00:12:42,101 --> 00:12:49,439
и в то же время не допуская попадания частот выше частоты Найквиста в процесс дискретизации.
179
00:12:49,439 --> 00:12:55,342
Этот тяжело реализуемый фильтр и ни один фильтр на практике не преуспел полностью.
180
00:12:55,342 --> 00:13:00,024
С другой стороны, если частота дискретизации 96 кГц или 192 кГц,
181
00:13:00,024 --> 00:13:07,223
низкочастотный фильтр имеет дополнительно октаву или две в переходной полосе. Такой фильтр намного легче построить.
182
00:13:07,223 --> 00:13:14,348
Частоты дискретизации ниже 48 кГц являются на самом деле одним из неприятных компромиссов на аналоговом этапе.
183
00:13:15,014 --> 00:13:20,844
Второй фундаментальный параметр ИКМ - это формат выборки, то есть форма каждого цифрового числа.
184
00:13:20,844 --> 00:13:26,285
Число - это число, но оно может быть представлено несколькими разными путями.
185
00:13:26,942 --> 00:13:30,902
Ранняя ИКМ была линейной 8 битной, кодировалась беззнаковым байтом.
186
00:13:30,902 --> 00:13:37,028
Динамический диапазон ограничен примерно 50 дБ и шум квантования, как вы можете слышать, достаточно резок.
187
00:13:37,028 --> 00:13:39,970
Восьмибитное аудио сегодня исчезающе встречается.
188
00:13:41,007 --> 00:13:47,484
В цифровой телефонии обычно используется одна из двух связанных нелинейных восьмибитных кодировок, называемых А-закон и мю-закон.
189
00:13:47,484 --> 00:13:51,287
Эти форматы кодируют примерно 14 битный динамический диапазон в восьми битах,
190
00:13:51,287 --> 00:13:54,674
раздвигая более высокие значения амплитуды дальше друг от друга.
191
00:13:54,674 --> 00:13:59,226
А-закон и мю-закон, очевидно, улучшают шум квантования в сравнении с линейным 8-битным,
192
00:13:59,226 --> 00:14:03,557
а голосовые гармоники хорошо скрывают оставшийся шум квантования.
193
00:14:03,557 --> 00:14:08,248
Все три восьмибитные кодировки - линейная, А-закон и мю-закон, обычно используются
194
00:14:08,248 --> 00:14:13,328
вместе с частотой дискретизации 8 кГц, хотя я демонстрирую их на 48 кГц.
195
00:14:13,328 --> 00:14:18,491
Большинство современных ИКМ использует знаковые целые 16 или 24 бит с дополнением до двух для кодирования
196
00:14:18,491 --> 00:14:23,858
диапазона от минус бесконечности до нуля децибел с точностью 16 или 24 бита.
197
00:14:23,858 --> 00:14:27,800
Максимальное абсолютное значение соответствует нулю децибел.
198
00:14:27,800 --> 00:14:31,584
Как и во всех современных форматах дискретизации, сигналы выше нуля децибел
199
00:14:31,584 --> 00:14:35,619
и, таким образом, за пределами представимого диапазона, обрезаются.
200
00:14:35,619 --> 00:14:41,199
В микшировании и сведении не является редкостью использование чисел с плавающей точкой для ИКМ вместо целых чисел.
201
00:14:41,199 --> 00:14:47,222
32-битное число с плавающей точкой, обыкновенная разновидность плавающей точки на современных компьютерах,
202
00:14:47,222 --> 00:14:52,793
представляет 24 бит для разрешения, а семь бит плавающей экспоненты увеличивает передаваемый диапазон.
203
00:14:52,793 --> 00:14:57,040
В числах с плавающей точкой, ноль децибел обычно представляется как +/-1.0,
204
00:14:57,040 --> 00:15:00,547
и, поскольку они могут, очевидно, представлять диапазон значительно выше этого,
205
00:15:00,547 --> 00:15:05,220
временно превышение нуля децибел в процессе смешивания не приводит к обрезанию.
206
00:15:05,220 --> 00:15:11,077
ИКМ с плавающей точкой занимает больше объема, поэтому она, как правило, используется только в качестве промежуточного производственного формата.
207
00:15:11,077 --> 00:15:15,796
Наконец, большинство компьютеров общего назначения по-прежнему читают и пишут данные восьмиразрядными байтами,
208
00:15:15,796 --> 00:15:18,489
потому важно помнить, что семплы больше восьми бит
209
00:15:18,489 --> 00:15:22,838
могут быть в порядке big или little endian, и оба порядка распространены.
210
00:15:22,838 --> 00:15:28,751
Например, файлы Microsoft WAV - в little endian, а Apple AIFC - как правило в big-endian.
211
00:15:28,751 --> 00:15:30,139
Имейте это в виду.
212
00:15:30,870 --> 00:15:34,071
Третий параметр ИКМ - это число каналов.
213
00:15:34,071 --> 00:15:38,485
Соглашением в сыром ИКМ является кодирование множества каналов, чередуя семплы каждого
214
00:15:38,485 --> 00:15:43,398
канала вместе в едином потоке. Просто и расширяемо.
215
00:15:43,398 --> 00:15:47,701
Вот и все. Это описывает все возможные представления ИКМ.
216
00:15:47,701 --> 00:15:51,578
Готово. Цифровое аудио _настолько просто_!
217
00:15:51,578 --> 00:15:56,436
Конечно, есть ещё много чего, но на данный момент у нас есть хороший полезный кусок аудиоданных,
218
00:15:56,436 --> 00:15:58,092
давайте добудем также немного видео.
219
00:16:02,571 --> 00:16:08,798
Можно рассматривать видео как аудио, только с двумя пространственными измерениями, X и Y,
220
00:16:08,798 --> 00:16:12,787
в дополнение к измерению времени. Математически, это звук.
221
00:16:12,787 --> 00:16:19,097
Теорема отсчетов применима ко всем трем измерениям видео точно также, как и к одному измерению времени в аудио.
222
00:16:19,097 --> 00:16:25,815
Очевидно, на практике аудио и видео немного различны. С одной стороны, в сравнении с аудио, видео огромно.
223
00:16:25,815 --> 00:16:29,294
Несжатое CD-аудио - это примерно 1,4 мегабита в секунду.
224
00:16:29,294 --> 00:16:33,958
Несжатое видео 1080i HD - более 700 мегабит в секунду.
225
00:16:33,958 --> 00:16:40,056
Приходится захватывать, обрабатывать и сохранять в 500 раз больше данных в секунду.
226
00:16:40,056 --> 00:16:43,711
По закону Мура... выходит... давайте посмотрим... примерно восемь удвоений раз в два года,
227
00:16:43,711 --> 00:16:47,838
так что да, компьютеры требуют около пятнадцати дополнительных лет для овладения несжатым видео
228
00:16:47,838 --> 00:16:51,252
после укрощения несжатого аудио.
229
00:16:51,252 --> 00:16:55,425
Основы сырого видео также несколько сложнее, чем основы сырого аудио.
230
00:16:55,425 --> 00:16:58,599
Большой объем данных в настоящее время требуется представления
231
00:16:58,599 --> 00:17:02,106
более эффективного, чем линейная ИКМ, используемая в аудио.
232
00:17:02,106 --> 00:17:06,705
К тому же, электронное видео происходит практически полностью из одного телевизионного вещания,
233
00:17:06,705 --> 00:17:13,423
а комитеты по стандартам, которые регулируют телевещание всегда были очень озабочены обратной совместимостью.
234
00:17:13,423 --> 00:17:17,559
До самых последних лет в США старый, шестидесятилетний черно-белый телевизор
235
00:17:17,559 --> 00:17:21,038
мог по-прежнему показывать обычные аналоговые телевизионные передачи.
236
00:17:21,038 --> 00:17:23,879
На самом деле это действительно искусный трюк.
237
00:17:23,879 --> 00:17:28,718
Недостатком обратной совместимости является то, что если когда-то что-то попадает в стандарт,
238
00:17:28,718 --> 00:17:30,985
вы не можете на самом деле больше никогда выкинуть его.
239
00:17:30,985 --> 00:17:37,305
Электронное видео никогда не переделывалось с нуля, как это было неоднократно с аудио.
240
00:17:37,305 --> 00:17:43,958
Шестьдесят лет стоят умных но устаревших хаков, необходимых в связи с уходом технологии данной эпохи,
241
00:17:43,958 --> 00:17:50,102
образующих на самом деле нагромождение, а поскольку цифровые стандарты также пришли с телевидения,
242
00:17:50,102 --> 00:17:54,664
все эти жуткие хаки были перенесены также и в цифровые стандарты.
243
00:17:54,664 --> 00:18:00,022
Вкратце, в цифровом видео замешано намного больше деталей, чем в аудио.
244
00:18:00,022 --> 00:18:05,592
Нет надежды охватить здесь их все полностью, поэтому мы широко охватим основы.
245
00:18:06,036 --> 00:18:10,857
Наиболее очевидными параметрами сырого видео являются ширина и высота изображения в пикселях.
246
00:18:10,857 --> 00:18:15,882
Так же просто, как это может показаться, разрешение в пикселях само по себе на самом деле не определяет абсолютные
247
00:18:15,882 --> 00:18:22,016
ширину и высоту изображения, поскольку большинство видео, происходящего из телевещания не использует квадратные пиксели.
248
00:18:22,016 --> 00:18:25,005
Число растровых строк в трансляционном изображении было фиксированным,
249
00:18:25,005 --> 00:18:29,021
но действительное количество горизонтальных пикселей зависело от ширины канала.
250
00:18:29,021 --> 00:18:31,945
Действительное горизонтальное разрешение могло приводить к тому, что пиксели
251
00:18:31,945 --> 00:18:35,489
были либо уже, либо шире, чем интервал между строками.
252
00:18:35,489 --> 00:18:38,395
Стандарты в основном указывают, что оцифрованное видео
253
00:18:38,395 --> 00:18:41,902
должно отражать реальное разрешение оригинального аналогового источника,
254
00:18:41,902 --> 00:18:45,566
поэтому большое количество цифрового видео также использует не квадратные пиксели.
255
00:18:45,566 --> 00:18:49,924
Например, обычное NTSC DVD с соотношением 4:3 обычно кодируется
256
00:18:49,924 --> 00:18:55,374
с разрешением экрана 704 на 408, соотношение, более широкое, чем 4:3.
257
00:18:55,374 --> 00:18:59,640
В данном случае сами пиксели получают соотношение 10:11,
258
00:18:59,640 --> 00:19:04,553
что делает их выше собственной ширины и сужает изображение горизонтально до правильного соотношения.
259
00:19:04,553 --> 00:19:09,800
Такое изображение должно проходить ресемплинг для корректного отображения на дисплеях с квадратными пикселями.
260
00:19:10,253 --> 00:19:15,287
Второй очевидный параметр видео - это частота смены кадров, количество полных кадров в секунду.
261
00:19:15,287 --> 00:19:19,655
Активно используются несколько стандартных частот кадров. Цифровое видео, в той или иной форме,
262
00:19:19,655 --> 00:19:23,689
может использовать их все. Или, другую частоту кадров. Или даже переменные частоты,
263
00:19:23,689 --> 00:19:27,113
когда частота кадров адаптивно меняется по ходу видео.
264
00:19:27,113 --> 00:19:32,998
Чем выше частота кадров, тем более плавны движения, и это приводит нас, к сожалению, к интерлейсингу.
265
00:19:32,998 --> 00:19:37,967
В самые ранние дни трансляции видео, инженеры искали наивысшую практическую частоту кадров
266
00:19:37,967 --> 00:19:42,075
для гладкого движения и с минимальным мерцанием на фосфорных ЭЛТ.
267
00:19:42,075 --> 00:19:45,277
Им было необходимо использовать минимальную ширину полосы
268
00:19:45,277 --> 00:19:48,182
для достижения максимального разрешения и наивысшей частоты кадров.
269
00:19:48,182 --> 00:19:51,208
Их решением было чередование видео, когда четные линии отправляются
270
00:19:51,208 --> 00:19:54,826
в один проход и нечетные - в следующий.
271
00:19:54,826 --> 00:19:59,961
Каждый проход называется полем, а два поля как бы образуют законченный кадр.
272
00:19:59,961 --> 00:20:05,319
"Как бы" - потому что четные и нечетные поля на самом деле не принадлежат одному исходному кадру.
273
00:20:05,319 --> 00:20:10,797
В изображении с 60 полями в секунду исходная частота кадров соответствует 60 полным кадрам в секунду,
274
00:20:10,797 --> 00:20:15,386
а половина каждого кадра, каждая лишняя линия, просто отбрасывается.
275
00:20:15,386 --> 00:20:20,272
Вот почему мы не можем применить деинтерлейсинг к видео простым комбинированием двух полей в один кадр;
276
00:20:20,272 --> 00:20:23,039
на самом деле они не из одного и того же кадра.
277
00:20:24,047 --> 00:20:29,683
Электронно-лучевая трубка была единственной доступной технологией отображения на протяжении большей части истории электронного видео.
278
00:20:29,683 --> 00:20:32,949
Выходная яркость ЭЛТ нелинейна, приблизительно равняется
279
00:20:32,949 --> 00:20:36,585
входному управляющему напряжению, возведённому в степень 2,5.
280
00:20:36,585 --> 00:20:43,821
Эта степень, 2,5 - избранная гамма, и поэтому она часто обозначается как гамма дисплея.
281
00:20:43,821 --> 00:20:50,493
Камеры, напротив, являются линейными, и если вы передадите ЭЛТ линейный входной сигнал, это будет выглядеть следующим образом.
282
00:20:51,270 --> 00:20:56,637
Поскольку первоначально было очень мало камер, которые были фантастически дорогими,
283
00:20:56,637 --> 00:21:01,634
и предполагалось много, много телевизоров, которые должны быть как можно менее дорогими,
284
00:21:01,634 --> 00:21:08,222
инженеры решили добавить необходимую схему гамма-коррекции в камеры, а не телевизоры.
285
00:21:08,222 --> 00:21:13,062
Видео, переданное по радиоволнам, таким образом, должно иметь нелинейную интенсивность, используя
286
00:21:13,062 --> 00:21:18,271
обратную степень гаммы телевизора, поэтому, как только сигнал с камеры, наконец, отображен на ЭЛТ,
287
00:21:18,271 --> 00:21:23,305
общий ответ системы камера-телевизор вновь становится линейным.
288
00:21:23,777 --> 00:21:25,118
Почти.
289
00:21:30,393 --> 00:21:33,113
Также есть ещё две настройки.
290
00:21:33,113 --> 00:21:40,442
Телекамера на самом деле использует экспоненту гаммы, обратную 2,2, а не 2,5.
291
00:21:40,442 --> 00:21:43,754
Это просто коррекция для просмотра в темном окружении.
292
00:21:43,754 --> 00:21:48,279
Кроме того, экспоненциальная кривая переходит в линейных закон вблизи черного цвета.
293
00:21:48,279 --> 00:21:52,360
Это просто старый хак для подавления шума датчика в камере.
294
00:21:54,941 --> 00:21:57,347
Гамма-коррекция также имела удачную выгоду.
295
00:21:57,347 --> 00:22:02,214
По воле случая, человеческий глаз имеет гамму восприятия около 3.
296
00:22:02,214 --> 00:22:05,962
Это относительно близко к гамме ЭЛТ, 2,5.
297
00:22:05,962 --> 00:22:10,607
Изображение, использующее гамма-коррекцию уделяет больше разрешения низким интенсивностям,
298
00:22:10,607 --> 00:22:14,336
где, как оказалось, у глаза наилучшая различимость,
299
00:22:14,336 --> 00:22:18,222
а следовательно, использует имеющееся разрешение более эффективно.
300
00:22:18,222 --> 00:22:22,784
Хотя в настоящее время ЭЛТ исчезают, стандартный дисплей компьютера sRGB
301
00:22:22,784 --> 00:22:28,419
по-прежнему использует нелинейную кривую интенсивности, схожую с телевизионной, с линейным законом в области черного,
302
00:22:28,419 --> 00:22:32,491
с экспоненциальной кривой со значением гаммы 2,4.
303
00:22:32,491 --> 00:22:36,636
Это кодирует шестнадцатибитный линейный диапазон в восьми битах.
304
00:22:37,580 --> 00:22:41,790
В человеческом глазу есть три раздельных цветовых канала - красный, зеленый и синий,
305
00:22:41,790 --> 00:22:47,407
и большинство дисплеев использует эти три цвета как компоненты смешивания, чтобы получить полный спектр цветов.
306
00:22:49,258 --> 00:22:54,190
В печати, по той же причине, основными пигментами являются голубой (Cyan), пурпурный (Magenta) и Желтый (Yellow);
307
00:22:54,190 --> 00:22:59,381
пигменты являются вычитаемыми, и каждый из этих пигментов вычитает один чистый цвет из отраженного света.
308
00:22:59,381 --> 00:23:05,682
Голубой вычитает красный, пурпурный вычитает зеленый, а желтый вычитает синий.
309
00:23:05,682 --> 00:23:10,919
Видео может, и иногда бывает, представлено красным, зеленым и синим каналами,
310
00:23:10,919 --> 00:23:17,211
но RGB-видео нетипично. Человеческий глаз намного более чувствителен к яркости, нежели к её цвету,
311
00:23:17,211 --> 00:23:21,329
а RGB стремится распределять энергию на изображение равномерно по всем трем каналам.
312
00:23:21,329 --> 00:23:25,326
Посмотрите, красная плоскость выглядит как красная версия оригинально изображения,
313
00:23:25,326 --> 00:23:28,769
зеленая плоскость выглядит как зеленая версия оригинального изображения,
314
00:23:28,769 --> 00:23:32,063
а синяя плоскость выглядит как синяя версия оригинально изображения.
315
00:23:32,063 --> 00:23:35,705
Черно-белый в тройном объеме. Неэффективно.
316
00:23:35,706 --> 00:23:39,438
По этой причине и потому, что телевидение изначально все равно было черно-белым,
317
00:23:39,438 --> 00:23:45,017
видео обычно представляется как канал яркости высокого разрешения,
318
00:23:45,017 --> 00:23:51,041
черно-белый, вместе с дополнительными, зачастую с меньшим разрешением, каналами цвета.
319
00:23:51,041 --> 00:23:57,074
Канал яркости, Y, получают взвешиванием, а затем сложением отдельных, красного, зеленого и синего сигналов.
320
00:23:57,074 --> 00:24:01,867
Каналы насыщенности (цвета) U и V потом получают вычитанием сигнала яркости из синего,
321
00:24:01,867 --> 00:24:04,070
и вычитанием сигнала яркости из красного.
322
00:24:04,070 --> 00:24:11,750
Когда YUV масштабируется, смещается и дискретизируется для цифрового видео, его на самом деле правильнее называть Y'CbCr,
323
00:24:11,750 --> 00:24:15,238
но более общий термин YUV широко распространен для описания
324
00:24:15,238 --> 00:24:18,301
всех аналоговых и цифровых вариантов данной цветовой модели.
325
00:24:18,912 --> 00:24:22,983
Цветовые каналы U и V могут быть того же разрешения, что и канал Y,
326
00:24:22,983 --> 00:24:28,674
но, поскольку человеческий глаз имеет куда худшее пространственное разрешение насыщенности цвета, нежели разрешение яркости,
327
00:24:28,674 --> 00:24:34,346
разрешение насыщенности обычно берется половиной или даже четвертью в горизонтальном направлении, вертикальном,
328
00:24:34,346 --> 00:24:39,528
или обоих, обычно без какого-либо существенного влияния на качество видимого изображения.
329
00:24:39,528 --> 00:24:43,942
Практически любой возможный вариант субдискретизации был использован в то или иное время,
330
00:24:43,942 --> 00:24:46,875
но сегодня распространенными являются
331
00:24:46,875 --> 00:24:51,187
4:4:4, который, в действительности вообще не субдискретизируется,
332
00:24:51,187 --> 00:24:56,711
4:2:2, в котором горизонтальное разрешение каналов U и V делится пополам,
333
00:24:56,711 --> 00:25:02,587
и наиболее общепринятый из всех, 4:2:0, при котором и горизонтальное и вертикальное разрешения
334
00:25:02,587 --> 00:25:08,897
каналов насыщенности делятся пополам, что приводит к тому, что каждая из плоскостей U и V в четыре раза меньше Y.
335
00:25:08,897 --> 00:25:17,096
Термины 4:2:2, 4:2:0, 4:1:1 и т.д., и т.п. не являются полными описаниями субдискретизации насыщенности.
336
00:25:17,096 --> 00:25:21,186
Существует несколько возможных способов позиционирования пикселей насыщенности относительно пикселей яркости,
337
00:25:21,096 --> 00:25:24,776
и опять, есть несколько активно используемых для каждой субдискретизации.
338
00:25:24,776 --> 00:25:32,502
Например, motion JPEG, MPEG-1 video, MPEG-2 video, DV, Theora и WebM, все используют
339
00:25:32,502 --> 00:25:38,137
или могут использовать субдискретизацию 4:2:0, но они располагают цветовые пиксели тремя разными способами.
340
00:25:38,498 --> 00:25:43,023
Motion JPEG, MPEG1 video, Theora и WebM располагают пиксели насыщенности
341
00:25:43,023 --> 00:25:46,345
горизонтально и вертикально между пикселями яркости.
342
00:25:46,345 --> 00:25:51,989
MPEG2 располагает пиксели насыщенности между линий, но горизонтально выравнивает их с каждым пикселем яркости.
343
00:25:51,989 --> 00:25:57,106
Режимы с интерлейсингом несколько все усложняют, размещая их немного странно.
344
00:25:57,106 --> 00:26:00,909
И наконец, PAL-DV, который всегда использует интерлейсинг, размещает пиксели насыщенности
345
00:26:00,909 --> 00:26:04,398
в горизонтальном направлении в том же положении, что и пиксели яркости,
346
00:26:04,398 --> 00:26:07,303
а вертикально чередует канал насыщенности в каждой линии.
347
00:26:07,683 --> 00:26:12,282
И это все - только видео 4:2:0. Я оставлю остальные варианты субдискретизации как домашнее задание зрителю.
348
00:26:12,282 --> 00:26:14,882
У вас есть основная идея, двигайтесь дальше.
349
00:26:15,511 --> 00:26:21,128
В аудио мы обычно представляем несколько каналов в потоке ИКМ, чередуя по порядку
350
00:26:21,128 --> 00:26:26,383
семплы каждого канала. Видео использует как запакованные форматы, которые чередуют цветовые каналы,
351
00:26:26,383 --> 00:26:30,584
так и плоские форматы, которые хранят пиксели из каждого канала вместе в отдельных плоскостях,
352
00:26:30,584 --> 00:26:35,415
составленных по порядку в кадре. Существуют как минимум 50 различных форматов в этих двух больших категориях,
353
00:26:35,415 --> 00:26:41,549
возможно десять или пятнадцать из которых широко используются. Каждая субдискретизация насыщенности и
354
00:26:41,549 --> 00:26:46,574
разная битность требуют разного порядка упаковки, а потому и разного формата пикселей. Для каждой уникальной субдискретизации
355
00:26:46,574 --> 00:26:50,858
обычно также существует несколько эквивалентных форматов, состоящих из тривиальных перестановок или перепаковок
356
00:26:50,858 --> 00:26:55,966
порядка каналов, связанных либо с удобством на определённом железе в определенном случае
357
00:26:55,966 --> 00:27:00,352
либо, иногда, просто из-за упрямства.
358
00:27:00,352 --> 00:27:04,692
Пиксельные форматы описываются уникальным названием четырехсимвольного кода (FourCC).
359
00:27:04,692 --> 00:27:08,115
Их существует довольно много, и нет смысла сейчас приводить их все.
360
00:27:08,115 --> 00:27:13,704
Google ваш друг. Имейте в виду, что коды FourCC для сырого видео определяют порядок пикселей
361
00:27:13,704 --> 00:27:20,339
и субдискретизации насыщенности, но в общем случае не говорят ничего конкретного о размещении пикселей насыщенности или пространстве цветов.
362
00:27:20,339 --> 00:27:25,807
Для примера, YV12 video может использовать размещение JPEG, MPEG-2 или DV,
363
00:27:25,807 --> 00:27:28,991
а также любой из нескольких определений пространств цвета YUV.
364
00:27:29,472 --> 00:27:33,913
Это завершает наше не столь быстрое и ещё не совсем законченное путешествие в сырое видео.
365
00:27:33,913 --> 00:27:38,651
Хорошие новости в том, что мы уже можем выполнить достаточно много настоящей работы, опираясь на данный обзор.
366
00:27:38,651 --> 00:27:42,528
Во множестве ситуаций, кадр видеоданных является кадром видеоданных.
367
00:27:42,528 --> 00:27:46,451
Детали приобретают значение, когда приходит время писать программы,
368
00:27:46,452 --> 00:27:52,086
а сейчас я удовлетворен тем, что уважаемый зритель широко осведомлен в соответствующих вопросах.
369
00:27:55,640 --> 00:27:59,230
Итак. У нас есть аудиоданные. У нас есть видеоданные.
370
00:27:59,230 --> 00:28:03,246
Что осталось - так более знакомые не-сигнальные данные и непосредственное проектирование
371
00:28:03,246 --> 00:28:07,410
программного обеспечения, используемого разработчиками. И многое из всего этого!
372
00:28:07,928 --> 00:28:11,768
Цепочки данных сырого аудио или видео не имеют внешней видимой структуры,
373
00:28:11,768 --> 00:28:15,173
но они часто имеют одинаковый размер. Мы можем просто выстроить их вместе
374
00:28:15,173 --> 00:28:18,097
в жестком предопределенном порядке для стримминга или хранения,
375
00:28:18,097 --> 00:28:21,040
и многие простые системы делают примерно то же самое.
376
00:28:21,040 --> 00:28:24,195
С другой стороны, сжатые кадры не обязательно имеют предсказуемый размер,
377
00:28:24,195 --> 00:28:29,405
и нам часто может требоваться некоторая гибкость в использовании данных ряда различных типов в потоках.
378
00:28:29,405 --> 00:28:34,281
Если мы расположим произвольные бесформенные данные вместе, мы потеряем границы, разделяющие кадры
379
00:28:34,281 --> 00:28:37,871
и не сможем при необходимости узнать, какие данные к какому потоку относятся.
380
00:28:37,871 --> 00:28:42,192
Потоку необходима некоторая обобщенная структура, чтобы он был полезен.
381
00:28:42,192 --> 00:28:46,606
В дополнение к нашим сигнальным данным, у нас также есть наши параметры ИКМ и видео.
382
00:28:46,606 --> 00:28:49,752
Также существует множество других метаданных, с которыми мы также хотим работать,
383
00:28:49,752 --> 00:28:55,415
таких как аудио теги и главы видео, субтитры - все естественные компоненты rich media.
384
00:28:55,415 --> 00:29:01,633
Имеет смысл располагать эти метаданные, другими словами данные о данных, внутри самого носителя.
385
00:29:01,633 --> 00:29:06,445
Хранение и структурирование бесформенных данных и разнородных метаданных - это работа контейнера.
386
00:29:06,445 --> 00:29:09,221
Контейнеры предоставляют структурирование blob'ов (бинарных блоков) данных,
387
00:29:09,221 --> 00:29:12,015
чередование и идентификацию множества потоков данных,
388
00:29:12,015 --> 00:29:15,337
предоставляют информацию синхронизации и хранят метаданные, необходимые
389
00:29:15,337 --> 00:29:19,140
для разбора, навигации, управления и представления данных
390
00:29:19,140 --> 00:29:22,222
В общем, любой контейнер может содержать любой вид данных.
391
00:29:22,222 --> 00:29:24,970
И данные могут размещаться в любом контейнере.
392
00:29:28,801 --> 00:29:32,391
За последние тридцать минут мы охватили цифровое аудио и видео,
393
00:29:32,391 --> 00:29:35,435
немного истории и математики и немного проектирования.
394
00:29:35,435 --> 00:29:39,377
Мы только начали, но пришло время для заслуженного перерыва.
395
00:29:41,107 --> 00:29:45,373
Есть ещё так много, о чем стоит поговорить, поэтому я надеюсь, что вы присоединитесь ко мне снова в нашем следующем эпизоде.
396
00:29:45,373 --> 00:29:47,159
До тех пор--- Пока!
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment