Rupal Patel: Synthetic voices, as unique as fingerprints
ルパル・パテル: 指紋のようにユニークな合成音声
112,164 views ・ 2014-02-13
下の英語字幕をダブルクリックすると動画を再生できます。
翻訳: Mari Arimitsu
校正: Akiko Hicks
00:12
I'd like to talk today
0
12719
1490
今日 皆さんにお話したいのは
00:14
about a powerful and fundamental aspect
1
14209
2927
私たちのあり方を決める
パワフルで
00:17
of who we are: our voice.
2
17136
3598
基礎的なもの―
「声」についてです
00:20
Each one of us has a unique voiceprint
3
20734
2746
私たち一人一人に独特の声紋があり
00:23
that reflects our age, our size,
4
23480
2289
私たちの年齢、体格
00:25
even our lifestyle and personality.
5
25769
3237
生活習慣や個性までも映し出します
00:29
In the words of the poet Longfellow,
6
29006
2142
ヘンリー・ワーズワース・ロングフェローは
00:31
"the human voice is the organ of the soul."
7
31148
3870
「人の声は心のオルガン(心の臓器)である」と
詩でつづりました
00:35
As a speech scientist, I'm fascinated
8
35018
2747
スピーチ・サイエンティストである私は
00:37
by how the voice is produced,
9
37765
1829
発声の仕組みに魅せられ
00:39
and I have an idea for how it can be engineered.
10
39594
3658
これを人工的に作り出す方法を
見つけました
00:43
That's what I'd like to share with you.
11
43252
2210
これを皆さんと共有いたします
00:45
I'm going to start by playing you a sample
12
45462
1814
まずは皆さんが
ご存知かもしれない
00:47
of a voice that you may recognize.
13
47276
1871
声のサンプルを流します
00:49
(Recording) Stephen Hawking: "I would have thought
14
49147
1304
(音声)スティーヴン・ホーキング:
「私が意図することは
00:50
it was fairly obvious what I meant."
15
50451
2749
かなり明確だと思っていました」
00:53
Rupal Patel: That was the voice
16
53200
1280
お聞きいただいたのは
00:54
of Professor Stephen Hawking.
17
54480
2086
スティーヴン・ホーキング教授の声です
00:56
What you may not know is that same voice
18
56566
3849
皆さんが
ご存知ないかもしれないのは
01:00
may also be used by this little girl
19
60415
2478
同じ声を
こちらの女の子のような
01:02
who is unable to speak
20
62893
1697
神経疾患で話すことができない
01:04
because of a neurological condition.
21
64590
2597
子供も使っている
可能性があることです
01:07
In fact, all of these individuals
22
67187
2068
実は このような方々は
01:09
may be using the same voice,
23
69255
2012
声の選択肢が ごく限られているため
01:11
and that's because there's
only a few options available.
24
71267
3557
同じ声を使っていることがあるのです
01:14
In the U.S. alone, there are 2.5 million Americans
25
74824
4317
アメリカだけでも
話すことができない人達が
01:19
who are unable to speak,
26
79141
1610
250万人もいます
01:20
and many of whom use computerized devices
27
80751
2622
その多くの人達が
コミュニケーション手段として
01:23
to communicate.
28
83373
1522
コンピューターを使用します
01:24
Now that's millions of people worldwide
29
84895
3479
世界規模で
数百万の人々が
01:28
who are using generic voices,
30
88374
1652
人工音声を使っているのです
01:30
including Professor Hawking,
31
90026
1446
ホーキング教授も その1人で
01:31
who uses an American-accented voice.
32
91472
4833
アメリカ訛りの音声を使っていますね
01:36
This lack of individuation of the synthetic voice
33
96305
3328
この個性に欠けた
合成音声には
01:39
really hit home
34
99633
1416
本当にショックを受けました
01:41
when I was at an assistive technology conference
35
101049
2472
数年前に障害を持つ人の
技術支援に関する会議に
01:43
a few years ago,
36
103521
1850
参加した時のことです
01:45
and I recall walking into an exhibit hall
37
105371
3604
展示ホールに足を入れると
01:48
and seeing a little girl and a grown man
38
108975
3044
小さい女の子から
成人男性まで
01:52
having a conversation using their devices,
39
112019
2916
それぞれの機器を使って
話しているんですが
01:54
different devices, but the same voice.
40
114935
4284
機器は違えど
同じ声でした
01:59
And I looked around and I saw this happening
41
119219
1909
周りを見回すと
私の周りでも
02:01
all around me, literally hundreds of individuals
42
121128
4190
同じことが起こっていました
文字通り数百人の人達が
02:05
using a handful of voices,
43
125318
2738
ごく限られた音声を使っていて
02:08
voices that didn't fit their bodies
44
128056
3091
それぞれの身体や個性に
02:11
or their personalities.
45
131147
2082
合っていないんです
02:13
We wouldn't dream of fitting a little girl
46
133229
2727
小さい女の子に
成人男性用の義足を
02:15
with the prosthetic limb of a grown man.
47
135956
3396
あてがうなんて想像できませんよね
02:19
So why then the same prosthetic voice?
48
139352
3304
ではなぜ人工音声もそうしないのか?
02:22
It really struck me,
49
142656
1291
これが大変気に掛かり
02:23
and I wanted to do something about this.
50
143947
3151
この状況を何とかしたいと思ったのです
02:27
I'm going to play you now a sample
51
147098
1953
これから お聞きいただくのは
02:29
of someone who has, two people actually,
52
149051
3288
重度の言語障害を患っている
02:32
who have severe speech disorders.
53
152339
1768
2人の音声サンプルです
02:34
I want you to take a listen to how they sound.
54
154107
3230
どのように聞こえるか
お聞きください
02:37
They're saying the same utterance.
55
157337
2357
同じ内容を発話しています
02:39
(First voice)
56
159694
2432
(第1音声)
02:42
(Second voice)
57
162126
3617
(第2音声)
02:45
You probably didn't understand what they said,
58
165743
2412
話の内容までは
分からなかったかもしれませんが
02:48
but I hope that you heard
59
168155
1854
2人の個性的な
02:50
their unique vocal identities.
60
170009
4283
音声はお分かりいただけたでしょう
02:54
So what I wanted to do next is,
61
174292
2813
次に私がやりたかったことは
02:57
I wanted to find out how we could harness
62
177105
2384
このように残された
発話能力を
02:59
these residual vocal abilities
63
179489
1821
活かして
03:01
and build a technology
64
181310
2016
使用者に合わせて カスタマイズできる
03:03
that could be customized for them,
65
183326
2143
テクノロジー
つまり彼らのために
03:05
voices that could be customized for them.
66
185469
2429
カスタマイズできる声を
開発することでした
03:07
So I reached out to my collaborator, Tim Bunnell.
67
187898
2685
そこで協力者の
ティム・バンネルに助言を仰ぎました
03:10
Dr. Bunnell is an expert in speech synthesis,
68
190583
3063
バンネル博士は音声合成の
第一人者で
03:13
and what he'd been doing is building
69
193646
2033
彼がやっているのは
03:15
personalized voices for people
70
195679
1881
事前に録音してあった
03:17
by putting together
71
197560
2097
本人の音声サンプルを用いて
03:19
pre-recorded samples of their voice
72
199657
2150
音声を復元することで
03:21
and reconstructing a voice for them.
73
201807
2879
個人用の音声を作っているのです
03:24
These are people who had lost their voice
74
204686
1712
対象となるのは後天性の障害で
03:26
later in life.
75
206398
1911
声を失った人達です
03:28
We didn't have the luxury
76
208309
1394
生まれながらに
03:29
of pre-recorded samples of speech
77
209703
1774
言語障害がある人達には
03:31
for those born with speech disorder.
78
211477
2292
「事前に録音した音声サンプル」なんてありません
03:33
But I thought, there had to be a way
79
213769
2537
でも私が考えたのは
残された かすかな声から
03:36
to reverse engineer a voice
80
216306
1944
その人の声を
03:38
from whatever little is left over.
81
218250
2291
蘇らせることができるはずだと
03:40
So we decided to do exactly that.
82
220541
2714
そこで これに取り組むことにしたのです
03:43
We set out with a little bit of funding
from the National Science Foundation,
83
223255
3403
アメリカ国立科学財団から
わずかな資金援助を受け
03:46
to create custom-crafted voices that captured
84
226658
3565
話者の独特な声の特徴を反映した
03:50
their unique vocal identities.
85
230223
1536
個人用音声の開発を始めました
03:51
We call this project VocaliD, or vocal I.D.,
86
231759
3203
私たちは このプロジェクトを
“VocaliD”や“vocal I.D.”と
03:54
for vocal identity.
87
234962
2033
名づけました
03:56
Now before I get into the details of how
88
236995
2674
これから皆さんに
この特注の声がどのように作られ
03:59
the voice is made and let you listen to it,
89
239669
2048
実際の声を お聞きいただく前に
04:01
I need to give you a real quick
speech science lesson. Okay?
90
241717
3350
音声科学についての ごく簡単な講義をします
いいですか?
04:05
So first, we know that the voice is changing
91
245067
3159
まず私たちの音声は
成長過程において
04:08
dramatically over the course of development.
92
248226
2854
劇的に変化します
04:11
Children sound different from teens
93
251080
2090
小さな子供の声は
十代の人達と異なりますし
04:13
who sound different from adults.
94
253170
1463
成人の人達も異なります
04:14
We've all experienced this.
95
254633
2642
皆さん これを経験しますね
04:17
Fact number two is that speech
96
257275
3363
2つ目の事実は発声とは
04:20
is a combination of the source,
97
260638
2553
皆さんの喉頭から発せられた
04:23
which is the vibrations generated by your voice box,
98
263191
3479
振動による音源が
04:26
which are then pushed through
99
266670
1939
残りの声道を通過することで
04:28
the rest of the vocal tract.
100
268609
2437
起こります
04:31
These are the chambers of your head and neck
101
271046
2484
皆さんの頭と首の中にある
スペースが
04:33
that vibrate,
102
273530
1239
振動することで
04:34
and they actually filter that source sound
103
274769
2110
音源をフィルターにかけて
04:36
to produce consonants and vowels.
104
276879
2537
母音と子音が発音されるのです
04:39
So the combination of source and filter
105
279416
3860
つまり音源がフィルターにかかることが
04:43
is how we produce speech.
106
283276
2630
発声のメカニズムなのです
04:45
And that happens in one individual.
107
285906
3026
これが一人一人に起きているわけです
04:48
Now I told you earlier that I'd spent
108
288932
2626
先ほど申し上げたように
04:51
a good part of my career
109
291558
2025
私は重い言語障害を患う人達の
04:53
understanding and studying
110
293583
2453
音源の特性についての
04:56
the source characteristics of people
111
296036
1958
理解と研究に
長いこと
04:57
with severe speech disorder,
112
297994
2301
携わってきました
05:00
and what I've found
113
300295
1465
そこで気づいたのは
05:01
is that even though their filters were impaired,
114
301760
3366
彼らのフィルターに障害があっても
05:05
they were able to modulate their source:
115
305126
2961
音源は調節可能であるということで
05:08
the pitch, the loudness, the tempo of their voice.
116
308087
3262
それは声のピッチ、大きさ、テンポです
05:11
These are called prosody, and
I've been documenting for years
117
311349
3368
これらはプロソディー(韻律)と呼ばれるもので
長年の調査で
05:14
that the prosodic abilities of these individuals
118
314717
2277
言語障害者のプロソディーが
健在であることを
05:16
are preserved.
119
316994
1575
実証してきました
05:18
So when I realized that those same cues
120
318569
4087
ですから これらの表現が
話し手のアイデンティティにも
05:22
are also important for speaker identity,
121
322656
2769
重要だと気づいた時
05:25
I had this idea.
122
325425
2015
このアイデアを思いついたのです
05:27
Why don't we take the source
123
327440
2516
それは発話させたい人の
05:29
from the person we want the voice to sound like,
124
329956
2213
音源を使い
05:32
because it's preserved,
125
332169
1463
―これは残っているんですね
05:33
and borrow the filter
126
333632
2135
対象となる人と同じ年齢で
05:35
from someone about the same age and size,
127
335767
3229
同じ体格の人から
フィルターを借りて
05:39
because they can articulate speech,
128
339011
2407
この明瞭な音声と
05:41
and then mix them?
129
341418
1791
混ぜたらどうかと考えたのです
05:43
Because when we mix them,
130
343209
1787
合成した声は
05:44
we can get a voice that's as clear
131
344996
1698
フィルターを借りた
05:46
as our surrogate talker --
132
346694
1754
代理話者と同じくらい
05:48
that's the person we borrowed the filter from—
133
348448
2595
明瞭な声で
私たちがターゲットとしている話者の
05:51
and is similar in identity to our target talker.
134
351043
4649
アイデンティティにも
類似しているんです
05:55
It's that simple.
135
355692
1427
こんなに簡単なんです
05:57
That's the science behind what we're doing.
136
357119
2934
これが私たちがやっていることの
裏にある科学です
06:00
So once you have that in mind,
137
360053
3533
では アイデアが思いついたところで
06:03
how do you go about building this voice?
138
363586
2258
どうやって実際に声を構築したらいいでしょう?
06:05
Well, you have to find someone
139
365844
1480
まずはフィルターを提供してくれる人を
探す必要がありました
06:07
who is willing to be a surrogate.
140
367324
2400
まずはフィルターを提供してくれる人を
探す必要がありました
06:09
It's not such an ominous thing.
141
369724
2264
全然難しいことではないんです
06:11
Being a surrogate donor
142
371988
1523
提供者になるということは
06:13
only requires you to say a few hundred
143
373511
2788
数百から数千の言葉を
06:16
to a few thousand utterances.
144
376299
2242
発声するだけです
06:18
The process goes something like this.
145
378541
2003
この過程はこんな感じです
06:20
(Video) Voice: Things happen in pairs.
146
380544
2190
声:物事は対になって起こります
06:22
I love to sleep.
147
382734
1925
寝るのが大好きです
06:24
The sky is blue without clouds.
148
384659
3882
雲一つない青い空です
06:28
RP: Now she's going to go on like this
149
388541
2002
これを3時間から
06:30
for about three to four hours,
150
390543
1919
4時間ほど続けます
06:32
and the idea is not for her to say everything
151
392462
3005
ここでのポイントは
対象となる人が話したい文章を
06:35
that the target is going to want to say,
152
395467
2045
代理人に言わせるのではなく
06:37
but the idea is to cover all the different combinations
153
397512
3395
言葉の中で生じる
全ての異なる
06:40
of the sounds that occur in the language.
154
400907
3271
音の組み合わせを
拾っていくことです
06:44
The more speech you have,
155
404178
1638
サンプルが多ければ多いほど
06:45
the better sounding voice you're going to have.
156
405816
2305
より質の良い声を得ることができます
06:48
Once you have those recordings,
157
408121
1673
収録が終わったら
06:49
what we need to do
158
409794
1413
次に必要なのは
06:51
is we have to parse these recordings
159
411207
2718
読まれた文章を解析し
06:53
into little snippets of speech,
160
413925
2449
言語の要素に分割することです
06:56
one- or two-sound combinations,
161
416374
2337
1つの音や 2つの音の組み合わせや
06:58
sometimes even whole words
162
418711
1883
時には 単語全体を
07:00
that start populating a dataset or a database.
163
420594
4516
データセットすなわちデータベースに
集積していきます
07:05
We're going to call this database a voice bank.
164
425110
3717
このデータベースを
音声バンクと呼びましょう
07:08
Now the power of the voice bank
165
428827
2096
音声バンクのパワフルな点は
07:10
is that from this voice bank,
166
430923
2014
この音声バンクから
07:12
we can now say any new utterance,
167
432937
2011
新しい言葉を発声できることで
07:14
like, "I love chocolate" --
168
434948
1424
「チョコレートが好き」とか
07:16
everyone needs to be able to say that—
169
436372
1739
これは誰でも言いたいですよね
07:18
fish through that database
170
438111
1831
データベースを駆使して
07:19
and find all the segments necessary
171
439942
1940
その言葉の発声に必要な
07:21
to say that utterance.
172
441882
1929
全ての断片を見つけるのです
07:23
(Video) Voice: I love chocolate.
173
443811
1789
声:チョコレートが好きです
07:25
RP: So that's speech synthesis.
174
445600
1391
これが音声合成です
07:26
It's called concatenative synthesis,
and that's what we're using.
175
446991
2573
波形接続合成という
私たちが使っている手法です
07:29
That's not the novel part.
176
449564
1533
これは目新しくありませんが
07:31
What's novel is how we make it sound
177
451097
2221
新しい点は どうやって
この若い女性が
07:33
like this young woman.
178
453318
1457
話すような音声にするかです
07:34
This is Samantha.
179
454775
1524
彼女の名前はサマンサです
07:36
I met her when she was nine,
180
456299
2346
私が彼女に出会ったのは
07:38
and since then, my team and I
181
458645
1897
彼女が9歳の時で
07:40
have been trying to build her a personalized voice.
182
460542
2714
私のチームは
彼女のための声を構築してきました
07:43
We first had to find a surrogate donor,
183
463256
3099
まずは代理ドナーを探して
07:46
and then we had to have Samantha
184
466355
1818
サマンサにも いくつかの
07:48
produce some utterances.
185
468173
1929
発声をお願いしました
07:50
What she can produce are mostly vowel-like sounds,
186
470102
2379
彼女が発声できるのは
主に母音だけですが
07:52
but that's enough for us to extract
187
472481
2479
彼女の音源特性を引き出すのには
07:54
her source characteristics.
188
474960
2285
十分な情報でした
07:57
What happens next is best described
189
477245
3271
次のステップは
08:00
by my daughter's analogy. She's six.
190
480516
2767
私の6歳の娘が上手く例えています
08:03
She calls it mixing colors to paint voices.
191
483283
5422
娘は「声を色づかせるために
絵の具を混ぜているんだね」と
08:08
It's beautiful. It's exactly that.
192
488705
2555
きれいですよね
まさにその通りなんです
08:11
Samantha's voice is like a concentrated sample
193
491260
2860
サマンサの声は
濃縮された食紅のように
08:14
of red food dye which we can infuse
194
494120
2609
彼女の代理ドナーの
録音した声に混ぜることで
08:16
into the recordings of her surrogate
195
496729
2540
彼女の代理ドナーの
録音した声に混ぜることで
08:19
to get a pink voice just like this.
196
499269
4387
ピンク色の声になるのです
まさに こんな風に
08:23
(Video) Samantha: Aaaaaah.
197
503656
4491
サマンサ:ああああああ
08:28
RP: So now, Samantha can say this.
198
508147
2808
今では こんな風に話せます
08:30
(Video) Samantha: This voice is only for me.
199
510955
3069
サマンサ:この声は私だけのもの
08:34
I can't wait to use my new voice with my friends.
200
514024
6305
友達と新しい声で話すのが楽しみ
08:40
RP: Thank you. (Applause)
201
520329
6417
ありがとう (拍手)
08:46
I'll never forget the gentle smile
202
526746
2333
彼女が 最初に
この声を聞いた時の
08:49
that spread across her face
203
529079
1902
顔いっぱいに広がった
08:50
when she heard that voice for the first time.
204
530981
3649
優しい笑みは ずっと忘れないでしょう
08:54
Now there's millions of people
205
534630
1882
世界中には数百万人もの
08:56
around the world like Samantha, millions,
206
536512
2833
サマンサのような人々がいます
数百万ですよ
08:59
and we've only begun to scratch the surface.
207
539345
3440
私たちの取り組みは
まだまだ始まったばかりです
09:02
What we've done so far is we have
208
542785
1642
これまでの取り組みは
09:04
a few surrogate talkers from around the U.S.
209
544427
3859
アメリカ国内で
声を提供してくれる人々を
09:08
who have donated their voices,
210
548286
1507
数名集めて
09:09
and we have been using those
211
549793
1928
私たちの初の試みとなる
09:11
to build our first few personalized voices.
212
551721
4472
個人用の声の構築に
利用しています
09:16
But there's so much more work to be done.
213
556193
1756
でも やることは山ほどあります
09:17
For Samantha, her surrogate
214
557949
2188
例えばサマンサの代理ドナーは
09:20
came from somewhere in the Midwest, a stranger
215
560137
3046
中西部の出身で
見ず知らずの他人が
09:23
who gave her the gift of voice.
216
563183
3841
声の贈り物をしてくれたのです
09:27
And as a scientist, I'm so excited
217
567024
2153
私が科学者として
とても楽しみなのは
09:29
to take this work out of the laboratory
218
569177
1935
研究室でやっていた仕事を
09:31
and finally into the real world
219
571112
1800
ついに実用化して
09:32
so it can have real-world impact.
220
572912
3165
実社会に影響を与えることです
09:36
What I want to share with you next
221
576077
1582
次に皆さんと共有させていただくのは
09:37
is how I envision taking this work
222
577659
2175
この成果を
どうやって次のレベルに
09:39
to that next level.
223
579834
2711
進めるかです
09:42
I imagine a whole world of surrogate donors
224
582545
3887
私が考えているのは
世界中の あらゆる階層の人々
09:46
from all walks of life, different sizes, different ages,
225
586432
3260
異なる体格や
違う年齢層の人々が
09:49
coming together in this voice drive
226
589692
3058
代理ドナーとなって
09:52
to give people voices
227
592750
2270
個性と同じくらい
09:55
that are as colorful as their personalities.
228
595020
3799
色彩に富んだ声を
人々に贈ることです
09:58
To do that as a first step,
229
598819
2300
これを叶えるための第一歩として
10:01
we've put together this website, VocaliD.org,
230
601119
3275
『VocaliD.org』というウェブサイトを
立ち上げました
10:04
as a way to bring together those
231
604394
1624
声や専門知識の提供を
10:06
who want to join us as voice donors,
232
606018
2675
募るためのサイトで
私たちのビジョンを
10:08
as expertise donors,
233
608693
1772
いろいろな形で
10:10
in whatever way to make this vision a reality.
234
610465
5339
支援してくれる人たちを
集める試みです
10:15
They say that giving blood can save lives.
235
615804
4153
献血で他人の命を救うことができますね
10:19
Well, giving your voice can change lives.
236
619957
4982
声を提供することで
他人の人生を変えることができます
10:24
All we need is a few hours of speech
237
624939
3050
ほんの数時間分の
代理話者の
10:27
from our surrogate talker,
238
627989
1491
音声サンプルと
10:29
and as little as a vowel from our target talker,
239
629480
4733
声を受け取る人の発声した
母音が1つでもあれば
10:34
to create a unique vocal identity.
240
634213
3711
独特な声のアイデンティティを
作れます
10:37
So that's the science behind what we're doing.
241
637924
2626
これが私たちがやっている裏にある
科学なんです
10:40
I want to end by circling back to the human side
242
640550
4455
この仕事に
インスピレーションをもたらしてくれた
10:45
that is really the inspiration for this work.
243
645005
4102
人間的な部分に立ち返ることで
締めくくります
10:49
About five years ago, we built our very first voice
244
649107
3699
約5年前のことです
私たちが最初に作った声は
10:52
for a little boy named William.
245
652806
2501
ウィリアムという男の子のためでした
10:55
When his mom first heard this voice,
246
655307
2357
母親が この声を始めて耳にした時
10:57
she said, "This is what William
247
657664
2345
「まさにウィリアムの声だ
11:00
would have sounded like
248
660009
1546
もし この子が話せていたら
11:01
had he been able to speak."
249
661555
2449
きっとこんな声だったに違いない」と
11:04
And then I saw William typing a message
250
664004
2418
するとウィリアムが
彼の機器で
11:06
on his device.
251
666422
1362
メッセージをタイプするんです
11:07
I wondered, what was he thinking?
252
667784
3293
私は彼が何を考えているのか
思いを馳せました
11:11
Imagine carrying around someone else's voice
253
671077
3590
9年間も他人の声を使っていた
11:14
for nine years
254
674667
2193
男の子が
11:16
and finally finding your own voice.
255
676860
4844
ついに自分の声を手に入れたのです
11:21
Imagine that.
256
681704
1377
どんな気分だと思いますか
11:23
This is what William said:
257
683081
2797
ウィリアムはこう言いました
11:25
"Never heard me before."
258
685878
4463
「自分の声でしゃべったのは初めてだ」
11:32
Thank you.
259
692417
1619
ありがとうございました
11:34
(Applause)
260
694036
4724
(拍手)
New videos
このウェブサイトについて
このサイトでは英語学習に役立つYouTube動画を紹介します。世界中の一流講師による英語レッスンを見ることができます。各ビデオのページに表示される英語字幕をダブルクリックすると、そこからビデオを再生することができます。字幕はビデオの再生と同期してスクロールします。ご意見・ご要望がございましたら、こちらのお問い合わせフォームよりご連絡ください。