Inside OKCupid: The math of online dating - Christian Rudder

오케이 큐피드(OKCupid): 온라인 데이트의 수학 - 크리스챤 러더 (Christian Rudder)

1,232,216 views

2013-02-13 ・ TED-Ed


New videos

Inside OKCupid: The math of online dating - Christian Rudder

오케이 큐피드(OKCupid): 온라인 데이트의 수학 - 크리스챤 러더 (Christian Rudder)

1,232,216 views ・ 2013-02-13

TED-Ed


아래 영문자막을 더블클릭하시면 영상이 재생됩니다.

00:00
Translator: Andrea McDonough Reviewer: Bedirhan Cinar
0
0
7000
번역: 민석 최 검토: Raegyo You
00:17
Hello, my name is Christian Rudder,
1
17903
1714
안녕하세요, 제 이름은 크리스티안 러더 (Christian Rudder) 입니다.
00:19
and I was one of the founders of OkCupid.
2
19641
2209
저는 오케이 큐피드 (OK Cupid) 의 설립자 중 한사람이며,
00:21
It's now one of the biggest dating sites in the United States.
3
21874
2918
오케이 큐피드는 현재 미국에서 가장 큰 만남 주선 회사 중 하나입니다.
00:24
Like most everyone at the site, I was a math major,
4
24816
2391
사이트 내의 거의 모든 사람들이 그러하듯,
저는 수학 전공을 전공했고, 여러분이 기대하듯,
00:27
As you may expect, we're known for the analytic approach we take to love.
5
27231
3440
우리는 사랑을 찾는 데에 대한
분석적인 접근으로 잘 알려져 있습니다.
우리는 그것을 매칭 알고리즘이라고 부릅니다.
00:30
We call it our matching algorithm.
6
30695
1638
기본적으로 오케이 큐피드의 매칭 알고리즘은
00:32
Basically, OkCupid's matching algorithm helps us decide
7
32357
2588
두 사람이 데이트를 해야 할 것인지 결정하도록 도와줍니다.
00:34
whether two people should go on a date.
8
34969
1876
00:36
We built our entire business around it.
9
36869
1872
저희의 모든 사업은 이 알고리즘을 기초로 만들어졌습니다.
00:38
Now, algorithm is a fancy word,
10
38765
1960
알고리즘은 뭔가 특별한 단어이고,
00:40
and people like to drop it like it's this big thing.
11
40749
2485
사람들은 대단한 것인양 대화에 즐겨 사용합니다.
00:43
But really, an algorithm is just a systematic,
12
43258
2288
하지만 실제로 알고리즘은 단지 문제를 해결하는
00:45
step-by-step way to solve a problem.
13
45570
2223
체계적이고 단계적인 방법일 뿐입니다.
00:47
It doesn't have to be fancy at all.
14
47817
2177
따라서 그것은 결코 화려할 필요가 없어요.
이번 강의에게 우리가 어떻게 우리만의 알고리즘에
00:50
Here in this lesson,
15
50018
1151
00:51
I'm going to explain how we arrived at our particular algorithm,
16
51193
3008
도달하게 되었는지 알려 드리겠습니다.
그러면 어떻게 구축된 것인지 이해하실 거에요.
00:54
so you can see how it's done.
17
54225
1411
00:55
Now, why are algorithms even important?
18
55660
1934
이제 알고리즘이 왜 그렇게 중요한지 아시겠어요?
00:57
Why does this lesson even exist?
19
57618
1580
왜 이런 강연이 있을까요?
00:59
Well, notice one very significant phrase I used above:
20
59222
3420
글쎄요, 제가 앞서 썼던 표현 중 중요한 문구를 잘 생각해 보세요.
01:02
they are a step-by-step way to solve a problem,
21
62666
2339
알고리즘은 문제를 단계적으로 해결하는 방식입니다.
01:05
and as you probably know, computers excel at step-by-step processes.
22
65029
3418
그리고 여러분이 아마도 알고 계시듯이,
컴퓨터는 단계별 과정에 뛰어납니다.
01:08
A computer without an algorithm
23
68471
1589
알고리즘없는 컴퓨터는
기본족으로 값비싼 타자기에 불과합니다.
01:10
is basically an expensive paperweight.
24
70084
2724
01:12
And since computers are such a pervasive part of everyday life,
25
72832
2989
컴퓨터가 일생 생활의 모든 영역에 스며들었기 때문에,
01:15
algorithms are everywhere.
26
75845
1547
알고리즘은 어디에나 있습니다.
01:18
The math behind OkCupid's matching algorithm is surprisingly simple.
27
78590
3197
오케이 큐피드의 매칭 알고리즘의 배경이 되는 수학은
매우 간단합니다.
01:21
It's just some addition, multiplication, a little bit of square roots.
28
81811
4002
그것은 단지 덧셈,
곱셈,
제곱근을 사용합니다.
01:25
The tricky part in designing it
29
85837
1690
그러나 알고리즘을 구성하는 데 어려운 부분은
01:27
was figuring out how to take something mysterious,
30
87551
2565
신비스러운 부분인 사람 간의 끌림을
01:30
human attraction,
31
90140
1150
어떻게 밝혀내는가 하는 것이며,
01:31
and break it into components that a computer can work with.
32
91314
2784
또 컴퓨터가 작업할 수 있도록 구성 요소들로 나누는가 입니다.
사람들을 연결시키기 위해 처음으로 필요했던 것은
01:34
The first thing we needed to match people up was data,
33
94122
2553
01:36
something for the algorithm to work with.
34
96699
1992
알고리즘으로 작업할 수 있는 어떤 형태의 자료였습니다.
01:38
The best way to get data quickly from people is to just ask for it.
35
98715
3158
사람들로부터 자료를 수집하는 최고의 방법은
그들에게 물어보는 것이었어요.
01:41
So we decided that OkCupid should ask users questions,
36
101897
2727
그래서 우리는 오케이 큐피트 사용자들에게 질문을 하기로 했죠.
01:44
stuff like, "Do you want to have kids one day?"
37
104648
2357
"언젠가 아이를 갖기를 원하세요?" 같은 것들이나
"얼마나 자주 양치질을 하나요?"
01:47
"How often do you brush your teeth?"
38
107029
1758
01:48
"Do you like scary movies?"
39
108811
1392
"공포 영화를 좋아하세요?"
01:50
And big stuff like, "Do you believe in God?"
40
110675
2077
또는 "신을 믿으세요?" 와 같은 중요한 질문들이었습니다.
01:53
Now, a lot of the questions are good for matching like with like,
41
113843
3064
굉장히 많은 질문들이
선호 사항과 선호 사항 사이를 연결시켜주는 데 유용합니다.
01:56
that is, when both people answer the same way.
42
116931
2156
그리고 바로 그 때가 사람들이 동일한 방식으로 대답을 할 때죠.
01:59
For example, two people who are both into scary movies
43
119111
2548
예를 들어, 공포 영화를 좋아하는 두 사람이
02:01
are probably a better match than one person who is and one who isn't.
44
121683
3321
아마 공포 영화를 좋아하는 한 사람과
그렇지 않은 다른 한 사람 보다
더 잘 어울릴 거에요.
02:05
But what about a question like,
45
125028
1493
그러면 다음과 같은 질문에는 어떻게 답하는지 볼까요.
02:06
"Do you like to be the center of attention?"
46
126545
2062
"당신은 관심의 중심이 되고 싶은가요?"
02:08
If both people in a relationship are saying yes to this,
47
128631
2628
만약 연인관계에 있는 두 사람 모두 이 질문에 "네" 라고 대답한다면,
두 사람은 곧 큰 문제에 직면하게 될 거에요.
02:11
they're going to have massive problems.
48
131283
2093
02:13
We realized this early on,
49
133400
1245
우리는 이것을 일찍 알았고,
02:14
and so we decided we needed a bit more data from each question.
50
134669
3269
각각의 질문에 대해 정보가 더 필요하고
이를 모아야겠다고 생각했습니다.
02:17
We had to ask people to specify not only their own answer,
51
137962
2763
우리는 사람들에게 자신의 대답을 구체화 할 뿐 아니라,
02:20
but the answer they wanted from someone else.
52
140749
2265
다른 사람들로부터 그들이 원하는 대답을 구체화 하도록 요청했습니다.
02:23
That worked really well.
53
143038
1501
그런 노력들은 효과가 있었습니다.
02:24
But we needed one more dimension.
54
144563
1604
그러나 우리는 한 가지 다른 차원이 필요했어요.
02:26
Some questions tell you more about a person than others.
55
146191
2643
어떤 질문들은 다른 것들보다 한 사람에 대해 훨씬 더 많은 것을 알려줍니다.
02:28
For example, a question about politics, something like,
56
148858
3395
예를 들어, "책을 태우는 것과 깃발을 태우는 것 가운데 어느 것이 더 나쁜가요?" 와 같은
정치적 질문은
02:32
"Which is worse: book burning or flag burning?"
57
152277
2288
02:34
might reveal more about someone than their taste in movies.
58
154589
2810
개인의 영화에 대한 취향보다는 그들 자신에 관해 더 알려줄 수도 있거든요.
02:37
And it doesn't make sense to weigh all things equally,
59
157423
2619
그리고 모든 것들을 똑같은 비중으로 다룬다는 것은 말이 되지 않죠.
그래서 우리는 마지막으로 한 가지의 정보가 더 필요했습니다.
02:40
so we added one final data point.
60
160066
1596
02:41
For everything that OkCupid asks you,
61
161686
2024
오케이 큐피드가 묻는 모든 것들에 대해
02:43
you have a chance to tell us the role it plays in your life.
62
163734
2829
사람들은 각자의 삶에서 그런 질문들이
어떤 역할을 하는지 말할 기회를 갖게 됩니다.
02:46
And this ranges from irrelevant to mandatory.
63
166587
2319
이것은 무의미한 것부터 필수적인 것까지 다양합니다.
02:49
So now, for every question, we have three things for our algorithm:
64
169446
3222
그래서 지금 우리는 각 질문을 통해
우리의 알고리즘에 관한 세 가지 사실을 파악하고 있습니다:
02:52
first, your answer;
65
172692
1352
첫째, 여러분의 대답.
02:54
second, how you want someone else -- your potential match -- to answer;
66
174617
4140
둘째, 여러분이 다른 누군가
즉, 여러분의 잠재적 상대가
어떻게 대답하길 원하는지.
02:58
and third, how important the question is to you at all.
67
178781
2788
셋째, 그 질문이 여러분에게 얼마나 중요한지 하는 것이에요.
03:02
With all this information,
68
182710
1252
이런 정보들로,
03:03
OkCupid can figure out how well two people will get along.
69
183986
3118
오케이 큐피드는 두 사람이 얼마나 잘 어울리는지 알아냅니다.
03:07
The algorithm crunches the numbers and gives us a result.
70
187128
3006
알고리즘은 수치들을 분석하여 결과를 알려줍니다.
실제적인 예로,
03:10
As a practical example,
71
190158
1152
03:11
let's look at how we'd match you with another person.
72
191334
2525
우리가 어떻게 여러분을 연결시켜 드리는지 살펴보겠습니다.
03:13
Let's call him "B."
73
193883
1189
상대를 "B" 라고 하겠습니다.
B 와 여러분의 연결 확률은 질문들에 대한
03:16
Your match percentage with B is based on questions you've both answered.
74
196023
3482
두사람의 대답에 달려 있습니다.
03:19
Let's call that set of common questions "s."
75
199529
2425
공통 질문 세트를 "S" 라고 부르겠습니다.
매우 간단한 예로, 우리는 공통으로 단 두개의 질문만 있는
03:22
As a very simple example, we use a small set "s"
76
202559
2349
03:24
with just two questions in common,
77
204932
1641
작은 세트 질문 "S"를 사용합니다.
03:26
and compute a match from that.
78
206597
1828
그리고 그것들로 연결을 계산합니다.
03:28
Here are our two example questions.
79
208449
1671
두 가지 예를 말씀 드릴께요.
03:30
The first one, let's say, is, "How messy are you?"
80
210144
2381
예를 들어, 첫 질문은 "여러분은 얼마나 지저분한가요?" 입니다.
03:32
And the answer possibilities are:
81
212549
2096
그리고 가능한 대답은
03:34
very messy, average and very organized.
82
214669
3361
매우 지저분한,
보통,
매우 정리된 입니다.
03:38
And let's say you answered "very organized,"
83
218054
2060
여러분이 "매우 정리된"이라고 대답했다고 생각해 보세요.
그러면 여러분은 짝이 될 사람도 "매우 정리된" 이라고 대답하길 기대할 거에요.
03:40
and you'd like someone else to answer "very organized,"
84
220138
2760
03:42
and the question is very important to you.
85
222922
2256
이 질문은 사람들에게 매우 중요합니다.
03:45
Basically, you're a neat freak.
86
225202
1492
기본적으로 사람들에게는 정리벽이 있거든요.
03:46
You're neat, you want someone else to be neat, and that's it.
87
226718
2868
사람들은 단정하고,
다른 사람도 단정하길 바랍니다,
그것 뿐입니다.
03:49
And let's say B is a little bit different.
88
229610
2015
B 는 다소 다르다고 생각해봅시다.
03:51
He answered "very organized" for himself,
89
231649
2039
B는 자신에 대해 매우 정리된 사람이라 대답하지만,
03:53
but "average" is OK with him as an answer from someone else,
90
233712
3007
그는 보통이라고 말하는 사람과도
사이가 좋습니다.
03:56
and the question is only a little important to him.
91
236743
2402
그런 질문은 그에게 그리 중요하지 않습니다.
두 번째 질문을 보겠습니다.
03:59
Let's look at the second question, from our previous example:
92
239169
2893
앞서 예로 들었던 질문입니다.
"여러분은 관심의 중심이 되고 싶은가요?"
04:02
"Do you like to be the center of attention?"
93
242086
2056
대답은 그저 네 아니면 아니오 입니다.
04:04
The answers are "yes" and "no."
94
244166
1514
04:05
You've answered "no," you want someone else to answer "no,"
95
245704
2995
여러분은 "아니오" 라고 대답했고,
여러분은 상대방도 "아니오"라고 대답하길 원하며,
04:08
and the question is only a little important to you.
96
248723
2391
그 질문은 여러분에게 별로 중요하지 않다고 생각해 봅시다.
B는 "네" 라고 대답했고,
04:11
Now B, he's answered "yes."
97
251138
1621
04:12
He wants someone else to answer "no,"
98
252783
1776
그는 자신이 주목받길 원하기 때문에
04:14
because he wants the spotlight on him,
99
254583
2274
상대방이 "아니오"라고 대답하길 원한다고 생각해봐요.
04:16
and the question is somewhat important to him.
100
256881
2430
그리고 그 질문은 그 사람에게 매우 중요합니다.
04:19
So, let's try to compute all of this.
101
259335
1999
그러면 이것을 가지고 측정을 해 봅시다.
04:21
Our first step is, since we use computers to do this,
102
261972
2503
우리의 첫 단계는
컴퓨터를 사용해야 하기 때문에
04:24
we need to assign numerical values
103
264499
1867
"다소 중요" 나 "매우 중요"와 같은
04:26
to ideas like "somewhat important" and "very important,"
104
266390
2627
생각들에 절대값을 부여해야 합니다.
04:29
because computers need everything in numbers.
105
269041
2211
왜냐하면 컴퓨터는 모든 것을 수치로 필요로 하기 때문이죠.
04:31
We at OkCupid decided on the following scale:
106
271276
2403
오케이 큐피드는 다음과 같은 척도를 사용합니다.
04:33
"Irrelevant" is worth 0.
107
273703
1946
'무의미한'은 0
'조금 중요한'은 1
04:36
"A little important" is worth 1.
108
276173
1889
04:38
"Somewhat important" is worth 10.
109
278538
1809
'다소 중요한'은 10
04:40
"Very important" is 50.
110
280831
1754
'매우 중요한'은 50
04:42
And "absolutely mandatory" is 250.
111
282609
3612
그리고 '절대적으로 필수적인'은 250 입니다.
04:46
Next, the algorithm makes two simple calculations.
112
286245
2631
다음으로 알고리즘은 두 가지 간단한 계산을 합니다.
04:48
The first is: How much did B's answers satisfy you?
113
288900
3246
첫번째는 B의 대답들이 얼마나 여러분을 만족시키는지,
즉, 여러분의 척도에서 얼마나 많은 점수를 획득하느냐 입니다.
04:52
That is, how many possible points did B score on your scale?
114
292170
3793
04:55
Well, you indicated that B's answer to the first question,
115
295987
3212
여러분은 지저분함에 관한 질문에 대한
B의 대답이
04:59
about messiness,
116
299223
1166
매우 중요하다고 암시했습니다.
05:00
was very important to you.
117
300413
1350
05:01
It's worth 50 points and B got that right.
118
301787
2230
그것은 50점이고 B는 그 점수를 획득했어요.
05:04
The second question is worth only 1,
119
304375
1737
두번째 질문은 단지 1점입니다.
왜냐하면 여러분이 그것이 중요하지 않다고 말했기 때문입니다.
05:06
because you said it was only a little important.
120
306136
2278
그리고 B는 점수를 받지 못했습니다.
05:08
B got that wrong,
121
308438
1197
05:09
so B's answers were 50 out of 51 possible points.
122
309659
2782
그래서 B의 대답은 51점 중 50점을 받았습니다.
05:12
That's 98% satisfactory. Pretty good.
123
312465
2608
98% 만족스러운거죠.
상당히 좋습니다.
05:15
The second question the algorithm looks at is: How much did you satisfy B?
124
315097
3949
알고리즘의 두 번째 질문은
얼마나 여러분이 B를 만족시키는지를 보는 것입니다.
B는 지저분함에 관한
05:19
Well, B placed 1 point on your answer to the messiness question
125
319070
3259
여러분의 대답에 1점을
05:22
and 10 on your answer to the second.
126
322353
1953
두번째 질문에는 10점을 부여했습니다.
05:24
Of those 11, that's 1 plus 10, you earned 10 --
127
324745
3387
1점과 10점을 합해서 11점 중
여러분은 10점을 얻었고,
05:28
you guys satisfied each other on the second question.
128
328156
2595
두 사람은 두번째 질문에서 서로를 만족시켰습니다.
05:30
So your answers were 10 out of 11 equals 91 percent satisfactory to B.
129
330775
4242
그래서 여러분의 대답은 11점 중 10점을 받았고,
B에 대해 똑같이 91% 만족하게 됩니다.
05:35
That's not bad.
130
335041
1151
나쁘지 않죠.
05:36
The final step is to take these two match percentages
131
336216
2507
마지막 단계는 이 두 수치를 합하여
05:38
and get one number for the both of you.
132
338747
1866
두 사람 모두에 대한 하나의 결과치를 만드는 작업입니다.
05:40
To do this, the algorithm multiplies your scores,
133
340637
2611
이렇게 하기 위해서는, 알고리즘이 여러분의 점수들을 곱해야 합니다.
그리고 n제곱근을 구해야 합니다.
05:43
then takes the nth root,
134
343272
1665
05:44
where "n" is the number of questions.
135
344961
2183
여기서 n은 질문의 수입니다.
우리가 든 예에서
05:47
Because s, which is the number of questions in this sample,
136
347168
2830
s가 겨우 2였기 때문에,
05:50
is only 2,
137
350022
1841
05:51
we have: match percentage equals the square root
138
351887
3665
우리는 98%와 91%의 곱의
제곱근을 구합니다.
05:55
of 98 percent times 91 percent.
139
355576
2896
05:58
That equals 94 percent.
140
358496
1784
이는 94%가 됩니다.
06:00
That 94 percent is your match percentage with B.
141
360304
3204
이 94%의 값이 B와 여러분의 매칭 백분위입니다.
06:03
It's a mathematical expression of how happy you'd be with each other,
142
363532
3243
이것은 여러분이 서로 얼마나 만족할지
우리가 알고 있는 정보에 근거하여
06:06
based on what we know.
143
366799
1183
수학적으로 표현한 것입니다.
그러면, 왜 알고리즘이
06:08
Now, why does the algorithm multiply,
144
368006
1786
06:09
as opposed to, say, average the two match scores together,
145
369816
2769
두 매칭 점수의 평균을 구하는 대신
06:12
and do the square-root business?
146
372609
1670
곱셈을 해서 제곱근을 하는걸까요?
06:14
In general, this formula is called the geometric mean.
147
374303
2529
일반적으로, 이 공식은 기하 평균이라고 불립니다.
06:16
It's a great way to combine values that have wide ranges
148
376856
2627
이것은 넓은 범위를 지닌 값들을
통합하여
06:19
and represent very different properties.
149
379507
1915
매우 다른 특성들을 나타내는 좋은 방법입니다.
다시 말해, 로맨틱 매칭에 있어 완벽한 방법입니다.
06:21
In other words, it's perfect for romantic matching.
150
381446
2413
06:23
You've got wide ranges and you've got tons of different data points,
151
383883
3247
사람들은 다양한 범위의 값과
수 많은 다른 정보 점수를 갖고 있습니다.
제가 말한 것 처럼, 영화에 관해서,
06:27
like I said, about movies, politics, religion -- everything.
152
387154
3438
정치에 관해서,
종교에 관해서,
모든 것에 관해서 말이죠.
06:30
Intuitively, too, this makes sense.
153
390616
1838
이것은 직관적으로도 의미가 있어요.
06:32
Two people satisfying each other 50 percent
154
392478
2775
두 사람이 서로를 50% 만족시킨다면
한 사람이 0% 만족시키고 다른 한 사람이 100% 만족시키는 커플보다
06:35
should be a better match than two others who satisfy 0 and 100,
155
395277
3952
더욱 괜찮은 매칭입니다.
06:39
because affection needs to be mutual.
156
399253
1814
왜냐하면 애정은 상호적이어야 하기 때문입니다.
앞서 예에서 들었던 것처럼
06:41
After adding a little correction for margin of error,
157
401091
2491
06:43
in the case where we have a small number of questions,
158
403606
2571
우리가 매우 적은 수의 질문을 갖고 있는 경우에
오차를 조금만 수정하고 나면
06:46
like we do in this example,
159
406201
1317
06:47
we're good to go.
160
407542
1172
계속 진행해도 좋습니다.
06:48
Any time OkCupid matches two people,
161
408738
1912
오케이 큐피드가 두 사람을 연결할 때마다
06:50
it goes through the steps we just outlined.
162
410674
2032
우리가 방금 간략하게 소개한 과정들을 거치게 됩니다.
06:52
First it collects data about your answers,
163
412730
2269
첫째, 사람들의 대답 정보를 모읍니다.
그리고 간단하고 수학적인 방법으로 그들의 선택과 선호도를
06:55
then it compares your choices and preferences to other people's
164
415023
2985
다른 사람들의 것과 비교합니다.
06:58
in simple, mathematical ways.
165
418032
1967
저는 현실의 현상을 가지고 마이크로 칩이
07:00
This, the ability to take real-world phenomena
166
420023
2923
07:02
and make them something a microchip can understand,
167
422970
2415
이해할 수 있는 어떤 것을 만들어 내는 능력이
07:05
is, I think, the most important skill anyone can have these days.
168
425409
3277
오늘날 누구든지
가질 수 있는 가장 중요한 기술이라고 생각합니다.
07:08
Like you use sentences to tell a story to a person,
169
428710
2423
여러분이 누군가에게 이야기를 들려주기 위해 쓰는 문장들처럼,
여러분은 컴퓨터에게 이야기를 들려주기 위해 알고리즘을 사용합니다.
07:11
you use algorithms to tell a story to a computer.
170
431157
2484
만약 여러분이 그 언어를 배운다면,
07:14
If you learn the language, you can go out and tell your stories.
171
434349
3033
여러분은 여러분의 이야기를 들려줄 수 있을거에요.
저는 이 이야기가 어려분이 그렇게 하도록 도울 수 있으면 좋겠습니다.
07:17
I hope this will help you do that.
172
437406
1753
이 웹사이트 정보

이 사이트는 영어 학습에 유용한 YouTube 동영상을 소개합니다. 전 세계 최고의 선생님들이 가르치는 영어 수업을 보게 될 것입니다. 각 동영상 페이지에 표시되는 영어 자막을 더블 클릭하면 그곳에서 동영상이 재생됩니다. 비디오 재생에 맞춰 자막이 스크롤됩니다. 의견이나 요청이 있는 경우 이 문의 양식을 사용하여 문의하십시오.

https://forms.gle/WvT1wiN1qDtmnspy7