Why AI Needs a “Nutrition Label” | Kasia Chmielinski | TED

31,724 views ・ 2024-06-14

TED


Vui lòng nhấp đúp vào phụ đề tiếng Anh bên dưới để phát video.

Translator: Nguyen Hue Reviewer: Quỳnh Phương Flora
Bây giờ, tôi chưa gặp hầu hết các bạn hay bất kỳ ai trong số các bạn,
00:04
Now, I haven't met most of you or really any of you,
0
4209
3295
00:07
but I feel a really good vibe in the room.
1
7504
2085
nhưng tôi cảm thấy có một cảm giác rất tốt trong phòng.
00:09
(Laughter)
2
9631
1209
(Cười)
00:10
And so I think I'd like to treat you all to a meal.
3
10882
2503
Vì vậy tôi nghĩ tôi muốn chiêu đãi các bạn 1 bữa ăn.
00:13
What do you think?
4
13426
1252
Bạn nghĩ sao?
00:14
Yes? Great, so many new friends.
5
14678
1877
Có? Tuyệt vời, rất nhiều bạn mới.
00:17
So we're going to go to this cafe,
6
17681
1668
Vậy, chúng ta sẽ đi đến quán cà phê này,
00:19
they serve sandwiches.
7
19349
1501
họ phục vụ bánh sandwich.
00:20
And the sandwiches are really delicious.
8
20850
2002
Và bánh sandwich thực sự rất ngon.
00:22
But I have to tell you that sometimes they make people really, really sick.
9
22852
4422
Nhưng tôi phải nói với bạn đôi khi chúng làm mọi người thực sự, thực sự tệ
00:27
(Laughter)
10
27774
1335
(Cười)
Và ta không biết tại sao.
00:29
And we don't know why.
11
29109
1251
00:30
Because the cafe won't tell us how they make the sandwich,
12
30402
2711
Vì quán cà phê sẽ không cho ta biết họ làm bánh sandwich ra sao,
00:33
they won't tell us about the ingredients.
13
33154
2044
họ sẽ không cho ta biết về nguyên liệu.
00:35
And then the authorities have no way to fix the problem.
14
35198
3128
Và sau đó chính quyền không có cách nào để khắc phục vấn đề.
00:38
But the offer still stands.
15
38702
1293
Nhưng lời đề nghị vẫn còn.
00:39
So who wants to get a sandwich?
16
39995
1543
Vậy ai muốn mua một chiếc sandwich?
00:41
(Laughter)
17
41538
1168
(Cười)
00:42
Some brave souls, we can talk after.
18
42747
1752
Một số tâm hồn dũng cảm, hãy trò chuyện sau nhé.
00:45
But for the rest of you, I understand.
19
45000
2168
Nhưng đối với những người còn lại, tôi hiểu.
00:47
You don't have enough information
20
47210
1585
Bạn không đủ thông tin để đưa ra lựa chọn tốt cho sự an toàn của bạn
00:48
to make good choices about your safety
21
48795
1835
00:50
or even fix the issue.
22
50672
1835
hay thậm chí khắc phục sự cố.
Giờ trước khi tôi tiếp tục lo lắng ở đây, tôi thực sự không cố gắng làm bạn phát ốm,
00:52
Now, before I further the anxiety here, I'm not actually trying to make you sick,
23
52507
3879
00:56
but this is an analogy to how we're currently making algorithmic systems,
24
56428
3545
nhưng đây là 1 sự tương đồng với cách ta hiện đang tạo ra các hệ thống thuật toán,
00:59
also known as artificial intelligence or AI.
25
59973
3003
còn được gọi là trí tuệ nhân tạo hoặc AI.
01:04
Now, for those who haven't thought about the relationship
26
64060
2753
Bây giờ, đối với những người chưa nghĩ về mối quan hệ
01:06
between AI and sandwiches, don't worry about it,
27
66813
2586
giữa AI và bánh sandwich, đừng lo lắng về điều đó,
01:09
I'm here for you, I'm going to explain.
28
69441
2294
tôi ở đây vì bạn, tôi sẽ giải thích.
01:11
You see, AI systems, they provide benefit to society.
29
71776
3754
Bạn thấy đấy, các hệ thống AI, chúng mang lại lợi ích cho xã hội.
01:15
They feed us,
30
75530
1251
Chúng nuôi chúng ta,
01:16
but they're also inconsistently making us sick.
31
76823
3670
nhưng chúng cũng không nhất quán khiến chúng ta bị bệnh.
01:20
And we don't have access to the ingredients that go into the AI.
32
80535
4505
Và chúng ta không có quyền truy cập vào các thành phần đi vào AI.
01:25
And so we can't actually address the issues.
33
85040
2460
Và vì vậy chúng ta không thể thực sự giải quyết các vấn đề.
Chúng ta cũng không thể ngừng ăn AI
01:28
We also can't stop eating AI
34
88418
1793
giống như ta có thể ngừng ăn một chiếc bánh sandwich mờ ám
01:30
like we can just stop eating a shady sandwich
35
90211
2128
01:32
because it's everywhere,
36
92339
1209
vì nó ở khắp mọi nơi
01:33
and we often don't even know that we're encountering a system
37
93590
2878
và ta thậm chí thường không biết rằng đang gặp phải một hệ thống
01:36
that's algorithmically based.
38
96509
1794
dựa trên thuật toán.
Vì vậy, hôm nay, tôi sẽ nói với bạn về một số xu hướng AI mà tôi thấy.
01:38
So today, I'm going to tell you about some of the AI trends that I see.
39
98345
3878
Tôi rút ra kinh nghiệm của mình trong việc xây dựng hệ thống này
01:42
I'm going to draw on my experience building these systems
40
102223
2711
01:44
over the last two decades to tell you about the tools
41
104934
2545
trong 2 thập kỷ qua để cho bạn biết về các công cụ
01:47
that I and others have built to look into these AI ingredients.
42
107520
3879
mà tôi và những người khác đã xây dựng để xem xét các thành phần AI này.
Và cuối cùng, tôi sẽ để lại cho bạn 3 nguyên tắc
01:51
And finally, I'm going to leave you with three principles
43
111441
2711
mà tôi nghĩ sẽ mang lại cho ta một mối quan hệ lành mạnh hơn
01:54
that I think will give us a healthier relationship
44
114152
2336
01:56
to the companies that build artificial intelligence.
45
116488
2836
với các công ty xây dựng trí tuệ nhân tạo.
02:00
I'm going to start with the question, how did we get here?
46
120241
2878
Tôi sẽ bắt đầu với câu hỏi, làm thế nào ta đến được đây?
02:03
AI is not new.
47
123745
2169
AI không phải là mới
02:06
We have been living alongside AI for two decades.
48
126665
3378
Chúng ta đã sống bên cạnh AI trong hai thập kỷ.
02:10
Every time that you apply for something online,
49
130418
2294
Mỗi khi bạn đăng ký một cái gì đó trực tuyến,
02:12
you open a bank account or you go through passport control,
50
132712
3420
bạn mở tài khoản ngân hàng hoặc bạn đi qua kiểm soát hộ chiếu,
02:16
you're encountering an algorithmic system.
51
136132
2044
bạn đang gặp phải một hệ thống thuật toán.
02:19
We've also been living with the negative repercussions of AI for 20 years,
52
139010
4088
Chúng ta cũng đã sống với những hậu quả tiêu cực của AI trong 20 năm,
02:23
and this is how it makes us sick.
53
143139
1752
và đây là cách nó khiến ta bị bệnh.
02:25
These systems get deployed on broad populations,
54
145266
2920
Các hệ thống này được triển khai trên các quần thể rộng lớn,
02:28
and then certain subsets end up getting negatively disparately impacted,
55
148228
4921
và sau đó một số tập hợp con nhất định sẽ bị tác động tiêu cực khác nhau,
02:33
usually on the basis of race or gender or other characteristics.
56
153191
3504
thường là trên cơ sở chủng tộc hoặc giới tính hoặc các đặc điểm khác.
02:37
We need to be able to understand the ingredients to these systems
57
157862
3087
Chúng ta cần có khả năng hiểu các thành phần của các hệ thống này
02:40
so that we can address the issues.
58
160990
2086
để chúng ta có thể giải quyết các vấn đề.
02:43
So what are the ingredients to an AI system?
59
163827
3086
Vậy các thành phần cho một hệ thống AI là gì?
02:46
Well, data fuels the AI.
60
166955
2294
Vâng, dữ liệu cung cấp năng lượng cho AI.
02:49
The AI is going to look like the data that you gave it.
61
169290
2962
AI sẽ trông giống như dữ liệu mà bạn đã cung cấp cho nó.
02:52
So for example,
62
172752
1293
Vì vậy, ví dụ,
02:54
if I want to make a risk-assessment system for diabetes,
63
174087
4129
nếu muốn tạo 1 hệ thống đánh giá rủi ro cho bệnh tiểu đường,
02:58
my training data set might be adults in a certain region.
64
178258
4337
bộ dữ liệu đào tạo của tôi có thể là người lớn ở một khu vực nhất định.
03:02
And so I'll build that system,
65
182929
1460
Và vì vậy tôi sẽ xây dựng hệ thống đó,
nó sẽ hoạt động thực sự tốt cho người trưởng thành trong vùng đó.
03:04
it'll work really well for those adults in that region.
66
184389
2627
03:07
But it does not work for adults in other regions
67
187016
2294
Nhưng với người lớn ở các khu vực khác thì không
03:09
or maybe at all for children.
68
189310
1419
hay có thể với trẻ em.
03:10
So you can imagine if we deploy this for all those populations,
69
190770
3003
Bạn có thể hình dung nếu triển khai điều này cho tất cả những quần thể đó,
03:13
there are going to be a lot of people who are harmed.
70
193815
2502
sẽ có rất nhiều người bị tổn hại.
03:16
We need to be able to understand the quality of the data before we use it.
71
196317
4422
Ta cần có khả năng hiểu chất lượng của dữ liệu trước khi chúng ta sử dụng nó.
Nhưng tôi rất tiếc phải nói với bạn rằng ta hiện đang sống
03:22
But I'm sorry to tell you that we currently live
72
202157
2252
03:24
in what I call the Wild West of data.
73
204451
2502
trong cái mà tôi gọi là miền Tây hoang dã của dữ liệu.
03:26
It's really hard to assess quality of data before you use it.
74
206995
4171
Thật khó để đánh giá chất lượng dữ liệu trước khi bạn sử dụng nó.
03:31
There are no global standards for data quality assessment,
75
211166
2877
Không có tiêu chuẩn toàn cầu về đánh giá chất lượng dữ liệu
03:34
and there are very few data regulations around how you can use data
76
214085
3295
và có rất ít quy định về cách bạn có thể sử dụng dữ liệu
03:37
and what types of data you can use.
77
217422
2377
và loại dữ liệu bạn có thể sử dụng.
03:40
This is kind of like in the food safety realm.
78
220967
2294
Điều này giống như trong lĩnh vực an toàn thực phẩm.
03:43
If we couldn't understand where the ingredients were sourced,
79
223303
3545
Nếu chúng ta không thể hiểu được các thành phần được lấy từ đâu,
03:46
we also had no idea whether they were safe for us to consume.
80
226890
3003
ta cũng không biết liệu chúng có an toàn cho ta để tiêu thụ hay không.
03:50
We also tend to stitch data together,
81
230643
2253
Chúng ta cũng có xu hướng kết hợp dữ liệu lại với nhau,
03:52
and every time we stitch this data together,
82
232937
2086
và mỗi khi kết hợp dữ liệu này lại với nhau,
03:55
which we might find on the internet, scrape, we might generate it,
83
235023
3128
ta có thể tìm thấy trên internet, quét, chúng ta có thể tạo ra nó,
03:58
we could source it.
84
238151
1376
chúng ta có thể lấy nó.
03:59
We lose information about the quality of the data.
85
239527
3128
Chúng ta mất thông tin về chất lượng của dữ liệu.
Và những người đang xây dựng các mô hình không phải
04:03
And the folks who are building the models
86
243156
1960
04:05
are not the ones that found the data.
87
245116
1919
là những người tìm thấy dữ liệu.
04:07
So there's further information that's lost.
88
247076
2336
Vì vậy, có thêm thông tin bị mất.
04:10
Now, I've been asking myself a lot of questions
89
250497
2210
Bây giờ, tôi đã tự hỏi mình rất nhiều câu hỏi
04:12
about how can we understand the data quality before we use it.
90
252749
3754
về làm thế nào ta có thể hiểu được chất lượng dữ liệu trước khi sử dụng nó.
04:16
And this emerges from two decades of building these kinds of systems.
91
256544
4672
Và điều này xuất hiện từ hai thập kỷ xây dựng các loại hệ thống này.
Cách tôi được đào tạo để xây dựng hệ thống tương tự như cách mọi người làm ngày nay.
04:21
The way I was trained to build systems is similar to how people do it today.
92
261216
3920
04:25
You build for the middle of the distribution.
93
265178
2210
Bạn xây dựng cho trung gian phân phối.
04:27
That's your normal user.
94
267430
1919
Đó là người dùng bình thường của bạn.
04:29
So for me, a lot of my training data sets
95
269390
1961
Vì vậy, với tôi, rất nhiều bộ dữ liệu đào tạo của tôi
04:31
would include information about people from the Western world who speak English,
96
271392
4213
sẽ bao gồm thông tin về những người từ thế giới phương Tây nói tiếng Anh,
04:35
who have certain normative characteristics.
97
275605
2336
những người có những đặc điểm chuẩn mực nhất định.
04:37
And it took me an embarrassingly long amount of time
98
277982
2461
Và tôi đã mất một khoảng thời gian dài đáng xấu hổ
04:40
to realize that I was not my own user.
99
280443
2503
để nhận ra tôi không phải là người dùng của chính mình.
04:43
So I identify as non-binary, as mixed race,
100
283696
2628
Vì vậy, tôi xác định là không nhị phân, là chủng tộc hỗn hợp,
04:46
I wear a hearing aid
101
286324
1668
tôi đeo máy trợ thính
04:47
and I just wasn't represented in the data sets that I was using.
102
287992
3587
và tôi không được thể hiện trong bộ dữ liệu mà tôi đang sử dụng.
04:51
And so I was building systems that literally didn't work for me.
103
291621
3378
Và vì vậy tôi đã xây dựng các hệ thống thực sự không hoạt động với tôi.
04:55
And for example, I once built a system that repeatedly told me
104
295041
3462
Và ví dụ, tôi đã từng xây dựng một hệ thống liên tục nói với tôi
04:58
that I was a white Eastern-European lady.
105
298503
3670
rằng tôi là một phụ nữ da trắng Đông Âu.
Điều này đã tạo ra một con số thực sự trên danh tính của tôi.
05:02
This did a real number on my identity.
106
302966
2043
05:05
(Laughter)
107
305051
1919
(Cười)
05:06
But perhaps even more worrying,
108
306970
1793
Nhưng có lẽ còn đáng lo ngại hơn,
05:08
this was a system to be deployed in health care,
109
308805
2961
đây là một hệ thống được triển khai trong chăm sóc sức khỏe,
05:11
where your background can determine things like risk scores for diseases.
110
311808
4296
nơi lý lịch của bạn có thể xác định những thứ như điểm số nguy cơ mắc bệnh.
Và vì vậy tôi bắt đầu tự hỏi,
05:17
And so I started to wonder,
111
317605
1627
liệu tôi có thể xây công cụ và làm việc với những người khác để làm điều này
05:19
can I build tools and work with others to do this
112
319274
2794
05:22
so that I can look inside of a dataset before I use it?
113
322068
2836
để tôi có thể nhìn vào bên trong tập dữ liệu trước khi sử dụng nó không?
05:25
In 2018, I was part of a fellowship at Harvard and MIT,
114
325655
3629
Vào năm 2018, tôi là một phần của học bổng tại Harvard và MIT,
05:29
and I, with some colleagues, decided to try to address this problem.
115
329284
4379
và tôi, với một số đồng nghiệp, đã quyết định cố gắng giải quyết vấn đề này.
05:33
And so we launched the Data Nutrition Project,
116
333705
2836
Và vì vậy, chúng tôi đã khởi động Dự án Dinh dưỡng Dữ liệu,
05:36
which is a research group and also a nonprofit
117
336541
2919
một nhóm nghiên cứu và cũng là một tổ chức phi lợi nhuận
05:39
that builds nutrition labels for datasets.
118
339502
2711
xây dựng nhãn dinh dưỡng cho các bộ dữ liệu.
05:43
So similar to food nutrition labels,
119
343381
2628
Vì vậy, tương tự như nhãn dinh dưỡng thực phẩm,
ý tưởng ở đây là bạn có thể nhìn vào trong một tập dữ liệu trước khi sử dụng nó.
05:46
the idea here is that you can look inside of a data set before you use it.
120
346050
3504
05:49
You can understand the ingredients,
121
349554
1710
Bạn có thể hiểu các thành phần,
xem liệu nó có tốt cho sức khỏe cho việc bạn muốn làm hay không.
05:51
see whether it's healthy for the things that you want to do.
122
351264
2878
05:54
Now this is a cartoonified version of the label.
123
354142
2669
Bây giờ đây là một phiên bản hoạt hình của nhãn hiệu.
05:56
The top part tells you about the completion of the label itself.
124
356811
4213
Phần trên cùng cho bạn biết về việc hoàn thành nhãn.
06:01
And underneath that you have information about the data,
125
361065
2628
Và bên dưới đó bạn có thông tin về dữ liệu,
06:03
the description, the keywords, the tags,
126
363693
2044
mô tả, từ khóa, thẻ
06:05
and importantly, on the right hand side,
127
365778
1919
và quan trọng là ở phía bên phải,
06:07
how you should and should not use the data.
128
367697
2586
bạn nên và không nên sử dụng dữ liệu như thế nào.
06:10
If you could scroll on this cartoon,
129
370700
1793
Nếu bạn có thể cuộn trên phim hoạt hình này,
06:12
you would see information about risks and mitigation strategies
130
372493
3003
bạn sẽ thấy thông tin về rủi ro và các chiến lược giảm thiểu
06:15
across a number of vectors.
131
375496
1544
trên một số vectơ.
06:17
And we launched this with two audiences in mind.
132
377707
2836
Và chúng tôi đã khởi động điều này với hai khán giả trong tâm trí.
06:20
The first audience are folks who are building AI.
133
380543
3545
Đối tượng đầu tiên là những người đang xây dựng AI.
Vì vậy, họ đang chọn bộ dữ liệu.
06:24
So they’re choosing datasets.
134
384130
1418
06:25
We want to help them make a better choice.
135
385590
2294
Chúng tôi muốn giúp họ đưa ra lựa chọn tốt hơn.
06:27
The second audience are folks who are building datasets.
136
387926
3128
Đối tượng thứ hai là những người đang xây dựng bộ dữ liệu.
Và hóa ra khi bạn nói với ai đó
06:31
And it turns out
137
391095
1168
06:32
that when you tell someone they have to put a label on something,
138
392305
3086
rằng họ phải dán nhãn lên thứ gì đó,
họ sẽ nghĩ về các thành phần trước.
06:35
they think about the ingredients beforehand.
139
395391
2086
Sự tương tự ở đây có thể là,
06:38
The analogy here might be,
140
398102
1544
nếu tôi muốn làm một chiếc bánh sandwich và nói rằng nó không chứa gluten,
06:39
if I want to make a sandwich and say that it’s gluten-free,
141
399687
2878
06:42
I have to think about all the components as I make the sandwich,
142
402607
3045
tôi phải nghĩ về tất cả các thành phần khi tôi làm sandwich,
06:45
the bread and the ingredients, the sauces.
143
405652
2210
bánh mì và các thành phần, nước sốt.
06:47
I can't just put it on a sandwich and put it in front of you
144
407904
2836
Tôi không thể chỉ đặt nó lên sandwich và đặt nó trước mặt bạn
06:50
and tell you it's gluten-free.
145
410740
1960
và nói với bạn rằng nó không chứa gluten.
06:52
We're really proud of the work that we've done.
146
412700
2253
Chúng tôi thực sự tự hào về công việc đã làm.
06:54
We launched this as a design and then a prototype
147
414994
2336
Chúng tôi đã đưa ra nó như 1 thiết kế và sau đó là 1 nguyên mẫu
06:57
and ultimately a tool for others to make their own labels.
148
417330
3920
và cuối cùng là một công cụ để những người khác tạo nhãn của riêng họ.
07:01
And we've worked with experts at places like Microsoft Research,
149
421709
3045
Chúng tôi đã làm việc với các chuyên gia ở những nơi như Microsoft Research,
07:04
the United Nations and professors globally
150
424754
3045
Liên Hợp Quốc và các giáo sư trên toàn cầu
07:07
to integrate the label and the methodology
151
427840
2002
để tích hợp nhãn hiệu và phương pháp luận
07:09
into their work flows and into their curricula.
152
429884
2628
vào quy trình làm việc và chương trình giảng dạy của họ.
Nhưng chúng tôi biết nó chỉ đi xa đến mức đó.
07:13
But we know it only goes so far.
153
433096
1877
07:15
And that's because it's actually really hard to get a label
154
435014
2920
Và đó là bởi vì thực sự rất khó để có được một nhãn
07:17
on every single dataset.
155
437976
2293
trên mỗi tập dữ liệu.
07:20
And this comes down to the question
156
440311
1710
Và điều này dẫn đến câu hỏi
07:22
of why would you put a label on a dataset to begin with?
157
442063
3086
tại sao bạn lại đặt nhãn trên tập dữ liệu để bắt đầu?
07:25
Well, the first reason is not rocket science.
158
445525
2169
Lý do đầu tiên không phải là khoa học tên lửa.
07:27
It's that you have to.
159
447735
1835
Đó là điều bạn phải làm.
07:29
And this is, quite frankly, why food nutrition labels exist.
160
449570
2878
Và thẳng thắn, đây là lý do nhãn dinh dưỡng thực phẩm tồn tại.
07:32
It's because if they didn't put them on the boxes, it would be illegal.
161
452490
3420
Đó là vì nếu họ không đặt chúng vào hộp, điều đó sẽ là bất hợp pháp.
07:36
However, we don't really have AI regulation.
162
456703
2377
Tuy nhiên, chúng ta không thực sự có quy định về AI.
Chúng ta không có nhiều quy định xung quanh việc sử dụng dữ liệu.
07:39
We don't have much regulation around the use of data.
163
459122
2627
07:42
Now there is some on the horizon.
164
462208
1960
Bây giờ có một số trên đường chân trời.
07:44
For example, the EU AI Act just passed this week.
165
464168
3420
Ví dụ, Đạo luật AI của EU vừa được thông qua trong tuần này.
07:48
And although there are no requirements around making the training data available,
166
468381
4630
Và mặc dù không có yêu cầu nào xung quanh việc cung cấp dữ liệu đào tạo,
07:53
they do have provisions for creating transparency labeling
167
473052
4254
họ có các quy định để tạo nhãn minh bạch
07:57
like the dataset nutrition label, data sheets, data statements.
168
477348
3879
như nhãn dinh dưỡng tập dữ liệu, bảng dữ liệu, báo cáo dữ liệu.
Có rất nhiều trong không gian.
08:01
There are many in the space.
169
481269
1376
08:02
We think this is a really good first step.
170
482645
2044
Chúng tôi nghĩ đây là một bước đầu tiên thực sự tốt.
08:05
The second reason that you might have a label on a dataset
171
485606
2753
Lý do thứ hai mà bạn có thể có nhãn trên tập dữ liệu
08:08
is because it is a best practice or a cultural norm.
172
488401
3920
là vì đó là một thực hành tốt nhất hoặc một chuẩn mực văn hóa.
08:13
The example here might be how we're starting to see
173
493364
2544
Ví dụ ở đây có thể là cách chúng ta bắt đầu thấy
08:15
more and more food packaging and menus at restaurants
174
495950
3337
ngày càng nhiều bao bì thực phẩm và thực đơn tại các nhà hàng
08:19
include information about whether there's gluten.
175
499328
2920
bao gồm thông tin về việc có gluten hay không.
Điều này không được yêu cầu bởi pháp luật,
08:22
This is not required by law,
176
502248
1794
mặc dù nếu bạn nói điều đó, tốt hơn là nó phải là sự thật.
08:24
although if you do say it, it had better be true.
177
504042
2627
08:27
And the reason that people are adding this to their menus
178
507211
2711
Và lý do mà mọi người đang thêm điều này vào thực đơn
08:29
and their food packaging
179
509922
1168
và bao bì thực phẩm của họ
08:31
is because there's an increased awareness of the sensitivity
180
511090
2878
là vì nhận thức ngày càng tăng về sự nhạy cảm
08:33
and kind of the seriousness of that kind of an allergy or condition.
181
513968
3754
và mức độ nghiêm trọng của loại dị ứng hoặc tình trạng đó.
Vì vậy, ta cũng đang thấy một số chuyển động trong lĩnh vực này.
08:39
So we're also seeing some movement in this area.
182
519057
2961
Những người xây dựng bộ dữ liệu đang bắt đầu đặt nhãn dinh dưỡng,
08:42
Folks who are building datasets are starting to put nutrition labels,
183
522060
3503
bảng dữ liệu trên bộ dữ liệu của họ.
08:45
data sheets on their datasets.
184
525605
1793
Và những người đang sử dụng dữ liệu đang bắt đầu yêu cầu thông tin.
08:47
And people who are using data are starting to request the information.
185
527398
3337
08:50
This is really heartening.
186
530735
1293
Điều này thực sự đáng khích lệ.
Và bạn có thể nói, “Kasia, tại sao bạn lại ở đây?
08:52
And you might say, "Kasia, why are you up here?
187
532028
2210
08:54
Everything seems to be going well, seems to be getting better."
188
534280
3003
Mọi thứ dường như diễn ra tốt đẹp, dường như đang trở nên tốt hơn.”
08:57
In some ways it is.
189
537700
1210
Một cách nào đó là như vậy.
08:58
But I'm also here to tell you that our relationship to data
190
538951
2795
Tôi cũng ở đây nói với bạn mối quan hệ của ta với dữ liệu
09:01
is getting worse.
191
541746
1460
đang trở nên tồi tệ hơn.
09:03
Now the last few years have seen a supercharged interest
192
543664
3337
Bây giờ vài năm qua đã chứng kiến sự quan tâm gia tăng
09:07
in gathering datasets.
193
547001
1919
trong việc thu thập các bộ dữ liệu.
09:09
Companies are scraping the web.
194
549504
1876
Các công ty đang quét web.
09:11
They're transcribing millions of hours of YouTube videos into text.
195
551380
4004
Họ đang phiên âm hàng triệu giờ video YouTube thành văn bản.
09:15
By some estimates, they'll run out of information on the internet by 2026.
196
555885
3879
Theo một số ước tính, họ sẽ hết thông tin trên internet vào năm 2026.
09:20
They're even considering buying publishing houses
197
560515
2502
Họ thậm chí đang cân nhắc mua nhà xuất bản
09:23
so they can get access to printed text and books.
198
563017
2753
để họ có thể truy cập vào văn bản và sách in.
09:27
So why are they gathering this information?
199
567980
2503
Vậy tại sao họ thu thập thông tin này?
09:30
Well, they need more and more information
200
570483
1918
Họ cần ngày càng nhiều thông tin hơn
09:32
to train a new technique called generative AI.
201
572443
2670
để đào tạo một kỹ thuật mới gọi là AI generative.
09:35
I want to tell you about the size of these datasets.
202
575154
2461
Tôi muốn nói với bạn về kích thước của các bộ dữ liệu này.
09:38
If you look at GPT-3, which is a model that launched in 2020,
203
578533
3378
Nếu bạn nhìn vào GPT-3, một mô hình được ra mắt vào năm 2020,
09:41
the training dataset included 300 billion words, or parts of words.
204
581953
5547
tập dữ liệu đào tạo bao gồm 300 tỷ từ hoặc các phần của từ.
09:47
Now for context, the English language contains less than a million words.
205
587542
3878
Bây giờ đối với ngữ cảnh, ngôn ngữ tiếng Anh chứa ít hơn một triệu từ.
09:52
Just three years later, DBRX was launched,
206
592505
3003
Chỉ ba năm sau, DBRX được ra mắt,
09:55
which was trained on eight trillion words.
207
595508
3086
được đào tạo trên tám nghìn tỷ từ.
09:58
So 300 billion to eight trillion in three years.
208
598636
3212
Vì vậy, 300 tỷ đến 8,000 tỷ trong ba năm.
10:01
And the datasets are getting bigger.
209
601848
2252
Và các bộ dữ liệu đang ngày càng lớn hơn.
10:04
Now with each successive model launch,
210
604600
2211
Bây giờ với mỗi lần ra mắt mô hình liên tiếp,
10:06
the datasets are actually less and less transparent.
211
606853
3044
các bộ dữ liệu thực sự ngày càng ít minh bạch hơn.
10:09
And even we have access to the information,
212
609939
2169
Và ngay cả ta có quyền truy cập vào thông tin,
10:12
it's so big, it's so hard to look inside without any kind of transparency tooling.
213
612108
4838
nó rất lớn, thật khó để nhìn vào bên trong mà không có bất kỳ công cụ minh bạch nào.
10:18
And the generative AI itself is also causing some worries.
214
618865
4212
Và bản thân AI tạo ra cũng đang gây ra một số lo lắng.
Và bạn có thể đã gặp kỹ thuật này thông qua ChatGPT.
10:23
And you've probably encountered this technique through ChatGPT.
215
623077
3712
10:26
I don't need to know what you do on the internet,
216
626831
2336
Tôi không cần biết những gì bạn làm trên internet,
10:29
that's between you and the internet,
217
629167
1751
đó là giữa bạn và internet,
10:30
but you probably know, just like I do,
218
630918
1835
nhưng bạn có thể biết, giống như tôi,
10:32
how easy it is to create information using ChatGPT
219
632795
2378
việc tạo thông tin bằng ChatGPT
và các công nghệ AI tổng hợp khác
10:35
and other generative AI technologies
220
635214
1752
10:36
and to put that out onto the web.
221
636966
1919
và đưa nó lên web dễ dàng ra sao.
10:38
And so we're looking at a situation
222
638885
1710
Và vì vậy chúng tôi đang xem xét một tình huống
10:40
in which we're going to encounter lots of information
223
640636
2503
trong đó chúng ta sẽ gặp rất nhiều thông tin
10:43
that's algorithmically generated but we won't know it
224
643139
2502
được tạo ra bằng thuật toán nhưng ta sẽ không biết nó
10:45
and we won't know whether it's true.
225
645683
1752
và ta sẽ không biết liệu nó có đúng hay không.
10:47
And this increases the scale of the potential risks and harms from AI.
226
647476
3796
Và điều này làm tăng quy mô của các rủi ro và tác hại tiềm ẩn từ AI.
10:51
Not only that, I'm sorry,
227
651981
1460
Không chỉ vậy, tôi xin lỗi,
10:53
but the models themselves are getting controlled
228
653482
2878
mà bản thân các mô hình đang bị kiểm soát
bởi một số lượng nhỏ và ít hơn các chủ thể tư nhân trong các công ty công nghệ Mỹ.
10:56
by a smaller and smaller number of private actors in US tech firms.
229
656360
4171
Vì vậy, đây là những mô hình đã được ra mắt vào năm ngoái, vào năm 2023.
11:00
So this is the models that were launched last year, in 2023.
230
660531
4046
Có thể thấy hầu hết chúng có màu hồng, nghĩa là xuất phát từ ngành công nghiệp.
11:04
And you can see most of them are pink, meaning they came out of industry.
231
664577
3462
Nếu bạn nhìn điều này theo thời gian, ngày càng nhiều ra khỏi ngành công nghiệp
11:08
And if you look at this over time, more and more are coming out of industry
232
668080
3587
11:11
and fewer and fewer are coming out of all the other sectors combined,
233
671709
3253
và ngày càng ít đi ra khỏi tất cả các lĩnh vực khác cộng lại,
11:14
including academia and government,
234
674962
1710
bao gồm cả học viện và chính phủ,
11:16
where technology is often launched in a way
235
676672
2044
nơi công nghệ thường được đưa ra theo cách
11:18
that's more easy to be scrutinized.
236
678758
2169
dễ dàng được xem xét kỹ lưỡng hơn.
11:20
So if we go back to our cafe analogy,
237
680927
1793
Vì vậy, nếu quay trở lại quán cà phê,
11:22
this is like you have a small number of private actors
238
682762
2878
điều này giống như bạn có một số lượng nhỏ các diễn viên tư nhân
11:25
who own all the ingredients,
239
685681
1877
sở hữu tất cả các nguyên liệu,
11:27
they make all the sandwiches globally,
240
687600
2961
họ làm tất cả các bánh sandwich trên toàn cầu
và không có nhiều quy định.
11:30
and there's not a lot of regulation.
241
690561
1960
Và vì vậy tại thời điểm này, bạn có thể sợ hãi
11:33
And so at this point you're probably scared
242
693064
2002
và có thể cảm thấy hơi khó chịu.
11:35
and maybe feeling a little uncomfortable.
243
695107
1961
Thật mỉa mai vì vài phút trước, tôi định mua cho tất cả các bạn bánh sandwich
11:37
Which is ironic because a few minutes ago, I was going to get you all sandwiches
244
697109
3796
11:40
and you said yes.
245
700905
1168
và bạn đã nói có.
Đây là lý do tại sao bạn không nên chấp nhận thức ăn từ người lạ.
11:42
This is why you should not accept food from strangers.
246
702114
2586
11:44
But I wouldn't be up here if I weren't also optimistic.
247
704742
2878
Nhưng tôi sẽ không ở đây nếu tôi cũng không lạc quan.
11:47
And that's because I think we have momentum
248
707620
2044
Và đó là bởi vì tôi nghĩ ta có động lực
11:49
behind the regulation and the culture changes.
249
709705
2503
đằng sau quy định và sự thay đổi văn hóa.
11:52
Especially if we align ourselves with three basic principles
250
712833
2837
Đặc biệt nếu chúng ta liên kết với ba nguyên tắc cơ bản
11:55
about how corporations should engage with data.
251
715670
2544
về cách các công ty nên tương tác với dữ liệu.
Nguyên tắc đầu tiên là các công ty thu thập dữ liệu nên cho chúng ta biết
11:58
The first principle is that companies that gather data should tell us
252
718547
3713
những gì họ đang thu thập.
12:02
what they're gathering.
253
722301
1418
Điều này sẽ cho phép ta đặt câu hỏi như, nó có phải là tài liệu có bản quyền không?
12:04
This would allow us to ask questions like, is it copyrighted material?
254
724470
3545
Thông tin đó có phải là riêng tư không?
12:08
Is that information private?
255
728057
1919
12:09
Could you please stop?
256
729976
1543
Bạn có thể làm ơn dừng lại?
Nó cũng mở ra dữ liệu cho các cuộc điều tra khoa học.
12:11
It also opens up the data to scientific inquiry.
257
731560
2962
Nguyên tắc thứ hai là
12:15
The second principle is that companies that are gathering our data should tell us
258
735731
3921
các công ty đang thu thập dữ liệu nên cho chúng ta biết họ sẽ làm gì với nó
12:19
what they're going to do with it before they do anything with it.
259
739694
3253
trước khi họ làm bất cứ điều gì với nó.
Và bằng cách yêu cầu các công ty cho ta biết kế hoạch của họ,
12:23
And by requiring that companies tell us their plan,
260
743572
2878
điều này có nghĩa là họ phải có một kế hoạch,
12:26
this means that they have to have a plan,
261
746450
2294
đó sẽ là một bước đầu tiên tuyệt vời.
12:28
which would be a great first step.
262
748744
1877
Nó cũng có thể sẽ dẫn đến việc giảm thiểu việc thu thập dữ liệu,
12:31
It also probably would lead to the minimization of data capture,
263
751706
3336
bởi vì họ sẽ không thể thu thập dữ liệu
12:35
because they wouldn't be able to capture data
264
755042
2169
nếu họ không biết họ sẽ làm gì với nó.
12:37
if they didn't know what they were already going to do with it.
265
757253
2961
Và cuối cùng, nguyên tắc thứ ba,
12:40
And finally, principle three,
266
760256
1626
12:41
companies that build AI should tell us about the data
267
761882
2628
các công ty xây dựng AI nên cho chúng ta biết về dữ liệu
mà họ sử dụng để đào tạo AI.
12:44
that they use to train the AI.
268
764552
1960
Và đây là nơi mà nhãn dinh dưỡng tập dữ liệu
12:47
And this is where dataset nutrition labels
269
767179
2294
và ghi nhãn minh bạch khác phát huy tác dụng.
12:49
and other transparency labeling comes into play.
270
769515
2294
Bạn biết đấy, trong trường hợp dữ liệu sẽ không được cung cấp,
12:52
You know, in the case where the data itself won't be made available,
271
772893
3212
đó là hầu hết thời gian, có lẽ,
12:56
which is most of the time, probably,
272
776147
2294
12:58
the labeling is critical for us to be able to investigate the ingredients
273
778482
3546
việc dán nhãn rất quan trọng để chúng ta có thể điều tra các thành phần
và bắt đầu tìm giải pháp.
13:02
and start to find solutions.
274
782028
1793
Vì vậy, tôi muốn để lại cho bạn một tin tốt,
13:05
So I want to leave you with the good news,
275
785698
2044
và đó là các dự án dinh dưỡng dữ liệu và các dự án khác
13:07
and that is that the data nutrition projects and other projects
276
787742
3003
chỉ là một phần nhỏ của phong trào toàn cầu
13:10
are just a small part of a global movement
277
790786
3337
hướng tới trách nhiệm giải trình AI.
13:14
towards AI accountability.
278
794165
1877
Tập dữ liệu Nutrition Label và các dự án khác chỉ là bước đầu tiên.
13:16
Dataset Nutrition Label and other projects are just a first step.
279
796792
4088
Quy định sắp ra mắt,
13:21
Regulation's on the horizon,
280
801714
1752
các chuẩn mực văn hóa đang thay đổi,
13:23
the cultural norms are shifting,
281
803507
1544
đặc biệt nếu ta phù hợp với ba nguyên tắc cơ bản
13:25
especially if we align with these three basic principles
282
805051
2961
mà các công ty nên cho chúng ta biết họ đang thu thập những gì,
13:28
that companies should tell us what they're gathering,
283
808012
2544
cho ta biết họ sẽ làm gì với nó trước khi họ làm bất cứ điều gì
13:30
tell us what they're going to do with it before they do anything with it,
284
810598
3462
và các công ty đang xây dựng AI
13:34
and that companies that are building AI
285
814101
1919
nên giải thích dữ liệu mà họ đang sử dụng để xây dựng hệ thống.
13:36
should explain the data that they're using to build the system.
286
816062
3336
Chúng ta cần buộc các tổ chức này phải chịu
13:40
We need to hold these organizations accountable
287
820191
2210
trách nhiệm về AI mà họ đang xây dựng
13:42
for the AI that they're building
288
822443
2002
bằng cách hỏi họ, giống như ta làm với ngành công nghiệp thực phẩm,
13:44
by asking them, just like we do with the food industry,
289
824487
2627
những gì bên trong và bạn đã tạo ra nó ra sao?
13:47
what's inside and how did you make it?
290
827156
2294
Chỉ khi đó, ta mới có thể giảm thiểu các vấn đề trước khi chúng xảy ra,
13:50
Only then can we mitigate the issues before they occur,
291
830201
3128
trái ngược với sau khi chúng xảy ra.
13:53
as opposed to after they occur.
292
833371
1918
Khi làm như vậy, hãy tạo ra một internet thuật toán tích hợp lành mạnh hơn
13:55
And in doing so, create an integrated algorithmic internet
293
835664
3879
cho tất cả mọi người.
13:59
that is healthier for everyone.
294
839585
2669
Xin cảm ơn.
14:02
Thank you.
295
842546
1168
(Vỗ tay)
14:03
(Applause)
296
843714
2836
Về trang web này

Trang web này sẽ giới thiệu cho bạn những video YouTube hữu ích cho việc học tiếng Anh. Bạn sẽ thấy các bài học tiếng Anh được giảng dạy bởi các giáo viên hàng đầu từ khắp nơi trên thế giới. Nhấp đúp vào phụ đề tiếng Anh hiển thị trên mỗi trang video để phát video từ đó. Phụ đề cuộn đồng bộ với phát lại video. Nếu bạn có bất kỳ nhận xét hoặc yêu cầu nào, vui lòng liên hệ với chúng tôi bằng biểu mẫu liên hệ này.

https://forms.gle/WvT1wiN1qDtmnspy7