Why AI Needs a “Nutrition Label” | Kasia Chmielinski | TED

31,717 views ・ 2024-06-14

TED


يرجى النقر نقرًا مزدوجًا فوق الترجمة الإنجليزية أدناه لتشغيل الفيديو.

المترجم: Walaa Mohammed
00:04
Now, I haven't met most of you or really any of you,
0
4209
3295
الآن، لم أقابل معظمكم أو أيًا منكم حقًا،
00:07
but I feel a really good vibe in the room.
1
7504
2085
لكنني أشعر بأجواء جيدة حقًا في الغرفة.
00:09
(Laughter)
2
9631
1209
(ضحك)
00:10
And so I think I'd like to treat you all to a meal.
3
10882
2503
ولذا أعتقد أنني أود أن أدعوكم جميعًا لتناول وجبة.
00:13
What do you think?
4
13426
1252
ماذا تعتقد؟
00:14
Yes? Great, so many new friends.
5
14678
1877
نعم؟ رائع، الكثير من الأصدقاء الجدد.
00:17
So we're going to go to this cafe,
6
17681
1668
لذلك سنذهب إلى هذا المقهى،
00:19
they serve sandwiches.
7
19349
1501
وهم يقدمون السندويشات.
00:20
And the sandwiches are really delicious.
8
20850
2002
والسندويشات لذيذة حقًا.
00:22
But I have to tell you that sometimes they make people really, really sick.
9
22852
4422
لكن يجب أن أخبركم أنهم في بعض الأحيان يجعلون الناس مرضى حقًا.
00:27
(Laughter)
10
27774
1335
(ضحك)
00:29
And we don't know why.
11
29109
1251
ونحن لا نعرف لماذا.
00:30
Because the cafe won't tell us how they make the sandwich,
12
30402
2711
لأن المقهى لن يخبرنا كيف يصنعون الساندويتش،
00:33
they won't tell us about the ingredients.
13
33154
2044
فلن يخبرونا عن المكونات.
00:35
And then the authorities have no way to fix the problem.
14
35198
3128
ومن ثم ليس لدى السلطات أي وسيلة لإصلاح المشكلة.
00:38
But the offer still stands.
15
38702
1293
لكن العرض لا يزال قائمًا.
00:39
So who wants to get a sandwich?
16
39995
1543
إذن من يريد الحصول على شطيرة؟
00:41
(Laughter)
17
41538
1168
(ضحك)
00:42
Some brave souls, we can talk after.
18
42747
1752
بعض الأرواح الشجاعة، يمكننا التحدث بعد ذلك.
00:45
But for the rest of you, I understand.
19
45000
2168
ولكن بالنسبة لبقيتكم، أنا أفهم.
00:47
You don't have enough information
20
47210
1585
ليس لديك معلومات كافية
00:48
to make good choices about your safety
21
48795
1835
لاتخاذ خيارات جيدة بشأن سلامتك
00:50
or even fix the issue.
22
50672
1835
أو حتى إصلاح المشكلة.
00:52
Now, before I further the anxiety here, I'm not actually trying to make you sick,
23
52507
3879
الآن، قبل أن أزيد من القلق هنا، أنا لا أحاول في الواقع أن أجعلك مريضًا،
00:56
but this is an analogy to how we're currently making algorithmic systems,
24
56428
3545
لكن هذا يشبه الطريقة التي نصنع بها حاليًا أنظمة حسابية،
00:59
also known as artificial intelligence or AI.
25
59973
3003
تُعرف أيضًا باسم الذكاء الاصطناعي أو الذكاء الاصطناعي.
01:04
Now, for those who haven't thought about the relationship
26
64060
2753
الآن، بالنسبة لأولئك الذين لم يفكروا في العلاقة
01:06
between AI and sandwiches, don't worry about it,
27
66813
2586
بين الذكاء الاصطناعي والسندويشات، لا تقلق بشأن ذلك،
01:09
I'm here for you, I'm going to explain.
28
69441
2294
أنا هنا من أجلك، سأشرح.
01:11
You see, AI systems, they provide benefit to society.
29
71776
3754
كما ترون، أنظمة الذكاء الاصطناعي، توفر فائدة للمجتمع.
01:15
They feed us,
30
75530
1251
إنهم يطعموننا،
01:16
but they're also inconsistently making us sick.
31
76823
3670
لكنهم أيضًا يجعلوننا مرضى بشكل غير متسق .
01:20
And we don't have access to the ingredients that go into the AI.
32
80535
4505
وليس لدينا إمكانية الوصول إلى المكونات التي تدخل في الذكاء الاصطناعي.
01:25
And so we can't actually address the issues.
33
85040
2460
وبالتالي لا يمكننا بالفعل معالجة المشكلات.
لا يمكننا أيضًا التوقف عن تناول الذكاء الاصطناعي
01:28
We also can't stop eating AI
34
88418
1793
01:30
like we can just stop eating a shady sandwich
35
90211
2128
كما لو أنه يمكننا التوقف عن تناول شطيرة مظللة
01:32
because it's everywhere,
36
92339
1209
لأنها موجودة في كل مكان،
01:33
and we often don't even know that we're encountering a system
37
93590
2878
وغالبًا ما لا نعرف حتى أننا نواجه نظامًا
01:36
that's algorithmically based.
38
96509
1794
يعتمد على الخوارزميات.
01:38
So today, I'm going to tell you about some of the AI trends that I see.
39
98345
3878
لذا سأخبركم اليوم عن بعض اتجاهات الذكاء الاصطناعي التي أراها.
01:42
I'm going to draw on my experience building these systems
40
102223
2711
سأستفيد من خبرتي في بناء هذه الأنظمة
01:44
over the last two decades to tell you about the tools
41
104934
2545
على مدى العقدين الماضيين لأخبركم عن الأدوات
01:47
that I and others have built to look into these AI ingredients.
42
107520
3879
التي صنعتها أنا وآخرون للنظر في مكونات الذكاء الاصطناعي هذه.
01:51
And finally, I'm going to leave you with three principles
43
111441
2711
وأخيرًا، سأترككم مع ثلاثة مبادئ
01:54
that I think will give us a healthier relationship
44
114152
2336
أعتقد أنها ستعطينا علاقة صحية
01:56
to the companies that build artificial intelligence.
45
116488
2836
مع الشركات التي تبني الذكاء الاصطناعي.
02:00
I'm going to start with the question, how did we get here?
46
120241
2878
سأبدأ بالسؤال، كيف وصلنا إلى هنا؟
02:03
AI is not new.
47
123745
2169
الذكاء الاصطناعي ليس جديدًا.
02:06
We have been living alongside AI for two decades.
48
126665
3378
نحن نعيش جنبًا إلى جنب مع الذكاء الاصطناعي منذ عقدين.
02:10
Every time that you apply for something online,
49
130418
2294
في كل مرة تتقدم فيها بطلب للحصول على شيء ما عبر الإنترنت،
02:12
you open a bank account or you go through passport control,
50
132712
3420
أو تفتح حسابًا مصرفيًا أو تمر عبر مراقبة الجوازات،
02:16
you're encountering an algorithmic system.
51
136132
2044
فإنك تواجه نظامًا خوارزميًا.
02:19
We've also been living with the negative repercussions of AI for 20 years,
52
139010
4088
لقد تعايشنا أيضًا مع التداعيات السلبية للذكاء الاصطناعي لمدة 20 عامًا،
02:23
and this is how it makes us sick.
53
143139
1752
وهذه هي الطريقة التي تجعلنا نشعر بالمرض.
02:25
These systems get deployed on broad populations,
54
145266
2920
يتم نشر هذه الأنظمة على عدد كبير من السكان،
02:28
and then certain subsets end up getting negatively disparately impacted,
55
148228
4921
ومن ثم ينتهي الأمر بمجموعات فرعية معينة بالتأثر سلبًا بصورة متفاوتة،
02:33
usually on the basis of race or gender or other characteristics.
56
153191
3504
عادةً على أساس العرق أو الجنس أو الخصائص الأخرى.
02:37
We need to be able to understand the ingredients to these systems
57
157862
3087
نحن بحاجة إلى أن نكون قادرين على فهم مكونات هذه الأنظمة
02:40
so that we can address the issues.
58
160990
2086
حتى نتمكن من معالجة المشكلات.
02:43
So what are the ingredients to an AI system?
59
163827
3086
إذن ما هي مكونات نظام الذكاء الاصطناعي؟
02:46
Well, data fuels the AI.
60
166955
2294
حسنًا، البيانات تغذي الذكاء الاصطناعي.
02:49
The AI is going to look like the data that you gave it.
61
169290
2962
سيبدو الذكاء الاصطناعي مثل البيانات التي قدمتها له.
02:52
So for example,
62
172752
1293
لذلك، على سبيل المثال،
02:54
if I want to make a risk-assessment system for diabetes,
63
174087
4129
إذا كنت أرغب في إنشاء نظام لتقييم المخاطر لمرض السكري،
02:58
my training data set might be adults in a certain region.
64
178258
4337
فقد تكون مجموعة بيانات التدريب الخاصة بي من البالغين في منطقة معينة.
03:02
And so I'll build that system,
65
182929
1460
ولذا سأقوم ببناء هذا النظام،
03:04
it'll work really well for those adults in that region.
66
184389
2627
وسيعمل بصورة جيدة حقًا لأولئك البالغين في تلك المنطقة.
03:07
But it does not work for adults in other regions
67
187016
2294
لكنها لا تعمل للبالغين في مناطق أخرى
03:09
or maybe at all for children.
68
189310
1419
أو ربما للأطفال على الإطلاق.
03:10
So you can imagine if we deploy this for all those populations,
69
190770
3003
لذا يمكنك أن تتخيل أنه إذا قمنا بنشر هذا لجميع هؤلاء السكان،
03:13
there are going to be a lot of people who are harmed.
70
193815
2502
فسيكون هناك الكثير من الأشخاص الذين يتعرضون للأذى.
03:16
We need to be able to understand the quality of the data before we use it.
71
196317
4422
نحن بحاجة إلى أن نكون قادرين على فهم جودة البيانات قبل استخدامها.
03:22
But I'm sorry to tell you that we currently live
72
202157
2252
ولكن يؤسفني أن أخبرك أننا نعيش حاليًا
03:24
in what I call the Wild West of data.
73
204451
2502
في ما أسميه الغرب المتوحش للبيانات.
03:26
It's really hard to assess quality of data before you use it.
74
206995
4171
من الصعب حقًا تقييم جودة البيانات قبل استخدامها.
03:31
There are no global standards for data quality assessment,
75
211166
2877
لا توجد معايير عالمية لتقييم جودة البيانات،
03:34
and there are very few data regulations around how you can use data
76
214085
3295
وهناك عدد قليل جدًا من لوائح البيانات حول كيفية استخدام البيانات
03:37
and what types of data you can use.
77
217422
2377
وأنواع البيانات التي يمكنك استخدامها.
03:40
This is kind of like in the food safety realm.
78
220967
2294
هذا يشبه إلى حد ما في مجال سلامة الأغذية.
03:43
If we couldn't understand where the ingredients were sourced,
79
223303
3545
إذا لم نتمكن من فهم مصدر المكونات،
03:46
we also had no idea whether they were safe for us to consume.
80
226890
3003
لم تكن لدينا أيضًا أي فكرة عما إذا كانت آمنة بالنسبة لنا للاستهلاك.
03:50
We also tend to stitch data together,
81
230643
2253
نميل أيضًا إلى تجميع البيانات معًا،
03:52
and every time we stitch this data together,
82
232937
2086
وفي كل مرة نقوم فيها بتجميع هذه البيانات معًا،
03:55
which we might find on the internet, scrape, we might generate it,
83
235023
3128
والتي قد نجدها على الإنترنت، ونكشطها، وقد نولدها،
03:58
we could source it.
84
238151
1376
ويمكننا الحصول عليها.
03:59
We lose information about the quality of the data.
85
239527
3128
نفقد المعلومات حول جودة البيانات.
04:03
And the folks who are building the models
86
243156
1960
والأشخاص الذين يبنون النماذج
04:05
are not the ones that found the data.
87
245116
1919
ليسوا هم الذين عثروا على البيانات.
04:07
So there's further information that's lost.
88
247076
2336
لذلك هناك المزيد من المعلومات المفقودة.
04:10
Now, I've been asking myself a lot of questions
89
250497
2210
الآن، أطرح على نفسي الكثير من الأسئلة
04:12
about how can we understand the data quality before we use it.
90
252749
3754
حول كيف يمكننا فهم جودة البيانات قبل استخدامها.
04:16
And this emerges from two decades of building these kinds of systems.
91
256544
4672
وهذا ينبثق من عقدين من بناء هذه الأنواع من الأنظمة.
04:21
The way I was trained to build systems is similar to how people do it today.
92
261216
3920
الطريقة التي تدربت بها على بناء الأنظمة تشبه الطريقة التي يقوم بها الناس اليوم.
04:25
You build for the middle of the distribution.
93
265178
2210
تقوم بالبناء في منتصف التوزيع.
04:27
That's your normal user.
94
267430
1919
هذا هو المستخدم العادي الخاص بك.
لذلك بالنسبة لي، فإن الكثير من مجموعات بيانات التدريب الخاصة بي
04:29
So for me, a lot of my training data sets
95
269390
1961
04:31
would include information about people from the Western world who speak English,
96
271392
4213
ستشمل معلومات حول الأشخاص من العالم الغربي الذين يتحدثون الإنجليزية،
04:35
who have certain normative characteristics.
97
275605
2336
والذين لديهم خصائص معيارية معينة.
04:37
And it took me an embarrassingly long amount of time
98
277982
2461
واستغرق الأمر وقتًا طويلًا بصورة محرجة
04:40
to realize that I was not my own user.
99
280443
2503
لأدرك أنني لست مستخدمًا خاصًا بي.
04:43
So I identify as non-binary, as mixed race,
100
283696
2628
لذلك أعرف أنني غير ثنائي، كعرق مختلط،
04:46
I wear a hearing aid
101
286324
1668
أرتدي أداة مساعدة
04:47
and I just wasn't represented in the data sets that I was using.
102
287992
3587
للسمع ولم أكن ممثلًا في مجموعات البيانات التي كنت أستخدمها.
04:51
And so I was building systems that literally didn't work for me.
103
291621
3378
ولذا كنت أقوم ببناء أنظمة لا تناسبني حرفيًا.
04:55
And for example, I once built a system that repeatedly told me
104
295041
3462
وعلى سبيل المثال، قمت ذات مرة ببناء نظام أخبرني مرارًا وتكرارًا
04:58
that I was a white Eastern-European lady.
105
298503
3670
أنني سيدة بيضاء من أوروبا الشرقية.
05:02
This did a real number on my identity.
106
302966
2043
لقد أدى هذا إلى رقم حقيقي في هويتي.
05:05
(Laughter)
107
305051
1919
(ضحك)
05:06
But perhaps even more worrying,
108
306970
1793
ولكن ربما الأمر الأكثر إثارة للقلق
05:08
this was a system to be deployed in health care,
109
308805
2961
هو أنه كان نظامًا سيتم نشره في مجال الرعاية الصحية،
05:11
where your background can determine things like risk scores for diseases.
110
311808
4296
حيث يمكن لخلفيتك تحديد أشياء مثل درجات خطر الإصابة بالأمراض.
05:17
And so I started to wonder,
111
317605
1627
وهكذا بدأت أتساءل،
05:19
can I build tools and work with others to do this
112
319274
2794
هل يمكنني إنشاء أدوات والعمل مع الآخرين للقيام بذلك
05:22
so that I can look inside of a dataset before I use it?
113
322068
2836
حتى أتمكن من البحث داخل مجموعة البيانات قبل استخدامها؟
05:25
In 2018, I was part of a fellowship at Harvard and MIT,
114
325655
3629
في عام 2018، كنت جزءًا من زمالة في هارفارد ومعهد ماساتشوستس للتكنولوجيا،
05:29
and I, with some colleagues, decided to try to address this problem.
115
329284
4379
وقررت مع بعض الزملاء محاولة معالجة هذه المشكلة.
05:33
And so we launched the Data Nutrition Project,
116
333705
2836
ولذا أطلقنا مشروع التغذية بالبيانات،
05:36
which is a research group and also a nonprofit
117
336541
2919
وهو عبارة عن مجموعة بحثية وأيضًا منظمة غير ربحية
05:39
that builds nutrition labels for datasets.
118
339502
2711
تبني ملصقات التغذية لمجموعات البيانات.
05:43
So similar to food nutrition labels,
119
343381
2628
على غرار ملصقات التغذية الغذائية،
05:46
the idea here is that you can look inside of a data set before you use it.
120
346050
3504
الفكرة هنا هي أنه يمكنك البحث داخل مجموعة البيانات قبل استخدامها.
05:49
You can understand the ingredients,
121
349554
1710
يمكنك فهم المكونات
05:51
see whether it's healthy for the things that you want to do.
122
351264
2878
ومعرفة ما إذا كانت صحية للأشياء التي تريد القيام بها.
05:54
Now this is a cartoonified version of the label.
123
354142
2669
الآن هذه نسخة كارتونية من الملصق.
05:56
The top part tells you about the completion of the label itself.
124
356811
4213
يخبرك الجزء العلوي عن إكمال الملصق نفسه.
وتحت ذلك لديك معلومات حول البيانات
06:01
And underneath that you have information about the data,
125
361065
2628
06:03
the description, the keywords, the tags,
126
363693
2044
والوصف والكلمات الرئيسية والعلامات،
06:05
and importantly, on the right hand side,
127
365778
1919
والأهم من ذلك، على الجانب الأيمن،
06:07
how you should and should not use the data.
128
367697
2586
كيف يجب عليك استخدام البيانات ولا ينبغي استخدامها.
06:10
If you could scroll on this cartoon,
129
370700
1793
إذا كان بإمكانك التمرير فوق هذا الكارتون،
06:12
you would see information about risks and mitigation strategies
130
372493
3003
فسترى معلومات حول المخاطر واستراتيجيات التخفيف
06:15
across a number of vectors.
131
375496
1544
عبر عدد من النواقل.
06:17
And we launched this with two audiences in mind.
132
377707
2836
وأطلقنا هذا مع وضع جمهورين في الاعتبار.
06:20
The first audience are folks who are building AI.
133
380543
3545
الجمهور الأول هم الأشخاص الذين يبنون الذكاء الاصطناعي.
06:24
So they’re choosing datasets.
134
384130
1418
لذا فهم يختارون مجموعات البيانات.
06:25
We want to help them make a better choice.
135
385590
2294
نريد مساعدتهم على اتخاذ خيار أفضل.
06:27
The second audience are folks who are building datasets.
136
387926
3128
الجمهور الثاني هم الأشخاص الذين يقومون ببناء مجموعات البيانات.
06:31
And it turns out
137
391095
1168
واتضح
06:32
that when you tell someone they have to put a label on something,
138
392305
3086
أنه عندما تخبر شخصًا ما أنه يتعين عليه وضع ملصق على شيء ما،
06:35
they think about the ingredients beforehand.
139
395391
2086
فإنه يفكر في المكونات مسبقًا.
06:38
The analogy here might be,
140
398102
1544
قد يكون التشابه هنا هو،
06:39
if I want to make a sandwich and say that it’s gluten-free,
141
399687
2878
إذا أردت أن أصنع شطيرة وأقول إنها خالية من الغلوتين،
06:42
I have to think about all the components as I make the sandwich,
142
402607
3045
يجب أن أفكر في جميع المكونات أثناء صنع الساندويتش،
06:45
the bread and the ingredients, the sauces.
143
405652
2210
والخبز والمكونات، والصلصات.
06:47
I can't just put it on a sandwich and put it in front of you
144
407904
2836
لا يمكنني وضعها على شطيرة ووضعها أمامك
06:50
and tell you it's gluten-free.
145
410740
1960
وإخبارك بأنها خالية من الغلوتين.
06:52
We're really proud of the work that we've done.
146
412700
2253
نحن فخورون حقًا بالعمل الذي قمنا به.
06:54
We launched this as a design and then a prototype
147
414994
2336
أطلقنا هذا كتصميم ثم نموذج أولي
06:57
and ultimately a tool for others to make their own labels.
148
417330
3920
وفي النهاية أداة للآخرين لإنشاء ملصقاتهم الخاصة.
07:01
And we've worked with experts at places like Microsoft Research,
149
421709
3045
وقد عملنا مع خبراء في أماكن مثل Microsoft Research
07:04
the United Nations and professors globally
150
424754
3045
والأمم المتحدة والأساتذة على مستوى العالم
07:07
to integrate the label and the methodology
151
427840
2002
لدمج التسمية والمنهجية
07:09
into their work flows and into their curricula.
152
429884
2628
في تدفقات عملهم وفي مناهجهم الدراسية.
07:13
But we know it only goes so far.
153
433096
1877
لكننا نعلم أن الأمر لا يصل إلا إلى حد بعيد.
07:15
And that's because it's actually really hard to get a label
154
435014
2920
وهذا لأنه من الصعب حقًا الحصول
07:17
on every single dataset.
155
437976
2293
على تصنيف لكل مجموعة بيانات.
07:20
And this comes down to the question
156
440311
1710
وهذا يعود إلى السؤال
07:22
of why would you put a label on a dataset to begin with?
157
442063
3086
لماذا تضع تصنيفًا على مجموعة بيانات لتبدأ بها؟
07:25
Well, the first reason is not rocket science.
158
445525
2169
حسنًا، السبب الأول ليس علم الصواريخ.
07:27
It's that you have to.
159
447735
1835
هذا هو ما يجب عليك القيام به.
07:29
And this is, quite frankly, why food nutrition labels exist.
160
449570
2878
وهذا هو، بصراحة تامة، سبب وجود ملصقات التغذية الغذائية.
07:32
It's because if they didn't put them on the boxes, it would be illegal.
161
452490
3420
هذا لأنهم إذا لم يضعوها على الصناديق، فسيكون ذلك غير قانوني.
07:36
However, we don't really have AI regulation.
162
456703
2377
ومع ذلك، ليس لدينا حقًا تنظيم الذكاء الاصطناعي.
07:39
We don't have much regulation around the use of data.
163
459122
2627
ليس لدينا الكثير من اللوائح حول استخدام البيانات.
07:42
Now there is some on the horizon.
164
462208
1960
الآن هناك البعض في الأفق.
07:44
For example, the EU AI Act just passed this week.
165
464168
3420
على سبيل المثال، تم تمرير قانون الاتحاد الأوروبي للذكاء الاصطناعي هذا الأسبوع.
07:48
And although there are no requirements around making the training data available,
166
468381
4630
وعلى الرغم من عدم وجود متطلبات حول إتاحة بيانات التدريب،
07:53
they do have provisions for creating transparency labeling
167
473052
4254
إلا أنها تحتوي على أحكام لإنشاء علامات الشفافية
07:57
like the dataset nutrition label, data sheets, data statements.
168
477348
3879
مثل ملصق التغذية لمجموعة البيانات وأوراق البيانات وبيانات البيانات.
08:01
There are many in the space.
169
481269
1376
هناك الكثير في الفضاء.
08:02
We think this is a really good first step.
170
482645
2044
نعتقد أن هذه خطوة أولى جيدة حقًا.
08:05
The second reason that you might have a label on a dataset
171
485606
2753
السبب الثاني وراء احتمال وجود تصنيف على مجموعة البيانات
08:08
is because it is a best practice or a cultural norm.
172
488401
3920
هو أنها أفضل ممارسة أو معيار ثقافي.
08:13
The example here might be how we're starting to see
173
493364
2544
قد يكون المثال هنا هو كيف بدأنا نرى
08:15
more and more food packaging and menus at restaurants
174
495950
3337
المزيد والمزيد من عبوات الطعام والقوائم في المطاعم
08:19
include information about whether there's gluten.
175
499328
2920
تتضمن معلومات حول ما إذا كان هناك جلوتين.
08:22
This is not required by law,
176
502248
1794
هذا ليس مطلوبًا بموجب القانون،
08:24
although if you do say it, it had better be true.
177
504042
2627
على الرغم من أنك إذا قلت ذلك، فمن الأفضل أن يكون صحيحًا.
08:27
And the reason that people are adding this to their menus
178
507211
2711
والسبب في أن الناس يضيفون هذا إلى قوائم الطعام الخاصة بهم
08:29
and their food packaging
179
509922
1168
وتغليف المواد الغذائية الخاصة بهم
08:31
is because there's an increased awareness of the sensitivity
180
511090
2878
هو وجود وعي متزايد بحساسية
08:33
and kind of the seriousness of that kind of an allergy or condition.
181
513968
3754
ونوع خطورة هذا النوع من الحساسية أو الحالة.
08:39
So we're also seeing some movement in this area.
182
519057
2961
لذلك نشهد أيضًا بعض الحركة في هذه المنطقة.
08:42
Folks who are building datasets are starting to put nutrition labels,
183
522060
3503
بدأ الأشخاص الذين يقومون ببناء مجموعات البيانات في وضع ملصقات التغذية
08:45
data sheets on their datasets.
184
525605
1793
وأوراق البيانات على مجموعات البيانات الخاصة بهم.
08:47
And people who are using data are starting to request the information.
185
527398
3337
وبدأ الأشخاص الذين يستخدمون البيانات في طلب المعلومات.
08:50
This is really heartening.
186
530735
1293
هذا أمر مشجع حقًا.
08:52
And you might say, "Kasia, why are you up here?
187
532028
2210
وقد تقول، «كاسيا، لماذا أنت هنا؟
08:54
Everything seems to be going well, seems to be getting better."
188
534280
3003
يبدو أن كل شيء يسير على ما يرام، ويبدو أنه يتحسن».
08:57
In some ways it is.
189
537700
1210
إنه كذلك من بعض النواحي.
08:58
But I'm also here to tell you that our relationship to data
190
538951
2795
لكنني هنا أيضًا لأخبرك أن علاقتنا بالبيانات
09:01
is getting worse.
191
541746
1460
تزداد سوءًا.
09:03
Now the last few years have seen a supercharged interest
192
543664
3337
الآن شهدت السنوات القليلة الماضية اهتمامًا
09:07
in gathering datasets.
193
547001
1919
كبيرًا بجمع مجموعات البيانات.
09:09
Companies are scraping the web.
194
549504
1876
تقوم الشركات بتجريف الويب.
09:11
They're transcribing millions of hours of YouTube videos into text.
195
551380
4004
إنهم يقومون بنسخ ملايين الساعات من مقاطع فيديو YouTube إلى نص.
09:15
By some estimates, they'll run out of information on the internet by 2026.
196
555885
3879
وفقًا لبعض التقديرات، ستنفد المعلومات على الإنترنت بحلول عام 2026.
09:20
They're even considering buying publishing houses
197
560515
2502
حتى أنهم يفكرون في شراء دور نشر
09:23
so they can get access to printed text and books.
198
563017
2753
حتى يتمكنوا من الوصول إلى النصوص والكتب المطبوعة.
09:27
So why are they gathering this information?
199
567980
2503
فلماذا يجمعون هذه المعلومات؟
09:30
Well, they need more and more information
200
570483
1918
حسنًا، يحتاجون إلى المزيد والمزيد من المعلومات
09:32
to train a new technique called generative AI.
201
572443
2670
لتدريب تقنية جديدة تسمى الذكاء الاصطناعي التوليدي.
09:35
I want to tell you about the size of these datasets.
202
575154
2461
أريد أن أخبركم عن حجم مجموعات البيانات هذه.
09:38
If you look at GPT-3, which is a model that launched in 2020,
203
578533
3378
إذا نظرت إلى GPT-3، وهو نموذج تم إطلاقه في عام 2020،
09:41
the training dataset included 300 billion words, or parts of words.
204
581953
5547
فإن مجموعة بيانات التدريب تضمنت 300 مليار كلمة، أو أجزاء من الكلمات.
09:47
Now for context, the English language contains less than a million words.
205
587542
3878
الآن بالنسبة للسياق، تحتوي اللغة الإنجليزية على أقل من مليون كلمة.
09:52
Just three years later, DBRX was launched,
206
592505
3003
بعد ثلاث سنوات فقط، تم إطلاق DBRX،
09:55
which was trained on eight trillion words.
207
595508
3086
والتي تم تدريبها على ثمانية تريليونات كلمة.
09:58
So 300 billion to eight trillion in three years.
208
598636
3212
لذلك 300 مليار إلى ثمانية تريليون في ثلاث سنوات.
10:01
And the datasets are getting bigger.
209
601848
2252
وتتزايد مجموعات البيانات.
10:04
Now with each successive model launch,
210
604600
2211
الآن مع كل إطلاق نموذج متتالي،
10:06
the datasets are actually less and less transparent.
211
606853
3044
أصبحت مجموعات البيانات في الواقع أقل شفافية.
10:09
And even we have access to the information,
212
609939
2169
وحتى لدينا إمكانية الوصول إلى المعلومات،
10:12
it's so big, it's so hard to look inside without any kind of transparency tooling.
213
612108
4838
فهي كبيرة جدًا، ومن الصعب جدًا النظر إلى الداخل دون أي نوع من أدوات الشفافية.
10:18
And the generative AI itself is also causing some worries.
214
618865
4212
كما أن الذكاء الاصطناعي التوليدي نفسه يسبب بعض المخاوف.
10:23
And you've probably encountered this technique through ChatGPT.
215
623077
3712
وربما واجهت هذه التقنية من خلال ChatGPT.
10:26
I don't need to know what you do on the internet,
216
626831
2336
لست بحاجة إلى معرفة ما تفعله على الإنترنت،
10:29
that's between you and the internet,
217
629167
1751
فهذا بينك وبين الإنترنت،
10:30
but you probably know, just like I do,
218
630918
1835
ولكن ربما تعرف، مثلي تمامًا،
10:32
how easy it is to create information using ChatGPT
219
632795
2378
مدى سهولة إنشاء المعلومات باستخدام ChatGPT
10:35
and other generative AI technologies
220
635214
1752
وتقنيات الذكاء الاصطناعي التوليدية الأخرى
10:36
and to put that out onto the web.
221
636966
1919
ونشرها على الويب.
10:38
And so we're looking at a situation
222
638885
1710
ولذا فإننا ننظر إلى موقف سنواجه
10:40
in which we're going to encounter lots of information
223
640636
2503
فيه الكثير من المعلومات
10:43
that's algorithmically generated but we won't know it
224
643139
2502
التي تم إنشاؤها بطريقة حسابية ولكننا لن نعرفها ولن نعرف
10:45
and we won't know whether it's true.
225
645683
1752
ما إذا كانت صحيحة.
10:47
And this increases the scale of the potential risks and harms from AI.
226
647476
3796
وهذا يزيد من حجم المخاطر والأضرار المحتملة من الذكاء الاصطناعي.
10:51
Not only that, I'm sorry,
227
651981
1460
ليس ذلك فحسب، أنا آسف،
10:53
but the models themselves are getting controlled
228
653482
2878
ولكن النماذج نفسها يتم التحكم فيها
10:56
by a smaller and smaller number of private actors in US tech firms.
229
656360
4171
من قبل عدد أقل وأقل من الجهات الفاعلة الخاصة في شركات التكنولوجيا الأمريكية.
11:00
So this is the models that were launched last year, in 2023.
230
660531
4046
إذن هذه هي النماذج التي تم إطلاقها العام الماضي، في عام 2023.
11:04
And you can see most of them are pink, meaning they came out of industry.
231
664577
3462
ويمكنك أن ترى أن معظمها باللون الوردي، مما يعني أنها خرجت من الصناعة.
11:08
And if you look at this over time, more and more are coming out of industry
232
668080
3587
وإذا نظرت إلى هذا بمرور الوقت، فإن المزيد والمزيد يخرج من الصناعة
11:11
and fewer and fewer are coming out of all the other sectors combined,
233
671709
3253
ويقل عدد القطاعات الأخرى مجتمعة،
11:14
including academia and government,
234
674962
1710
بما في ذلك الأوساط الأكاديمية والحكومية،
11:16
where technology is often launched in a way
235
676672
2044
حيث يتم إطلاق التكنولوجيا غالبًا بطريقة
11:18
that's more easy to be scrutinized.
236
678758
2169
يسهل فحصها.
11:20
So if we go back to our cafe analogy,
237
680927
1793
لذا إذا عدنا إلى تشبيهنا بالمقاهي،
11:22
this is like you have a small number of private actors
238
682762
2878
يبدو الأمر كما لو أن لديك عددًا صغيرًا من الممثلين الخاصين
11:25
who own all the ingredients,
239
685681
1877
الذين يمتلكون جميع المكونات،
11:27
they make all the sandwiches globally,
240
687600
2961
ويصنعون جميع السندويشات على مستوى العالم،
11:30
and there's not a lot of regulation.
241
690561
1960
وليس هناك الكثير من التنظيم.
11:33
And so at this point you're probably scared
242
693064
2002
وبالتالي في هذه المرحلة ربما تكون خائفًا
11:35
and maybe feeling a little uncomfortable.
243
695107
1961
وربما تشعر ببعض عدم الارتياح.
11:37
Which is ironic because a few minutes ago, I was going to get you all sandwiches
244
697109
3796
وهو أمر مثير للسخرية لأنني قبل بضع دقائق، كنت سأحضر لك جميع السندويشات
11:40
and you said yes.
245
700905
1168
وقلت نعم.
11:42
This is why you should not accept food from strangers.
246
702114
2586
لهذا السبب يجب ألا تقبل الطعام من الغرباء.
11:44
But I wouldn't be up here if I weren't also optimistic.
247
704742
2878
لكنني لن أكون هنا إذا لم أكن متفائلاً أيضًا.
11:47
And that's because I think we have momentum
248
707620
2044
وذلك لأنني أعتقد أن لدينا زخمًا
11:49
behind the regulation and the culture changes.
249
709705
2503
وراء التنظيم وتغيير الثقافة.
11:52
Especially if we align ourselves with three basic principles
250
712833
2837
خاصًة إذا التزمنا بثلاثة مبادئ أساسية
11:55
about how corporations should engage with data.
251
715670
2544
حول كيفية تفاعل الشركات مع البيانات.
11:58
The first principle is that companies that gather data should tell us
252
718547
3713
المبدأ الأول هو أن الشركات التي تجمع البيانات يجب أن تخبرنا
12:02
what they're gathering.
253
722301
1418
بما تجمعه.
12:04
This would allow us to ask questions like, is it copyrighted material?
254
724470
3545
هذا سيسمح لنا بطرح أسئلة مثل، هل هي مواد محمية بحقوق الطبع والنشر؟
12:08
Is that information private?
255
728057
1919
هل هذه المعلومات خاصة؟
12:09
Could you please stop?
256
729976
1543
هل يمكنك التوقف؟
12:11
It also opens up the data to scientific inquiry.
257
731560
2962
كما أنه يفتح البيانات للبحث العلمي.
12:15
The second principle is that companies that are gathering our data should tell us
258
735731
3921
المبدأ الثاني هو أن الشركات التي تجمع بياناتنا يجب أن تخبرنا
12:19
what they're going to do with it before they do anything with it.
259
739694
3253
بما ستفعله بها قبل أن تفعل أي شيء بها.
12:23
And by requiring that companies tell us their plan,
260
743572
2878
ومن خلال مطالبة الشركات بإخبارنا بخطتها،
12:26
this means that they have to have a plan,
261
746450
2294
فهذا يعني أنه يجب أن يكون لديها خطة،
12:28
which would be a great first step.
262
748744
1877
والتي ستكون خطوة أولى رائعة.
12:31
It also probably would lead to the minimization of data capture,
263
751706
3336
من المحتمل أيضًا أن يؤدي ذلك إلى تقليل التقاط البيانات،
12:35
because they wouldn't be able to capture data
264
755042
2169
لأنهم لن يكونوا قادرين على التقاط البيانات
12:37
if they didn't know what they were already going to do with it.
265
757253
2961
إذا لم يعرفوا ما الذي سيفعلونه بالفعل بها.
12:40
And finally, principle three,
266
760256
1626
وأخيرًا، المبدأ الثالث،
12:41
companies that build AI should tell us about the data
267
761882
2628
يجب على الشركات التي تبني الذكاء الاصطناعي أن تخبرنا عن البيانات
12:44
that they use to train the AI.
268
764552
1960
التي تستخدمها لتدريب الذكاء الاصطناعي.
12:47
And this is where dataset nutrition labels
269
767179
2294
وهنا يأتي دور ملصقات التغذية لمجموعة البيانات
12:49
and other transparency labeling comes into play.
270
769515
2294
وغيرها من علامات الشفافية.
12:52
You know, in the case where the data itself won't be made available,
271
772893
3212
كما تعلمون، في حالة عدم إتاحة البيانات نفسها،
12:56
which is most of the time, probably,
272
776147
2294
وهو في معظم الأوقات، على الأرجح،
12:58
the labeling is critical for us to be able to investigate the ingredients
273
778482
3546
يعد وضع العلامات أمرًا بالغ الأهمية بالنسبة لنا لنتمكن من التحقق من المكونات
13:02
and start to find solutions.
274
782028
1793
والبدء في إيجاد الحلول.
13:05
So I want to leave you with the good news,
275
785698
2044
لذلك أريد أن أترككم مع الأخبار الجيدة،
13:07
and that is that the data nutrition projects and other projects
276
787742
3003
وهي أن مشاريع تغذية البيانات وغيرها من المشاريع
13:10
are just a small part of a global movement
277
790786
3337
ليست سوى جزء صغير من حركة عالمية
13:14
towards AI accountability.
278
794165
1877
نحو المساءلة في مجال الذكاء الاصطناعي.
13:16
Dataset Nutrition Label and other projects are just a first step.
279
796792
4088
تُعد بطاقة التغذية لمجموعة البيانات والمشاريع الأخرى مجرد خطوة أولى.
13:21
Regulation's on the horizon,
280
801714
1752
التنظيم يلوح في الأفق،
13:23
the cultural norms are shifting,
281
803507
1544
والأعراف الثقافية تتغير،
13:25
especially if we align with these three basic principles
282
805051
2961
خاصًة إذا انسقنا مع هذه المبادئ الأساسية الثلاثة
13:28
that companies should tell us what they're gathering,
283
808012
2544
التي يجب على الشركات
13:30
tell us what they're going to do with it before they do anything with it,
284
810598
3462
إخبارنا بما تجمعه، وإخبارنا بما ستفعله به قبل أن تفعل أي شيء به،
13:34
and that companies that are building AI
285
814101
1919
وأن الشركات التي تبني الذكاء الاصطناعي
13:36
should explain the data that they're using to build the system.
286
816062
3336
يجب أن تشرح البيانات التي تستخدمها لبناء النظام.
13:40
We need to hold these organizations accountable
287
820191
2210
نحن بحاجة إلى تحميل هذه المنظمات
13:42
for the AI that they're building
288
822443
2002
المسؤولية عن الذكاء الاصطناعي الذي تبنيه
13:44
by asking them, just like we do with the food industry,
289
824487
2627
من خلال سؤالها، تمامًا كما نفعل مع صناعة المواد الغذائية،
13:47
what's inside and how did you make it?
290
827156
2294
ماذا يوجد في الداخل وكيف صنعته؟
13:50
Only then can we mitigate the issues before they occur,
291
830201
3128
عندها فقط يمكننا التخفيف من المشكلات قبل
13:53
as opposed to after they occur.
292
833371
1918
حدوثها، بدلًا من بعد حدوثها.
13:55
And in doing so, create an integrated algorithmic internet
293
835664
3879
وعند القيام بذلك، قم بإنشاء إنترنت خوارزمي متكامل
13:59
that is healthier for everyone.
294
839585
2669
يكون أكثر صحة للجميع.
14:02
Thank you.
295
842546
1168
شكرًا لكم.
14:03
(Applause)
296
843714
2836
(تصفيق)
حول هذا الموقع

سيقدم لك هذا الموقع مقاطع فيديو YouTube المفيدة لتعلم اللغة الإنجليزية. سترى دروس اللغة الإنجليزية التي يتم تدريسها من قبل مدرسين من الدرجة الأولى من جميع أنحاء العالم. انقر نقرًا مزدوجًا فوق الترجمة الإنجليزية المعروضة على كل صفحة فيديو لتشغيل الفيديو من هناك. يتم تمرير الترجمات بالتزامن مع تشغيل الفيديو. إذا كان لديك أي تعليقات أو طلبات ، يرجى الاتصال بنا باستخدام نموذج الاتصال هذا.

https://forms.gle/WvT1wiN1qDtmnspy7