Google dan Microsoft Bertaruh pada Alumni Stanford Berusia 27 Tahun untuk Membuat AI Berfungsi untuk Miliaran Pengguna

Google dan Microsoft Bertaruh pada Alumni Stanford Berusia 27 Tahun untuk Membuat AI Berfungsi untuk Miliaran Pengguna

Road.co.id

Di rumah satu kamarnya di jalan yang sepi di Agara, sebuah desa kecil tiga jam barat daya Bangalore yang dibatasi oleh sawah dan ladang kacang tanah, Preethi P. duduk di bangku dekat mesin jahit. Biasanya, dia menghabiskan waktu berjam-jam untuk memperbaiki atau menjahit pakaian, dengan rata-rata penghasilan kurang dari $1 per hari untuk pekerjaannya. Namun, pada hari ini, dia membaca sebuah kalimat dalam bahasa aslinya, Kannada, ke dalam aplikasi di ponselnya. Dia berhenti sejenak, lalu membaca yang lain.

Preethi, yang hanya memiliki satu nama, seperti yang biasa terjadi di wilayah tersebut, adalah salah satu dari 70 pekerja yang dipekerjakan di Agara dan desa-desa sekitarnya oleh sebuah startup bernama Karya untuk mengumpulkan data teks, suara, dan gambar dalam bahasa daerah India. Dia adalah bagian dari tenaga kerja global yang sangat besar dan tidak terlihat – yang beroperasi di negara-negara seperti India, Kenya, dan Filipina – yang mengumpulkan dan memberi label pada data yang diandalkan oleh chatbot AI dan asisten virtual untuk menghasilkan respons yang relevan. Namun, tidak seperti banyak kontraktor data lainnya, Preethi dibayar dengan baik atas usahanya, setidaknya menurut standar lokal.

Setelah tiga hari bekerja dengan Karya, Preethi memperoleh 4.500 rupee ($54), lebih dari empat kali lipat jumlah yang biasanya diterima oleh lulusan sekolah menengah berusia 22 tahun sebagai penjahit dalam sebulan penuh. Uang tersebut cukup, katanya, untuk melunasi cicilan bulan itu atas pinjaman yang diambil untuk memperbaiki sebagian dinding lumpur rumahnya yang telah runtuh dan telah ditambal dengan hati-hati dengan kain sari warna-warni. “Yang saya butuhkan hanyalah telepon dan internet.”

Kami sekarang ada di WhatsApp. Klik untuk bergabung.

Karya didirikan pada tahun 2021, sebelum munculnya ChatGPT, namun hiruk pikuk AI generatif tahun ini hanya menambah permintaan data yang tak terpuaskan di perusahaan-perusahaan teknologi. India sendiri diperkirakan memiliki hampir satu juta pekerja anotasi data pada tahun 2030, menurut Nasscom, badan perdagangan industri teknologi di negara tersebut. Karya membedakan dirinya dari vendor data lainnya dengan menawarkan kepada kontraktornya – sebagian besar perempuan, dan sebagian besar di masyarakat pedesaan – upah minimum sebesar 20 kali lipat, dengan janji menghasilkan data berbahasa India dengan kualitas lebih baik sehingga perusahaan teknologi akan membayar lebih untuk mendapatkannya. .

“Setiap tahun, perusahaan teknologi besar menghabiskan miliaran dolar untuk mengumpulkan data pelatihan untuk AI” dan model pembelajaran mesin mereka, kata Manu Chopra, insinyur komputer lulusan Stanford berusia 27 tahun yang berada di balik startup tersebut, kepada Bloomberg dalam sebuah wawancara. “Gaji yang rendah untuk pekerjaan seperti itu merupakan kegagalan industri.”

Jika upah yang kecil merupakan sebuah kegagalan industri, maka Silicon Valley juga bertanggung jawab untuk menciptakannya. Selama bertahun-tahun, perusahaan teknologi telah melakukan outsourcing tugas-tugas seperti pelabelan data dan moderasi konten kepada kontraktor yang lebih murah di luar negeri. Namun kini, beberapa nama terkemuka di Silicon Valley beralih ke Karya untuk mengatasi salah satu tantangan terbesar bagi produk AI mereka: menemukan data berkualitas tinggi untuk membangun alat yang dapat melayani miliaran pengguna potensial yang tidak berbahasa Inggris dengan lebih baik. Kemitraan ini dapat mewakili perubahan besar dalam perekonomian industri data dan hubungan Silicon Valley dengan penyedia data.

Microsoft Corp. telah menggunakan Karya sebagai sumber data ucapan lokal untuk produk AI-nya. Bill & Melinda Gates Foundation bekerja sama dengan Karya untuk mengurangi bias gender dalam data yang dimasukkan ke dalam model bahasa besar, teknologi yang mendasari chatbot AI. Dan Google Alphabet Inc. mengandalkan Karya dan mitra lokal lainnya untuk mengumpulkan data ucapan di 85 distrik di India. Google berencana untuk memperluas ke setiap distrik untuk memasukkan bahasa atau dialek mayoritas yang digunakan dan membangun model AI generatif untuk 125 bahasa di India.

Banyak layanan AI yang dikembangkan secara tidak proporsional dengan data internet berbahasa Inggris, seperti artikel, buku, dan postingan media sosial. Akibatnya, model AI ini kurang mewakili keragaman bahasa bagi pengguna internet di negara lain yang mengakses ponsel cerdas dan aplikasi bertenaga AI lebih cepat dibandingkan mereka yang belajar bahasa Inggris. Hampir satu miliar pengguna potensial tersebut tinggal di India saja, seiring dengan upaya pemerintah untuk meluncurkan alat AI di segala bidang mulai dari layanan kesehatan, pendidikan, hingga layanan keuangan.

“India adalah negara non-Barat pertama tempat kami melakukan hal ini, dan kami menguji Bard dalam sembilan bahasa India,” kata Manish Gupta, kepala Riset Google di India, mengacu pada chatbot AI perusahaan tersebut. “Lebih dari 70 bahasa India yang digunakan oleh lebih dari satu juta orang masing-masing tidak memiliki korpus digital. Masalahnya sangat parah.”

Gupta menandai daftar permasalahan yang perlu diatasi oleh perusahaan AI agar dapat melayani pengguna internet di India: Kumpulan data non-Inggris memiliki kualitas yang sangat rendah; hampir tidak ada data percakapan dalam bahasa Hindi dan bahasa India lainnya; dan konten digital dari buku dan surat kabar berbahasa India sangat terbatas.

Ketika digunakan untuk bahasa-bahasa Asia Selatan, ditemukan beberapa model bahasa besar yang menyusun kata-kata dan kesulitan dengan tata bahasa dasar. Ada juga kekhawatiran bahwa layanan AI ini mungkin mencerminkan pandangan yang lebih menyimpang terhadap budaya lain. Sangat penting untuk memiliki representasi data pelatihan yang luas, termasuk data non-Inggris, sehingga sistem AI “tidak melanggengkan stereotip yang merugikan, menghasilkan perkataan yang mendorong kebencian, atau menghasilkan informasi yang salah,” kata Mehran Sahami, seorang profesor di departemen ilmu komputer di Universitas Stanford .

Karya, sebuah startup berdampak sosial yang berkantor pusat di Bangalore dan didukung oleh dana hibah, mampu memperluas cakupan bahasa yang terwakili dengan secara khusus menargetkan pekerja di daerah pedesaan yang mungkin tidak dikontrak untuk tugas-tugas tersebut. Aplikasi Karya dapat bekerja tanpa akses internet dan menyediakan dukungan suara bagi mereka yang memiliki kemampuan baca tulis terbatas. Di India, lebih dari 32.000 pekerja crowdsourcing telah masuk ke dalam aplikasi, menyelesaikan 40 juta tugas digital berbayar seperti pengenalan gambar, penyelarasan kontur, anotasi video, dan anotasi ucapan.

Bagi Chopra, tujuannya bukan hanya untuk meningkatkan pasokan data tetapi juga untuk memerangi kemiskinan. Pendiri Karya dibesarkan di lingkungan miskin bernama Shakur Basti di Delhi Barat. Dia memenangkan beasiswa untuk belajar di sekolah elit di mana dia diintimidasi karena teman-teman sekelasnya mengatakan dia “baunya tidak enak.” Chopra masuk ke Stanford untuk belajar ilmu komputer tetapi menyadari bahwa dia membenci pola pikir “bagaimana Anda menghasilkan satu miliar dolar” yang dia temui di sana.

Setelah lulus pada tahun 2017, ia mulai mengerjakan minat lamanya: menggunakan teknologi untuk mengatasi kemiskinan. “Hanya dibutuhkan penghematan sebesar $1.500 untuk membuat orang India memenuhi syarat untuk memasuki kelas menengah,” kata Chopra. “Tetapi masyarakat miskin memerlukan waktu 200 tahun untuk mencapai tingkat tabungan tersebut.”

Ia mengetahui bahwa Microsoft telah membayar sejumlah besar uang untuk mengumpulkan data ucapan, meskipun kualitasnya buruk, untuk mendukung sistem dan penelitian AI-nya. Pada tahun 2017, misalnya, meskipun 1 juta jam data percakapan digital tersedia di Marathi, bahasa yang digunakan di Mumbai dan wilayah India Barat, hanya 165 jam yang tersedia untuk dibeli. Startupnya telah mengumpulkan 10.000 jam data ucapan bahasa Marathi untuk layanan AI Microsoft, yang dibaca oleh pria dan wanita dari lima wilayah berbeda.

“Perusahaan teknologi menginginkan data, aksen, dan semuanya,” kata Chopra. “Bagus, mereka menginginkan hal itu dalam pidatonya – itu mewakili bahasa alami.” Saikat Guha, peneliti di Microsoft Research India yang berfokus pada etika pengumpulan data, mengatakan bahwa dia juga menggunakan konten Karya untuk sebuah proyek yang membantu mereka yang memiliki gangguan penglihatan. ketidakmampuan dalam mencari pekerjaan. “Kualitas datanya jauh lebih baik dibandingkan sumber lain yang pernah saya gunakan,” kata Guha. “Jika Anda membayar pekerja secara adil, mereka akan lebih banyak berinvestasi dalam pekerjaan mereka, dan hasil akhirnya adalah data yang lebih baik.”

Sementara itu, lebih dari 30.000 perempuan muda yang mengenyam pendidikan sekolah bekerja dengan Karya untuk membantu mengumpulkan kumpulan data yang “mengintensifkan gender” – misalnya dokter atau bos tidak selalu laki-laki – dalam enam bahasa India untuk Bill & Melinda Gates Foundation. Ini adalah upaya terbesar dalam bahasa-bahasa India dan akan berfungsi sebagai korpus untuk membangun kumpulan data guna mengurangi bias terkait gender di LLM. Karya tidak hanya berhenti di India. Perusahaan tersebut mengatakan sedang dalam pembicaraan untuk menjual platformnya sebagai layanan kepada organisasi di Afrika dan Amerika Selatan yang akan melakukan pekerjaan serupa.

Untuk saat ini, perempuan di Yelandur, desa lain di barat daya Bangalore, menantikan proyek Karya berikutnya: menyalin dari rekaman audio berbahasa Kannada. Di antara mereka adalah Shambhavi S., 25, yang memperoleh beberapa ribu rupee dari tugas sebelumnya saat bekerja di rumah yang sunyi setelah memberi makan malam kepada mertuanya dan menidurkan anak-anaknya.

“Saya tidak tahu apa itu kecerdasan buatan, saya belum pernah mendengarnya,” kata Shambhavi. “Saya ingin mendapatkan penghasilan dan mendidik anak-anak saya, sehingga mereka dapat belajar bagaimana memanfaatkannya.”

Satu hal lagi! HT Tech sekarang ada di Saluran WhatsApp! Ikuti kami dengan mengklik link tersebut agar Anda tidak ketinggalan update apapun dari dunia teknologi. Klik Di Sini untuk bergabung sekarang!

You might also like