Bu büyük AI modellerine etiketleme yapan kasaba çocukları

Bu makaleyi okumak için 24 Dakika

Teknolojik devrimin temel dinamiği her zaman düşük maliyetli işgücünün ölçeklenebilir tüketimidir

Yazan | Sleepy.md

Şanxi Datong, bir zamanlar kömürle desteklenen ve yarım yamalak bir imparatorluğu sırtında taşıyan bir şehir, şimdi tüm vucudundaki kömür tozundan sıyrıldı, keskin bir kazma kafasıyla değiştirildi ve görünmez bir maden ocağına doğru tekrar tekrar çakıldı.

Jinmao Uluslararası İş Merkezi'nin ofis binasında, artık kuyu asansörü yok, artık kömür taşıma aracı yok. Onun yerine, sıkı sıkıya dizilmiş binlerce bilgisayar istasyonu var. Şanghay Runsun Cloudsutafa Büyük Veri Zekası Hizmet Merkezi, tüm birkaç katı kaplamış durumda, binlerce kulaklık takmış genç çalışan, ekrana dik dik bakıyor, tıklayarak, sürükleyerek, seçerek.

Resmi verilere göre, 2025 yılının Kasım ayına kadar, Datong şehri 745,000 sunucuyu devreye almış, 69 çağrı işaretleme veri şirketi getirmiş, yaklaşık 30,000 kişiyi istihdam etmiş ve 7.5 milyar dolarlık bir üretim değeri yaratmış. Bu sayısal maden ocağında çalışanların %94'ü yerli halktır.

Sadece Datong değil. Ulusal Veri Bürosu tarafından belirlenen ilk veri işaretleme üslerinden, Shanxi Yonghe İlçesi, Guizhou Bijie, Yunnan Mengzi gibi Orta ve Batı yerleşim alanları açıkça belirtilmiştir. Yonghe İlçesi'ndeki veri işaretleme üssünde çalışanların %80'i kadındır. Çoğu kırsal annedir veya uygun iş bulamayan geri dönen gençlerdir.

Yüz yıl önce, İngiltere'nin Manchester kentindeki tekstil fabrikaları, topraklarını kaybetmiş köylülerle dolup taşıyordu. Ve bugün, bu uzak yerleşim yerlerindeki bilgisayar ekranlarının önünde, fiziksel ekonomide yer bulamayan gençlerle doludur.

Onlar, gelecek vaat eden ancak aynı zamanda son derece ilkel bir parça başı işi yapmaktadır, Pekin, Shenzhen ve Silikon Vadisi'ndeki yapay zeka devlerine, büyük modeller için gerekli veri yemini üretmektedirler.

Kimse buna bir sorun olarak bakmıyor.

Loess Platosu'ndaki Yeni Montaj Hattı

Veri işaretlemenin özü, makineye dünyayı öğretmektir.

Otonom sürüş, trafik lambalarını ve yayaları tanıması gerektiğinde, büyük modellerin bir kedinin ne olduğunu, bir köpeğin ne olduğunu ayırt etmesi gerektiğinde. Makinenin kendisi genel kültüre sahip değildir, insanlar önce bir resimde bir kutu çizmeli ve ona "bu bir yayadır" demelidir, o zaman milyonlarca resmi tükettikten sonra kendi kendine tanımaları öğrenir.

Bu iş için yüksek eğitim gerekli değildir, sadece sabır ve durmaksızın tıklama yapabilen bir işaret parmağı gerekir.

2017'nin Altın Çağı'nda, basit bir 2D kutunun fiyatı birkaç kuruşu bulabilirdi, hatta bazı şirketler 50 kuruşa kadar fiyatlar sunabilirdi. Hızlı tıklayan işaretçi, günde onlarca saat çalışarak beş-altı yüz lira kazanabilir. Bu kasabada, kesinlikle yüksek maaşlı, saygın bir iş olarak kabul edilir.

Ancak büyük modellerin gelişmesiyle, bu akış hattının acımasız tarafı ortaya çıkmaya başladı.

2023 yılına gelindiğinde, basit görüntü etiketleme birim fiyatı 3 ila 4 kuruşa kadar düşmüş, %90'ın üzerinde bir düşüş yaşanmıştı. Daha zorlu 3D nokta bulutu görüntülerinde, yoğun noktalardan oluşan, kenarları görebilmek için katlanmadan büyütmeniz gereken görüntüler bile, etiketleyicilerin araçları veya yayaları sıkıca sarmak için uzunluk, genişlik, yükseklik ve dönüş açısını içeren bir 3 boyutlu kutuyu üç boyutlu uzayda çıkarmaları gerekmektedir ve bu kadar karmaşık bir 3D kutu sadece 5 kuruş.

Birim fiyatındaki bu ani düşüşün doğrudan bir sonucu, iş yoğunluğundaki büyük artış oldu. Aylık üç beş bin TL maaşı sıkıca kavramak için, etiketleyiciler sürekli olarak ellerinin hızını artırmak zorundalar.

Bu kesinlikle kolay bir masa başı işi değil. Pek çok etiketleme merkezinde, yönetim o kadar sıkı ki boğucu, iş yerinde telefona cevap vermek yasak, cep telefonu eşyalıkta kilitli tutulmalıdır. Sistem, her çalışanın fare izini ve harcadığı zamanı hassas bir şekilde kaydeder; eğer üç dakikadan fazla duraksarsanız, arka plandaki uyarı size kırbaç gibi vurur.

Daha da yıkıcı olan şey ise hata kabul edilme oranı. Endüstrinin geçme notu genellikle %95'in üzerindedir, bazı şirketler ise %98-%99'u talep etmektedir. Bu, 100 kutu çizdiğinizde, sadece 2 tanesini yanlış yaptığınızda bütün görüntünün tekrar gözden geçirilmesi gerektiği anlamına gelir.

Hareketli görüntülerin kare kare olduğu, şeridi değiştiren araçların gizleneceği, etiketleyicilerin bunları tek tek bulmak için hayal gücüne dayanması gereken durumlar vardır; 3D nokta bulutu görüntülerinde, 10 noktayı aşan her nesne için bir kutu çizilmelidir. Karmaşık bir park yeri projesinde, çizgi çizildiğinde veya işaret eksik çizildiğinde, kalite kontrol her zaman kusuru bulabilir. Bir görüntüyü defalarca geri dönüşe göndermek yaygın bir durumdur. Sonunda, bir saatlik emeğin ardından elinize geçen sadece birkaç kuruştur.

Bir Hunan etiketleyicisi sosyal medyada kendi hesap pusulasını paylaştı, bir gün boyunca 700'den fazla kutu çizdi, birim fiyatı 4 kuruş, toplam geliri 30.2 yuan oldu.

Bu son derece bölünmüş bir manzara.

Bir tarafta, sahnede parlayan teknoloji devlerinin olduğu lansmanda, AGI'nin insanlığı nasıl özgürleştireceğini tartışıyorlar; diğer tarafta, Sarıtoprak'taki ve Güneybatı'daki dağ ilçelerinde, gençler günde sekiz ila on saat ekranlara dikilip, mekanik bir şekilde kutu çiziyorlar, binlerce, on binlerce, hatta geceleri rüya gördüklerinde bile parmakları havada şerit çiziyorlar.

Bazıları şöyle demişti, yapay zekanın dış görünüşü hızla geçen lüks bir arabaymış gibi olabilir, ancak kapıyı açtığınızda içeride yüzlerce insanın pedal çevirip dişlerini sıkarak bisiklet sürdüğünü göreceksiniz.

Nikisi bu durumun herhangi bir sorun teşkil etmediğini düşünmüyor.

Makineye "Nasıl Aşkı Öğreteceğini" Öğreten Parça İşçisi

Görüntü tanımanın zorlukları aşıldıktan sonra, büyük modeller daha derin bir evrim geçirdi, insanlar gibi düşünmeyi, konuşmayı hatta "empati"yi göstermeyi öğrenmeleri gerekti.

Bu da büyük modellerin eğitiminin en merkezi ve en pahalı aşaması olan RLHF'yi (İnsan Geri Bildirimiyle Pekiştirme Öğrenmesi) doğurdu.

Kısacası, insanların AI tarafından üretilen yanıtları puanlaması ve hangi yanıtın daha iyi, insanın değer ve duygusal tercihlerine daha uygun olduğunu AI'ye bildirmesi anlamına gelir.

ChatGPT'nin neden "insan gibi" göründüğü, arkasında sayısız RLHF etiketleyicisinin ona ders vermesi sebebiyledir.

Kalabalık kaynak platformunda, bu tür etiketleme görevleri genellikle açıkça fiyatlandırılır: Bir işlem maliyeti 3 ila 7 lira arasındadır. Etiketleyicilerin AI'nın yanıtlarını son derece öznel duygusal puanlamaya tabi tutmaları gerekir; bu yanıtın "samimi" olup olmadığını, "empati duyup duymadığını" ve "kullanıcının duygularına ne kadar önem verdiğini" değerlendirmeleri gerekir.

Birkaç bin TL maaş alan, gerçek dünyadaki sorunlarla boğuşan hatta kendi duygularını bile göz ardı eden alt tabaka işçisi, sistemde AI'nın duygusal rehberi ve değer yargıçlığı rolünü üstlenir.

Onlar, sıcaklık, empati gibi son derece karmaşık, ince duyguları zorla ezerek, 1 ila 5 arasında soğuk bir puanla ölçeklendirerek miktarlaştırmaları gerekir. Puanlamaları sistemin belirlediği doğru yanıtla uyumlu olmadığında, doğruluk oranı yetersiz kabul edilir ve zaten çok az olan iş ücretinden kesinti yapılır.

Bu bir tür bilişsel boşalmadır. İnsanın karmaşık ve ince duyguları, ahlaki değerleri ve merhameti, algoritmanın hunisine zorla sokulurlar. Soğuk ölçeklendirme ve standartlaştırma cetvelinin içinde, onlardan son kalan son sıcaklık bile sıkılarak alınır. Ekrandaki siber canavarın artık şiir yazmayı, müzik bestelemeyi, ılık sözler söylemeyi öğrendiği için hayret etmeninizi; ekrandışında, canlı insanların, duygusuz puan veren makineler haline dönüştüğü mekanik yargılama günlerinde, duygusuz hale geldiklerini göz ardı etmeyin.

Bu, tüm endüstriyel zincirin en gizli yönüdür ve herhangi bir finansman haberi veya teknoloji beyaz kağıdında asla yer almaz.

Nikisi bu durumun herhangi bir sorun teşkil etmediğini düşünmüyor.

985 Yüksek Lisans Mezunu ve Küçük Kasaba Gençliği

Alt tabaka çekiç işi AI tarafından ezilmeye başlarken, bu siber akış hattı yukarı doğru yayılmaya, daha yüksek zihinsel emeği yutmaya başlar.

Büyük Modelin iştahı değişti. Artık basit bilgileri çiğnemekle yetinmiyor, insan uzmanlığını ve yüksek seviye mantığı yutmaya ihtiyaç duyuyor.

Büyük işe alım platformlarında artık sık sık "Büyük Model Mantık Çıkarımı Etiketleme" veya "AI Beşeri Eğitmen" gibi özel yarı-zamanlı iş ilanları beliriyor. Bu yarı-zamanlı işlerin giriş şartları son derece yüksek olup genellikle "985/211 derecesi ve üstü" gibi gereksinimler içeriyor ve hukuk, tıp, felsefe, edebiyat gibi uzmanlık alanlarını kapsıyor.

Çok sayıda tanınmış okul yüksek lisans öğrencisi, bu büyük firmaların dış kaynak gruplarına akın etti. Fakat kısa sürede fark ettiler ki, bu basit bir düşünsel egzersiz değil, tam anlamıyla bir zihinsel işkenceydi.

Resmi olarak bir iş almadan önce, sayfalarca süren puanlama boyutları ve değerlendirme kriterleri belgesini okumak, iki ila üç dönemlik test etiketlemesi yapmak zorundadırlar. Başarı sağlandıktan sonra, resmi etiketleme aşamasında, doğruluk oranı ortalamadan düşükse diskalifiye edilerek grup sohbetinden çıkarılırlar.

En boğucu olanı, bu standartların sabit olmamasıdır. Benzer sorular ve cevaplarla karşılaşıldığında, aynı düşünce tarzıyla puan vermek farklı sonuçlar doğurabilir. Bu, hiç bitmeyen, standart bir cevabı olmayan bir sınav yapmak gibidir. Doğruluk oranını kendi çabalarıyla veya öğrenme ile artıramazlar, sadece aynı yerde dönüp durarak, zihinsel ve fiziksel güç tüketirler.

Bu, büyük model çağının yeni türü sömürüsüdür - sınıf katmanı.

Bilgi, bir zamanlar engelleri kaldıran, yükselmeyi sağlayan altın merdiven olarak görülen buket, şimdi algoritmalara sunulan ve çiğnenmesi daha karmaşık olan dijital yem haline gelmiştir. Algoritma ve sistemin mutlak gücü karşısında, 985 Master'larının kuleden inen 985 Master'lar ve kırsal kesim gençleri en garip aynı kaderle karşı karşıya kalmışlardır.

Hepsi bu görülmeyen dipleri olan siber maden ocağına düşer ve ışıldama mahrum bırakılırlar, farklılıkları silinir ve hepsi ucuz ve her an değiştirilebilir bir dişliye dönüşür.

Aynı durum yurtdışında da geçerlidir. 2024'te, Apple bir AI ses etiketleme ekibini Santiago'dan 121 kişiyi doğrudan işten çıkardı. Bu çalışanlar, Siri'nin çoklu dil işleme yeteneklerini iyileştirmekle görevliydi, kendilerini büyük firmanın çekirdek işinin kenarında durduklarını düşünmüşlerdi, ancak anında işsizlik uçurumuna düşmüşlerdir.

Teknoloji devleri için, kasaba çarşılarında olan büyük annelerden, mantık eğitmeni mezunu olan adetli gençlere kadar, aslında değiştirilebilir "tüketilebilir" malzemelerdir.

Bunun bir sorun olduğunu düşünen yoktur.

Trilyon Dolarlık Babil Kulesi, Azıcık Ucuz Emekle Döşenmiş

Çin Bilgi Ekonomi Enstitüsü tarafından yayımlanan verilere göre, 2023 yılında Çin'in veri etiketleme pazarı büyüklüğü 60.8 milyar RMB'ye ulaştı, 2025 yılı için 200 ila 300 milyar RMB, tahminlere göre ise 2030 yılına kadar küresel veri etiketleme ve hizmet pazarının satış geliri 1171 milyar RMB'ye fırlayacak.

Bu rakamların arkasında, OpenAI, Microsoft, ByteDance gibi teknoloji devlerinin milyarlarca dolarlık, hatta trilyonlarca dolarlık değerlemesi var.

Ancak bu gökyüzüne çıkan servet, gerçek anlamda yapay zekayı "besleyen"lere akmadı.

Çin'in veri işaretleme endüstrisi, tipik ters piramit taşeron yapıyı gösteriyor. En üstte, çekirdek algoritmayı sıkıca elinde tutan teknoloji devleri var; ikinci katmanda, büyük veri hizmet sağlayıcıları bulunuyor; üçüncü katmanda, çeşitli bölgelerde bulunan veri işaretleme merkezleri ve küçük ölçekli taşeron şirketler yer alıyor; en altta ise saatlik ücret alan oymak işaretleme uzmanları bulunuyor.

Her taşeron katmanı, bir katman yağ çıkarmak zorunda kalıyor. Büyük fabrika birim fiyatını 5 kuruş olarak belirlediğinde, katmanlar arasındaki soyulma sürecinden sonra, ilçedeki işaretleme uzmanının eline geçen miktar, belki de 5 kuruş bile olmayabilir.

Yunanistan eski Maliye Bakanı Yanis Varoufakis, "Teknolojik Feodalizm" adlı eserinde son derece derinlemesine bir görüş ortaya attı: Bugünün teknoloji devleri, artık geleneksel anlamda kapitalist değil, "bulut lordları" ("Cloudalists") olarak adlandırılıyor.

Onların sahip olduğu şey fabrikalar ve makineler değil, algoritmalar, platformlar, hesaplama gücüdür; bunlar siber çağın dijital arazisidir. Bu yeni feodal sistemde, kullanıcılar tüketiciler değil, dijital kiracılardır; sosyal medyada yaptığımız her beğeni, yorum, gezinti, bulut lorduna ücretsiz veri sağlar.

Ve konumlanan, popüler olmayan pazarlardaki veri işaretleme uzmanları, bu sistemde en alttaki dijital kölelerdir. Onlar sadece veri üretmekle kalmaz, aynı zamanda büyük miktarda ham veriyi temizler, sınıflandırır, puanlar; bunları yüksek kaliteli yem olarak büyük modellerin sindirebileceği şekle dönüştürür.

Bu gizli bir kognitif arazi gaspıdır. 19. yüzyıldaki İngiltere'deki arazi gaspı gibi, bugünün yapay zeka gelgit dalgası, fiziksel ekonomide yer bulamayan gençleri ekrana sürüklüyor.

Yapay Zeka, sınıf uçurumunu kapatmıyor, aksine Çin'in orta ve batıdaki ilçelerinden, doğrudan kuzey-güney-doğu-batı teknoloji devlerinin merkezine kadar uzanan bir "veri ve emek taşıma bandı" inşa ediyor. Teknoloji devriminin anlatısı her zaman büyük ve görkemli olsa da, temel renk her zaman ucuz işgücünün kitlesel tüketimidir.

Bunu sorgulayan yok.

Artık İnsana İhtiyaç Duyulmayan Yarın

En acımasız son yakında, giderek hızla gelecek.

Büyük model yeteneklerinin yükselmesiyle, insanların günlerce ve gecelerce çalışarak tamamladığı etiketleme görevleri, şimdi AI tarafından devralınıyor.

2023 Nisan'ında, Li Xiang, Ideal Cars kurucusu, forumda verileri açıkladı; eskiden, Ideal yılda yaklaşık 10 milyon kare oto-pilot görüntüsü elle etiketlemek zorundaydı ve dış kaynak kullanım maliyeti yaklaşık bir milyar dolardı. Ancak büyük modelleme kullanarak otomasyonu sağladıklarında, geçmişte yıldızdığı şeyi yapmak için bir yıla ihtiyaç duydukları şeyi, temelde 3 saatte tamamlayabildiler.

Verimlilik insanın 1000 katıdır ve hatta 2023 yılından çok önce geldi. Geçen Mart ayında İdeal, yeni nesil MindVLA-o1 Otomatik Etiketleme Motorunu piyasaya sürdü.

Sektörde dolaşan son derece gerçekçi bir özdeyiş var: "Ne kadar zeka varsa, o kadar çok işgücü var." Ancak şimdi, büyük şirketlerin veri etiketleme dış kaynak kullanımına yaptığı yatırımlarda %40-%50'lik büyük bir düşüş yaşandı.

Bilgisayarın başında sayısız gece gündüz oturup gözlerini kıpkırmızı eden kasaba gençleri, bir canavarı kendi elleriyle büyüttü. Ve şimdi, bu canavar başlarını ezmek üzere dönüyor.

Gecenin çökmesiyle, Datong Pingcheng Bölgesi'ndeki ofis binaları hala ışıl ışıldı. Vardiya değişimindeki gençler, asansör boşluğunda yorgun bedenlerini sessizce birbirlerine devrediyor. Sayısız çokgen kutunun sıkıca kilitlendiği katlanabilir alanda, kimse okyanusun öbür tarafındaki Transformer mimarisinin nasıl epik bir sıçrama yaşadığını umursamıyor, kimse yüz milyarlarca parametrenin arkasındaki hesaplama gücünün gürültüsünü anlamıyor.

Bakışları, sadece "geçme çizgisini" temsil eden o kırmızı yeşil ilerleme çubuğuna kayıyor, ay sonunda o birkaç puanı, birkaç kuruşu ay sonunda düzgün bir yaşamı elde etmek için bir araya getirip getiremeyeceklerini hesaplıyor.

Bir yanda, Nasdaq'ın çekiç sesi ve teknoloji medyasının uzun süren yazıları varken, devler AGI'nın gelişi için kadeh kaldırıyorlar; diğer yanda, kendi kan ve etlerini AI'ın önüne atan dijital köleler, sadece kendi elleriyle büyüttükleri canavarın, sıradan bir sabahda, umursamazca kendi ekmeklerini tekmeleyerek uçurmasını sabırsızlıkla acı çeken bir rüyada bekliyorlar.

Kimse bunun sorun olmadığını düşünmüyor.

BlockBeats Resmi Topluluğuna Katılın:

Telegram Abonelik Grubu: https://t.me/theblockbeats

Telegram Sohbet Grubu: https://t.me/BlockBeats_App

Twitter Resmi Hesabı: https://twitter.com/BlockBeatsAsia

#AI

Düzeltme/Rapor