Yazan | Sleepy.md
Eskiden kelime başına ücret alınan telgraf döneminde, kalem güç olmuştu. İnsanlar genellikle binlerce kelimeyi en aza indirgeyerek ifade ederlerdi; "hızlı cevap" uzun bir mektubun yerine geçer, "selamet" ise en önemli uyarıydı.
Sonrasında, telefon evlere girdi, ancak uzun mesafe ücreti saniye başına alınıyordu. Anne babanın uzun mesafe telefon görüşmeleri her zaman öz ve anlamlı olurdu, iş konuşulduktan sonra hemen kapatılır, konu biraz uzarsa, konuşmanın maliyeti düşüncesi sohbetin henüz başında kesilirdi.
Daha sonra geniş bant evlere girdi, internet ücreti saatlik olarak alınıyordu, insanlar ekrandaki zamanlayıcıya odaklanır, web sayfası hemen kapatılır, video sadece indirilirdi, o dönemde akış hizmeti lüks bir fiil olarak kabul edilirdi. Her bir indirme ilerleme çubuğunun sonunda, insanlar "dünya ile bağlantı kurma" isteği ve "bakiye yetersiz" endişesi arasında gidip gelirdi.
Fatura birimi defalarca değişti, tasarruf etme içgüdüsü ise daima aynı kaldı.
Günümüzde, Token AI çağının para birimi haline geldi. Ancak çoğu insan hala bu çağda nasıl hesap yapacaklarını öğrenemedi, çünkü görünmeyen algoritmalarda kazanç ve kayıplarını nasıl hesaplayacaklarını öğrenemediler.
2022 yılında ChatGPT ortaya çıktığında, neredeyse hiç kimse Token'in ne olduğuna ilgi göstermedi. Bu, AI'nin herkesin aylık 20 dolar harcayarak istediği kadar sohbet ettiği bir zamandı.
Ancak yakın zamanda AI Agent’in popüler hale gelmesinden sonra, Token harcamaları AI Agent kullanan herkesin dikkat etmek zorunda olduğu bir konu haline geldi.
Soru cevap şeklinde basit bir konuşmanın aksine, bir görev akışının arkasında yüzlerce API çağrısı bulunmaktadır, Agent'ın bağımsız düşünmesinin bir bedeli vardır, her öz düzeltme, her araç çağrısı, fatura üzerindeki rakamlara karşılık gelir. Sonra bir anda yüklediğiniz parayla yetinmeyeceğinizi fark edersiniz ve Agent'ın aslında neler yaptığını bilemezsiniz.
Gerçek hayatta, herkes nasıl para biriktireceğini bilir. Pazardan alışveriş yaparken, kirli yaprakları temizleyip tartmaya koyduğumuzu biliriz; havaalanına taksi ile giderken, deneyimli şoförlerin yolun zirvesindeki trafikten kaçınmayı bildiklerini biliriz.
Aslında, dijital dünyada para biriktirme mantığı da aynıdır, sadece fatura birimi "kilogram" ve "kilometre"den Token'a dönüşmüştür.

Geçmişte, tasarruf etmek kıtlıktan kaynaklanıyordu; ancak AI çağında, tasarruf etmek hassasiyet için gereklidir.
Bu makale aracılığıyla, AI çağında tasarruf etme metodolojisini oluşturmanıza yardımcı olmayı umuyoruz, böylece her kuruşunuzu en doğru yere harcayabilirsiniz.
Yapay Zeka çağında, bilginin değeri artık genişlik tarafından belirlenmiyor, daha çok saflığa göre belirleniyor.
AI'nın ücretlendirme mantığı onun okuduğu kelime sayısına göre ücretlendirme yapar. Gerçek bilgi mi veriyorsunuz, yoksa anlamsız biçimde konuşuyor musunuz, o okuduğunda ödemeniz gerekiyor.
Bu nedenle, Token tasarrufunun ilk düşünce şekli, "sinyal gürültü oranını" bilinç altına yerleştirmektir.
AI'ye sunduğunuz her kelime, her resim, her satır kod için ödeme yapmanız gerekiyor. Bu nedenle AI'ye herhangi bir şey vermeden önce kendinize şunu sormayı unutmayın: AI'nın gerçekten ihtiyacı olan ne kadarı var? Kaçı çürümüş yaprak?
Örneğin, "Merhaba, bana yardım eder misiniz..." gibi uzun giriş cümleleri, tekrarlayan arka plan tanıtımları, temizlenmemiş kod açıklamaları, hepsi çürümüş yapraktır.
Buna ek olarak, en yaygın israf biçimi, AI'ye doğrudan PDF veya web sitesi ekran görüntüsü verilmesidir. Bu şekilde kendiniz için kolaylık sağlarsınız ancak AI çağında "kolaylık" genellikle "pahalılık" anlamına gelir.
Formatı tamamlanmış bir PDF, sadece metin içeriği değil, aynı zamanda üstbilgi, altbilgi, grafik etiketleri, gizli filigranlar ve düzenleme için kullanılan birçok biçim kodunu da içerir. Bu unsurlar AI'nın sorunuzu anlamasına hiçbir katkı sağlamaz, ancak hepsinden ücret alınır.
Bir sonraki sefer PDF'leri önce temiz Markdown metinlerine dönüştürüp sonra AI'a verdiğinizden emin olun. Bir PDF'yi 10 MB'den 10 KB'a düşürdüğünüzde, sadece %99 tasarruf etmekle kalmaz, aynı zamanda AI'ın beyninin daha öncekine kıyasla çok daha hızlı çalışmasını sağlarsınız.
Görüntüler başka bir token yutma canavarıdır.
Görsel modelin mantığına göre, AI fotoğrafınızın güzel olup olmadığını umursamaz, sadece ne kadar piksel alanı kapladığınızı umursar.
Claude'ün resmi hesaplama mantığına göre: Resmin Token tüketimi = Genişlik pikseli × Yükseklik pikseli ÷ 750.
1000×1000 piksel boyutunda bir resim, yaklaşık 1334 Token tüketir, Claude Sonnet 4.6 fiyatlandırmasına göre, her bir resim yaklaşık 0.004 dolar;
Ancak aynı resmi 200×200 piksel boyutuna sıkıştırırsanız, sadece 54 Token tüketir, maliyet 0.00016 dolara düşer ve 25 kat daha uygun hale gelir.
Birçok insan, yüksek çözünürlüklü fotoğrafları veya 4K ekran görüntülerini doğrudan AI'a atar, oysa bu resimlerin tüketebileceği Token'ın, AI'ın büyük bir noveli okuması için yeterli olabileceğinin farkında değildir. Eğer görev sadece resimdeki metni tanımak veya basit bir görüntüsel değerlendirme yapmaksa, örneğin AI'ın fatura üzerindeki tutarı tanıması, kılavuzdaki metni okuması veya resimde trafik lambasının olup olmadığını belirlemesi gerekiyorsa, 4K çözünürlük tamamen israftır, resmi en küçük kullanılabilir çözünürlüğe sıkıştırmak yeterlidir.
Ancak Token'ı en çok israf eden neden, aslında dosya biçimi değil, verimsiz konuşma tarzıdır.
Birçok insan, AI'ı gerçek bir komşu gibi görür ve sosyal bir şekilde konuşmayı alışkanlık haline getirir, önce "Bir web sayfası yazmama yardımcı ol" cümlesini atar, AI yarı ürün çıkarana kadar detayları ekler, sonra tekrar tekrar düzeltir. Bu diş macunu sıkma tarzı konuşma, AI'ın sürekli içerik üretmesine neden olur, her düzenleme turu Token tüketimini arttırır.
Tencent Bulut'un mühendisleri uygulamada fark etti ki, aynı talep için diş macunu sıkma tarzıyla yapılan çoklu turlu konuşmaların, genellikle tek seferde açıklananın 3 ila 5 katı Token tüketimine yol açtığını gördüler.
Gerçek tasarruf yolcuğu, bu verimsiz sosyal keşif tarzını terk etmek, gereksinimleri, sınırlayıcı koşulları ve referans örnekleri bariz bir şekilde açıklamaktır. "Ne yapmaması gerektiğini" açıklamaktan kaçının, çünkü olumsuz cümle genellikle olumlu cümleden daha fazla anlama maliyetine yol açar; direkt olarak "nasıl yapması gerektiğini" söyleyin ve net doğru bir örnek verin.
Aynı zamanda, eğer hedefin nerede olduğunu biliyorsanız, AI'a doğrudan açıklayın, AI'ın dedektif gibi davranmasına izin vermeyin.
AI'a "kullanıcıyla ilgili kod bul" dediğinizde, arka planda geniş kapsamlı tarama, analiz ve tahmin yapmak zorundadır; ancak ona doğrudan "src/services/user.ts dosyasına bak" dediğinizde, Token tüketimi arasında uçurum vardır, dijital dünyada, bilgi eşitliği en büyük tasarruftur.
Büyük model faturalarında farkında olmayan birçok insan için bir kural vardır: Çıktı Token'ı genellikle Giriş Token'ından 3 ila 5 kat daha pahalıdır.
Yani, AI'ın söylediği şey, ona söylediğinizden çok daha pahalıdır. Claude Sonnet 4.6 fiyatlandırması örneğinde, giriş başına milyon Token için sadece 3 dolar gereklidir, ancak çıktı fiyatı aniden 15 dolara yükselir, tam 5 katlık bir fark.
"Anladım. Talebinizi tamamen anladım, şimdi size cevaplamaya başlıyorum..." gibi kibar teşekkür cümleleri, "Üstteki içeriğin size yardımcı olmasını umuyorum" gibi kurumsal bitiş cümleleri, gerçek insanlarla iletişimde kibarca sosyal sözler olabilir, ancak API faturalarında, bu bilgi artışı olmayan sohbetler de paranızı harcamanıza neden olacaktır.
Çıktı israfını en etkili şekilde çözmenin yolu, AI'a kurallar koymaktır. Sistematik bir talimatla ona açıkça söyleyin: Selamlaşma yapma, açıklama yapma, talebi tekrarlama, doğrudan cevap ver.
Bu kurallar sadece bir kez belirlenir ve her diyalogda geçerli olur, gerçekten "Bir kere yatırım yap, sürekli faydalan" türünden bir tasarruf stratejisidir. Ancak birçok insan, kurallar oluştururken başka bir yanılgıya düşer: Talimatları uzun doğal dil cümleleriyle yığmaya çalışır.
Mühendislerin gerçek verileri, talimatın etkinliğinin kelime sayısında değil, yoğunlukta olduğunu göstermektedir. 500 kelimelik bir sistem talimatını 180 kelimeye sıkıştırarak, anlamsız nezaket ifadelerini çıkararak, tekrarlayan talimatları birleştirerek ve paragrafları öz ve basit bir liste haline getirerek, AI'ın çıktı kalitesi neredeyse hiç düşmezken, tekil çağrı başına Token tüketimi %64 azalır.
Daha da etkin bir kontrol yöntemi, çıktı uzunluğunu sınırlamaktır. Birçok insan çıktı sınırı belirlemez ve AI'ın serbestçe davranmasına izin verir, bu ifade özgürlüğü genellikle aşırı maliyet artışına neden olur. Belki sadece bir cümlelik bir noktaya ihtiyacınız vardır, ancak AI, belirli bir "zeka samimiyeti" göstermek için, sizi temsil etmeksizin 800 kelimelik bir deneme yazısı üretmekte direnir.
Eğer saf veriyi arıyorsanız, AI'ın uzun doğal dil açıklamaları yerine yapılandırılmış bir formatta cevap vermesini zorunlu kılmalısınız. Eşit miktarda bilgi taşıyan durumlarda, JSON formatının Token tüketimi, paragrafların aksine çok daha düşüktür. Bu, yapılandırılmış verilerin tüm gereksiz bağlaçları, hitap kelimelerini ve açıklayıcı düzenlemeleri elemiş, yalnızca yoğun bir mantıksal çekirdeği korumuş olmasından kaynaklanmaktadır. AI çağında, ödemeniz gereken şeyin sonuç değeri olduğunu ve AI'ın anlamsız kendi kendine açıklamalarının olmadığını açıkça anlamanız gerekmektedir.
Buna ek olarak, AI'ın "aşırı düşünmesi" de hesap bakiyenizi hızla tüketmektedir.
Bazı gelişmiş modeller, cevap vermeden önce büyük bir içsel akıl yürütme gerçekleştirir. Bu akıl yürütme süreci ücretlendirilir ve çıktıya göre fiyatlandırılır, oldukça pahalıdır.
Bu modül esasen "derin mantıksal destek gerektiren karmaşık görevler" için tasarlanmıştır. Ancak çoğu insan, basit sorular sorduğunda bile bu modülü seçmektedir. Derinlikli akıl yürütme gerektirmeyen görevler için AI'a "mürettebatı açıklamaya gerek yok, doğrudan cevap ver" açıkça söylemek veya genişletilmiş düşünmeyi manuel olarak kapatmak, ciddi miktarlarda tasarruf sağlayabilir.
Büyük modellerin gerçek bir belleği yoktur, sadece çılgınca geçmişe dönük incelemeler yaparlar.
Bu, birçok kişinin bilmediği temel bir mekanizmadır. Bir sohbet penceresinde yeni bir mesaj gönderdiğinizde, AI'ın o cümleden başlayarak anlamadığını, bunun yerine daha önce yaptığınız tüm konuşmaları, her diyalog turunu, her kod parçasını, her alıntıyı tamamen yeniden okuduğunu ve ardından size cevap verdiğini unutmayın.
Token Faturanızda, bu "yeni bilgiyi hatırlama" hiç de bedava değil. Konuşma turu sayısı arttıkça, bir kelimeyi sormak için bile AI'ın arkasındaki sistem eski faturayı tekrar tekrar okumanın maliyeti geometrik olarak artar. Bu mekanizma, konuşma geçmişi ne kadar ağırsa, her sorunuzun o kadar pahalı olduğunu belirler.
Birisi, 20'den fazla ileti içeren 496 gerçek konuşmayı izledi ve 1. iletiyi ortalama olarak 14.000 Token okunduğunu, her ileti maliyetinin yaklaşık 3.6 sent olduğunu buldu; 50. iletiye ulaşıldığında, ortalama olarak 79.000 Token okundu ve her ileti maliyeti yaklaşık 4.5 sent oldu, tam olarak %80 oranında pahalandı. Ayrıca, bağlam giderek uzadıkça, 50. iletiye geldiğinizde, AI'ın yeniden işlemesi gereken bağlamın 1. iletideki 5.6 katı olduğu ortaya çıkar.
Bu sorunu çözmenin en basit alışkanlığı şudur: bir görev, bir ileti kutusu.
Bir konu tamamlandığında, cesurca yeni bir konuşma başlatın, AI'ı kapatılmayan bir sohbet penceresi gibi görmeyin. Bu alışkanlık çok basit gibi gelebilir, ancak birçok insan bunu başaramaz, her zaman "ya önceki içeriğe tekrar başvurmak gerekecekse" diye düşünür. Aslında, endişelendiğiniz "ya" çoğu zaman ortaya çıkmaz ve bu "ya" için her yeni ileti için çok daha fazla ödemiş olursunuz.
Konuşma gerçekten devam etmesi gerektiğinde, ancak bağlam çok uzun hale geldiğinde, bazı araçların sıkıştırma işlevlerinden yararlanabiliriz. Claude Code'un bir /kısaltma komutu vardır, uzun bir konuşma geçmişini kısa bir özet haline getirebilir ve sizi bir kez daha siber minimalizme götürebilir.
Tasarruf etme mantığına Prompt Önbelleği de denir. Aynı sistem ipucunu tekrar tekrar kullanan veya her seferinde aynı referans belgeye başvuran birileriyseniz, AI bu içeriği önbelleğe alacak ve sonraki çağrılarda yalnızca küçük bir önbellek okuma ücreti alacak ve her seferinde tam ücreti ödemeyecektir.
Anthropic'in resmi fiyatlandırmasına göre, önbelleğe alınan Token fiyatı normal fiyatın 1/10'u. OpenAI'nin Prompt Önbelleği de giriş maliyetini yaklaşık %50 oranında azaltabilir. 2026 yılı Ocak ayında arXiv'de yayınlanan bir makale, çeşitli AI platformlarını test etti ve Prompt Önbelleğin API maliyetini %45 ila %80 oranında azaltabileceğini buldu.
Yani, aynı içeriği, ilk seferde AI'a verirken tam ücret ödersiniz, ancak sonraki her çağrıda sadece 1/10'unu ödersiniz. Her gün aynı belge setini veya sistem ipucunu tekrar tekrar kullanan kullanıcılar için, bu özellik büyük miktarda Token tasarrufu sağlayabilir.
Ancak Hızlı Önbellekleme'nin bir ön şartı var, sistemizin ipuçlarının ve referans belgelerinin içeriğinin ve sıralamasının tutarlı olması ve diyalogun en başına yerleştirilmesi gerekiyor. İçerik herhangi bir şekilde değiştiğinde önbellek geçersiz hale gelir ve tekrar tam ücretle faturalandırılır. Bu yüzden, sabit bir çalışma kılavuzunuz varsa, onu sabitleyin ve rastgele değiştirmeyin.
Kontekst Yönetiminin son ipucu, İsteğe Bağlı Yüklemedir. Birçok insan tüm standartları, belgeleri ve uyarıları sistem ipuçlarına birdenbire yüklemeyi sever, sebebi yine "ne olur ne olmaz"dır.
Ancak bu, çok basit bir görev yaptığınızda binlerce kuralı zorla yüklemek zorunda kaldığınız anlamına gelir, boş yere bir sürü Jeton harcarsınız. Claude Code'un resmi belgeleri, CLAUDE.md'yi 200 satırın altında tutmanızı ve farklı senaryoların özel kurallarını ayrı beceri dosyalarına bölmeyi önerir; hangi senaryoya ihtiyaç duyarsanız o senaryonun kurallarını yüklersiniz. Konteksti mutlak saf tutmak, hesaplama gücüne saygının en üst düzeyidir.
Farklı AI modellerinin fiyatları arasında büyük farklar vardır.
Claude Opus 4.6, girdi başına 5 dolar ve çıktı başına 25 dolar olmak üzere her milyon Jeton için fiyatlandırılırken, Claude Haiku 3.5, girdi başına yalnızca 0.8 dolar ve çıktı başına 4 dolar olacak şekilde fiyatlandırılır, neredeyse 6 kat fark var. En üst düzey modelin bilgi toplama ve biçimlendirme gibi basit ama zaman alan işlerle uğraşması sadece yavaşlatıcı değil, aynı zamanda çok pahalıdır.
Akıllıca kullanım, insan toplumunda yaygın olan "iş bölümü" düşüncesini AI toplumuna getirmektir; farklı zorluk derecelerindeki görevleri farklı fiyatlı modellere vermek.
Gerçek dünyada iş yaptırırken, bir milyon dolarlık yıllık maaş alan bir uzmana işçilik yapması için özellikle işe almazsınız. AI için de aynı durum geçerlidir. Claude Code'un resmi belgeleri ayrıca belirgin bir şekilde belirtir: Sonnet çoğu programlama görevini hallederken, Opus karmaşık mimari kararları ve çok adımlı akıl yürütmeyi Haiku ise basit alt görevler için belirler.
Daha spesifik bir uygulama çözümü, "İki Aşamalı İş Akışı"nı oluşturmaktır. Birinci aşamada, ücretsiz veya ucuz temel modellerle ön işlem temizliği, başlangıç taslağı oluşturma, basit sınıflandırma ve özetleme gibi öncü kirli işler yapılır; İkinci aşamaya geçildiğinde, saflaştırılmış yüksek saflıkta özü en üst düzey modele beslemek için çekirdek kararlar ve derin düzeltmeler yapılır.
Örneğin, 100 sayfalık bir sektör raporunu analiz etmeniz gerekiyorsa, rapordaki ana verileri ve sonuçları Gemini Flash ile çıkarabilir, 10 sayfalık bir özet haline getirip bu özeti Claude Opus'a derinlemesine analiz ve yargılama için verirsiniz. Bu iki aşamalı iş akışı, kaliteyi garanti altına alırken maliyeti büyük ölçüde azaltabilir.
Basit paragraf işlemeden daha ileri olan, görev ayrışmasına dayalı derin iş bölümüdür. Karmaşık bir mühendislik görevi tamamen bağımsız birkaç alt göreve ayrılabilir ve en uygun model eşleştirilebilir.
Örneğin, kod yazma gerektiren bir görev, ucuz modelin önce çerçeve ve şablon kodunu yazmasına izin verebilir, ardından sadece çekirdek mantık kısmını pahalı modele devredebilirsiniz. Her alt görevin temiz, odaklanmış bir bağlamı vardır, sonuç daha doğru ve maliyet daha düşüktür.
Tüm bu tartışmalar, esasen "nasıl para tasarrufu yapılır" taktik sorununu çözmeye odaklanmıştır, ancak birçok kişinin gözden kaçırdığı daha derin bir mantıksal önerme vardır: Bu eylem gerçekten Token harcamanızı gerektirir mi?
En üst düzeyde tasarruf en iyileme algoritması değil, karar verme sürecinin kesilmesidir. AI'dan her şeyi halletmesini beklemeye alışığız, ancak birçok durumda, pahalı büyük modeli çağırmak, sivrisineği tüfekle vurmakla aynıdır.
Örneğin, AI'ın e-postayı otomatik olarak işlemesine izin verirseniz, her e-postayı ayrı bir görev olarak anlamak, sınıflandırmak, yanıtlamak için büyük bir Token harcar. Ancak gelen kutunuzu hızlıca tarayarak AI'ın işlemesine gerek olmayan açık e-postaları el ile elemeniz ve geriye kalanları AI'a vermeniz durumunda, maliyet hemen ilk maliyetin sadece bir kısmına düşer. İnsanın takdir yeteneği burada bir engel değil, en iyi filtre olarak kullanılır.
Telegram çağındaki insanlar her fazladan harf için ne kadar para harcamaları gerektiğini bilirlerdi, bu yüzden dikkatlice düşünürlerdi, bu, kaynaklara yönelik bir içgüdüsel farkındalıktır. AI çağı da aynı, AI'nın her ekstra cümle için ne kadar ödeme yapacağını gerçekten bildiğinizde, bu eylemin AI'a yaptırılmasının veya bu görevin en iyi model gerektirip gerektirmediğinin değerlendirilmesi otomatik olarak yapılır.
Bu tür düşünme, en tasarrufçusu yetenektir. Hesaplamanın giderek daha pahalı hale geldiği bir dönemde, en zeki kullanım, AI'nın insanı değil, AI ve insanın iyi oldukları işleri yapmasıdır. Bu Token duyarlılığının bir refleks haline dönüştüğü zaman, gerçekten hesaplamanın kölesi olmaktan hesaplamanın efendisine dönüşürsünüz.
BlockBeats Resmi Topluluğuna Katılın:
Telegram Abonelik Grubu: https://t.me/theblockbeats
Telegram Sohbet Grubu: https://t.me/BlockBeats_App
Twitter Resmi Hesabı: https://twitter.com/BlockBeatsAsia