Metodoloji

Sentiment analiz ve doğal dil işlemede hangi metotları tercih ettik?

Amaç ve Yaklaşım

Bu doküman, Datakapital’in Borsa İstanbul pay piyasaları özelinde sosyal medya verilerini işleyerek hisse bazlı finansal göstergeler üretirken izlediği teknik ve operasyonel çerçeveyi tanımlar. Metodolojimizin temel odak noktası; yapılandırılmamış (unstructured) büyük veri yığınlarının hangi kurallarla toplandığı, gürültüden nasıl arındırıldığı, hangi modellerle anlamlandırıldığı ve sonuçların güvenilirliğinin nasıl sağlandığıdır.

Geleneksel finansal analiz yöntemleri genellikle rasyonel piyasa davranışını esas alırken, piyasaların önemli bir bölümü kolektif duygu ve davranışsal finans ilkeleriyle yönlendirilir. Datakapital, bu boşluğu kapatmayı amaçlayarak, yatırımcı duygularını şeffaf ve ölçülebilir bir zaman serisine dönüştürür. Temel misyonumuz, Borsa İstanbul hisseleri hakkında sosyal medyada oluşan bu kolektif söylemi yakalamaktır. Sistem tarafından üretilen göstergeler, yatırım kararlarını tek başına belirleyen spekülatif "al/sat" sinyalleri olarak değil; temel ve teknik analiz yöntemleriyle entegre edilmesi gereken, piyasanın duygusal katmanını görünür kılan tamamlayıcı ve açıklanabilir bir veri seti olarak tasarlanmıştır. Bu yaklaşım, sadece verinin ne söylediğini değil, aynı zamanda verinin neden o şekilde davrandığını anlamayı hedefler.

Veri Evreni ve Kapsam

Mevcut mimaride Datakapital, öncelikli olarak BIST-100 endeksine dahil şirketler için X (Twitter) platformu üzerindeki kamuya açık veri akışını işler. Veri toplama algoritmaları, yalnızca finansal bağlamı olan içeriklere odaklanmak üzere tasarlanmıştır. Bu bağlam, hisse kodu (ticker), şirket ticari unvanı, sektörün spesifik jargonları veya ilgili sektörel anahtar kelimeler bağlamında üretilmiş gönderilerle sınırlıdır. Veri etik kurallarına ve platform kullanım şartlarına sıkı bir bağlılık esastır; bu nedenle kapalı hesaplar, özel yazışmalar veya finansal bağlam içermeyen günlük sohbetler kesinlikle metodoloji kapsamı dışındadır. Ayrıca, veri bütünlüğünü korumak adına, Türkçe dışında yazılmış içerikler ilk filtreleme aşamasında dışlanır.

Sistemin mimarisi, yüksek performanslı Mesaj Kuyruk Protokolü (MCP) üzerinden canlı veri akışını yönetir ve kullanıcılara son bir yıla ait veriyi kesintisiz ve düşük gecikmeyle (low-latency) sunar. Sistemin güvenilirliği ve sağlamlığı, modellerin eğitimi, kalibrasyonu ve geriye dönük testleri (backtesting) için kullanılan yaklaşık iki yıllık derin arşiv verisiyle desteklenir. Bu geniş tarihsel perspektif, modellerin nadir görülen piyasa koşullarına karşı dahi stabil kalmasını sağlar. Gelecekteki yol haritamızda, makroekonomik duyarlılığı artırmak amacıyla Google Trends verileri ve kurumsal fon pozisyonları gibi ek alternatif veri kaynaklarının sisteme entegrasyonu planlanmaktadır.

Veri Toplama, İşleme ve Normalizasyon

Veri akışı, istatistiksel olarak anlamlı ve güvenilir bir yapı kurmak amacıyla üç katmanlı sıkı bir ön işleme ve rafinasyon sürecinden geçirilir. İlk olarak, her hisse senedi için özel olarak oluşturulmuş geniş kapsamlı, finansal jargon odaklı sözlükler kullanılarak ham veri havuzu oluşturulur.

Akıllı Filtreleme ve Temizlik

Ham veri, doğal yapısı gereği yüksek oranda gürültü ve düzensizlik içerir. Bu nedenle, sisteme dahil edilmeden önce katı bir rafinasyon sürecinden geçer. İlk aşama olan Akıllı Filtreleme; coğrafi konum, dil (yalnızca Türkçe), tarih tutarlılığı, tekrarlılık ve platform kurallarına uygunluk gibi kesin kurallara göre içerikleri eler. Ardından, modelin veriyi doğru ve verimli yorumlayabilmesi için metin temizliği uygulanır: URL'ler, emojiler, medya referansları, standart dışı karakterler ve anlamsız token'lar temizlenir. Bu süreç, stemming (kök bulma) ve tokenizasyon adımlarını da içererek metinleri LLM için en uygun formata dönüştürür.

İstatistiksel Normalizasyon

Sürecin en kritik adımı Veri Normalizasyonudur. Sosyal medya verisi, özellikle önemli ekonomik olaylar veya piyasa hareketleri sırasında, ani ve yapay hacim sıçramaları gösterebilir. Ham veriyi doğrudan sunmak, kullanıcıda yanlış algı ve aşırı tepkiye neden olabilir. Bu nedenle Datakapital, toplanan verileri istatistiksel yöntemlerle normalize ederek sunar. Farklı zaman dilimlerindeki veri yoğunlukları, geçmiş ortalamalarına göre standartlaştırılır. Bu işlem, yatırımcıların yapay hacim artışlarından etkilenmeden, verinin kendi tarihsel bağlamına göre gerçek sapmasını ve trendin yönünü net bir şekilde analiz etmelerini sağlar. Normalizasyon, zaman serisi verilerinde tutarlılığı ve karşılaştırılabilirliği garanti eder.

Psikometrik Modelleme ve Çok Boyutlu Analiz

Datakapital, sosyal medya verilerini analiz ederken yüzeysel ve sığ "olumlu/olumsuz" ikili ayrımlarının ötesine geçer. Finansal piyasa kararlarının karmaşıklığını yansıtmak amacıyla, köklü psikometrik şablonlardan esinlenerek oluşturulmuş çok boyutlu bir analiz matrisi kullanılır. Bu şablonlar arasında PANAS (Pozitif ve Negatif Duygu Ölçeği) ve davranışsal finansta sıkça başvurulan Beş Faktör Kuramı (Big Five) yer alır.

Bu analiz sürecinde, gelişmiş Dil Modelleri (LLM), OpenAI (GPT) ve Google Cloud AI gibi servisler, temel bir çıkarım motoru olarak konumlandırılır. Bu motorlar, Datakapital’in finansal piyasalar için özelleştirdiği psikometrik yönergelerle ve az sayıda örnekleme (few-shot prompting) teknikleriyle beslenir. Bu sayede ham veri, sadece yönüne göre değil; duygunun yoğunluğu, içerikteki güven seviyesi ve tepkisellik katsayısı gibi alt boyutlarıyla da hassas bir şekilde ayrıştırılır.

Bu yapılandırılmış, LLM tabanlı yaklaşım sayesinde, analiz edilen metinler anlamsal karmaşadan kurtarılır ve standart bir duygu uzayında koordinatlandırılır. Çok boyutlu bu tasnif, normalization başarısını doğrudan artırır ve yatırımcılara sunulan göstergelerin istatistiksel sağlamlığını ve açıklanabilirliğini güvence altına alır.

Nicel Hacme Dayalı Algoritmik Ağırlıklandırma

Finansal piyasalarda her gönderinin veya görüşün etkisi eşit değildir. Datakapital, hisse bazlı duygu göstergelerini hesaplarken içerikleri; yalnızca filtrelenmiş ve doğrulanmış temel sayısal hacmine (gönderi sayısına) göre tartar. Bu ağırlıklandırma süreci tamamen otomatik ve niceldir.

Her veri noktasına, içeriğin platformdan çekilen temel sayısal verisine (gönderi adedine) dayanan mekanik bir Etki Katsayısı atanır. Bu katsayı hesaplanırken, içeriğin yarattığı mutlak sayısal yoğunluk temel nicel değişken olarak algoritmik bir girdidir. Bu mekanizma, spekülatif veya anlık ilgi patlamalarının yarattığı gürültüyü yönetmek için tasarlanmıştır.

Tekil olayların veya anlık yoğun hacmin genel piyasa görünümünü tek başına domine etmesini engellemek amacıyla, aşırı yüksek hacim puanları otomatik bir süreçle "logaritmik sönümleme" yöntemiyle dengelenir. Bu yöntem, marjinal faydanın azalması ilkesine benzer şekilde çalışır; yani hacim belli bir eşiği aştıktan sonra endeks üzerindeki etkisi doğrusal değil, logaritmik olarak küçülür. Böylece endeks, tam otomatik ve temel nicel verilere dayalı, şeffaf bir genel piyasa algısını yansıtacak hale getirilir.

Temel Göstergeler ve Çıktılar

Veri işleme hattının nihai çıktısı, tek bir spekülatif sinyal değil; piyasa dinamiklerini farklı açılardan aydınlatan, yorumdan arındırılmış, ölçülebilir bir gösterge setidir. Datakapital, fiyat tahmini yapmak yerine, hisse üzerindeki sosyal hareketliliği dört temel ve aksiyon odaklı eksende sunar:

  • Duygu Durumu (Sentiment): Normalize edilmiş pozitif, negatif ve nötr paylaşımlar arasındaki net skordur. Bu metrik, piyasa algısının genel yönünü ve yoğunluğunu anlık olarak gösterir.
  • Görünürlük ve Odak: Hissenin, genel BIST tartışmaları içinde ne kadar yer kapladığını (Share of Voice) ölçer. Bu gösterge, yatırımcı ilgisinin o an bu hisseye ne kadar odaklandığını belirleyerek, kurumsal ve bireysel dikkat düzeyini ortaya koyar.
  • İvme (Momentum): Duygu durumundaki değişim hızını, yani trendin ivmesini ifade eder. Tartışma hacminin ve duygunun şiddetinin aniden mi arttığını yoksa yavaş ve sürekli mi ilerlediğini gösterir.
  • Süreklilik: Oluşan ilginin anlık bir sıçrama mı, yoksa sürdürülebilir bir eğilim mi olduğunu analiz eden dengeleyici bir metriktir. Bu, trendin kalıcılığı hakkında önemli bir bilgi sağlar.

Bu çok boyutlu yapı sayesinde yatırımcı, sadece "hisse konuşuluyor mu?" sorusuna değil; "nasıl, ne hızda ve ne kadar tutarlı konuşuluyor?" sorularına da veri odaklı ve derin cevaplar bulabilir.

Kalite Güvencesi ve İzleme

Metodolojinin sürdürülebilirliği, hem tam otomatik sistem takibine hem de verinin İnsan Denetimli Mekanik Kontrolüne (Human-in-the-Loop) dayanır.

Otomatik Sistem İzleme

Veri akışında oluşabilecek kesintiler, zaman damgası tutarsızlıkları veya anomali niteliğindeki hacim hareketleri, algoritmik izleme sistemleri tarafından 7/24 takip edilir. Sistem, veri gecikmesi (latency) veya platform API'lerinden kaynaklanan yapısal değişimler tespit ettiğinde otomatik olarak uyarı üretir ve veri akışını geçici olarak yeniden düzenler.

İnsan Denetimli Kontrol (HITL)

Model tarafından etiketlenmiş duygu verilerinin güvenilirliği, belirli periyotlarla rastgele seçilen veri kümeleri üzerinden manuel etiketleme (labeling) süreçleriyle kıyaslanır. Bu insani denetim mekanizması, duygu sınıflandırıcısının finansal bağlamdaki doğruluğunu ve tutarlılığını sürekli olarak teyit eder. Özellikle, yeni piyasa jargonu veya finansal olaylara bağlı ortaya çıkan yeni söylemlerin model tarafından doğru işlenip işlenmediği, Örnek Etiketleyici Anlaşma Oranı (Inter-Annotator Agreement) gibi istatistiksel yöntemlerle kontrol edilir. Veri giriş kalitesindeki bu mekanik kontrol, sistemin güvenilirliğini üst düzeyde tutmayı sağlar ve modelin zaman içinde sapmasını engeller.

Sınırlılıklar ve Yasal Uyarı

Sosyal medya tabanlı veri analitiği, doğası gereği platformların veri erişim politikalarına, API kısıtlamalarına ve kullanıcı davranışlarındaki ani değişimlere tabidir. Analiz süreçlerimizde en gelişmiş yapay zeka modellerini kullansak dahi, özellikle ironi, kinaye ve kültürel bağlam gibi dilsel karmaşıklıkların yoğun olduğu dillerde belirli bir istatistiksel hata payı olduğu bilimsel bir gerçektir.

Bu sebeplerle Datakapital göstergeleri, kesinleşmiş bir yatırım tavsiyesi veya finansal danışmanlık hizmeti içermez. Sunulan veriler, yatırımcıların kendi analiz süreçlerine entegre edebilecekleri, piyasa görüsünü ve duygusal katmanı anlamayı sağlayan istatistiksel bir içgörü aracı olarak değerlendirilmelidir. Kullanıcıların kendi risk toleranslarını ve finansal hedeflerini göz önünde bulundurarak bağımsız yatırım kararları almaları teşvik edilir.

Yardım için
her zaman buradayız!
216 709 72 93