Ortak kelime dağarcığı oluşturulması bir çok NLP problemi için gerekli bir adımdır. Çeviri (machine translation), sınıflandırma, named-entity tespiti gibi farklı çalışmalarda uygulamanın geliştirilmesi sonrasında (production aşamasında) giriş verilerinin eğitim ve test verileriyle aynı şekilde ele alınmasını sağlamak amacıyla ortak kelime Daha fazla oku …
Etiket: tokenizer
Metin Ön İşleme Adımları İçin Keras Tokenizer Sınıfı Kullanımı
Metin ön işleme (text pre-processing) doğal dil işlemenin çoğu zaman zahmetli fakat algoritmanın başarısını etkileyen zaruri ön adımlarındandır. Metin verisinin hazırlanma adımlarını gerçekleştirirken kalıplaşmış bazı sorulara cevap verilmesi gerekir: noktalama işaretlerinin arındırılması (cleaning) cümle, kelime, harf veya n-gramlar halinde parçalama Daha fazla oku …