SARS-CoV-2 Antiviral İlaç Tasarımı için Hedef Konakçı Proteinlerin In-Siliko Yöntemlerle Belirlenmesi
Küçük Resim Yok
Tarih
2023
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Erişim Hakkı
info:eu-repo/semantics/openAccess
Özet
Proje kapsamında, deneysel yollarla tespit edilmiş 332 SARS-CoV-2-insan protein etkileşiminden yola çıkılarak, protein etkileşim tahmini için üç yeni hesaplamalı yaklaşım geliştirilmiştir. Bunlardan birincisi protein dizilerinden özellikleri çıkarmak ve ölçmek için gen ontolojisi ve doğal dil işleme (DDİ) yaklaşımlarının kullanılmasını önermektedir. Çalışmanın ilk adımında, proteinler gen ontolojisi terimleri kullanılarak temsil edilmiş ve bir dizi öznitelik oluşturulmuştur. Bu amaçla, gen ontolojisinin moleküler fonksiyon, hücresel bileşen ve biyolojik süreç alt ontolojilerinden yararlanılmıştır. İkinci adımda, gen ontolojisi terimleri doğal bir dilin kelime sözlüğü gibi ele alınır ve DDİ yöntemleri kullanılarak verilerin vektörel temsilleri elde edilir. Kelime torbası, frekans vektörü, terim frekansı-ters belge frekansı (Tf-Idf) ve bilgi içeriği yöntemleri, proteinleri sayısal vektörlere dönüştürmek için kullanılır. Üçüncü adımda, veri kümelerindeki protein etkileşimlerini tahmin etmek için farklı makine öğrenme yöntemleri uygulandı. Dördüncü adımda, daha az özellik ile daha başarılı tahminler elde etmek için Max-Min Parents and Children (MMPC) özellik seçim algoritması ile özellik sayısı, %99'dan daha fazla azaltılmıştır. Böylece gelişmiş bir protein etkileşimi tahmin performansı sağlanmıştır. Öznitelik seçimi sonrasında en başarılı tahmin derin sinir ağı (DNN) yöntemi ile elde edilmiştir. Geliştirilen diğer yaklaşım görüntü sınıflandırma üzerine olup pozisyona özgü skorlama matrisleri (PSSM) kullanılmıştır. Çoklu dizi hizalamalarından elde edilen matrisleri gri tonlamalı görüntüler olarak ele alınmış ve PSSM görüntüleri olarak adlandırılmıştır. Çalışmanın ana motivasyonu, bu PSSM görüntülerinin uygun bir protein temsil yöntemi olup olmadığını araştırmaktır. Yeterli görüntü boyutunu belirlemek için, matrisler farklı boyutlarda gri tonlamalı görüntülere dönüştürülmüştür. Siyam sinir ağı ve Resnet50 ile görüntü sınıflandırmasına dayalı SARS-CoV-2-insan proteini etkileşim ağı tahmini, farklı boyutlardaki PSSM görüntü veri kümeleri üzerinde gerçekleştirilmiştir. Protein dil modeli oluşturmaya dayalı son yaklaşımda ise, gömme vektörlerden word2Vec ve doc2Vec gömme yöntemleri ve frekansa dayalı Tf-Idf yöntemi ile protein dil modelleri elde edilmiştir. Bilinen etkileşimler, ön eğitimli dil modelleri ve geleneksel protein temsil yöntemlerinden birleşik üçlü ve tekrar örüntüsü ile temsil edilerek ve performansları karşılaştırılmıştır. Etkileşim verileri, destek vektör makinesi, yapay sinir ağı (ANN), k-en yakın komşu (KNN), naive Bayes (NB), karar ağacı (DT) ve topluluk algoritmaları ile eğitilmiştir. Deneysel sonuçlar, protein dili modellerinin, protein-protein etkileşimi tahmini için umut verici bir protein temsil yöntemi olduğunu göstermektedir. Tf-Idf tabanlı dil modeli, SARS-CoV-2 protein-protein etkileşimi tahminini %1,4'lük bir hatayla gerçekleştirmiştir. Ek olarak, farklı özellik çıkarma yöntemleri için yüksek performanslı öğrenme modellerinin kararları, yeni etkileşim tahminleri yapmak için topluluk oylaması yaklaşımıyla birleştirilerek, 10.000 insan proteini içeren bağımsız bir veri kümesinden 285 yeni potansiyel etkileşim tahmin edilmiştir.
Açıklama
45108
Anahtar Kelimeler
Doğal dil işleme, SARS-CoV-2, Protein-protein etkileşimi, Patojen-konakçı etkileşimi, Gen ontolojisi