Bilim ve teknoloji uzmanları, doğal dil işleme üzerinde 50 yılı aşkın zamandır çalışıyor…
Doğal Dil İşleme veya orijinal ismiyle Natural Language Processing (NLP), yapay zekanın gelişimi ve dil bilimle ortaklaşa geliştirilen çalışmalar sonucunda hayatımıza girmiş bir terimdir.
En geniş kapsamıyla doğal dil işleme, Türkçe, İngilizce gibi doğal dillerdeki metinlerin, ses dalgalarının bilgisayar tarafından algılanarak yazılım programında çözümlenmesi ve bilgisayar ortamına aktarılmasıdır. Bilim insanları, doğal dil işleme üzerinde 50 yılı aşkın zamandır çalışmaktadırlar. Hem dil bilimini hem de bilgisayar teknolojileri ve yapay zekayı yakından ilgilendiren bu konunun neden bu kadar önemli olduğunu bu yazımızda işleyeceğiz.
Doğal dil nedir?
Herkesin bildiği üzere, doğal dil insanların iletişim kurması ve hayatta kalması için kullanılan en temel özelliklerden biridir. Sosyal bir insanın günlük hayatında dilden uzak kalması mümkün değildir. Konuşmanın haricinde herhangi bir yerde rastlanabilecek metinler, işaretler, menüler, e-postalar, SMS, internet sayfaları, reklamlar ve daha nice örnekle dil karşımıza çıkmaktadır. Konuşma da yine aynı şekilde hayatımızın her alanında yer alan ve hatta yazmaktan daha kolay ifade ettiğimiz dil özelliğidir. Haliyle insanlar ses ve metin ile tüm işlerini halledebilmektedirler.
Doğal dilin zorluğu
Ana dilde konuşmak her ne kadar kolay gibi görünse de, dil edinimi gerçekten de zorlayıcı ve zaman alan bir süreçtir. Farklı bir yabancı dili ne gibi süreçler atlatarak öğrendiğinizi ya da öğrenemediğinizi düşünebilirsiniz. Ayrıca dilin canlı bir organizma gibi düşünülmesi gerekir. Gündelik dilde bile değişen zamanla birlikte değişen birçok kelime ve durum ifadesi vardır. Doğal dili anlama ve doğal dilde düşünebilme süreci beyin içinde karmaşık bir yapıya sahipken, bunu hemen anlayarak bilgisayar ortamında yazılıma dökebilmek için de çok fazla mesai harcanmıştır. 50 yılı geçen bir süre sonucunda yapay zeka modüllerinin geliştirilmesi ile doğal dil işleme ortaya çıkmıştır.
Dil bilimden doğal dil işlemeye
Dil bilim, dil bilgisi, anlam bilim ve fonetik dahil olmak en küçük anlamı açıklamaktan söz dizimine ve anlam bütünlüğüne kadar uzanan bilimsel bir çalışmadır.
Klasik dil bilim, dil kurallarını geliştirmek ve değerlendirmekle ilgilidir. Söz dizim ve semantik için resmi yöntemlerle ilgili büyük ilerlemeler kaydedilmiştir. Yani kullanılan sözcükler ve cümle yapılarındaki kurallar, birer matematik formülü gibi açıklanabilmektedir. Ancak beynin karmaşık yapısında oluşturulan ve kitlelerce kabul gördüğü halde dilin kurallarıyla açıklanamayan istisnalar da hemen her dilde mevcuttur. Haliyle dilin doğal yapısı bir yerde matematiğe direniyor denilebilir.
Matematik, bir bilim aracıdır. Doğal dil üzerinde çalışan matematikçiler, matematiksel dil bilim olarak çalışmalarına atıfta bulunarak, yalnızca özel matematiksel formüllerin ve biçimsel diller gibi doğal dil kuramının konuşurlar tarafından kullanımına odaklanırlar.
Hesaplamalı dil bilim, bilgisayar bilimi araçlarını kullanarak modern dil bilimsel çalışmalarını yürüten bir alt daldır. Hesaplamalı dil bilim, doğal dilin anlaşılması ve üretilmesi için bilgisayar sistemlerinin çalışmasıdır. Böylece teorik ölçümler ve sağlamalar gerçekleştirilerek yazılımlara hazırlık yapılır. Dev veriler toplandıkça da yeni ve farklı şeylerin keşfedilebileceği ve bilimin ilerletilebileceği gündeme gelir.
Doğal dil işleme için Data-Drive yöntemleri artık o kadar popüler hale gelmiştir ki, bunlar hesaplama dil bilimine ana akım yaklaşımlar olarak düşünülmelidir. Bu gelişime güçlü bir katkı sağlayan faktör, şüphesiz, bu yöntemlerin uygulanabileceği mevcut elektronik olarak depolanmış verilerin artış miktarıdır.
Diğer bir faktör ise, yine de istisnaların bulunabileceğidir. Tüm bilginin elde edilmesi ve kodlanması, etkili ve güçlü dil sistemlerinin geliştirilmesine katkı sağlayarak sözlü makine öğrenme yöntemlerinin ilerletilmesine katkı sağlar.
İstatistiksel doğal dil işleme
Hesaplamalı dil bilim, istatistiksel yöntemlerin daha mühendis tabanlı veya ampirik yaklaşımını yansıtmak için doğal dil süreci veya NLP adıyla da bilinir. Alanın istatistiksel baskınlığı da sıklıkla NLP’nin İstatistiksel Doğal Dil İşleme olarak tanımlanmasını sağladığı gibi bir yerde de klasik dil bilim yöntemlerinden ayrılır.
Hesaplamalı dil bilim, hem bilimsel hem de mühendislik olarak görülebilir. Genellikle doğal dil işleme (NLP) olarak adlandırılan hesaplamalı dil bilimin mühendislik ve yapay zeka tarafı, büyük ölçüde, dil ile yararlı şeyler yapan hesaplama araçları oluşturma ile ilgilidir. Örneğin, makine çevirisi, özetleme, soru cevaplama gibi programlar doğal dil işlemeden yararlanır.
Basitçe ifade edersek, istatistiksel NLP olasılıkları, bir ifadeyi veya metni analiz ederken karşılaşılan alternatiflerle ilişkilendirir ve en olası sonucu doğru olanı kabul eder. Şaşırtıcı olmayan bir şekilde, dünyayla yakından ilişkili olan olguları olan sözcükler sık sık birbirine yaklaşır ve bu türdeki metinleri hızlıca çözmek daha kolay ve güvenilir olabilir.
Doğal dil işleme yöntemleri
Makine öğrenimi uygulayıcılarının metin verileriyle ilgilenirken, Doğal Dil İşleme alanındaki araç ve yöntemlere yakından bakmak gerekir.
Bir önceki bölümde dil bilimden NLP’ye giden yolu gördük. Şimdi, modern araştırmacıların ve uygulayıcıların NLP’nin neyle ilgili olduğunu nasıl tanımladıklarını inceleyelim.
Belki de, bu alandaki en iyi araştırmacıların yazdığı daha geniş kapsamlı ders kitaplarından birinde, konuya hem klasik dil bilim hem de modern istatistiksel yöntemlerin tartışılmasına izin veren “dil bilim bilimi” denir.
Dil biliminin amacı, etrafımızda dolaşan konuşmaların ve diğer medyanın çok yönlü dil bilimsel gözlemlerini karakterize edip açıklayabilmektir. Bunun bir kısmı, insanların dilin nasıl edinildiğini, üreteceğini ve anladığını bilişsel büyüklüğü ile ilgilidir, diğer bir kısmı dilsel sözler ve dünya arasındaki ilişkiyi anlamakla yani dilsel yapıları anlayabilmekle ilgilidir.
İstatistiksel NLP, doğal dil alanı için istatistiksel çıkarım yapmayı amaçlamaktadır. Genel olarak istatistiksel çıkarım, bazı verilerin (bazı bilinmeyen olasılık dağılımına göre üretilmiştir) alınması ve daha sonra bu dağılım hakkında bazı çıkarımlarda bulunmasından oluşur.
Nasıl çalışır?
Doğal dil işleme, insan dillerinin otomatik hesaplama olduğundan, sürece insan tarafından üretilen metni girdi olarak alan algoritmalar ve çıktılar olarak doğal görünümlü metinler üreten algoritmalar dahildir.
Diyalog temelli bir yapay zeka uzman sisteminden karar almak istediğinizde, robotun sizin talimatlarınız doğrultusunda işlemleri gerçekleştirmesi gibi akıllı bir sistemin çalışması için sizin konuştuğunuz doğal dilin işlenmesi gerekir.
NLP alanı, bilgisayarları insanların kullandığı doğal dillerle yararlı görevleri yerine getirmeyi gerektirir. NLP’nin girdisini doğal konuşma, çıktısını da yazılı metin oluşturur. NLP’nin temel iki bileşeni vardır. Bunlardan ilki NLU olarak kısaltılan doğal dil anlayışıdır. Anlama şu görevleri içerir; verilen girdinin doğal dilde yararlı temsillerle eşlenmesi ve dilin farlı yönlerini analiz etmek. Diğer bileşen ise NLG kısaltması ile anılan doğal dil üretimidir.
NLG, bazı iç temsillerden doğal dil biçiminde anlamlı söz öbeklerini ve cümleleri üretme sürecidir. Bu süreçte, yapay zeka tarafından içerik algılanır, ilgili içeriği bilgi tabanından alınması sağlanarak metin planlaması gerçekleşir. Planlamaya göre istenilen kelimeler seçilir ve cümlelerin oluşturulmasıyla cümlenin tonu belirlenmeye başlanır. Ardından cümle planının cümle yapısıyla eşleştirilmesi gerçekleşir.
Yapay zekanın iki bileşeninden NLU, NLG’den daha zordur. Doğal dil anlayışındaki zorluklar, doğal dilin son derece zengin bir yapıya sahip olmasından ileri gelmektedir. Daha önce doğal dil bölümünde detaylıca açıkladığımız nedenlerden dolayı dilin farklı seviyelerinde belirsizlik olabilir. Sözcüksel belirsizlik, kelime seviyesi gibi çok ilkel düzeyde olabilir.
Örneğin “yaz” kelimesinin isim olarak mı yoksa fiil olarak mı kullandığınızın algılaması zor olabilir. Söz dizimi seviyesinde “Doktor ona baktı.” gibi bir cümlede doğru tonlama yapılmadıysa ses algısında ayrıştırma zor olabilir. Özellikle Türkçe gibi eril/dişil ayrımı olmayan dillerde zamir belirsizliği yaşanabilir. Bunların önüne geçebilmek için işlenen dilin kodları maksimum derecede detaylandırılarak işlenmelidir.
Cümlelerin ve söz öbeklerinin kodlandığı dil bilimsel ağaçlar ne kadar doğru çizilirse sonuçlar da o kadar güvenilir olur. Ayrıştırma ağacı, cümleyi yapılandırılmış parçalara ayırır, böylece bilgisayar dili kolayca anlayabilir ve işleyebilir. Ayrıştırma algoritmasının bu ayrıştırma ağacını oluşturması için yapay zeka kodlamasında hangi ağaç yapılarının doğru olduğunu açıklayan bir dizi yeniden yazma kuralları oluşturulmalıdır.
Doğal dil işlemenin geleceği
Doğal dil işlemede büyük yol alınmış olsa da, şirket CEO’ları bu teknolojinin daha geliştirilecek çok fazla yönünün olduğunu düşünüyor. Bazen dilsel kodlamalarda sorun olursa işlemler karmaşık sonuçlar verebiliyor. Bu nedenle doğal dil işleme programıyla tam olarak neye hizmet verilmek istendiği, hangi fayda için kullanılacağı gibi saptamaların da iyi analizlerle yapılmış olması gerekir. Yine de uzmanlar bir sonraki teknoloji dalgasının NLP’yi algılayan NLP olduğunu savunuyor, buradan yapay zekanın daha birçok sahada kendini göstereceğini söyleyebiliriz. Sonuç olarak, şu andaki haliyle bile birçok alanda işleri kolaylaştıran ve hızlandıran NLP’nin daha da geliştikçe neler yapabileceği merak konusu.
Ferhat Verdi / Newtech