OpenAI'nin transkripsiyon aracı, tıbbi transkripsiyonlarda sahte metin üretmesi nedeniyle inceleme altında
Sağlık sektörü, halüsinasyon risklerine yönelik uyarılara rağmen Whisper'ı benimsemiş durumda
Üretken yapay zekânın, gerçekdışı içerik üretmeye yatkın olduğu bilinen bir durum, ancak bu araçlar sağlık gibi kritik alanlara girdiğinde alarm zilleri çalmaya başlıyor. OpenAI bile transkripsiyon aracı Whisper'ın yüksek riskli alanlarda kullanılmaması gerektiği konusunda uyarıda bulunuyor. Bu uyarılara rağmen, tıbbi sektör Whisper tabanlı araçları kullanmaya devam ediyor.
Whisper adı verilen bu transkripsiyon aracı, "halüsinasyon" olarak bilinen bir kusurdan dolayı eleştiriliyor: gerçekte var olmayan metinler üretiyor. Şirketin "insan seviyesinde sağlamlık ve doğruluk" iddiasına karşın, Associated Press’in konuştuğu uzmanlar, Whisper'ın bazı durumlarda tüm cümleleri uydurduğu veya mevcut olmayan içerikler eklediği birçok örnek tespit etti.
Bu sorun, Whisper'ın farklı sektörlerde yaygın olarak kullanılmasından dolayı büyük bir endişe kaynağı. Araç, görüşmeleri çevirmek ve transkribe etmek, tüketici teknolojileri için metin üretmek ve video altyazıları oluşturmak için kullanılıyor.
Belki de en endişe verici olanı, tıp merkezlerinin hasta görüşmelerini transkribe etmek için Whisper tabanlı araçları hızla benimsemesidir; oysa OpenAI, bu aracın "yüksek riskli alanlarda" kullanılmaması gerektiği konusunda açıkça uyarıda bulunmuştur.
Buna karşın, tıp sektörü Whisper tabanlı araçları hızla benimsemiştir. Fransa ve ABD’de ofisleri bulunan Nabla adlı şirket, Minnesota’daki Mankato Kliniği ve Los Angeles Çocuk Hastanesi de dahil olmak üzere 30.000'den fazla klinisyen ve 40 sağlık sistemi tarafından kullanılan bir Whisper tabanlı araç geliştirmiştir.
Nabla’nın teknoloji sorumlusu Martin Raison, araçlarının hasta görüşmelerini transkribe etmek ve özetlemek için tıbbi dile göre ince ayar yapıldığını ifade etti. Ancak, "veri güvenliği" gerekçesiyle orijinal ses kaydının silindiğini, bu nedenle AI tarafından üretilen transkripti orijinal kayıtta doğrulamanın imkânsız olduğunu belirtti.
Nabla'ya göre, bu aracın yaklaşık 7 milyon tıbbi görüşmeyi transkribe ettiği tahmin ediliyor.
Yapay zekâ tabanlı transkripsiyon araçlarının tıbbi ortamlarda kullanılması, gizlilik endişelerini de gündeme getirdi. Kaliforniyalı eyalet meclis üyesi Rebecca Bauer-Kahan, çocuğunun doktorunun görüşme ses kaydını Microsoft Azure gibi tedarikçilerle paylaşmasına izin veren bir formu imzalamayı reddettiğini paylaştı. Associated Press’e konuşan Bauer-Kahan, "Belge, kâr amacı güden şirketlerin buna erişim hakkına sahip olacağını açıkça belirtiyordu" dedi. "Kesinlikle hayır dedim."
Whisper’ın halüsinasyon sorununun boyutu tam olarak bilinmemekle birlikte, araştırmacılar ve mühendisler, çalışmalarında bu sorunun birçok örneğine rastladı. Michigan Üniversitesi'nden bir araştırmacı, incelediği kamu toplantısı transkripsiyonlarının %80'inde bu hatalara rastladı. Bir makine öğrenimi mühendisi ise incelediği 100 saatin üzerindeki Whisper transkripsiyonlarının yaklaşık yarısında halüsinasyon buldu; bir diğer geliştirici ise oluşturduğu 26.000 transkriptin neredeyse tamamında bu sorunla karşılaştı.
Cornell Üniversitesi’nden Profesör Allison Koenecke ve Virginia Üniversitesi’nden Yardımcı Doçent Mona Sloane tarafından yürütülen bir çalışmada, binlerce kısa ses örneği incelendi ve bu "halüsinasyonların" yaklaşık %40’ının yanlış yorumlama veya yanlış anlamaya yol açabilecek, zararlı ya da endişe verici olduğu tespit edildi.
Bu hatalara örnek olarak, orijinal kayıtta olmayan şiddet içeriğinin eklenmesi, ırkla ilgili yorumların uydurulması ve var olmayan tıbbi tedavilerin yaratılması gösterildi. Bir örnekte Whisper, şemsiye alan bir çocukla ilgili basit bir ifadeyi haç ve bıçak içeren şiddetli bir senaryoya dönüştürdü. Bir başka durumda, araç, insanlarla ilgili nötr bir ifadeye ırksal nitelemeler ekledi. Whisper ayrıca, "hiperaktif antibiyotikler" adıyla var olmayan bir ilacı uydurdu.
Beyaz Saray Bilim ve Teknoloji Politikası Ofisi'ne geçen yıl kadar liderlik etmiş olan Alondra Nelson, bu tür hataların "çok ciddi sonuçlar" doğurabileceğini söyledi. Nelson, "Kimse yanlış teşhis istemez" dedi. "Daha yüksek bir standart olmalı."
Whisper’ın etkisi, OpenAI'yi de aşmış durumda. Araç, bazı ChatGPT sürümlerine entegre edilmiştir ve Oracle ile Microsoft'un bulut platformlarında yerleşik bir hizmet olarak sunulmaktadır. Whisper'ın yakın zamanda güncellenmiş bir sürümü, yalnızca bir ay içinde açık kaynak yapay zekâ platformu HuggingFace'ten 4,2 milyon kez indirildi.
Eleştirmenler, OpenAI’nin bu sorunu derhal ele alması gerektiğini belirtiyor. "Şirket öncelik verirse bu çözülebilir gibi görünüyor," diyen William Saunders, Şubat ayında şirketten ayrılan eski bir OpenAI mühendisidir. "Bu aracı piyasaya sürdüyseniz ve insanlar ne yapabileceği konusunda aşırı güvenli davranıyorsa, bunun diğer sistemlerle entegre edilmesi sorun yaratır."