Anotasi Data – NER

Anotasi Pengiktirafan Entiti Dinamakan (NER) untuk NLP Klinikal

Anotasi Ner

Data teks klinikal Beranotasi dengan Baik dan Gold Standard untuk melatih/membangunkan NLP klinikal untuk membina versi API Penjagaan Kesihatan yang seterusnya

Kepentingan Pemprosesan Bahasa Semula Jadi klinikal (NLP) telah semakin diiktiraf sejak beberapa tahun lalu dan telah membawa kepada kemajuan transformatif. NLP klinikal membolehkan komputer memahami makna yang kaya yang terdapat di sebalik analisis bertulis doktor terhadap pesakit. NLP klinikal boleh mempunyai berbilang kes penggunaan daripada analisis kesihatan populasi kepada penambahbaikan dalam dokumentasi klinikal kepada pengecaman pertuturan kepada padanan percubaan klinikal dsb.

Untuk membangunkan dan melatih mana-mana model NLP klinikal, anda memerlukan set data yang tepat, tidak berat sebelah dan beranotasi dengan baik dalam jumlah yang besar. Standard Emas dan data yang pelbagai membantu dalam meningkatkan ketepatan dan penarikan semula enjin NLP.

jumlah

Bilangan Dokumen Beranotasi
10
Bilangan Halaman Beranotasi
10 +
Tempoh Projek
< 1 bulan

Cabaran

Pelanggan tidak sabar-sabar untuk melatih dan membangunkan Platform Pemprosesan Bahasa Asli (NLP) mereka dengan jenis entiti baharu dan juga mengenal pasti hubungan antara pelbagai jenis. Selain itu, mereka menilai vendor yang menawarkan ketepatan yang tinggi, mematuhi undang-undang tempatan dan mempunyai pengetahuan perubatan yang diperlukan untuk menganotasi set data yang besar.

Tugasnya adalah untuk melabel dan menganotasi sehingga 20,000 Rekod Berlabel termasuk sehingga 15,000 Rekod Berlabel daripada data rekod kesihatan elektronik (EHR) pesakit dalam dan luar dan sehingga 5,000 Rekod Berlabel daripada imlak perubatan yang ditranskripsi, diedarkan sama rata merentas (1) asal geografi dan ( 2) kepakaran perubatan yang ada.

Jadi, untuk meringkaskan cabaran:

  • Susun data klinikal heterogen untuk melatih Platform NLP
  • Kenal pasti hubungan antara entiti yang berbeza untuk memperoleh maklumat kritikal
  • Keupayaan dan kepakaran untuk melabel / menganotasi satu set luas dokumen klinikal yang kompleks
  • Memastikan kos terkawal untuk melabel / menganotasikan sejumlah besar data untuk melatih NLP klinikal dalam jangka masa yang ditetapkan
  • Anotasi entiti dalam set data klinikal yang terdiri daripada 75% EHR dan 25% rekod Dictation.
  • Pengecaman Data pada masa penghantaran

Cabaran Lain dalam Pemahaman Bahasa Semulajadi

Kekaburan

Perkataan adalah unik tetapi boleh mempunyai makna yang berbeza bergantung pada konteks yang mengakibatkan kekaburan pada tahap leksikal, sintaksis dan semantik.

Sinonim

Kita boleh menyatakan idea yang sama dengan istilah yang berbeza yang juga sinonim: besar dan besar bermaksud sama apabila menerangkan objek.

Coreference

Proses mencari semua ungkapan yang merujuk kepada entiti yang sama dalam teks dipanggil resolusi coreference.

Personaliti, Niat, Emosi

Bergantung pada personaliti penceramah, niat dan emosi mereka, mungkin dinyatakan secara berbeza untuk idea yang sama.

Penyelesaian

Sebilangan besar data dan pengetahuan perubatan tersedia, dalam bentuk dokumen perubatan, tetapi kebanyakannya dalam format tidak berstruktur. Dengan Anotasi entiti Perubatan / Anotasi Pengiktirafan Entiti Bernama (NER), Shaip dapat menukar data tidak berstruktur kepada format berstruktur dengan menganotasi maklumat berguna daripada pelbagai jenis rekod klinikal. Setelah entiti dikenal pasti, hubungan antara mereka juga dipetakan untuk mengenal pasti maklumat kritikal.

Skop Kerja: Anotasi Sebutan Entiti Penjagaan Kesihatan

9 Jenis Entiti

  • Keadaan Perubatan
  • Prosedur Perubatan
  • Struktur Anatomi
  • Perubatan
  • Peranti Perubatan
  • Pengukuran badan
  • Penyalahgunaan bahan
  • Data makmal
  • Fungsi badan

17 Pengubah suai

  • Pengubahsuai Ubat: Kekuatan, Unit, Dos, Daripada, Kekerapan, Laluan, Tempoh, Status
  • Pengubahsuai Ukuran Badan: Nilai, Unit, Hasil
  • Pengubahsuai Prosedur: Kaedah
    • Pengubah suai data makmal: Nilai Makmal, Unit Makmal, Keputusan Makmal
  • Keterukan
  • Hasil prosedur

27 Perhubungan & Status Pesakit

Hasil

Data beranotasi akan digunakan untuk membangunkan dan melatih Platform NLP klinikal Pelanggan, yang akan digabungkan dalam versi API Penjagaan Kesihatan mereka yang seterusnya. Faedah yang diperolehi oleh pelanggan ialah:

  • Data berlabel/beranotasi memenuhi garis panduan anotasi data standard Pelanggan.
  • Dataset heterogen digunakan untuk melatih Platform NLP untuk ketepatan yang lebih tinggi.
  • Hubungan antara entiti yang berbeza, iaitu struktur badan anatomi <> Peranti Perubatan, Keadaan Perubatan <> Peranti Perubatan, Keadaan Perubatan <> Ubat, Keadaan Perubatan <> Prosedur dikenal pasti untuk mendapatkan maklumat perubatan kritikal.
  • Set luas data yang dilabelkan/dianotasi juga dinyahkenal pasti pada masa penghantaran.

Kerjasama kami dengan Shaip telah memajukan projek kami dengan ketara dalam Teknologi Ambien dan AI Perbualan dalam penjagaan kesihatan. Kepakaran mereka dalam mencipta dan menyalin dialog penjagaan kesihatan sintetik menyediakan asas yang kukuh, mempamerkan potensi data sintetik dalam mengatasi cabaran kawal selia. Dengan Shaip, kami mengharungi halangan ini dan kini selangkah lebih dekat untuk merealisasikan visi kami tentang penyelesaian penjagaan kesihatan intuitif.

Emas-5 bintang

Mempercepat AI Percakapan anda
pembangunan aplikasi sebanyak 100%