Enhanced Parallel Information Retrieval Method over Apache Spark
 from Electronic Health Records

يرتبط استرجاع المعلومات باستخراج موارد مهمة من مجموعات البيانات الكبيرة أو مخزن المعلومات . لقد أصبح موضوعًا ذا أهمية خاصة خلال العقدين الماضيين بسبب الإمكانات الكبيرة المخفية فيه. تم اعتماد السجلات الصحية الإلكترونية (EHRs) في معظم المستشفيات والعيادات. توفر كمية البيانات الموجودة في هذه السجلات معلومات غنية حول الأمراض والمعلومات الطبية التاريخية التي يمكن استخدامها لفهم وعلاج العديد من الحالات الطبية بشكل أفضل. يعد البحث داخل هذه السجلات تحديًا لتقنيات استرجاع المعلومات التقليدية ، بسبب الهيكل غير القياسي واستخدام النص الحر في هذه السجلات. الدافع وراء هذا البحث هو حقيقة أن السجلات الصحية الإلكترونية تحتوي على العديد من المعلومات القيمة التي يمكن أن تكون مفيدة جدًا في التشخيص الطبي والمجالات الأخرى ذات الصلة. في هذه الأطروحة قمنا بمراجعة الأدبيات لإيجاد تقنيات استرجاع المعلومات المناسبة للمجال الصحي. ناقش أيضًا تقنيات البرمجة اللغوية العصبية التي أثبتت قدرتها على استخراج المعلومات القيمة في البيانات غير المنظمة من السجلات الصحية الإلكترونية. تعد LSI واحدة من أفضل تقنيات البرمجة اللغوية العصبية المستخدمة للبحث في النص الحر ، نظرًا لقدرتها على العثور على المصطلحات الدلالية ونتائج البحث الغنية من خلال العثور على العلاقات المخفية بين المصطلحات. يستخدم LSI نموذجًا رياضيًا يسمى SVD وهو غير قابل للتوسع لبيانات كمية كبيرة ، نظرًا لتعقيده واستنفاد الذاكرة ، كما تمت مناقشة مراجعة التطبيق الأخير لـ LSI. عالجت العديد من الأبحاث هذه المشكلة واقترحت حلولاً تعتمد على توزيع البيانات على عدة أجهزة ، ولكن بهذه الطريقة تؤثر على دقة النظام ، لأن فصل البيانات سيفقد جزءًا من علاقاته . في هذا البحث ، نقوم بتحسين منهجية استرجاع المعلومات الموازية للسجلات الصحية الإلكترونية التي تقوم بتحليل ومعالجة البيانات غير المهيكلة من مجموعة بيانات طبية حقيقية مثل مجموعة بيانات EMRBOTs ، وتستخدم Apache Spark لحل مشكلة LSI فيما يتعلق بحجم البيانات لأنها تستخدم محرك تحليلات سريع للغاية مما يجعلها مناسبة في أطر المعالجة المتوازية وفي منصات تحليل البيانات الكبيرة على نطاق واسع. تحتوي المعالجة المسبقة على حذف كلمات الإيقاف وتحديد قائمة المصطلحات المميزة ، ثم يكون TDM جاهزًا للبناء ، وبعد ذلك سيتم استخدام الشرارة لتوزيع TDM بين جميع المعالجات في الكتلة ، وسيتم تعيين TDM كصف مصفوفة بتنسيق RDD ، وهي عبارة عن تجريد موزع للذاكرة لإجراء عمليات حسابية في الذاكرة على مجموعات كبيرة بطريقة تتسامح مع الأخطاء ، ويمكن مشاركتها ورؤيتها بواسطة جميع المعالجات. إنه جزء مهم ومهم للغاية من Apache Spark. ثم يمكن لكل معالج تطبيق عملية SVD على جزء من RDD المشترك الذي يحتوي على وظيفة تصغير متعددة لجمع البيانات من جميع المعالجات. سيؤدي ذلك إلى زيادة دقة النظام ، لأننا لا نفقد أي جزء من علاقات البيانات. تم اختيار العديد من مقاييس الأداء لتقييم التقنية المقترحة مثل الدقة والتذكر والقياس ومتوسط الدقة (MAP). كما تمت مقارنة التقنية المقترحة بتقنية LSI الموزعة التي اقترحها (القحطاني وآخرون ، 2015 ب). كما أن النتائج المترتبة على العمل المقترح أفضل بكثير من LSI الموزع الذي اقترحه (القحطاني وآخرون ، 2015 ب). أظهرت النتائج أن دقة للعمل المقترح أعلى من 98.5? لجميع الاستعلامات المختارة. أيضًا ، نتائج دقة R للعمل المقترح أفضل بكثير من LSI الموزع، نظرًا لفقدان جزء لعلاقة البيانات أثناء حساب .SVD