عنوان الإطروحه
Enhanced Parallel Information Retrieval Method over Apache Spark from Electronic Health Records
تاريخ مناقشة الاطروحه
2020-12-31
اسم الطالب
علي حسين محمد ابو سليمه
المشرف
نجاح مثقال علي الشنابله
المشرف المشارك
اعضاء لجنة المناقشة
عمر علي عوده شطناوي
احمد خصاونة
الكلية
كلية الامير الحسين بن عبدالله لتكنولوجيا المعلومات
القسم
علم الحاسوب
الملخص بالعربية
يرتبط استرجاع المعلومات باستخراج موارد مهمة من مجموعات البيانات الكبيرة أو مخزن المعلومات . لقد أصبح موضوعًا ذا أهمية خاصة خلال العقدين الماضيين بسبب الإمكانات الكبيرة المخفية فيه. تم اعتماد السجلات الصحية الإلكترونية (EHRs) في معظم المستشفيات والعيادات. توفر كمية البيانات الموجودة في هذه السجلات معلومات غنية حول الأمراض والمعلومات الطبية التاريخية التي يمكن استخدامها لفهم وعلاج العديد من الحالات الطبية بشكل أفضل. يعد البحث داخل هذه السجلات تحديًا لتقنيات استرجاع المعلومات التقليدية ، بسبب الهيكل غير القياسي واستخدام النص الحر في هذه السجلات. الدافع وراء هذا البحث هو حقيقة أن السجلات الصحية الإلكترونية تحتوي على العديد من المعلومات القيمة التي يمكن أن تكون مفيدة جدًا في التشخيص الطبي والمجالات الأخرى ذات الصلة. في هذه الأطروحة قمنا بمراجعة الأدبيات لإيجاد تقنيات استرجاع المعلومات المناسبة للمجال الصحي. ناقش أيضًا تقنيات البرمجة اللغوية العصبية التي أثبتت قدرتها على استخراج المعلومات القيمة في البيانات غير المنظمة من السجلات الصحية الإلكترونية. تعد LSI واحدة من أفضل تقنيات البرمجة اللغوية العصبية المستخدمة للبحث في النص الحر ، نظرًا لقدرتها على العثور على المصطلحات الدلالية ونتائج البحث الغنية من خلال العثور على العلاقات المخفية بين المصطلحات. يستخدم LSI نموذجًا رياضيًا يسمى SVD وهو غير قابل للتوسع لبيانات كمية كبيرة ، نظرًا لتعقيده واستنفاد الذاكرة ، كما تمت مناقشة مراجعة التطبيق الأخير لـ LSI. عالجت العديد من الأبحاث هذه المشكلة واقترحت حلولاً تعتمد على توزيع البيانات على عدة أجهزة ، ولكن بهذه الطريقة تؤثر على دقة النظام ، لأن فصل البيانات سيفقد جزءًا من علاقاته . في هذا البحث ، نقوم بتحسين منهجية استرجاع المعلومات الموازية للسجلات الصحية الإلكترونية التي تقوم بتحليل ومعالجة البيانات غير المهيكلة من مجموعة بيانات طبية حقيقية مثل مجموعة بيانات EMRBOTs ، وتستخدم Apache Spark لحل مشكلة LSI فيما يتعلق بحجم البيانات لأنها تستخدم محرك تحليلات سريع للغاية مما يجعلها مناسبة في أطر المعالجة المتوازية وفي منصات تحليل البيانات الكبيرة على نطاق واسع. تحتوي المعالجة المسبقة على حذف كلمات الإيقاف وتحديد قائمة المصطلحات المميزة ، ثم يكون TDM جاهزًا للبناء ، وبعد ذلك سيتم استخدام الشرارة لتوزيع TDM بين جميع المعالجات في الكتلة ، وسيتم تعيين TDM كصف مصفوفة بتنسيق RDD ، وهي عبارة عن تجريد موزع للذاكرة لإجراء عمليات حسابية في الذاكرة على مجموعات كبيرة بطريقة تتسامح مع الأخطاء ، ويمكن مشاركتها ورؤيتها بواسطة جميع المعالجات. إنه جزء مهم ومهم للغاية من Apache Spark. ثم يمكن لكل معالج تطبيق عملية SVD على جزء من RDD المشترك الذي يحتوي على وظيفة تصغير متعددة لجمع البيانات من جميع المعالجات. سيؤدي ذلك إلى زيادة دقة النظام ، لأننا لا نفقد أي جزء من علاقات البيانات. تم اختيار العديد من مقاييس الأداء لتقييم التقنية المقترحة مثل الدقة والتذكر والقياس ومتوسط الدقة (MAP). كما تمت مقارنة التقنية المقترحة بتقنية LSI الموزعة التي اقترحها (القحطاني وآخرون ، 2015 ب). كما أن النتائج المترتبة على العمل المقترح أفضل بكثير من LSI الموزع الذي اقترحه (القحطاني وآخرون ، 2015 ب). أظهرت النتائج أن دقة للعمل المقترح أعلى من 98.5? لجميع الاستعلامات المختارة. أيضًا ، نتائج دقة R للعمل المقترح أفضل بكثير من LSI الموزع، نظرًا لفقدان جزء لعلاقة البيانات أثناء حساب .SVD
الملخص بالانجليزي
Information retrieval is associated with the extraction of important resources from large data collections or information store. It has become a topic of special interest because of the great potential that is hidden in it. Electronic Health Records (EHRs) have been adopted in most hospitals and clinics. The amount of data found in these records give rich information about diseases and historical medical information that could be used for better understanding and treatment of many medical cases. Searching inside these records is a challenge to traditional information retrieval techniques, due to the non-standard structure and the use of free text in these records. This research is motivated by the fact that EHRs contain much valuable information that could be very useful in medical diagnosis and other related fields. In this thesis, we review the literature to find suitable information retrieval techniques for EHealth. Also discussed NLP techniques that have been proved their capability to extract valuable information in unstructured data from EHR. One of the best NLP techniques used for searching free text is LSI, due to its capability of finding semantic terms and in rich the search results by finding the hidden relations between terms. LSI uses a mathematical model called SVD which is not scalable for large amounts of data, due to its complexity and exhausts the memory, and also a review for recent applications of LSI were discussed. Many types of research address this problem and proposed solutions that are based on distributed computing witch it divides one task between several machines to achieve a common goal. Thus, memory systems are divided among the processors. Each machine can communicate with others via the network, but this way affects the accuracy of the system because separating the data will lose part of its relations. In this research, we use parallel computing which is a type of computation in which many calculations the execution of processes is carried out simultaneously in a single machine which has multiple processors execute multiple tasks at the same time and have shared memory communicate with each other using a bus. That will increase the accuracy of the system because we do not lose any part of data relations. We enhance a parallel information retrieval methodology on LSI technique for EHR that analysis and process unstructured data from real medical dataset such as EMRBOTs dataset using Apache Spark to solve the LSI problem regarding the size of the data because it uses very fast analytics engine that makes it suitable in parallel processing frameworks and in large scale big data analytics platforms. The pre-processing contains the stop words elimination and identifying the distinct term list, then the TDM will be ready to build, after that the spark will be used to distribute the TDM between all the processors in the cluster, the TDM will be mapped as a row matrix in RDD format, which is distributed memory abstraction for performing in-memory computations on large clusters in a fault-tolerant manner, that can be shared and seen by all processors. It is a very crucial and important part of Apache Spark. Then each processor can apply SVD operation on a part of the shared RDD that contains multiple reduce functions to collect data from all processors. That will increase the accuracy of the system because we do not lose any part of data relations. Several performance measures have been used for evaluation of the proposed technique as precision, recall, accuracy, f-measure, Mean Average Precision (MAP), R-precision, and R-accuracy. Also, the enhanced parallel LSI technique has been compared with the distributed LSI technique proposed by (Alqahtani, et al., 2015b). Also, the fall-out results for the proposed work are much better than the distributed LSI proposed by (Alqahtani, et al., 2015b). The results show that the R-accuracy for the proposed work is higher than 98.5% for all selected queries. Also, the R-accuracy results for the proposed work are much better than the distributed LSI, since the distributed LSI loses part of the relation of the data during the SVD calculation
رقم ISN
6538
للحصول على الرسالة كملف يرجى تزويد المكتبة برقم ISN