new5 free

ارائه چارچوبی جهت کشف الگوهای پزشکی و ایجاد یک سیستم تشخیص

59.000تومان

توضیحات

دانشکده فنی ومهندسی
پایان نامه دوره کارشناسی ارشد مهندسی فناوری اطلاعات (IT)

عنوان:
استفاده از داده کاوی برای ارائه چارچوبی جهت کشف الگوهای پزشکی و ایجاد یک سیستم تشخیص، تصمیم و تجویز، مطالعه موردی: بیمارستان تخصصی کودکان حضرت فاطمه معصومه (س)

چکیده
بیماری تنفسی که عموما در ارتباط با بیماری ریوی است، شامل گروهی از بیماری ها هستند که از طریق درگیر کردن بخش یا قسمت هایی از دستگاه تنفس باعث اختلال در عملکرد ریه ها می گردند. ریه ها مهم ترین قسمت دستگاه تنفسی هستند که در عمل تبادل گازهای تنفسی جهت تامین اکسیژن بافت های مختلف بدن و دفع دی اکسیدکربن نقش دارند. بیماری های ریوی در هر سال بسیاری از افراد جامعه را مبتلا می کنند که باعث کاهش سطح عملکرد فرد در فعالیت های روزمره می گردند. بیماری های دستگاه تنفسی در انگلستان شایع ترین عامل مراجعه به پزشکان عمومی است. میزان اختلال در عملکرد تنفس در یک بیماری ریوی به نوع بیماری و وسعت آسیب وارده بستگی دارد. بیماری های ریوی می توانند عفونت دستگاه تنفسی فوقانی، پنومونی و یا بیماری مزمن انسدادی ریه باشند. بیماری های ریوی یکی از عوامل مهم مرگ و میر افراد در سراسر جهان هستند. فاکتور اصلی ما در این روند، تشخیص سریع و صحیح این بیماری ها در همان ابتدای روزهای بستری است. تکنیک های داده کاوی می توانند دانش نهفته در پایگاه های داده را استخراج و در پیش گیری، تشخیص و معالجه ی این بیماری ها به پزشک و بیمار کمک کنند. در این تحقیق، با مقایسه ی سیستم های رده بندی متفاوت و مقایسه ی روش-های یادگیری داده های نامتوازن با الگوریتم پایه، در نهایت، سیستم رده بندی ارائه شده که می-تواند در تشخیص انواع بیماری های تنفسی به پزشکان کمک کند. سرانجام، به شناسایی عوامل موثر در بروز بیماری های تنفسی پرداخته شده است.

کلمات کلیدی: داده کاوی پزشکی، رده بندی، تشخیص بیماری های تنفسی، مجموعه داده های نامتوازن.

فهرست مطالب
عنوان صفحه
فصل1: مقدمه….1
1-1. موضوع تحقیق……..2
1-2. اهمیت و ضرورت تحقیق….3
1-3. قلمرو تحقیق………..4
1-4. فرضیه های تحقیق……………4
1-5. سوالات تحقیق…….5
1-6. اهداف و کاربردهای تحقیق…………5
1-7. نوآوری در تحقیق…………..6
1-7-1. موضوع و داده های استفاده شده در تحقیق…..6
1-7-2. براساس مطالعه ادبیات و نحوه ارائه مطالب…..6
1-8.. محدودیت های تحقیق……..6
1-9. ساختار پایان-نامه……7
فصل2: ادبیات تحقیق…..8
2-1. مقدمه………9
2-2. داده-کاوی……………9
2-2-1. مفهوم داده-کاوی…….9
2-2-2. مراحل داده-کاوی….10
2-2-3. پیش-پردازش………..10
2-2-3-1. پاک سازی داده………11
2-2-3-2. یکپارچه سازی داده….11
2-2-3-3. تبدیل داده…..11
2-2-3-4. کاهش داده……………12
2-2-3-5. تصویرکردن برای کاهش بعد…………12
2-2-4. داده-کاوی……………13
2-2-5. پس-پردازش…………14
2-2-6. کاربردهای داده-کاوی………14
2-3. داده کاوی در پزشکی…….14
2-4. بیماری تنفسی…….16
2-4-1. عفونت دستگاه تنفسی فوقانی……….17
2-4-2. پنومونی……17
2-4-3. بیماری مزمن انسدادی ریه……………18
2-5. الگوریتم های رده-بندی……18
2-5-1. درخت تصمیم……..19
2-5-1-1. CHAID….20
2-5-1-2. ID3…………20
2-5-1-3. C5.0………..21
2-5-2. ماشین بردار پشتیبان………….21
2-5-3. شبکه ی عصبی……..24
2-5-4. Bagging………….25
2-5-5. AdaBoost………27
2-6. پیشینه ی تحقیقات در بیماری های تنفسی….30
فصل3: داده های نامتوازن………32
3-1. مقدمه…….33
3-2. روش های یادگیری در داده های نامتوازن……………33
3-2-1. نمونه-برداری…………33
3-2-1-1. بیش نمونه برداری تصادفی……34
3-2-1-2. زیرنمونه برداری تصادفی……..34
3-2-1-3. نمونه برداری آگاهانه………….34
3-2-1-3-1. EasyEnsemble….35
3-2-1-3-2. ModifiedBagging……….36
3-2-1-4. ترکیب نمونه برداری و تولید داده…….37
3-2-2. روش های حساس به هزینه……………39
3-3. معیارهای ارزیابی رده بند در داده های نامتوازن…….41
3-4. معیارهای ارزیابی رده بند در داده های نامتوازن و چند رده-ای……….44
3-4-1. میانگین گیری میکرو………..46
3-4-2. میانگین گیری ماکرو…………46
فصل4: پیش پردازش داده-ها…..47
4-1. مقدمه…….48
4-2. جمع آوری داده-ها………….48
4-3. ویژگی های داده-ها…………48
4-4. نحوه توزیع داده ها براساس ویژگی-ها……..51
4-4-1. نوع بیماری تنفسی……………51
4-4-2. سن………….52
4-5. پیش پردازش های انجام شده……….53
4-5-1. حذف ویژگی های اضافی….53
4-5-2. حذف یا اصلاح رکورد…….53
4-5-3. یکپارچه سازی داده………….54
4-5-4. تبدیل مقادیر ویژگی………..55
4-5-4-1. تفسیر آزمایش های انجام شده روی بیماران….55
4-5-4-2. WBC (White Blood Cell)……………56
4-5-4-3. چه چیزهایی باعث کاهش WBC می-شود؟…………..56
4-5-4-4. چه چیزهایی باعث افزایش WBC می-شود؟…………..56
4-5-4-5. جدول گسسته سازی WBC…………..57
4-5-4-6. RBC(Red Blood Cell)………57
4-5-4-7. چه چیزهایی باعث کاهش RBC می-شود؟……………57
4-5-4-8. چه چیزهایی باعث افزایش RBC می-شود؟……………58
4-5-4-9. جدول گسسته سازی RBC……………58
4-5-4-10. Hb (Hemoglobin)…..58
4-5-4-11. چه چیزهایی باعث کاهش هموگلوبین می-شود؟…….59
4-5-4-12. چه چیزهایی باعث افزایش هموگلوبین می-شود؟……59
4-5-4-13. جدول گسسته سازی هموگلوبین……59
4-5-4-14. HCT (Hematocrit)….59
4-5-4-15. چه چیزهایی باعث کاهش HCT می-شود؟………….60
4-5-4-16. چه چیزهایی باعث افزایش HCT می-شود؟………….60
4-5-4-17. جدول گسسته سازی HCT………….60
4-5-4-18. Plt یا پلاکت-ها……60
4-5-4-19. چه چیزهایی پلاکت را کاهش می-دهد؟……61
4-5-4-20. چه چیزهایی پلاکت را افزایش می-دهد؟……61
4-5-4-21. جدول گسسته سازی پلاکت…………61
4-5-4-22. اجزای دیگر آزمایش خون…………..61
4-5-4-23. جدول گسسته سازی MCV، MCH و MCHC…………..62
4-5-4-24. CRP (C-Reactive Protein)…………63
4-5-4-25. در چه شرایطی CRP افزایش پیدا می-کند؟………….63
4-5-4-26. در چه شرایطی CRP کاهش پیدا می-کند؟………….63
4-5-4-27. جدول گسسته سازی CRP………….63
4-5-4-28. ESR (Erythrocyte Sedimentation Rate)………64
4-5-4-29. جدول گسسته سازی ESR…………..64
4-5-4-30. جدول گسسته سازی BS (Blood Suger)……….64
4-5-5. ویژگی داده ها پس از پیش پردازش نهایی…..64
4-6 نمونه-برداری……….67
فصل5: نتایج و یافته های تحقیق…………69
5-1. مقدمه…….70
5-2. رده-بندی……………70
5-2-1. مقایسه ی الگوریتم های پایه…………..70
5-2-2. مقایسه ی روش های یادگیری در داده های نامتوازن……………74
فصل6: نتیجه گیری و پیشنهادات………..79
6-1. مقدمه…….80
6-2. نتیجه-گیری………..80
6-3. پیشنهادها…………..82
6-3-1. مجموعه ی داده…….82
6-3-2. داده-کاوی……………82
مراجع………….83
پیوست الف: واژه نامه انگلیسی به فارسی………. 92

فهرست جدول ها
عنوان صفحه
جدول3-1: ماتریس اغتشاش برای مسائل دودویی……..41
جدول3-2: ماتریس اغتشاش برای مسائل چند رده-ای……………44
جدول4-1: ویژگی های موجود در مجموعه داده اولیه…………..49
جدول4-2: اسامی ویژگی ها پس از برخی از مراحل پیش-پردازش………54
جدول4-3: رده بندی فیلد سن به گروه سنی……55
جدول 4-4: رده بندی فیلد آزمایش WBC…..57
جدول 4-5: رده بندی فیلد آزمایش RBC…….58
جدول 4-6: رده بندی فیلد آزمایش Hb………..59
جدول 4-7: رده بندی فیلد آزمایش HCT…….60
جدول 4-8: رده بندی فیلد آزمایش PLT……..61
جدول 4-9: رده بندی فیلد آزمایش MCV…..62
جدول 4-10: رده بندی فیلد آزمایش MCH……………62
جدول 4-11: رده بندی فیلد آزمایش MCHC………..62
جدول 4-12: رده بندی فیلد آزمایش CRP…..63
جدول 4-13: رده بندی فیلد آزمایش ESR…..64
جدول 4-14: رده بندی فیلد آزمایش BS……..64
جدول4-15: ویژگی های مجموعه داده ثانویه پس از پیش پردازش نهایی………..65

فهرست شکل ها
عنوان صفحه
شکل2-1: نمونه ای از یک درخت تصمیم……..19
شکل2-2: یک مجموعه ی آموزش دوبعدی که داده های آن به صورت خطی قابل جداسازی است……………22
شکل2-3: دو خط جداساز با حاشیه های مختلف……….23
شکل2-4: افزایش صحت مدل با استفاده از Bagging………..25
شکل2-5: شبه کد الگوریتم Bagging………..26
شکل2-6: شبه کد الگوریتم AdaBoost……..28
شکل3-1: شبه کد الگوریتم EasyEnsemble……….36
شکل3-2: شبه کد الگوریتم ModifiedBagging……………37
شکل3-3: (a) kتا از نزدیک ترین همسایه های xi با فرض k=6
(b) تولید داده براساس فاصله ی اقلیدسی……38
شکل3-4: ماتریس هزینه ی چندرده-ای………….40
شکل4-1: توزیع داده ها براساس نوع بیماری تنفسی……52
شکل4-2: توزیع داده ها براساس سن….52
شکل4-3: نمونه برداری طبقه بندی شده…………68
شکل5-1: مقایسه ی الگوریتم های پایه (حاصل اعمال مدل روی مجموعه ی آزمون)……71
شکل5-2: مقایسه ی کارایی الگوریتم ها در تشخیص رده های مختلف……………72
شکل5-3: مقایسه ی الگوریتم های پایه (حاصل اعمال مدل روی مجموعه ی آموزش)….73
شکل5-4: مقایسه ی نتایج حاصل از روش های یادگیری در داده های نامتوازن روی مجموعه ی آزمون………….75
شکل5-5: مقایسه ی حساسیت روش های یادگیری در داده های نامتوازن روی مجموعه ی آزمون به تفکیک رده-ها……….76
شکل5-6: مقایسه ی دقت روش های یادگیری در داده های نامتوازن روی مجموعه ی آزمون به تفکیک رده-ها…………76
شکل5-7: مقایسه ی معیارF روش های یادگیری در داده های نامتوازن روی مجموعه ی آزمون به تفکیک رده-ها………….78

فهرست نشانه ها و اختصارها (Abreviations)

World Health Organization (WHO)
Magnetic Resonance Imaging (MRI)
Customer Relationship Management (CRM)
Chi-squared Automatic Interaction Detector (CHAID)
Iterative Dichotomiser3 (ID3)
Traditional Chinese Medicine (TCM)
Synthetic Minority Oversampling Technique (SMOTE)
White Blood Cell (WBC)
Red Blood Cell (RBC)
Hemoglobin (Hb)
Mean Corpuscular Volume (MCV)
Mean Corpuscular Hemoglobin (MCH)
Mean Corpuscular Hemoglobin Concentration (MCHC)
C-Reactive Protein (CRP)
Erytherocyte Sedimentation Rate (ESR)

فصل1: مقدمه

1-1. موضوع تحقیق
بیماری تنفسی که عموما در ارتباط با بیماری ریوی است، شامل گروهی از بیماری ها هستند که از طریق درگیر کردن بخش یا قسمت هایی از دستگاه تنفس باعث اختلال در عملکرد ریه ها می گردند. ریه ها مهم ترین قسمت دستگاه تنفسی هستند که در عمل تبادل گازهای تنفسی جهت تامین اکسیژن بافت های مختلف بدن و دفع دی اکسیدکربن نقش دارند. بیماری های ریوی در هر سال بسیاری از افراد جامعه را مبتلا می کنند که باعث کاهش سطح عملکرد فرد در فعالیت های روزمره می گردند. بیماری های دستگاه تنفسی در انگلستان شایع ترین عامل مراجعه به پزشکان عمومی است[1]. میزان اختلال در عملکرد تنفس در یک بیماری ریوی به نوع بیماری و وسعت آسیب وارده بستگی دارد. بیماری های ریوی می توانند عفونت دستگاه تنفسی فوقانی ، پنومونی و یا بیماری مزمن انسدادی ریه باشند.
بیماری های مزمن تنفسی از 10 مورد بیماری های تهدید کننده حیات در جهان هستند . مطابق آمار سازمان بهداشت جهانی ، صدها میلیون نفر از جمعیت جهان از بیماری های مزمن تنفسی رنج می برند. پیش بینی می شود تا سال 2030 میلادی به سومین عامل مرگ و میر در جهان بعد از بیماری های قلبی و عروقی و سرطان ها تبدیل گردد[1]. فاکتور اصلی ما در این روند، تشخیص سریع و صحیح این بیماری در همان ابتدای روزهای بستری است.
تکنیک های داده کاوی علاوه بر این که می توانند در تشخیص سریع این بیماری ها موثر باشند، می توانند از طریق شناسایی عوامل موثر در بروز انواع بیماری های تنفسی، به پیش گیری از این بیماری ها کمک کنند و به این ترتیب باعث ارتقای سلامت جامعه شده و از تحمیل هزینه های سنگین ناشی از تشخیص نادرست، بر بیماران جلوگیری کنند.

1-2. اهمیت و ضرورت تحقیق
بیماری های مزمن تنفسی از 10 مورد بیماری های تهدید کننده حیات در جهان هستند و پیش بینی می شود تا سال 2030 میلادی به سومین عامل مرگ و میر در جهان بعد از بیماری های قلبی و عروقی و سرطان ها تبدیل گردد. گرچه، گسترش تکنولوژی های پزشکی در دهه گذشته، موجب کاهش میزان مرگ ومیر ناشی از این بیماری شده است و به دلیل تشخیص زودهنگام و درمان بهینه، میزان بهبودی افزایش یافته است. اما میزان بهبودی بیماران در این نوع بیماری ها بستگی به نوع بیماری و وسعت آسیب وارده به دستگاه تنفسی دارد . تشخیص زودهنگام نیز به یک روش تشخیص صحیح و قابل اعتماد نیاز دارد که به پزشکان اجازه می دهد که عفونت دستگاه تنفسی فوقانی، پنومونی و بیماری مزمن انسدادی ریه را از هم شناسایی کنند. بنابراین یافتن یک متد تشخیص صحیح و موثر و همچنین عوامل خطر در بروز این بیماری، بسیار بااهمیت است.
مشکلی که در این بیماری وجود دارد این است که در ابتدا ممکن است یک سرماخوردگی یا آنفولانزای ساده به نظر آید. گاهی حتی به مدت زمان طولانی بیمار از این بیماری رنج می برد. بدیهی است که در این مدت بیماری پیشرفت کرده و این تاخیر در تشخیص نوع بیماری، روند درمان را با مشکل مواجه خواهد کرد تا جایی که حتی ممکن است به مرگ بیمار منجر شود. بنابراین نیاز است تا از روش های پیشرفته تری برای تشخیص زودهنگام این نوع بیماری های تنفسی استفاده شود. روش های رایج برای تشخیص زودهنگام بیماری های تنفسی عبارتند از: تست های آزمایشگاهی، رادیوگرافی قفسه سینه، اسکن هسته ای ریه، ام آر-آی ، آسپیراسیون سوزنی از طریق دیواره قفسه سینه. این روش ها علاوه بر هزینه ی بالایی که بر بیمار تحمیل می کنند، ممکن است مضراتی را برای بیمار در پی داشته باشند. به عنوان مثال: ام آر آی پرهزینه و کار با آن مشکل است. موجب مشکلات برای بیماران که دارای اجسام فلزی در بدن خود می باشند، می شود. در ضمن بیمار در حین انجام ام آرآی باید بی حرکت بوده و حرکات غیرقابل پیش گیری، مانند تنفس ضربان قلب اغلب تصویر را مخدوش می سازد. همچنین برای بیمارانی که مشکلات تنفسی و کسانی که از محیط های بسته می ترسند، عبور از تونل تنگ دستگاه ام آی آر توصیه نمی شود.
این در حالی است که امروزه استفاده از سیستم های رده بندی ، می توانند به کاهش خطایی که ممکن است توسط کارشناسان کم تجربه اتفاق بیفتد، کمک کنند و همچنین امکان بررسی داده های پزشکی را در زمان کوتاه تر و با جزئیات بیش تر فراهم می کنند. تکنیک های داده کاوی می توانند دانش نهفته در پایگاه های داده را استخراج و در پیش گیری، تشخیص و معالجه ی این بیماری به پزشک و بیمار کمک کنند.

1-3. قلمرو تحقیق
قلمرو مکانی: این داده ها مربوط به بیمارستان تخصصی کودکان حضرت فاطمه معصومه (س) استان قم می باشد.
قلمرو زمانی: داده ها بین سال های 90 و 92 می باشد؛ یعنی قلمرو زمانی تحقیق به مدت 3 سال می باشد.

1-4. فرضیه های تحقیق
فرضیه های تحقیق، شامل موارد زیر هستند:
• جنس بیمار در بروز نوع بیماری تنفسی موثر است.
• سن بیمار در بروز نوع بیماری تنفسی موثر است.
• عفونت بیمار در بروز نوع بیماری تنفسی موثر است.
• التهابات حاد بیمار در بروز نوع بیماری تنفسی موثر است.
• کم خونی بیمار در بروز نوع بیماری تنفسی موثر است.
• دیابت بیمار در بروز نوع بیماری تنفسی موثر است.
• بخش بستری بیمار در بروز نوع بیماری تنفسی موثر است.
1-5. سوالات تحقیق
سوالی که در این تحقیق قصد داریم به آن پاسخ دهیم، این است که آیا داده کاوی می-تواند به کشف الگوهای پنهان در بیماری های تنفسی کودکان بپردازد؟
اگر پاسخ این سوال مثبت است، چه اطلاعاتی در تشخیص این بیماری به پزشکان خواهد داد؟
آیا می توان با استفاده از روش های داده کاوی، عوامل موثر در بروز نوع بیماری تنفسی را شناسایی کرد؟ اگر این کار ممکن است، عوامل موثر در بروز نوع بیماری تنفسی کدامند؟
آیا می توان بر اساس این داده ها، یک سیستم رده بندی برای تشخیص بیماری تنفسی ارائه داد؟ آیا سیستم رده بندی ارائه شده، از صحت کافی برخوردار است؟

1-6. اهداف و کاربردهای تحقیق
مجموعه ی داده ی مورد استفاده در این تحقیق، شامل اطلاعات افرادی است، که دارای عفونت دستگاه تنفسی فوقانی، پنومونی و بیماری مزمن انسدادی ریه می باشند. در این تحقیق، مدلی برای تشخیص نوع بیماری ارائه شده است که برمبنای آن می توان تشخیص داد که فرد بیمار به کدام یک از دسته های عفونت دستگاه تنفسی فوقانی، پنومونی و بیماری مزمن انسدادی ریه تعلق دارد. به این ترتیب، سیستم ارائه شده می تواند در تشخیص بیماری به پزشک و بیمار کمک کند.
همچنین در این تحقیق به بررسی ارتباطات موجود در مجموعه داده پرداخته شده و برخی از عوامل موثر در بروز این بیماری ها شناسایی شده است. با شناسایی عوامل موثر در بروز بیماری های تنفسی، می توان با اطلاع رسانی صحیح به افراد جامعه، تا حدود زیادی از ابتلا به این بیماری ها پیش گیری کرد.

1-7. نوآوری در تحقیق
1-7-1. موضوع و داده های استفاده شده در تحقیق
تاکنون هیچ گونه مطالعه و تحقیقی در زمینه داده کاوی و بیماری های تنفسی کودکان در ایران صورت نگرفته است. به عبارتی دیگر می توان گفت یک تحقیق منحصربه فرد در زمینه ی بیماری های تنفسی است که در نوع خود کم نظیر است.

1-7-2. بر اساس مطالعه ادبیات و نحوه ارائه مطالب
پیش از انجام داده کاوی در این زمینه با برگزاری جلسات مشترک با متخصصین پزشکی مقرر گردید متغیرهایی انتخاب شوند که مقادیر آن ها تا حد امکان دقیق باشد، به عبارت دیگر حاصل آزمایش باشند نه بیان شده توسط خود بیمار و متغیرهایی که دارای مقادیر غیر آزمایشگاهی بودند با نظر آن ها از مجموعه متغیرهای مورد بررسی خارج گردید. به عبارتی تمامی مطالب درج شده در این تحقیق به صورت یکپارچه در هیچ منبعی یافت نشده و آن چه در این تحقیق گردآوری شده به صورت مجزا از دو بخش آزمایشگاهی و داده کاوی به دست آمده است.