در طول سالهای متمادی قابلیت های فنی در تولید و گردآوری داده ها پیشرفت قابل توجهی کرده است و حجم زیاد داده ها باعث شده بشر نیازمند استفاده از ابزار و تکنولوژی خاصی برای بررسی و تحلیل این داده های بزرگ گردد.
عصر حاضر را عصر داده محور می نامند و داده های هر مرکز و ارگان رابه اصطلاح طلای جدید new gold نام گذاری می کنند. در کنار سرمایه و نیروی انسانی و سیاست های مدیریتی، حجم داده های هر مرکز، سرمایه ای مهم و ارزشمند برای پیشرفت آن است.
Data mining یکی از ابزارهای در دسترس برای آنالیز داده است. پروسه داده کاوی متفاوت از روش های مرسوم تجزیه و تحلیل داده و اطلاعات و سیستم های تصمیم گیری معمولی است، تفاوت داده کاوی با روش های آماری، این است که در آمار ما به دنبال اثبات فرضیه مورد نظر هستیم اما درداده کاوی بر خلاف آمار به دنبال پیشگویی هستیم نه اثبات، بدین معنی که روشهای داده کاوی به دنبال تایید آنچه که از قبل وجود دارند نیستند بلکه به دنبال مشخص کردن الگوهای از قبل شناسایی نشده هستند.
اصطلاح داده کاوی Data mining به معنی استخراج اطلاعات نهفته و یا الگوها و روابط مشخص در انبوهی از داده هاست. داده کاوی را یک علم بین رشته ای می نامند چرا که بر پایه سه علم 1.آمار 2. هوش مصنوعی 3.یادگیری ماشین استوار است.
امروزه از آنالیز داده ها در مدیریت پروژه، ارتباطات، بیمه، تحصیلات، بانکداری، صنعت، مارکتینگ، شبکه های اجتماعی، پزشکی و...استفاده می شود. به طورمثال در فروشگاهی به منظور دست یابی به الگوی فروش در ماه های گذشته آنالیز داده صورت میگیرد.
از نتایج حاصله میتوان در بهینه سازی سبد محصول، شناخت مشتریان وفادارو قدیمی، بررسی طول عمر مشتری، شناخت رفتار مشتری، بررسی عملکرد برنامه بازاریابی، کشف الگو و روند ، پیش بینی فروش و..استفاده کرد.
شبکه های اجتماعی به طور ویژه متکی بر آنالیز داده های حاصل از فعالیت کاربران هستند و از الگوهای حاصل برای طراحی استراتژی های خود یا معرفی برنامه های جدید استفاده می کنند؛ به طوریکه شرکت های بزرگ در شبکه های اجتماعی سالانه درآمد زیادی از فروش آنالیز داده های خود به دست می آورند.
حوزه پزشکی و سلامت از بخش های مهم در جوامع صنعتی است. استخراج دانایی از میان حجم انبوه داده های مرتبط با سوابق بیماری و پرونده های پزشکی افراد با استفاده از فرایند داده کاوی می تواند منجر به شناسایی قوانین حاکم بر ایجاد، رشد و تسریع بیماری ها شده و اطلاعات ارزشمندی را به منظور شناسایی علل رخداد بیماری ها، تشخیص، پیش بینی و درمان بیماری ها با توجه به عوامل محیطی حاکم در اختیار متخصصان و دستنکاران حوزه سلامت قرار می دهد.
نتیجه این مسأله افزایش عمر و ایجاد آرامش برای افراد جامعه است. امروزه در حوزه پزشکی ، جمع آوری داده ها در مورد بیماری های مختلف از اهمیت زیادی برخوردار است.
از مهمترین زمینـه هـای کـاربـردی داده، استخـراج قـواعـد طبقـه بنـدی در حیطـه علـم پـزشکی است. با به کارگیری الگوریتم های داده کاوی می توان سیستم های هوشمندی ابداع کرد که به شکل خودکار و بدون نیاز به نظارت پزشک و یا در همراهی با پزشک، قادر به فهم و تفسیر ویژگی های پزشکی افراد باشند یا اطلاعات مفیدی را کشف کنند که متخصصان را در قضاوت صحیح یاری رساند.
در مقالات داده کاوی تا کنون مجموعه بسیار متنوعی از روش ها ارایه شده است که هر یک دارای نقاط ضعف و قدرت به خصوصی بوده که عملکرد آن بسته به نوع داده و شرایط حاکم بر مساله متفاوت است، بنابراین نمی تواند به تنهایی بهترین روش تلقی شود. این روش ها توانسته اند داده های مربوط به بیماران مبتلا به سرطان را با دقت بالای 99% به درستی طبقه بندی کنند.
1. تشخیص و پیش بینی انواع بیماری ها مثل سرطان
2. تعیین روش درمان
3. پیش بینی میزان موفقیت در اقدامان پزشکی
4. تجزیه و تحلیل داده های سیستم اطلاعات سلامت(HIS)
5. تحلیل عکس های پزشکی و تهیه الگوریتم تشخیصی
با پیشرفتهای اخیر در فناوری اطلاعات، توجه به مطالعات دادههای بزرگ در دنیای واقعی (RWBDSs) افزایش یافته است. در حوزه پزشکی، دادههای آزمایشگاه بالینی بخش مهمی از داده های با دامنه وسیع را تشکیل می دهند.
داده ها، و استفاده استاندارد از آنها برای تولید شواهد با کیفیت ضروری است و برای بهبود عملکرد و رقابت پذیری آزمایشگاه های بالینی و همچنین ارایه خدمات پزشکی با کیفیت برای بیماران، ایجاد یک مدل تجزیه و تحلیل اطلاعات و اجرای متد های آنالیزی ضروری است.
1. تعیین محدوده مرجع بالینی
2. کنترل کیفیت زمان واقعی مبتنی بر داده های بیمار
3. مدل سازی تشخیصی یا پیش آگهی
4. بررسی اپیدمیولوژیک
5. مدیریت آزمایشگاهی
6. تجزیه و تحلیل منابع تغییرات برای آنالیت ها
7. ارزیابی کیفیت خارجی
در 31 آگوست 2017، سازمان غذا و داروی ایالات متحده (FDA) بیانیه استفاده از مستندات واقعی برای حمایت از تصمیمگیریهای نظارتی برای دستگاههای پزشکی را صادر کرد.این سند شاهدی از مطالعات داده های بزرگ است که می تواند برای حمایت از تصمیمات مربوط به تایید دستگاه های پزشکی استفاده شود.
در حال حاضر، تعدادی از مسایل وجود دارد که باید در مدیریت کیفیت و استانداردسازی در آزمایشگاه پزشکی مورد توجه قرار گیرد؛ این مسایل شامل موارد زیر هستند:
1. ایجاد فواصل مرجع خاص (RIs)
2. بهبود و توسعه روش های کنترل کیفیت
3. تجزیه و تحلیل منابع تغییرات در آنالیت ها
4. بهبود کارایی تأیید خودکار نتایج
5. ایجاد تشخیص بیماری یا مدل پیش آگهی و مدیریت آزمایشگاهی
با استخراج داده های بزرگ دنیای واقعی در آزمایشگاه های بالینی، می توان راه حل هایی برای این مسایل ارایه کرد و امکان کاهش موثر هزینه های مطالعاتی وجود دارد. مهمتر از آن، می تواند ارایه مبنای نظری برای ساخت یک آزمایشگاه بالینی هوشمند، و در نهایت ترویج توسعه آزمایشگاهی پزشکی باشد.
پیشرفتها در اتوماسیون آزمایشگاه بالینی و تولید داده، باعث راحتی در آنالیز داده در محیط آزمایشگاه گشته است، بااین حال، ناهمگونی در یکپارچگی و امنیت داده ها حتما باید در استخراج و تجزیه و تحلیل اطلاعات آزمایشگاهی بالینی در نظر گرفته شود. چهار چالش اصلی برای آنالیز داده های آزمایشگاه ها وجود دارد:
اول، ساختار منطقی داده ها به دلیل طراحی های مختلف پایگاه داده ای که در ساخت سیستم های اطلاعاتی استفاده می شود، مشخص نیست.
دوم، فقدان قوانین و روش های استاندارد در داده کاوی منجر به مسایل مربوط به قابلیت اطمینان و اعتبار در مدل های داده و نتایج تحقیقات می شود.
سوم، به دلیل کمبود منابع داده، بی توجهی به ساخت اطلاعات، تقاضای محدود خدمات و ناقص بودن سیستم های مبتنی بر دانش، توجه به استفاده از شواهد حاصل از مطالعات برای هدایت تصمیم گیری بالینی ناچیز است.
نهایتا، ارتباط بین اطلاعات بالینی و نتایج آزمایشگاهی برای استخراج موثر بالینی کافی نیست. با پیشرفت های اخیر در روش های تحلیل و مدل سازی داده ها و سهولت در کسب مقادیر زیادی از داده های پزشکی ، بسیاری از RWBDS ها در زمینه پزشکی آزمایشگاهی پدیدار شده اند.
RWBDS ها بر اساس داده های آزمایشگاهی بالینی را می توان شاخه ای از مطالعه دنیای واقعی در نظر گرفت. آنها به طور سیستماتیک حجم عظیمی از داده ها را جمع آوری می کنند. در محیط های بالینی، داده ها را با استفاده از تکنیک های داده کاوی و روش های دیگر تجزیه و تحلیل می کنند و شواهدی را در دنیای واقعی برای پشتیبانی ایجاد می کنند.
اول اینکه هم اقتصادی و هم کاربردی است.
دوم، استفاده از اطلاعات دنیای واقعی، مانند موسسات پزشکی، به عنوان محیط تحقیقاتی، که امکان اجرای تعداد زیادی از پروژه های تحقیقاتی را ندارند، یا انجام آنها از طریق آزمایش های سنتی ناخوشایند است، را امکان پذیر می کند.
سوم، در حالی که نتیجه های حاصل از کارآزماییهای سنتی ممکن است لزوماً برای بیماران واقعی کاربرد نداشته باشد، اعتبار خارجی RWBDS بالاتر است و کاربرد نتایج آن به طور قابل توجهی قوی تر است.
ارزش اقتصادی RWBDS ها به بهترین وجه در زمینه آزمایشگاه های پزشکی دیده می شود. برای مثال، ایجاد RI فاصله های مرجع بر اساس مقادیر زیادی از داده های آزمایشگاهی و مدل کنترل کیفیت real time بر اساس داده های بیمار، میتواند هزینه مدیریت آزمایشگاه را به طور قابل توجهی کاهش دهد.