داده کاوی Data Mining

1397/07/16

داده‌کاوی یا Data Mining به فرآیند کشف و شناسایی اطلاعات عملیاتی در مجموعه‌های‌‌‌‌  بزرگ داده اطلاق می‌شود. در این فرآیند از آنالیزهای ریاضی برای به دست آوردن الگوها و روندهای موجود در داده‌‌ها استفاده می‌شود.

 

 

به دلیل پیچیدگی بیش از حد روابط و یا حجم بالای داده‌ها معمولا نمی‌توان این الگوها را از طریق روش‌‌های قدیمی شناسایی نمود. این الگوها و روندها را می‌توان در قالب یک مدل داده‌کاوی جمع‌آوری و تعریف نمود؛ این الگوها برای سناریوهای خاصی کارایی دارند که از جمله آن می‌توان به موارد زیر اشاره نمود:

  • قواعد انجمنی (Association): الگوهایی که بر اساس آن یک رویداد به دیگری مربوط می‌شود مثلاً خرید قلم به خرید کاغذ.
  • ترتیب (Sequence): الگویی که به تجزیه و تحلیل توالی رویدادها پرداخته و مشخص می‌کند کدام رویداد، رویدادهای دیگری را در پی دارد مثلاً تولد یک نوزاد و خرید پوشک.
  • پیش‌بینی (Prediction): در پیش‌بینی هدف پیش‌بینی یک متغیر پیوسته می‌باشد. مانند پیش‌بینی نرخ ارز یا هزینه‌های درمانی.
  • رده‌بندی یا طبقه‌بندی (Classification): فرایندی برای پیدا کردن مدلی است که رده‌های موجود در داده‌ها را تعریف می‌نماید و متمایز می‌کند، با این هدف که بتوان از این مدل برای پیش‌بینی رده رکوردهایی که برچسب رده آن‌ها (متغیر هدف) ناشناخته می‌باشد، استفاده نمود. در حقیقت در رده‌بندی بر خلاف پیش‌بینی، هدف پیش‌بینی مقدار یک متغیر گسسته‌است. روش‌های مورد استفاده در پیش‌بینی و رده‌بندی عموماً یکسان هستند.
  • خوشه‌بندی (Clustering): گروه‌بندی مجموعه‌ای از اعضاء، رکوردها یا اشیاء به نحوی که اعضای موجود در یک خوشه بیشترین شباهت را به یکدیگر و کمترین شباهت را به اعضای خوشه‌های دیگر داشته باشند.
  • مصورسازی (visualization): مصورسازی داده‌ها یکی از قدرتمندترین و جذابترین روش‌های اکتشاف در داده‌ها می‌باشد.

 

برنامه‌های کاربردی که در زمینه تجزیه و تحلیل اطلاعات به کار می‌روند از امکاناتی چون پرس و جوی ساخت یافته (Structured query) که در بسیاری از بانک‌های اطلاعاتی یافت می‌شود و از ابزارهای تجزیه و تحلیل آماری برخوردارند اما برنامه‌های مربوط به داده کاوی در عین برخورداری از این قابلیت‌ها از نظر نوع با آن‌ها تفاوت دارند.

بسیاری از ابزارهای ساده برای تجزیه و تحلیل داده‌ها روشی بر پایه راستی آزمایی (verification) را به کار می‌برند که در آن فرضیه‌ای بسط داده شده آنگاه داده‌ها برای تأیید یا رد آن بررسی می‌شوند. به‌طور مثال ممکن است این نظریه مطرح شود که فردی که یک چکش خریده حتماً یک بسته میخ هم خواهد خرید. کارایی این روش به میزان خلاقیت کاربر برای ارائه فرضیه‌های متنوع و همچنین ساختار برنامه بکار رفته بستگی دارد.

 

در مقابل در داده کاوی روشهایی برای کشف روابط بکار برده می‌شوند و به کمک الگوریتم‌هایی روابط چند بعدی بین داده‌ها تشخیص داده شده و آنهایی که یکتا (unique) یا رایج هستند شناسایی می‌شوند. به‌طور مثال در یک فروشگاه سخت‌افزار ممکن است بین خرید ابزار توسط مشتریان با تملک خانه شخصی یا نوع خودرو، سن، شغل، میزان درآمد یا فاصله محل اقامت آن‌ها با فروشگاه رابطه‌ای برقرار شود.

برای آشنایی با اقدامات لایف وب در حوزه داده کاوی می‌توانید از طریق راه‌های ارتباطی صفحه تماس با ما با کارشناسان لایف وب ارتباط بگیرید.