نمونه تحلیل کسب و کار با کمک میمزی داده

نمونه تحلیل کسب و کار با کمک میمزی داده

در این مطلب قصد داریم مثال مربوط به ممیزی داده ها رو دنبال کنیم (اطلاعات کامل در مورد داده ها در این بخش وجود دارد). فرض کنید داده های که داریم به صورت زیر است:

فرض داده ها تحلیل کسب و کار

نمونه خروجی های ممیزی داده، موارد زیر است :

  • لیست داده های گمشده (Miss Value) و نا معتبر
  • رنج (Rage) مقادیری که هر یک داده های نامعتبر یا گمشده می توانند داشته باشند
  • مقادیر مانند مقدار کمینه، بیشینه و میانگین داده های ناموجود و نامعتبر
  • تعداد مقادیر یکتایی (unique values) که داده های ناموجود و نامعتبر دارند

 

یکی از خروجی های حاصل از داده های فوق به صورت زیر است (لیست داده های گمشده و تعداد مقادیر یکتا).

لیست داده های گمشده و تعداد مقادیر یکتا

 

خروجی بالا چه چیزی رو به ما میگه؟ (به عبارت دیگه ما از داده های فوق چه استفاده ای رو می تونیم در کسب و کارمون بکنیم) نکات قابل استخراج برای تحلیل کسب و کار از جدول فوق به صورت زیر است.

تحلیل کسب و کار با توجه به داده های گمشده : حدود ۹۰% داده های مربوط به household دارای مقدار گم شده هستند (از روی ستون آخر که اطلاعات مربوطه Miss Value ها نمایش داده است می توان به این عدد رسید) – در نتیجه اگر در تحلیل کسب و کار احتیاج به این داده داشته باشیم نمی توانیم از آن استفاده کنیم چون داده های ارزشمندی نیستند. از دیدگاه تحلیل گر نیز می توانیم این مسئله را این گونه بیان کنیم که، تحلیل گران نباید راهکارهای مبتنی بر این داده را ارائه دهند چون داده های گمشده زیادی وجود دارد و خروجی تحلیل معتبر نخواهد بود.

تحلیل کسب و کار با توجه به تعداد مقادیر یکتا:

داده های مربوط به product type مقدار داد های گم شده کمی دارد اما یک نکته مهم در مورد این داده آن است که ۳۰۰۰ تا مقدار یکتا برای این داده وجود دارد. اگر داده های ما پیوسته بودند مانند میزان حقوق دریافتی، ۳۰۰۰ مقدار یکتا مشکلی نداشت اما اینجا که داده ها، کراکتری هستند مشکل ساز است. (برای آشنایی با انواع داده های این مطلب را مطالعه کنید). فرض کنید ما product type را با P1 تا P3000 نام گزاری کردیم. فرض کنید این اطلاعات مربوط به خروج کالا از انبار است، خوب در این صورت ما به ازای هر خروج از انبار باید مشخص کنیم که کدوم کالا خارج شده و کدوم یکی خارج نشده. یعنی به ازاء هر خروج کالا باید ۳۰۰۰ تا مقدار داده ای yes/no وارد کنیم، به عبارت دیگر در هر قلم داده ای مربوط به خروج کالا از انبار، مقدار yes یعنی آن کالای متناظر با آن از انبار خارج شده است و مقدار no  یعنی کالای متناظر با آن از انبار خارج نشده است.خوب ما چند تا رکورد داده ای داریم، (توی جدول مشخصه ۱۰۰٫۰۰۰ تا) خوب اگر ۱۰۰٫۰۰۰ رو در ۳۰۰۰ ضرب کنیم چه عددی میشه؟. این مکل از اونجا ناشی میشه که ما می خواهیم ساختار باینری رو برای نمایش داده ها استفاده کنیم. در ساختار باینری معمولا حجم داده ها بسیار بالا می رود ولی اطلاعاتی که ارائه می شود بسیار کم است (برای آشنایی با انواع داده های این مطلب را مطالعه کنید). در این گونه مشکلات و راه حل آنها بعدا مفصل صحبت خواهیم کرد.

در صفحه قبلی نمونه های از تحلیل های مربوط به ممیزی داده را مورد بررسی قرار دادیم در این مطلب تعدادی دیگر از تحلیل های حاصل از ممیزی داده رو مورد بررسی قرار می دهیم. یکی دیگر از اطلاعاتی که در گام ممیزی داده استخراج می شود، بررسی توزیع داده ها است. توزیع داده ها کمک میکند تا بتوانیم درک بهتری را از رنج مقادیر که هر یک از داده ها می پذیرند به دست بیاوریم. در شکل زیر نمونه های از این توزیع ها نمایش داده شده است.

نمونه اول: در شکل زیر توزیع آدرس های مربوط به مشتریان مشخص شده است

توزیع آدرس های مربوط به مشتریان

تحلیل کسب و کار : جدول توزیع آدرس های مشتریان

دو اطلاع مهم که از جدول فوق به دست می آید این است که

  • اکثر مشتریان ما در North America و Africa قرار دارند
  • از آنجایی که ۵۰ درصد داده های مربوط به آدرس ها در دسترس نیست، استفاده از این داده در تحلیل ها ممکن است نتایج خروجی را تحت تاثیر قرار دهد.

نمونه دوم :در شکل زیر توزیع جنسیت و میزان درامد مربوط به مشتریان مشخص شده است.

توزیع جنسیت و میزان درامد مربوط به مشتریان

 

تحلیل کسب و کار : جدول توزیع جنسیت و درآمد های مشتریان

جدول توزیع جنسیت و درآمد های مشتریان

دو اطلاع مهم که از جدول فوق به دست می آید این است که در داده های فوق نیز مشخص است که ۵۰ درصد اطلاعات مربوط به جنسیت مشتریان در دسترس نیست از این رو استفاده از این داده هم می تواند خروجی داده کاوی را تحت تاثیر قرار دهد.

در بخش مربوط به توزیع داده های مربوط به در آمد مشتریان ثبت شده است، همانطور که مشخص است ۲ درصد داده ها در دسترس نیست. در نتیجه میتوان به عنوان یک داده قابل قبول و معتبر در داده کاوی کسب و کار از آن استفاده کرد.

نمونه سوم:در شکل زیر توزیع تاریخ پیوستن مشتری به کسب و کار مربوط به مشتریان مشخص شده است.

توزیع تاریخ پیوستن مشتری به کسب و کار

 

تحلیل کسب و کار : جدول توزیع تاریخ پیوستن مشتری به کسب و کار

در جدول فوق تاریخ پیوستن مشتری به کسب و کار نمایش داده شده است. همانطور که مشخص است، بین سال ۲۰۰۵ و ۲۰۰۶ رشد مشتریان قبا توجه بوده است. این به این معنا است که سیاست ها ، تکنیک ها  و راهکارهای که برای جذب مشتری در این بازه انجام شده است موفق بوده است. در نتیجه بررسی و ارزیابی قرار داد آنها، می تواند بسیار مفید باشد. در این مطلب ما قصد داشتیم تا از خروجی های واقعی را از مباحث تئوری که تا حالا بیان کردیم را ارائه دهیم.

 

منبع :  وب سایت مستر ماینینگ http://mrmining.ir

تحلیل‌گر کسب و کار به چه کسی می‌گویند؟