تاریخ بروزرسانی : 1400/01/22
نام بسته درسی : داده کاوی
———————
فهرست:
داده کاوی چیست و چرا آن را بهکار میبریم؟
مدیریت تحلیلی ارتباط با مشتری
نقش سیستمهای پردازش تعاملات
نقش ذخیرهسازی دادهها
نقش دادهکاوی
نقش استراتژی مدیریت روابط با مشتری
دادهکاوی چیست؟
گروهبندی شباهت یا قوانین وابستگی
خوشهبندی
نمایهسازی
دادهای که ایجاد شده است
دادهای که ذخیره شده است
توان محاسباتی بالایی که قابل دسترسی است
همة تجارتها، خدماتی هستند
اطلاعات، یک محصول است
محصولات نرمافزاری دادهکاوی تجاری وجود دارند
امروزه چگونه از دادهکاوی استفاده میشود؟
فروش متقابل و همزمان
چرخةتعالی دادهکاوی
تعیین چالشهای تجاری
بهکارگیری دادهکاوی
چرخة تعالی چیست؟
کاوش داده
دادهکاوی در زمینة چرخة تعالی
روشهای دادهکاوی
آزمون فرضیه
تولید فرضیات
آزمودن فرضیات
مدلها، نمایهسازی و پیشبینی
نمایهسازی
مراحل دادهکاوی
ذخیرهسازی دادهها، پردازش تحلیلی آنلاین و دادهکاوی
معماری دادهها
دادههای تعاملات، سطح مبنا
دادههای چکیده عملیاتی
دادههای چکیده پشتیبانی تصمیم
طرح پایگاه دادهها
پایگاه داده نسبی
فرادادهها
قوانین تجاری
معماری کلی ذخیرهسازی دادهها
سیستمهای منبع
استخراج، تبدیل و بارگذاری
مخزن مرکزی
مخزن فرادادهها
مراکز مبادله دادهها
بازخورد عملیاتی
کاربران نهایی و ابزارهای مفید کار
تحلیلگران
پردازش تحلیلی آنلاین و دادهکاوی
وفور دادهها
دادههای ثابت و تصفیهشده
تست فرضیات و اندازهگیری
تهیه محیط استخراج داده
سازمان مشتریمدار
محیط ایدهآل دادهکاوی
توان تعیین دادههای موجود
ایجاد یک سازمان مشتریمدار
از تعاملات مشتری تا فرصتهای یادگیری
کاوش دادههای مشتری
گروه دادهکاوی
دادهکاوی با منابع خارجی
دادهکاوی با منابع داخلی
ویژگیهای کارکنان دادهکاوی
زیرساخت دادهکاوی
پلتفرم دادهکاوی
پلتفرم امتیازدهی
نرمافزار دادهکاوی
آمادهسازی دادهها برای دادهکاوی
امضای مشتری
نرمالسازی
استانداردسازی
دستهبندی به عرضهای برابر
رشتههای کاراکتری با طول ثابت
کلیدها و شناسهها
نامها
دادهها برای دادهکاوی
ایجاد امضای مشتری
جستجوی متغیرها
توزیعها و هیستوگرام
جداول متقاطع
لولا کردن سریهای زمانی با قاعده
خلاصهسازی رکوردهای تراکنشی
خلاصهسازی فیلدهای مرتبط به مجموعه مدل
وجه تاریک داده
مقادیر گمشده
پیادهسازی دادهکاوی
شروع
شناسایی یک پروژه اثباتکننده درستی
اجرای پروژه اثباتکننده درستی
انتخاب یک تکنیک دادهکاوی
نوع دادهها
منابع و مآخذ
بخش هایی از بسته درسی داده کاوی
داده کاوی چیست و چرا آن را بهکار میبریم؟
مدیریت تحلیلی ارتباط با مشتری
شکی نیست که لازم است مؤسسات بزرگ نیز مانند تجارتهای خدمات مدار و کوچک از منابع برقراری روابط یک به یک با مشتریانشان بهرهمند گردند. تمرکز این بسته بر نقشی است که داده کاوی میتواند در بهبود مدیریت روابط با مشتری، از طریق افزایش توان مؤسسات برای برقراری روابط با مشتریانشان ایفا کند.
در تمامی صنایع، شرکتهای آیندهنگر بهه سمت این هدف حرکت میکنند که تمام مشتریان را به صورت فردی درک نمایند و از این شناخت برای تسهیل تجارتی استفاده نمایند که مشتری میخواهد با آنها انجام دهد به جای اینکه همین تجارت را با رقبایشان برقرار نماید. این مؤسسات یاد میگیرند که ارزش هر مشتری را در نظر بگیرند تا تشخیص دهند که کدام یک از مشتریان ارزش سرمایهگذاری و صرف تلاش مدارم را دارند و دور کدام یک از مشتریان را باید خط کشید. این تغییر نگرش و تمرکز بر مشتریان فردی به جای تمرکز بر بخشهای وسیع بازار، نیازمند تغییر در کل شرکت است و مطمئناً به بخشهای بازاریابی، فروش و پشتیبانی مشتریان هم سرایت مینماید.
داده کاوی به تعبیری دقیقتر به مجموعهای از ابزارها و تکنیکهایی اطلاق میشود که برخورداری از آن برای حمایت از شرکتی مشتری مدار ضروری میباشد. داده کاوی همچنین شامل فرایند و روش استفاده از این ابزارها و تکنیکها میگردد. از منظری وسیعتر، داده کاوی دیدگاهی است که مطابق آن کلیه فعالیتهای تجاری باید براساس یادگیری باشند، دیدگاهی که در آن تصمیمات آگاهانه بهتر از تصمیمان بدون آگاهی هستند. برای اینکه داده کاوی مؤثر واقع شود باید سایر نیارمندیهای مدیریت ارتباط با مشتریان نیز برآورده شود. یک شرکت به منظور ایجاد رابطهای یادگیرنده با مشتریان خود میبایست:
نقش سیستمهای پردازش تعاملات
یک تجارت کوچک با مشتریان خود روابطی را از طریق توججه به نیازهایشان، به یاد داشتن ترجیحاتشان و درس گرفتن از تعاملات گذشته برقرار میکند، تا در آینده به آنها بهتر ارائة خدمات نماید. چگونه یک شرکت عظیم میتواند مشابه این کار را انجام دهد.
پاسخ این است که اگرچه هیچ چیز نمیتواند بطور کامل جایگزین شود ولی از طریق بهکارگیری هوشمندانة تکنولوژیهای اطلاعات، حتی بزرگترین شرکتها هم میتوانند به نتایج شگفتانگیزی برسند. در شرکتهای تجاری عظیم، اولین گام یعنی توجه به آنچه مشتری انجام میدهد، از قبل و به صورت خودکار درآمده است. سیستمهای پردازش تعاملات همه جا هستند و ظاهراً دادههایی را در مورد همه چیز جمعآوری میکنند. نتایج ثبت شده توسط دستگاههای اتوماتیک سخنگو، سرورهای وب، اسکنرهای بارکد کالاهای فروش رفته و موارد مشابه، تولیدکنندة دادههای خام برای دادهکاوی هستند.
این اطلاعات تعاملی برای دادهکاوی تولید و جمعآوری نشدهاند بلکه برای برآورده کردن نیازهای عملی شرکت ایجاد شدهاند؛ با این وجود، همة این اطلاعات حاوی مطالب مفیدی در مورد مشتریان هستند و میتوان همگی را با موفقیت کاوش کرد. شرکتهای مخابرات از دادههای جزئیات تماسها، برای دستیابی به شماره تلفن ساکنانی استفاده میکنند که الگوهای تماسشان شبیه الگوهای تجاری است، تا مخابرات بتواند خدمات خاصی را به افرادی که در منازل خویش کسب و کاری راه انداختهاند عرضه نماید. خردهفروشان اینترنتی از سفارشات گذشته، برای تصمیمگیری در مورد طراحی صفحات وبسایت شرکت در آینده استفاده میکنند. این شرکتها از خریدهای قبلی مشتریانشان استفاده میکنند تا تعیین کنند چه کالایی را در زمانی که مشتریان برای بازدید مجدد از سایتشان باز میگردند، عرضه کنند. یک شرکت پست از تغییر رخ داده در الگوی تقاضای مشتریان خود در طول تعطیلی موقتی شرکت رقیب استفاده نمود تا سهم خویش را در تجارت توزیع بستههای مشتریانش محاسبه نماید. سوپرمارکتها از دادههای حاصل از اسکت بارکد کالاهای فروش رفته، برای تصمیمگیری در مورد چاپ نوع خاصی از کوپن تشویقی برای انواع مشتریان استفاده مینمایند.
این سیستمهای تعاملی نقطة تماس مشتریان هستند؛ جایی که دادههای رفتار مشتریان برای اولین بار وارد شرکت میشود. درچنین حالتی این سیستمها در واقع چشم و گوش شرکت هستند.
نقش ذخیرهسازی دادهها
شرکتهای مشتریمدار هر دادهای از تعاملات با مشتری یا ارباب رجوع را بهعنوان فرصتی برای یادگیری قلمداد میکنند. هر تماسی با بخش خدمات پس از فروش، هر تعاملی مندرج در فاکتورهای فروش، هر نوع سفارش کاتالوگ، هر بازدید از وبسایت شرکت، جزو این تعاملات محسوب میشود؛ ولی یادگیری نیازمند چیزی بیش از گردآوری سادة دادههاست. در واقع بیشتر شرکتها صدها گیگابایت یا ترابایت از دادهها را دربارة مشتریانشان جمعآوری میکنند، بدون اینکه چیزی یاد بگیرند. دادهها جمع میشوند زیرا برای برخی از اهداف عملیاتی چون کنترل فهرستها یا صورتحسابها لازم هستند. وقتی هدف مورد نظر به دست آمد، اطلاعات روی یک لوح فشرده ذهیره میشود و یا اصلاً حذف میگردد. امروزه شرکتها غرق در داده هستند ولی از فقر دانش درون دادههای خود رنج میبرند.
یکی از مهمترین جنبههای ذخیرهسازی دادهها، توانایی دنبال کردن رفتار مشتری در طول زمانهای مختلف است. الگوهای رفتار مشتریان در طول زمان مشخص میگردد. در ذخیرهسازی دادهها لازم است دادههای صحیح قدیمی بهکار گرفته شود تا دادهکاوی بتواند این روندهای مهم را کشف کند. بسیاری از الگوهای مهم در مدیریت روابط با مشتری، تنها با گذشت زمان ظاهر میشود. پاسخ به سؤالاتی نظیر «آیا میزان خرید مشتریان روند صعودی و یا نزولی را طی میکند؟»، «مشتریان چه کانال ارتباطی را ترجیح میدهند؟» و «مشتریان به چه تبلیغاتی پاسخ میدهند؟» از درون الگوهای حاصل از تحلیل دادههای مشتریان بهدست میآید.
یک انبارة دادة خوب، امکان دسترسی به اطلاعاتی را فراهم میکند که از دادههای تعاملی فراهم شدهاند و به شکلی کاربردیتر از آنچه در سیستمهای عملیاتی که از آنها دادهها به دست آمدهاند، نگهداری میشوند. در حالت ایدهآل دادههای انبار دادهها از منابع زیادی جمعآوری میگردد. انبار دادة هر شکت، یکی از مهمترین منابع دادهها برای مدیریت تحلیلی ارتباط با مشتری است.
نقش دادهکاوی
انبار داده برای شرکت مثل یک حافظه عمل میکند ولی حافظة بدون هوش و آگاهی فایدة چندانی ندارد. آگاهی به ما اجازه میدهد در حافظههای قبلی خود جستجو کنیم، به الگوهای خاصی توجه نمائیم، قوانینی را ایجاد کنیم، به ایدههای جدیدی برسیم، سؤالهای درستی را مطرح کنیم و پیشبینیهایی دربارة آینده انجام دهیم.
نقش استراتژی مدیریت روابط با مشتری
کارایی دادهکاوی زمانی است که این دانش در زمینهای بکار گرفته شود که نتایج حاصل از آن در سازمان امکان پیادهسازی داشته باشد بگونهای که به سازمان اجازة تغییر رفتار براساس نتیجة حاصل از یادگیری را بدهد.
دادهکاوی باید در بطن استراتژی روابط با مشتری شرکت قرار گیرد تا برنامة عملیاتی که بایستی انجام گیرد مشخص شود و این عمل در نتیجة آنچه از طریق دادهکاوی یاد گرفته شده صورت میپذیرد.
دادهکاوی یک ابزار است و همانطور که در مورد همة ابزارها صدق میکند، بیشتر از آنکه لازم باشد بفهمیم دادهکاوی چگونه کار میکند، لازم است بفهمیم که چگونه از آن باید استفاده کرد. دادهکاوی فرآیند تصمیمسازی را به انجام میرساند و تصمیمگیری را به مدیران میسپارد؛ در واقع دادهکاوی پیشنهاد میدهد و نهایتاً مدیران آن صنعت و کسبوکار، تصمیم نهایی را اتخاذ مینمایند.
دادهکاوی چیست؟
دادهکاوی به بررسی و تجزیه و تحلیل مقادیر عظیمی از دادهها به منظور کشف الگوها و قوانین پنهان و معنیدار درون دادهها اطلاق میشود.
براساس اعلام دانشگاه MIT امروزه مرز و محدودیتی برای دانش دادهکاوی متصور نبوده و مرز آن را از اعماق اقیانوسها تا بیکران فضا میدانند. بهعبارت دیگر کاربرد دانش دادهکاوی در تمامی حوزههای برخوردار از داده بوده و تنها محدودیت دانش دادهکاوی نبود داده است.
در حقیقت هیچ کدام از الگوریتمهای دادهکاوی، در ابتدا با کاربردهای تجاری در ذهن به وجود نیامدند. دادهکاویهای تجاری از یک سری تکنیکهای وام گرفته شده از آمار و علوم کامپیوتر استفاده میکنند. انتخاب مجموعهای از تکنیکها برای بهکارگیری در موقعیت خاص بستگی به سه عامل «ماهیت عمل دادهکاوی»، «ماهیت دادههای موجود» و «مهارتها و ترجیحات دادهکاوان» دارد.
دادهکاوی در نوع هدایت شده و غیرهدایت شده ظاهر میشود. دادهکاوی هدایت شده، دارای متغیر هدفی خاص و از پیش تعیین شده است که به دنبال الگویی خاص میگردد در حالیکه هدف دادهکاوی غیرهدایت شده، یافتن الگوها یا تشابهات بین گروههایی از اطلاعات، بدون داشتن متغیر هدفی خاص و یا مجموعهای از دستهها و الگوهای از پیش تعیین شده میباشد.
دادهکاوی عمدتاً با ساختن مدلها مرتبط است. یک مدل اساساً به الگوریتم با مجموعهای از قوانینی گفته میشود که مجموعهای از ورودیها را (معمولاً به شکل زمینههایی در پایگاه دادههای سازمان) با هدف یا مقصد خاصی مرتبط مینماید. رگرسیون، شبکههای عصبی، درخت تصمیم و بیشتر تکنیکهای دادهکاوی دیگر که در این بسته آمده، تکنیکهایی برای مدلسازی هستند. یک مدل تحت شرایط درست میتواند منجر به بینش درست شود.
دادهکاوی با همه عظمت و بزرگی خود که امروزه در تمامی موضوعات جهان ورود پیدا کیده است شامل شش عمل و وظیفه مهم است که میتوان بسیاری از مسائل محیط اطراف خود را در قالب یکی از این شش عمل و وظیفه زیر گنجاند:
سه مورد اول همگی دادهکاوی هدایت هستند که هدف آنها یافتن ارزش یک متغیر هدف خاص است. گروهبندی شباهت و خوشهبندی جزو دادهکاوی غیرهدایت شده هستند که در آن هدف، یافتن ساختار پنهان درون دادهها بدون توجه به یک متغیر هدف خاص است. نمایهسازی عملی توصیفی است که میتواند هم هداست شده و هم غیرهدایت شده باشد.
دستهبندی
بهنظر میرسد دستهبندی که یکی از معمولترین کارکردهای دادهکاوی است، یکی از واجبات بشر باشد. تمامی خلقت خداوند بر پایه دستهبندی ایجاد گردیده است. ما برای شناخت و برقراری رابطه دربارة دنیا، بطور مداوم دستهبندی، طبقهبندی و درجهبندی میکنیم. ما موجودات زنده را به شاخهها و گونهها، مواد را به عناصر و حیوانات و انسان را به نژادها تقسیم میکنیم.
دستهبندی شامل بررسی ویژگیهای یک شی جدید و تخصیص آن به یکی از مجموعههای از قبل تعیین شده میباشد.
تخمین
تخمین با نتایج مجزایی که با ارقام پیوسته نشان داده شدهاند، سروکار دارد. در تخمین، دادههای ورودی در قالب متغیرهای ورودی مختلف به سیستم داده میشود و متغیرهای خروجی آن رقمی چون درآمد یا تراز کارت اعتباری میباشد.
در عمل، تخمین اغلب برای انجام دستهبندی استفاده میشود.
روش تخمین فواید زیادی دارد که مهمترین آن این است که در آن اطلاعات را میتوان مطابق تخمین به دست آمده مرتب نمود.
پیشبینی
پیشبینی مانند دستهبندی یا تخمین است با این تفاوت که اطلاعات، مطابق برخی از رفتارهای پیشبینی شدة آینده یا ارقام تخمینزدة آینده دستهبندی میشوند. در عمل پیشبینی، تنها روش برای بررسی صحت دستهبندی، انتظار دیدن آینده است.
هر یک از تکنیکهای استفاده شده در دستهبندی و تخمین را میتوان برای استفاده در پیشبینی تطبیق داد، جایی که متغیری که باید پیشبینی شود از قبل معلوم است و دادههای پیشین برای آن وجود دارد. از دادههای پیشین برای تهیة یک مدل که بیانگر رفتار مشاهده شدة کنونی است استفاده میشود؛ وقتی این مدل برای ورودیهای کنونی به کار رفت؛ نتیجة کار، پیشبینی رفتار آینده خواهد بود.
گروهبندی شباهت یا قوانین وابستگی
عمل گروهبندی شباهت برای تعیین ویژگیهای همزمانی هستند که در وقوع یک پدیده رخ میدهند. بعبارت دیگر عمل گروهبندی شباهت احتمال وقوع و یا عدم وقوع همزمان ویژگیها را تعیین مینماید. بعبارت سادهتر عمل گروهبندی شباهت تعیین میکند که چه چیزهایی با هم جورند.
گروهبندی شباهت یک روش ساده برای ایجاد قوانین از دادههاست.
خوشهبندی
خوشهبندی به عمل تقسیم جمعیت ناهمگن به تعدادی از زیرمجموعهها یا خوشههای همگن گفته میشود. وجه تمایز خوشهبندی از دستهبندی این است که خوشهبندی به دستههای از پیش تعیین شده تکیه ندارد. در دستهبندی براساس یک مدل هر کدام از دادهها به دستهای از پیش تعیین شده ااختصاص مییابد؛ این دستهها یا از ابتدا در طبیعت وجود داشتهاند (مثل جنسیت، رنگ پوست و مثالهایی از این قبیل) یا از طریق یافتههای پژوهشهای پیشین تعیین گردیدهاند.
در خوشهبندی هیچ دستة از پیش تعیین شدهای وجود ندارد و دادهها صرفاً براساس تشابه گروهبندی میشوند و عناوین هر گروه نیز توسط کاربر تعیین میگردد.
خوشهبندی معمولاً بهعنوان پیش درآمدی برای بکارگیری سایر تحلیلهای دادهکاوی با مدلسازی به کار میرود.
نمایهسازی
گاهی اوقات هدف دادهکاوی، تنها توصیف آن چیزی است که در یک پایگاه دادهای پیچیده در جریان است. نتایج نمایهسازی درک ما را از مردم، محصولات یا فرایندهایی که دادهها را در مرحلة اول تولید کردهاند افزایش میدهد. توصیف خوب رفتار، اغلب توضیح خوبی هم به همراه دارد؛ یک توصیف خوب حداقل نشان میدهد چه زمانی میتوان انتظار یک توضیح مناسب را داشت.
دادهای که ایجاد شده است
دادهکاوی هنگامی بیشترین معنی را پیدا میکند که دادههای زیادی وجود داشته باشد؛ در حقیقت، اغلب الگوریتمهای دادهکاوی برای تولید مدلهای دستهبندی، تخمین، پیشبینی و سایر کارکردهای دادهکاوی نیازمند میزان زیادی از دادهها هستند.
صنایعی نظیر مخابرات و کارتهای اعتباری، به مدت طولانی روابط تعاملی و اتوماتیک با مشتریان داشتهاند و اطلاعات تعاملی زیادی را جمعآوری نمودهاند، ولی دادههای برگرفته از بیشتر صنایع، امروزه مرهون اتوماتیک شدن زندگی روزمره در تمامی زمینهها است. در شرایط حاضر افزایش ثبت الکترونیکی فروش فروشگاهها، ماشینهای اتوماتیک سخنگو، کارتهای اعتباری، خرید آنلاین، انتقال پول الکترونیکی، پردازشهای سفارش اتوماتیک، خرید بلیط الکترونیکی و سایر موارد مشابه، دادهها را به صورت انبوه تولید کرده و به صورت بینظیری آنها را جمعآوری مینماید.
نوشتههای تازه