مدل پیشبینی کننده یا Predictive Model، یک مدل ریاضیاتی است که با استفاده از دیتا و الگوهای گذشته، رویدادهای آینده را پیشبینی میکند. مدل پیشبینی کننده زیرمجموعهای از تحلیلهای پیشبینی کننده (predictive analysis) و تحلیل دیتا (data analysis) محسوب میشود. در همه این نوع تحلیلها، تلاش میشود تا با استفاده از دیتای موجود، فعالیتها، رفتارها و ترندهای آینده پیشبینی شود.
به طور مثال در بازاریابی دیجیتال، این مدل میتواند میزان کیفیت یک لید را پیشبینی کند. یا این که احتمال کلیک کردن کاربر بر روی یک لینک یا احتمال اقدام به خرید را پیشبینی نماید. از این ظرفیت میتوان در بخشهای مختلفی از کسب و کار استفاده کرد. بنابراین آشنایی با این مدل و نحوه کار آن، میتواند به شما کمک کند تا عملکرد کسب و کار خود را از زوایای مختلف بهبود دهید.
مدل پیشبینی کننده همچنین میتواند برای ایجاد سناریوهای «چه میشد اگر» (what if) نیز کمک کننده باشد. یعنی با استفاده از این مدلها میتوانیم بفهمیم که اگر یک تصمیم را در گذشته متفاوت میگرفتیم، چه نتیجهای در حال حاضر رخ میداد.
انواع مدل های پیشبینی کننده
راههای مختلفی برای دستهبندی مدلهای پیشبینی کننده وجود دارد. اما یکی از مرسومترین و برجستهترین روشهای دستهبندی این مدلها، تقسیم آنها بر اساس نظارت (supervised) یا عدم نظارت (unsupervised) است:
- در مدلهای بدون نظارت (unsupervised) از شیوههای سنتی آماری برای دستهبندی دادهها استفاده میشود. شیوههایی مثل رگرسیون لجستیک، تحلیل بر اساس سریهای زمان (time series) و درختهای تصمیم (decision trees).
- در مدلهای نظارت شده (supervised) از شیوههای جدیدتر نظیر تکنیکهای یادگیری ماشین (Machine Learning) برای یافتن الگوهای موجود در دادهها استفاده میشود.
هر کدام از انواع مدلها، دارای ویژگیهای خاص خود هستند و با توجه به ویژگیهای کسب و کار و دادههای موجود مورد استفاده قرار می گیرند. مثلاً در برخی موارد، ممکن است تحلیل رگرسیون آماری استاندارد، نتیجه بهتری داشته باشد و پیشبینی قویتری ارائه کند. در موارد دیگر نیز ممکن است به مدلهای پیچیدهتر و یادگیری ماشین احتیاج داشته باشیم. به طور مثال، در یک بیمارستان برای زمانبندی وقت مریضها، استفاده از تکنیکهای آماری کلاسیک کافی است. اما برای بهینهسازی ارجاع مریضها به پزشکان، ممکن است به دیپ لرنینگ (deep learning) نیاز داشته باشیم.
مدل های پیش بینی کننده چگونه کار میکنند؟
دانشمندان علوم داده (data scientists) بعد از جمع آوری دیتای مورد نیاز، در مورد انتخاب مدل صحیح، تصمیم گیری میکنند. رگرسیون خطی یکی از سادهترین انواع مدلهای پیشبینی کننده است. مدلهای خطی، دو متغیر مرتبط با هم را میگیرند (یک متغیر وابسته و دیگری غیر وابسته) و با ترسیم یک نمودار x-y ارتباط این دو متغیر را مشخص میکنند. این سادهترین مثال برای نحوه کار مدلهای پیشبینی کننده است.
مشهورترین روشهای پیش بینی
تعدادی از مشهورترین و معروفترین روشهای پیش بینی آماری را در ادامه آوردهایم:
- درختهای تصمیم (Decision Trees): الگوریتمهای درخت تصمیم، دیتای ورودی را میگیرند و با گرافبندی، خروجیهای احتمالی تصمیمهای مختلف را نمایش میدهند. درختهای تصمیم، متغیرهای پاسخ (response variables) را نیز دستهبندی میکنند و بر اساس تصمیمات گذشته، در مورد آنها نیز پیشبینیهایی انجام میدهند.
- تحلیل سریهای زمان (Time series analysis): از این تکنیک برای پیشبینی رویدادها در یک توالی زمانی استفاده میشود. شما میتوانید با تحلیل ترندهای گذشته و برونیابی، رویدادهای آینده را پیشبینی کنید.
- رگرسیون لجستیک (Logistic regression): این تکنیک، یک روش تحلیلی آماری است که به آمایش دادهها کمک میکند. هر چه دادههای بیشتری وارد مدل میشود، توانایی الگوریتم برای طبقهبندی آن بهبود مییابد و پیشبینی نیز بر اساس این دادهها صورت میپذیرد.
- شبکههای عصبی (Neural networks): در این تکنیک، حجم بالایی از دادههای مختلف برای پیدا کردن رابطه میان متغیرها، مورد تحلیل قرار میگیرد. شبکههای عصبی، بنیان و اساس بسیاری از الگوریتمهای یادگیری ماشین امروزی هستند؛ مثل الگوریتمهای تشخیص تصویر و دستیاران هوشمند کامپیوتری.
همان گونه که شاید مشخص هم باشد، پیچیده ترین مدلهای پیش بینی کننده، به شبکههای عصبی مرتبط هستند. این مدل از یادگیری ماشین، حجم بسیار بالایی از دادهها را بررسی میکند و به دنبال ایجاد ارتباط میان متغیرهای مختلف میگردد. این مدلها قادر هستند تا با بررسی میلیونها داده، کوچکترین ارتباطها میان آنها را پیدا کنند.
الگوریتم های رایج در مدل های پیش بینی کننده
- جنگل تصادفی (Random Forest): این الگوریتم، درختهای تصمیم نامرتبط را با هم ترکیب میکند و با استفاده از طبقه بندی و رگرسیون، حجم زیادی از دیتا را سازمان دهی و برچسب گذاری میکند.
- مدل گرادیان تقویت شده (Gradient boosted model): این مدل شباهت زیادی به جنگل تصادفی دارد و در آن از درختهای تصمیم مختلف استفاده میشود. اما در این روش، هر درخت، جریان درخت قبلی را اصلاح میکند و به مرور، تصویر دقیقتری از دیتا به وجود میآید.
- کی میانگین (K Means): این الگوریتم جزو الگوریتمهای خوشه بندی (clustering) محسوب میشود و در ارائه پیشنهادهای شخصی سازی شده در فروشگاهها به وفور از آن استفاده میشود. در واقع این الگوریتم با پیدا کردن ویژگیهای مشابه میان مشتریان مختلف، پیشنهادهای شخصی سازی شده به مشتریان ارائه میدهد.
مزایای مدل های پیشبینی کننده
تعدادی از مهمترین مزیتهای این مدلها در ادامه آمده است:
- اولویت بندی برای منابع
- بهبود حاشیه سود
- بهینه سازی کمپینهای بازاریابی
- کاهش ریسک
کاربرد مدل های پیش بینی کننده چیست؟
در گذشته مدلهای پیشبینی کننده بیشتر در هواشناسی و پیشبینی وضعیت آب و هوا کاربرد داشتند. اما امروزه از این مدلها در بسیاری از کسب و کارها استفاده میشود. تکنیکهای امروزی پیشبینی کننده، بسیار پیشرفته شدهاند و میتوانند با تحلیل دیتاهای یک سازمان یا کمپانی، ریسکها و فرصتهای احتمالی آنها در آینده را پیشبینی نمایند.
یکی از مهمترین کاربرد این مدلها، استفاده از آنها در تبلیغات و بازاریابی دیجیتال است. این مدلها با تحلیل دیتای موجود در مورد وبگردی کاربران، پیشبینی میکنند که کاربر احتمالا به چه محصولی علاقهمند است و احتمال کلیک کردن او بر روی چه تبلیغاتی بیشتر است.
همچنین برخی از پلتفرمها برای تشخیص پیامهای اسپم از مدلهای پیشبینی کننده استفاده میکنند.
این مدلها در تشخیص جعل و تقلب نیز کاربرد زیادی دارند. مدلهای پیشبینی کننده با بررسی دیتای مربوط به جعلیات گذشته، فعالیت جعلی احتمالی آینده را تشخیص میدهند.
از دیگر کاربردهای مدل های پیش بینی کننده میتوان به موارد زیر اشاره کرد:
- پیشبینی و برنامه ریزی ظرفیت (capacity planning)
- مدیریت تغییر (change management)
- ریکاوری فجایع (disaster recovery)
- مهندسی
- امنیت فیزیکی و دیجیتال
- برنامه ریزی شهری