مرتب سازی و شناسایی مشاهدات ناهنجار

مرتب سازی و شناسایی مشاهدات ناهنجار

در بیشتر موارد الگوریتم‌های پیچیده و خاصی برای شناسایی مشاهدات ناهنجار (Abnormal) وجود دارد که به واسطه نرم‌افزارهای مختلف پیاده‌سازی شده‌اند. ولی در این مطلب از مجله آرمان کامپیوتر می‌خواهیم به کاربرد مرتب سازی و شناسایی مشاهدات ناهنجار یا نامتعارف بپردازیم که علاوه بر ساده بودن، کارا و قابل اعتماد نیز هست.

مرتب سازی و شناسایی مشاهدات ناهنجار

همانطور که می‌دانید، مرتب سازی یک جدول زمانی به کار گرفته می‌شود که می‌خواهیم جستجو مقادیر در یکی از ستون‌های جدول به سرعت انجام دهیم. از طرفی مرتب سازی (Sorting) امکان دسته‌بندی مشاهدات را هم فراهم می‌آورد. به این معنی که مشاهداتی که در یک ستون، مقادیر یکسانی دارند، در سطرهای پشت سر هم قرار خواهند گرفت و دسته یا گروه‌ها ساخته می‌شوند. حال فرض کنید که دو مشاهدات ما از دو ستون یا متغیر تشکیل شده‌اند که بیانگر میزان حقوق دریافتی و حقوق پایه است. می‌خواهیم بدانیم که آیا فرد یا افرادی در این لیست حقوق وجود دارند که میزان حقوق دریافتی آن‌ها متناسب با حقوق پایه نباشد. به احتمال قوی وجود چنین افرادی مشکلی در داده‌ها را نشان داده و ما را به پرداخت‌های نامتعارف هدایت می‌کند.

رتبه بندی و مرتب سازی

اگر پس از مرتب سازی جدول براساس یک ستون، برای هر مشاهده یک شماره ردیف در نظر بگیریم، این شماره را می‌توان رتبه (Rank) مشاهدات در نظر گرفت. به این ترتیب رتبه‌بندی (Ranking) این اجازه را به ما می‌دهد که برای هر فرد یک شماره منحصر به فرد براساس جایگاهش در جدول مرتب شده ایجاد کنیم. توجه دارید که انتخاب یا مشخص کردن یک ستون به عنوان مبنا برای مرتب سازی سطرهای جدول الزامی است.

برای مثال جدول کارکنان را می‌توان براساس شماره پرسنلی یا به ترتیب نام خانوادگی مرتب کرد. تغییر ستون مربوط به مرتب سازی، ترتیب سطرها و در نتیجه رتبه مشاهدات را تغییر خواهد داد.

با توضیحاتی که گفته شد، انتظار داریم کسی که در جدول مرتب شده براساس حقوق دریافتی دارای رتبه ۱۰ است، در جدول مرتب شده براساس حقوق پایه نیز رتبه‌ای نظیر ۱۰ یا حدود آن داشته باشد. زیرا به تجربه دریافته‌ایم که بین حقوق دریافتی و حقوق پایه یک رابطه وجود دارد. هر چه پایه حقوق بیشتر باشد، حقوق دریافتی نیز بیشتر خواهد بود و برعکس.

شناسایی مشاهدات نامتعارف با رتبه بندی

جدول اطلاعاتی حقوق کارکنان در اختیار ما قرار گرفته است که در اکسل آن را مطابق با تصویر زیر پیاده سازی کرده‌ایم. مرتب سازی و شناسایی مشاهدات ناهنجار در ستون‌های D و E رتبه‌ کارکنان برحسب حقوق پایه و حقوق دریافتی مشخص شده است. انتظار داریم که اختلاف این رتبه‌ها بیش از ۲ یا سه واحد نباشد. به جز آقای «خ» که این اختلاف بیش از ۳ واحد است، بقیه رتبه‌ها متناسب با یکدیگر هستند.

پس به نظر می‌رسد که پرونده این فرد باید مورد بازبینی قرار گرفته باشد و البته شاید اضافه پرداخت او مربوط به وامی است که دریافت کرده. به هر حال از نظر یک حسابرس این مورد مشکوک به نظر می‌رسد. نکته: فرمول مربوط به تابع RANK در اکسل را می‌توانید در نوار ابزار تصویر بالا مشاهده کنید.

محاسبه ضریب همبستگی بین رتبه‌ها

روش دیگر برای مشخص کردن  داده نامتعارف در بین مشاهدات با استفاده از ضریب همبستگی (Correlation Coefficient) بین رتبه‌ها است. البته در صورتی که به طور مستقم ضریب همبستگی پیرسون را بین رتبه‌ها محاسبه کنیم، چنین شاخصی بدست می‌آید. ولی می‌توانیم براساس خود مقادیر حقوق‌ها ضریب همبستگی اسپیرمن را بدست آورده که همان ضریب همبستگی بین رتبه‌ها است.

براساس داده‌ها و کاربرگ اکسل، ضریب همبستگی بین رتبه‌ها برابر با ۰٫۷ است که نشانگر رابطه خطی نسبتا خوب بین دو متغیر است ولی در صورتی که رابطه دقیق خطی بین این دو متغیر برقرار بود انتظار داشتیم که مقدار این شاخص بزرگتر از ۰٫۹ باشد. بنابراین به موضوع وجود مشاهده ناهنجار مشکوک می‌شویم و سعی می‌کنیم با روش قبلی به دنبال مشاهده ناهنجار بگردیم.    

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.