ڈیٹا کان کنی میں درجہ بندی

درجہ بندی ایک ڈیٹا کان کنی کی تکنیک ہے جو اعداد و شمار کے مجموعے میں زیادہ درست پیشن گوئی اور تجزیہ میں مدد کرنے کے لئے زمرے فراہم کرتا ہے. اس کے علاوہ کبھی کبھی فیصلہ درخت بھی کہا جاتا ہے، بہت بڑے ڈیٹا بیس مؤثر طریقے سے تجزیہ کرنے کے لئے مختلف طریقوں میں سے ایک درجہ بندی ہے.

درجہ بندی کیوں؟

بہت بڑے ڈیٹا بیس آج کی دنیا میں "بڑے اعداد و شمار" میں معیار بن رہے ہیں. ایک ڈیٹا بیس کو متعدد ٹربیٹیٹ ڈیٹا کے ساتھ تصور کریں - ایک terabyte اعداد و شمار کے ایک ٹریلین بٹس ہے.

فیس بک اکیلے ہر روز ایک دن میں 600 ٹربائٹس نئے اعداد و شمار (2014 تک، آخری بار یہ ان چشموں کی اطلاع) کو کچلتا ہے. بڑے اعداد و شمار کی بنیادی چیلنج یہ ہے کہ اس کا احساس کس طرح بنانا ہے.

اور سراسر حجم صرف ایک مسئلہ نہیں ہے: بڑے اعداد و شمار میں بھی متنوع، غیر منظم اور تیزی سے تبدیل ہونے کی ضرورت ہوتی ہے. آڈیو اور ویڈیو کے اعداد و شمار پر غور کریں، سوشل میڈیا پوزیشن، 3D ڈیٹا یا جیو ایسوسی ایٹ ڈیٹا. اس طرح کے اعداد و شمار آسانی سے درجہ بندی یا منظم نہیں ہے.

اس چیلنج کو پورا کرنے کے لئے، مفید معلومات نکالنے کے لۓ خود کار طریقوں کی ایک حد تیار کی گئی ہے، ان کی درجہ بندی میں .

کس طرح کی درجہ بندی کام کرتا ہے

بہت دور دور ٹیکچ میں منتقل کرنے کے خطرے پر، ہم بات چیت کرتے ہیں کہ کس طرح درجہ بندی کا کام ہے. مقصد ایک قسم کے درجہ بندی کے قواعد تیار کرنا ہے جو سوال کا جواب دے گا، فیصلہ کرے گا یا رویے کا اندازہ کرے گا. شروع کرنے کے لئے، ایک تربیتی اعداد و شمار کا ایک سیٹ تیار کیا جاتا ہے جس میں ایک مخصوص سیٹ کی خاصیت اور امکانات کا نتیجہ بھی شامل ہے.

درجہ بندی الگورتھم کا کام دریافت کرنا ہے کہ کس طرح کی صفات اس کے اختتام پر پہنچ جاتے ہیں.

منظر نامہ : شاید ایک کریڈٹ کارڈ کمپنی کو یہ معلوم کرنے کی کوشش کر رہی ہے کہ ممکنہ طور پر کریڈٹ کارڈ کی پیشکش کہاں سے ملتی ہے.

یہ تربیت کے اعداد و شمار کا ایک مجموعہ ہو سکتا ہے:

ٹریننگ ڈیٹا
نام عمر صنف سالانہ آمدنی کریڈٹ کارڈ پیشکش
جان ڈو 25 ایم $ 39،500 نہیں
جین ڈو 56 ایف $ 125،000 جی ہاں

"پیشکش" کالمز عمر ، جین ، اور سالانہ آمدنی "پیشن گوئی وصف" کریڈٹ کارڈ پیشکش کی قیمت کا تعین کرتی ہے. ٹریننگ سیٹ میں، پیش گوئی کی خاصیت معلوم ہے. درجہ بندی کے الگورتھم پھر اس بات کا تعین کرنے کی کوشش کرتا ہے کہ پیشکش کی خاصیت کی قیمت تک پہنچ گئی: پیشن گوئی اور فیصلے کے درمیان کیا تعلقات موجود ہیں؟ یہ پیشن گوئی قوانین کا ایک سیٹ تیار کرے گا، عام طور پر ایک IF / THEN بیان، مثال کے طور پر:

اگر (عمر> 18 یا عمر <75) اور سالانہ آمدنی> 40،000 تو پھر کریڈٹ کارڈ پیشکش = ہاں

ظاہر ہے، یہ ایک سادہ مثال ہے، اور الورورجیم یہاں دکھایا گیا دو ریکارڈوں سے کہیں زیادہ بڑے ڈیٹا نمونے کی ضرورت ہوگی. اس کے علاوہ، پیشن گوئی کے قوانین کا امکان زیادہ پیچیدہ ہے، جس میں خاصیت کی تفصیلات پر قبضہ کرنے کے لئے ذیلی قواعد بھی شامل ہیں.

اگلا، الگورتھم کو تجزیہ کرنے کے لئے اعداد و شمار کی "پیشن گوئی سیٹ" دی جاتی ہے، لیکن یہ سیٹ پیش گوئی کی خاصیت (یا فیصلہ) کی کمی نہیں ہے.

پیشکش ڈیٹا
نام عمر صنف سالانہ آمدنی کریڈٹ کارڈ پیشکش
جیک فراسٹ 42 ایم $ 88،000
مریم مرے 16 ایف $ 0

یہ پیش گوئی کے اعداد و شمار پیشن گوئی کے قوانین کی درستگی کا اندازہ لگاتا ہے، اور اس کے بعد قواعد و ضوابط کو مؤثر طریقے سے مؤثر اور مفید سمجھتے ہیں جب تک کہ ڈویلپر کا اندازہ لگایا جاتا ہے.

دن کے دن کی درجہ بندی کی مثالیں

درجہ بندی، اور دیگر ڈیٹا کان کنی کی تکنیک، صارفین کے طور پر ہمارے دن کے دن کے زیادہ سے زیادہ تجربے کے پیچھے ہے.

موسم کی پیشن گوئیوں کو درجہ بندی کے استعمال کو رپورٹ کرنے کے لئے بنا سکتا ہے کہ کیا دن بارش، دھوپ یا ابر آلودگی ہو گی. طبی پیشے صحت کے حالات کا تجزیہ کرنے کے لئے طبی نتائج کا تجزیہ کر سکتے ہیں. ایک قسم کے درجہ بندی کے طریقہ کار، نیوی بیئیسان، سپیم ای میلز کو درجہ بندی کرنے کے لئے مشروط امکانات کا استعمال کرتا ہے. مصنوعات کی پیشکشوں کو دھوکہ دہی کے پتہ لگانے سے، ہر دن ڈیٹا کا تجزیہ اور پیشن گوئی پیدا کرنے کے مناظر کے پیچھے درجہ بندی ہے.