ویژگی (یادگیری ماشین)

در یادگیری ماشین و تشخیص الگو، یک ویژگی یک خاصیت یا ویژگی قابل اندازه‌گیری فردی یک پدیده است. انتخاب ویژگی‌های آموزنده، متمایز و مستقل، عنصر حیاتی الگوریتم‌های مؤثر در تشخیص، طبقه‌بندی و رگرسیون الگو است. ویژگی‌ها معمولاً عددی هستند، اما ویژگی‌های ساختاری مانند رشته‌ها و نمودارها در تشخیص الگوی نحوی استفاده می‌شوند. مفهوم «ویژگی» با متغیر توضیحی مورد استفاده در تکنیک‌های آماری مانند رگرسیون خطی مربوط است.

طبقه‌بندی

یک ویژگی عددی را می‌توان به راحتی با یک بردار ویژگی وصف کرد. یکی از راه‌های دستیابی به طبقه‌بندی باینری، استفاده از یک تابع پیش‌بینی خطی (مربوط به پرسپترون) با بردار ویژگی به عنوان ورودی است. این روش شامل محاسبه حاصل ضرب اسکالر بین بردار ویژگی و بردار وزن‌ها، واجد شرایط بودن مشاهداتی است که نتیجه آنها از حدی فراتر می‌رود.

الگوریتم‌های طبقه‌بندی از بردار ویژگی شامل طبقه‌بندی نزدیکترین همسایه، شبکه‌های عصبی و تکنیک‌های آماری مانند رویکردهای بیزی است.

مثال‌ها

در تشخیص کاراکتر، ویژگی‌ها ممکن است شامل هیستوگرام شمارش تعداد پیکسل‌های سیاه در امتداد جهت‌های افقی و عمودی، تعداد سوراخ‌های داخلی، تشخیص ضربه و بسیاری موارد دیگر باشد.

در تشخیص گفتار، ویژگی‌های تشخیص واج می‌تواند شامل نسبت نویز، طول صداها، قدرت نسبی، مطابقت فیلتر و بسیاری موارد دیگر باشد.

در الگوریتم‌های تشخیص هرزنامه، ویژگی‌هایی ممکن است شامل وجود یا عدم وجود سرفصل‌های ایمیل مشخص، ساختار ایمیل، زبان، فراوانی عبارات خاص، صحت دستوری متن باشد.

در بینایی کامپیوتر، تعداد زیادی ویژگی ممکن، مانند لبه‌ها و اشیاء وجود دارد.

برنامه‌های افزودنی

در تشخیص الگو و یادگیری ماشین، بردار ویژگی یک بردار n بعدی از ویژگی‌های عددی است که بیانگر برخی از شی‌ها است. بسیاری از الگوریتم‌ها در یادگیری ماشینی به نمایش عددی اشیا نیاز دارند، زیرا چنین نمایش‌هایی پردازش و تحلیل آماری را تسهیل می‌کنند. هنگام نمایش تصاویر، مقادیر ویژگی ممکن است با پیکسل‌های یک تصویر مطابقت داشته باشد، در حالی که هنگام نمایش متون، ویژگی‌ها ممکن است فراوانی وقوع اصطلاحات متنی باشد. بردارهای ویژگی معادل بردارهای متغیرهای توضیحی مورد استفاده در روش‌های آماری مانند رگرسیون خطی هستند. بردارهای مشخصه اغلب با استفاده از حاصل ضرب نقطه ای با وزن‌ها ترکیب می‌شوند تا یک تابع پیش‌بینی خطی بسازند که برای تعیین امتیاز برای پیش‌بینی استفاده می‌شود.

فضای برداری مرتبط با این بردارها اغلب فضای ویژگی نامیده می‌شود. به منظور کاهش ابعاد فضای ویژگی، تعدادی از تکنیک‌های کاهش ابعاد را می‌توان به کار گرفت.

ویژگی‌های سطح بالاتر را می‌توان از ویژگی‌های موجود دریافت کرد و به بردار ویژگی افزود. به عنوان مثال، برای مطالعه بیماری‌ها ویژگی «سن» مفید است و به عنوان سن = «سال مرگ» منهای «سال تولد» تعریف می‌شود. این فرایند به عنوان ساخت ویژگی نامیده می‌شود. ساخت ویژگی به‌کارگیری مجموعه ای از عملگرهای سازنده برای مجموعه ای از ویژگی‌های موجود است که منجر به ساخت ویژگی‌های جدید می‌شود. نمونه‌هایی از این عملگرهای سازنده عبارتند از بررسی شرایط برابری {=، ≠}، عملگرهای حسابی {+، −، ×، /}، عملگرهای آرایه {max(S), min(S)، میانگین(S)} به عنوان و همچنین سایر عملگرهای پیچیده‌تر، برای مثال count(S,C) که تعداد ویژگی‌های بردار ویژگی S را که برخی از شرایط C را برآورده می‌کنند، می‌شمارد یا، برای مثال، فاصله‌ها با سایر کلاس‌های تشخیص تعمیم‌یافته توسط برخی دستگاه‌های پذیرنده. ساخت ویژگی از دیرباز به عنوان ابزاری قدرتمند برای افزایش دقت و درک ساختار، به ویژه در مسائل با ابعاد بالا در نظر گرفته شده‌است. کاربردها شامل مطالعات بیماری و تشخیص احساسات از گفتار است.

انتخاب و استخراج

مجموعه اولیه ویژگی‌های خام می‌تواند زائد و بیش از حد بزرگ باشد که نمی‌توان آن را مدیریت کرد؛ بنابراین، یک مرحله مقدماتی در بسیاری از کاربردهای یادگیری ماشین و تشخیص الگو شامل انتخاب زیرمجموعه‌ای از ویژگی‌ها، یا ساخت مجموعه‌ای از ویژگی‌های جدید و کاهش‌یافته برای تسهیل یادگیری، و بهبود تعمیم و تفسیرپذیری است.^{[نیازمند منبع]}.

استخراج یا انتخاب ویژگی‌ها ترکیبی از هنر و علم است. توسعه سیستم‌هایی برای انجام این کار به عنوان مهندسی ویژگی شناخته می‌شود. این امر مستلزم آزمایش احتمالات متعدد و ترکیب تکنیک‌های خودکار با شهود و دانش متخصص حوزه است. خودکار کردن این فرایند یادگیری ویژگی است، که در آن یک ماشین نه تنها از ویژگی‌ها برای یادگیری استفاده می‌کند، بلکه خود ویژگی‌ها را یادمی‌گیرد.

جستارهای وابسته

منابع

{{cite book}}: Empty citation (help)
Liu, H. , Motoda H. (1998) Feature Selection for Knowledge Discovery and Data Mining., Kluwer Academic Publishers. Norwell, MA, USA. 1998
Piramuthu, S. , Sikora R. T. Iterative feature construction for improving inductive learning algorithms. In Journal of Expert Systems with Applications. Vol. 36, Iss. 2 (مارس ۲۰۰۹), pp. 3401-3406, 2009
Bloedorn, E. , Michalski, R. Data-driven constructive induction: a methodology and its applications. IEEE Intelligent Systems, Special issue on Feature Transformation and Subset Selection, pp. 30-37, March/April, 1998
Breiman, L. Friedman, T. , Olshen, R. , Stone, C. (1984) Classification and regression trees, Wadsworth
Sidorova, J. , Badia T. Syntactic learning for ESEDA.1, tool for enhanced speech emotion detection and analysis. Internet Technology and Secured Transactions Conference 2009 (ICITST-2009), London, November 9–12. IEEE