ویژگی (یادگیری ماشین)
در یادگیری ماشین و تشخیص الگو، یک ویژگی یک خاصیت یا ویژگی قابل اندازهگیری فردی یک پدیده است. انتخاب ویژگیهای آموزنده، متمایز و مستقل، عنصر حیاتی الگوریتمهای مؤثر در تشخیص، طبقهبندی و رگرسیون الگو است. ویژگیها معمولاً عددی هستند، اما ویژگیهای ساختاری مانند رشتهها و نمودارها در تشخیص الگوی نحوی استفاده میشوند. مفهوم «ویژگی» با متغیر توضیحی مورد استفاده در تکنیکهای آماری مانند رگرسیون خطی مربوط است.
طبقهبندی
[ویرایش]یک ویژگی عددی را میتوان به راحتی با یک بردار ویژگی وصف کرد. یکی از راههای دستیابی به طبقهبندی باینری، استفاده از یک تابع پیشبینی خطی (مربوط به پرسپترون) با بردار ویژگی به عنوان ورودی است. این روش شامل محاسبه حاصل ضرب اسکالر بین بردار ویژگی و بردار وزنها، واجد شرایط بودن مشاهداتی است که نتیجه آنها از حدی فراتر میرود.
الگوریتمهای طبقهبندی از بردار ویژگی شامل طبقهبندی نزدیکترین همسایه، شبکههای عصبی و تکنیکهای آماری مانند رویکردهای بیزی است.
مثالها
[ویرایش]در تشخیص کاراکتر، ویژگیها ممکن است شامل هیستوگرام شمارش تعداد پیکسلهای سیاه در امتداد جهتهای افقی و عمودی، تعداد سوراخهای داخلی، تشخیص ضربه و بسیاری موارد دیگر باشد.
در تشخیص گفتار، ویژگیهای تشخیص واج میتواند شامل نسبت نویز، طول صداها، قدرت نسبی، مطابقت فیلتر و بسیاری موارد دیگر باشد.
در الگوریتمهای تشخیص هرزنامه، ویژگیهایی ممکن است شامل وجود یا عدم وجود سرفصلهای ایمیل مشخص، ساختار ایمیل، زبان، فراوانی عبارات خاص، صحت دستوری متن باشد.
در بینایی کامپیوتر، تعداد زیادی ویژگی ممکن، مانند لبهها و اشیاء وجود دارد.
برنامههای افزودنی
[ویرایش]در تشخیص الگو و یادگیری ماشین، بردار ویژگی یک بردار n بعدی از ویژگیهای عددی است که بیانگر برخی از شیها است. بسیاری از الگوریتمها در یادگیری ماشینی به نمایش عددی اشیا نیاز دارند، زیرا چنین نمایشهایی پردازش و تحلیل آماری را تسهیل میکنند. هنگام نمایش تصاویر، مقادیر ویژگی ممکن است با پیکسلهای یک تصویر مطابقت داشته باشد، در حالی که هنگام نمایش متون، ویژگیها ممکن است فراوانی وقوع اصطلاحات متنی باشد. بردارهای ویژگی معادل بردارهای متغیرهای توضیحی مورد استفاده در روشهای آماری مانند رگرسیون خطی هستند. بردارهای مشخصه اغلب با استفاده از حاصل ضرب نقطه ای با وزنها ترکیب میشوند تا یک تابع پیشبینی خطی بسازند که برای تعیین امتیاز برای پیشبینی استفاده میشود.
فضای برداری مرتبط با این بردارها اغلب فضای ویژگی نامیده میشود. به منظور کاهش ابعاد فضای ویژگی، تعدادی از تکنیکهای کاهش ابعاد را میتوان به کار گرفت.
ویژگیهای سطح بالاتر را میتوان از ویژگیهای موجود دریافت کرد و به بردار ویژگی افزود. به عنوان مثال، برای مطالعه بیماریها ویژگی «سن» مفید است و به عنوان سن = «سال مرگ» منهای «سال تولد» تعریف میشود. این فرایند به عنوان ساخت ویژگی نامیده میشود. ساخت ویژگی بهکارگیری مجموعه ای از عملگرهای سازنده برای مجموعه ای از ویژگیهای موجود است که منجر به ساخت ویژگیهای جدید میشود. نمونههایی از این عملگرهای سازنده عبارتند از بررسی شرایط برابری {=، ≠}، عملگرهای حسابی {+، −، ×، /}، عملگرهای آرایه {max(S), min(S)، میانگین(S)} به عنوان و همچنین سایر عملگرهای پیچیدهتر، برای مثال count(S,C) که تعداد ویژگیهای بردار ویژگی S را که برخی از شرایط C را برآورده میکنند، میشمارد یا، برای مثال، فاصلهها با سایر کلاسهای تشخیص تعمیمیافته توسط برخی دستگاههای پذیرنده. ساخت ویژگی از دیرباز به عنوان ابزاری قدرتمند برای افزایش دقت و درک ساختار، به ویژه در مسائل با ابعاد بالا در نظر گرفته شدهاست. کاربردها شامل مطالعات بیماری و تشخیص احساسات از گفتار است.
انتخاب و استخراج
[ویرایش]مجموعه اولیه ویژگیهای خام میتواند زائد و بیش از حد بزرگ باشد که نمیتوان آن را مدیریت کرد؛ بنابراین، یک مرحله مقدماتی در بسیاری از کاربردهای یادگیری ماشین و تشخیص الگو شامل انتخاب زیرمجموعهای از ویژگیها، یا ساخت مجموعهای از ویژگیهای جدید و کاهشیافته برای تسهیل یادگیری، و بهبود تعمیم و تفسیرپذیری است.[نیازمند منبع].
استخراج یا انتخاب ویژگیها ترکیبی از هنر و علم است. توسعه سیستمهایی برای انجام این کار به عنوان مهندسی ویژگی شناخته میشود. این امر مستلزم آزمایش احتمالات متعدد و ترکیب تکنیکهای خودکار با شهود و دانش متخصص حوزه است. خودکار کردن این فرایند یادگیری ویژگی است، که در آن یک ماشین نه تنها از ویژگیها برای یادگیری استفاده میکند، بلکه خود ویژگیها را یادمیگیرد.
جستارهای وابسته
[ویرایش]منابع
[ویرایش]{{cite book}}
: Empty citation (help)- Liu, H. , Motoda H. (1998) Feature Selection for Knowledge Discovery and Data Mining., Kluwer Academic Publishers. Norwell, MA, USA. 1998
- Piramuthu, S. , Sikora R. T. Iterative feature construction for improving inductive learning algorithms. In Journal of Expert Systems with Applications. Vol. 36, Iss. 2 (مارس ۲۰۰۹), pp. 3401-3406, 2009
- Bloedorn, E. , Michalski, R. Data-driven constructive induction: a methodology and its applications. IEEE Intelligent Systems, Special issue on Feature Transformation and Subset Selection, pp. 30-37, March/April, 1998
- Breiman, L. Friedman, T. , Olshen, R. , Stone, C. (1984) Classification and regression trees, Wadsworth
- Sidorova, J. , Badia T. Syntactic learning for ESEDA.1, tool for enhanced speech emotion detection and analysis. Internet Technology and Secured Transactions Conference 2009 (ICITST-2009), London, November 9–12. IEEE