ابزارهای مورد نیاز برای آموختن علم داده

مقدمه:
در مقاله پیش رو قصد داریم ابتدا ابزارهای مورد نیاز برای آموختن علم داده را معرفی کنیم سپس به چگونگی نحوه پاسخ به چالش مدلسازی در این حوزه پاسخ دهیم.
ابزارها:
در این قسمت، قصد داریم که لیستی از ابزارهایی که به طور متدوال مورد استفاده در سه حوزه مرتبط با علم داده (علم آمار، یادگیری ماشین فنآوریهای کلان داده) هستند را معرفی کنیم.
- بهینهسازی:
تعداد بسیار زیادی از مدلسازیها به منظور توصیف داده را میتوان در قالب یک مسأله بهینهسازی فرموله کرد. به عبارت سادهتر، یک تابع هدف (بیشینه سازی یا کمینه سازی) و یک مجموعه از محدودیتهایی که باید در نظرگرفته شوند، وجود دارد .هدف یافتن جوابی است که هم محدودیتهای موجود را برقرار کند و هم تابع هدف را بهینه نماید. روشهای بهینهسازی بر رویکردهایی مطالعه دارد که چنین مسائلی را حل میکند. در این راستا، الگوریتمهای فراابتکاری تلاش میکنند تا به طور موثری مسائل بهینهسازی را حل کند. به طور کلی الگوریتم های ابتکاری مسأله محور هستند و برای یک مسأله خاص طراحی می شوند. به این دلیل، نمیتوان از چنین الگوریتمها برای پاسخ به مسائل مختلف استفاده کرد. علاوه بر این، این الگوریتمها معمولاً در یک جواب بهینه محلی گرفتار میشوند که ضعف بزرگی است و باعث کاهش کیفیت جواب میشود. در نقطه مقابل، الگوریتمهای فراابتکاری مسأله محور نبوده و برای پاسخ دادن به مسائل متنوع میتوانند استفاده شوند. همچنین این الگوریتمها بااستفاده از روشهایی که عمدتاً از قوانین طبیعت گرفته شده سعی میکنند در نقطه بهینه محلی گیر نکنند. چه در الگوریتمهای ابتکاری و چه در فراابتکاری جواب دقیق حاصل نمیشود و علت استفاده از چنین الگوریتمهایی یافتن یک جواب نسبتاً سریع با کیفیت نسبتاً مناسب است و این هدفی است که در بسیاری از مواقع با استفاده از روش حلهای دقیق میسر نیست.
- نظریه احتمال:
در جهانی زندگی میکنیم که اساس آن بر احتمالات است. از این رو، در بسیاری از موارد، مناسب نیاز به در نظر گرفتن عدم قطعیتهای موجود برای مدلسازی ، امری طبیعی است. چنین هدفی با بکارکیری نظریه احتمال شدنی است. در این راستا، مدلهایی مانند مدلهای گرافی و شبکههای بیزی احتمال محور هستند که میتوانند برای در نظر گرفتن عدم قطعیت در مدل استفاده شوند.
- جبرخطی:
یک مدل چند متغیره رگرسیونی ساده میتواند توسط ماتریسها و بردارها راحتتر نمایش داه شده و حل شود. مسائل بهینهسازی معمولاً با استفاده از جبرخطی فرموله میشوند؛ به عنوان مثال، محدودیتهای خطی که به صورت تساوی هستند را میتوان به صورت حاصل ضرب یک ماتریس در برداری از متغیرها مساوی با برداری دیگر نمایش داد. برخی دیگر از مدلهای یادگیری ماشین و آماری نیز با استفاده از جبر خطی نمایش داده شده و حل میشوند. یکی از برجستهترین این مدلها ماشینهای بردار پشتیبان است.
- گرافها:
بعضی از اطلاعات در دسترس به طرز مناسب و راحتی در قامت گراف قابل نمایش است. یک نمونه از چنین رویکردی شبکههای اجتماعی است. نظریه گراف و مفاهیم و ابزاری را جهت تحلیل این نوع از داده فراهم میآورد. “شبکههای پیچیده” عبارتی است که اشاره به یک شبکه با ساختار غیرجزئی توپولوژیکی دارد. همچنین درختها نیز گرافهایی هستند که شامل دور نیستند.
- توپولوژی:
توپولوژی در واقع نحوه چیدمان یا اتصال عناصر شبکه است. حوزه تحلیل داده توپولوژیکی اخیراً ظهور یافته است تا خصیصههای مرتبط را از داده موجود استخراج کند. جهت مطالعه بیشتر میتوانید از مرجع استفاده نمایید.
- تجزیه و تحلیل بصری:
درک کلان داده کار دشواری است. مصورسازی داده ابزاری را برای فهم موثرتری از داده فراهم میکند و تجزیه و تحلیل بصری هم ابزاری را برای تجزیه و تحلیل کلان داده و فرآیندهای تصمیمسازی مهیا میکند.
میتوانید جزئیات دوره آنلاین علم داده (Data Science) موسسه توسعه را مشاهده کنید.
- زبانهای برنامهنویسی و نرم افزارها:
زبانهای برنامهنویسی مناسب براب کلان داده شامل R، Scala و Python هستند. چارچوبهای زبان برنامهنویسی که به طور متداول استفاده میشوند شامل Apache Spark، MapReduce، Hadoop، Flink و بسیاری دیگر هستند. نرم افزارهای تخصصی برای مصورسازی داده شامل Tableau و Spotfire است.
- دیگر ابزارهای ریاضیاتی:
نوع دادهای که با آن روبهرو میشویم میتواند هرچیزی باشد؛ از تصویر گرفته تا سریهای زمانی و از فایلهای مستند گرفته تا داده برای پیشبینی وضعیت آب و هوا. به همین خاطر، نوع ابزارهایی که ممکن است برای تجزیه و تحلیل داده استفاده کنیم بسیار متنوع است. چهار نوع از این ابزارها، بسته به کاربردی که مد نظر داریم عبارتند از:
- پردازش تصویر
- تجزیه و تحلیل سریهای زمانی
- پیشبینی
- فرآیند زبان طبیعی دینامیک سیالات
با توجه به تنوع قلمروهای کاربردی، میتوان دریافت که ابزارهای دردسترس گوناگون هستند و اغلب کاملاً به طور خاص برای یک مسأله یا سناریو طراحی میشوند.
مدلسازی:
یکی از پرسشهای اساسی در پروژههای علم داده این است که چطور مدلسازی جهت تشریح داده را انجام داده و قادر به پیشبینیهای صحیح باشیم. بدین منظور، از یادگیری ماشین و یادگیری آماری استفاده میکنیم. در مدلها عموماً به دنبال برقراری روابطی بین متغیرها و ویژگیها هستیم. مدلهای بسیار زیادی وجود دارند؛ به طور مثال، مدلهای آماری، مدلهای منطقی و مدلهای مبتنی بر معادلادت تفاضلی. یادگیری آماری و یادگیری ماشینی ابزارهایی را برای آموزش مدلهایی از خود داده فراهم میکند.
برخی استدلال میکنند که فرآیند تعریف یک مدل و ارزیابی آن نیاز به توافق بر سر روش علمی دارد. این یک فرآیند تکراری است؛ به این معنا که داده را مشاهده و جمع آوری کرده سپس پرسش را فرموله کرده و فرضیهای را مطرح و مورد آزمون قرار میدهیم. در انتها، نتیجهگیری کرده و اقدامی آگاهانه را متناسب با نتیجهگیری اتخاذ میکنیم. تکراری بودن این فرآیند به دلیل این است که آزمون و نتیجهگیریها ممکن است مستلزم باز فرمولهبندی فرضیه داده شده باشد.
مراجع:
[1] Alan Said. Vicenc Torra, Data Science in practice, Springer, Volume 46
[2] Wu. C.F.J (1997). Statistics=Data Science. Retrieved February 23, 2018
[3] Frederic Chazal. Bertrand Michel, An introduction to Topological Data Analysis: Fundamental and practical aspects for data scientists
مطالب زیر را حتما مطالعه کنید
یادگیری ماشین چیست؟
علوم داده و حوزههای آن
1 دیدگاه
به گفتگوی ما بپیوندید و دیدگاه خود را با ما در میان بگذارید.
خیلی مطلب خوبی بود. ممنون