Site icon Новини про технології та бізнес | UAspectr

Шість порад для фахівців-початківців з машинного навчання

Користувач Medium Кріс І., fullstack-розробник і фахівець з даних, три роки вивчав машинне навчання та створював на його базі додатки в рамках стартапу. Кріс визнає: в процесі він не раз робив помилки і втратив багато часу. Він поділився шістьма порадами на основі свого досвіду, які будуть корисні починаючим фахівцям з МН.

Відмовтеся від навчання без учителя (unsupervised learning)

Це метод навчання моделей з немаркованих даних, зазвичай задіює кластеризацію. В теорії з його допомогою можна виявити невідомі раніше закономірності. У свою чергу, під час навчання з учителем (supervised learning) модель вивчає відносини між вхідними даними і поміченими вихідними даними.

Незважаючи на те, що цей метод рекомендують багато експертів зі ступенем PhD в ІІ, часто навчання без учителя не приносило ніякого результату. У разі Кріса, воно завжди поступалося людської інтуїції. І хоча у цього методу, ймовірно, є безліч способів застосування, але робота буде нелегкою і витратною з точки зору часу. Тому краще набрати більше досвіду і повернутися до нього пізніше.

Не використовуйте нейронні мережі

Нейросети можуть перевершити традиційні моделі, однак вони вимагають величезних зусиль і дають лише невеликі переваги.

У цій моделі є кілька недоліків, які будуть особливо помітні початківцям.

В цілому, не варто повністю уникати нейромереж – краще використовувати їх на більш пізніх етапах.

Структуруйте всі проблеми в двійковій класифікації

Максимально спростіть навчання моделі. Найлегше це зробити за допомогою двійкової класифікації. Така модель буде виводити 1 або 0 в залежності від того, чи є на фотографії, наприклад, собака чи ні. Многоклассовая класифікація повертає 0, 1, 2 або 3 з урахуванням того, хто представлений на фото: собака, кішка, папуга або ему.

За словами Кріса, він отримував кращі результати при паралельному запуску кількох довічних класифікаторів, ніж при використанні однієї багатоклассової моделі,яка обробляє всі випадки. Найбільші переваги дає не вибір відповідної моделі, а правильне структурування проблеми.

Налаштуйте гіперпараметри

Це налаштування на рівні моделі, наприклад коефіцієнт швидкості навчання. За умовчанням вони рідко бувають оптимальними.

Однак ручне налаштування вимагає багато часу, тому краще скористатися автоматизованим інструментом: GridSearchCV, TPOT і т. д. Зберігати експерименти можна в хмарі.

Порада: напишіть код, який буде періодично зберігати результати. Інакше, в разі збоїв, можна втратити роботу за кілька днів.

Встановіть терміни для спроб, а не для результатів

Машинне навчання – це не розробка ПО. Неможливо передбачити, скільки часу буде потрібно для вирішення проблеми і чи можна її вирішити в цілому.

Однак з точки зору бізнесу тимчасові рамки грають важливу роль. Тому краще відразу встановити термін тривалості експерименту.

Документуйте експерименти

Через півроку ви будете вдячні собі за це. Інформацію можна занести в електронну таблицю і відзначити в ній наступне:

Одного разу CEO компанії або новий керівник попросить вас виконати те, над чим ви вже працювали і не отримали бажаних результатів. Але, ймовірно, ви не згадаєте, чому так вийшло. Документація не тільки нагадає про це, але і дозволить представити минулі результати керівництву, що заощадить вам багато часу.

Крім того, замітки в ході роботи і періодичне підведення підсумків надають сил, допомагають побачити закономірності та розвивати інтуїцію. Саме це зробить вас досвідченим фахівцем в довгостроковій перспективі.

Exit mobile version