Новини, Розробникам, Технології

12 проектів з дата-сайенс, які можна зробити за новорічні свята

28 Грудня, 2020

Не забудьте поширити ❤️

Святкові дні – привід не тільки відпочити, а й вивчити щось нове. Початківці і навіть досвідчені фахівці з data science можуть зайнятися актуальними і цікавими проєктами. Пропонуємо 12 варіантів, які відмінно підійдуть для портфоліо.

Симуляції на Pythonhttps

Вони допомагають розвивати навички в програмуванні та науці про дані. Більш того, з ними цікаво експериментувати. Симулювати можна різні сценарії і фактори – для багатьох з них буде потрібно не більше двохсот рядків коду. Наприклад, можна змоделювати пандемію і спрогнозувати обмежувальні заходи для населення.

Складність: від найлегшої до неймовірно складної.

Ви навчитеся:

  • Застосовувати об’єктноорієнтоване програмування.
  • Симулювати випадковості на Python.
  • Моделювати реальні сценарії.

Аналіз роздрібної торгівлі

Застосовувати data science та програмування можна і в бізнесі. Прогноз кількості продажів у святкові дні дозволяє зрозуміти, скільки товарів потрібно зробити. Це дуже важливо, тому що, якщо їх буде занадто багато, вони залишаться лежати на полицях, а якщо занадто мало – бізнес втратить потенційний дохід.

Складність: середня.

З чого почати:

  • Набір даних можна знайти тут.
  • У цьому відео від Analytics University представлені 10 проєктів з науки про дані в роздрібній індустрії.

Ви навчитеся:

  • Виконувати прогнозне моделювання, а також прогноз часового ряду.
  • Розуміти бізнес-статистику.

Вплив пандемії на трафік аеропортів

Навички в data science можна також покращувати в реальних сценаріях. За останні дев’ять місяців пандемія сильно вплинула на наше життя, особливо на міжнародні подорожі. Проаналізувати трафік аеропорту можна за допомогою даних, зазначених нижче.

Складність: легка.

З чого почати:

  • Тут ви знайдете набір даних.
  • Ця інструкція покаже, як візуалізувати дані за допомогою Plotly.

Ви навчитеся:

    • Проводити дослідний аналіз даних.
    • Візуалізувати дані.

Аналог Tweetdeck

Це інструмент, який дозволяє відстежувати взаємодії в профілі Twitter і виявляти різну інформацію в реальному часі. За допомогою API Twitter і інструменту для візуалізації, наприклад Dash або Streamlit, можна створити власну платформу для аналітики в Twitter.

Складність: середня.

З чого почати:

  • Ознайомтеся з Tweetdeck.
  • Навчіться взаємодіяти з API-інтерфейсами і запитувати ключ API з Twitter.
  • Вивчіть інструмент для створення візуалізацій. Наприклад, Dash або Streamlit.

Ви навчитеся:

  • Працювати з API-інтерфейсами.
  • Створювати інтерактивні панелі моніторингу.

A / B-тестування для показників клікабельності (CTR)

A / B-тестування – одна з найкорисніших для бізнесу концепцій в науці про дані. Однак в силу своєї складності вона часто розуміється неправильно. Визначення показників CTR – найважливіша метрика для будь-якої компанії, в якій є команда з маркетингу. Вона допомагає оптимізувати онлайн-рекламу – від її зовнішнього вигляду до загального посилання.

Складність: середня.

З чого почати:

Завантажити набір даних для прикладу можна тут.
Дотримуйтесь цієї покрокової інструкції.

Ви навчитеся:

  • Проводити дослідний аналіз даних.
  • Виконувати правильне A / B-тестування для CTR.

Рекомендаційна система

Сучасні соціальні платформи і агрегатори контенту використовують неймовірно складні алгоритми. Щоб зрозуміти, як вони працюють, можна побудувати власний.

Складність: середня та просунута.

З чого почати:

Ви навчитеся:

  • Створювати рекомендаційні системи.
  • Виконувати сингулярне розкладання і розкладання матриці.

Веб-скрейпінг відгуків покупців

Навчитися збирати дані з сайту легко. Для прикладу можна витягти інформацію з сервісу Trustpilot, на якому представлені відгуки покупців. Ці дані дуже корисні для бізнесу: вони допомагають визначити ставлення споживачів до бренду і зрозуміти, які аспекти варто поліпшити.

Складність: легка.

З чого почати:

  • Ознайомтеся зі структурою Trustpilot і виберіть типи бізнесів, які ви будете аналізувати.
  • Скористайтеся покроковою інструкцією зі збору відгуків з Trustpilot.

Ви навчитеся:

  • Збирати дані з сайту.
  • Аналізувати відгуки покупців.
  • Застосовувати обробку природної мови (NLP) для отримання корисної інформації.

Сегментація клієнтів

Повертаємося до роздрібної аналітики. Тепер наше завдання полягає в тому, щоб згрупувати покупців за допомогою статистики і визначити сегменти, на які ви хочете націлити бізнес.

Складність: середня та просунута.

З чого почати:

Ви навчитеся:

  • Застосовувати методи кластеризації.
  • Виконувати зниження розмірності.

Прогноз витрат енергії по часових рядах

Використовуйте дані про споживання енергії з сайту регіональної організації США PJM. З їх допомогою можна побудувати модель часових рядів, щоб прогнозувати енергетичну витрату. Крім того, ці дані стануть в нагоді, щоб виявити тенденції витрат за часом доби, свят і більш тривалих термінів.

Складність: середня та просунута.

З чого почати:

  • Завантажте набір даних тут.
  • Подивіться керівництво по створенню тимчасових рядів за допомогою Python.

Прогнозування цін на акції

Припустимо, ви хочете дізнатися, чи будуть зростати акції Tesla. Передбачити цінову траєкторію можна, використовуючи прогноз часових рядів. Бібліотека Prophet від Facebook значно спростить цю задачу.

Складність: середня.

З чого почати:

  • Виберіть публічну компанію і завантажте дані про неї з Yahoo Finance.
  • Прочитайте покрокове керівництво по моделюванню часових рядів за допомогою Prophet.

Ви навчитеся:

  • Краще розбиратися в побудові часових рядів.
  • Використовувати пакет Prophet від Facebook.

Прогнозування лайків в Instagram

Не можете вибрати, яку фотографію опублікувати в Instagram, щоб вона отримала більше позитивних оцінок? Прийняти рішення допоможе data science.

Ви можете створити модель прогнозування на основі декількох факторів, таких як використовувані хештеги, довжина опису і кількість зображень в каруселі. Потім протестуйте свої ідеї на цій моделі, відстежте результати і виявіть відповідний формат, який, швидше за все, збере найбільше лайків. Цей проєкт також підходить тим, хто зацікавлений в машинному навчанні.

Складність: складна.

З чого почати:

  • Не варто занадто ускладнювати першу модель. Просто візьміть такі фактори, як яскравість зображення, довжина опису та інші, який можна отримати за допомогою веб-скрейпінгу або API Instagram.
  • Відформатуйте ці значення і використовуйте машинне навчання або модель прогнозування, щоб зіставити їх з даними за кількістю лайків на кожен пост.
  • Тепер можна збільшити масштаб і розширити набір даних. Додайте хештеги, час публікації та іншу інформацію і проаналізуйте тисячі або навіть сотні тисяч постів.
  • Це складне завдання, яке можна нескінченно масштабувати, тому не турбуйтеся, якщо не вийде з першої спроби.

Ви навчитеся:

  • Збирати і очищати дані, а також маніпулювати ними.
  • Створювати моделі прогнозування з використанням машинного навчання.

Порівнювач резюме і опису вакансії

З його допомогою можна визначити, наскільки близько резюме підходить до опису вакансії. Щоб його створити, скористаємося техніками NLP, наприклад латентно-семантичним аналізом.

З чого почати:

Ви навчитеся:

  • Використовувати такі методи NLP, як латентно-семантичний аналіз та косинусну схожість.
  • Застосовувати лінійну алгебру і сингулярне розкладання.

 

Підпишіться на e-mail розсилку Українського Спектру

Про “Український Спектр”

«Український Спектр» – це онлайн медіа-організація, яка націлена на те, щоб допомогти своїм читачам, глядачам та відвідувачам успішно розвиватися в бізнесі та повсякденному житті, завдяки неперевершеному доступу та найкращому у своєму класі поданню новин та історій.

«Український Спектр» в Telegram – коротко про головне один раз на день
Підписатись на канал

Ми у соціальних мережах:

Ми у соцмережах:

Слідкуйте за UAspectr у Facebook або ж читайте усе найцікавіше у нашому каналі в Telegram
Menu