Программирование [OTUS] Pазработчик BigData. 3 Часть из 5

V

VkurseMan

Премиум клуб
Премиум клуб
27 Фев 2019
349
383
21
Голосов: 0
#1
Автор: OTUS
Название: Pазработчик BigData. 3 Часть из 5

Описание:



Чаще всего в окружении, в котором приходится работать, данные не готовы для анализа, у них произвольный формат и много ошибок. Например, это данные из баз знаний, открытых API, данные из различных информационных систем партнеров.В третьем модуле рассматриваются вопросы сбора и очистки данных, разбираются типичные задачи бизнеса. Например, это предсказание ctr, ltv. Дополнительно рассмотрим специальные алгоритмы анализа данных - это работа с временными рядами, рекомендательными системами, текстами, графами.

Занятие 17: Анализ текстовых данных
Сбор данных из открытых источников. Очистка данных, подготовка данных для анализа.Задача обработки текста. Введение, обзор задач, токенизация, лемматизация. Python + sklearn для обработки текстов. Понятие мешка слов, TF.IDF и когда они могут быть нужны, feature selection для NLP.
ДЗ
Реализация процесса сбора данных через API. Преобразование текста, подготовка текста для анализа. Применение машинного обучения для предсказания характеристики в собранных данных

Занятие 18: Анализ текстовых данных
Выделение объектов в тексте (named entity recognition, named entity linking)
Неструктурированные данные. Структурированные данные. Сбор текстов (scraping)
Word2vec для извлечения похожих слов, sentiment analysis

Занятие 19: Рекомендательные системы
Типы рекомендательных систем. Векторное пространство (тот же TF-IDF) и content-based модели, повторение стандартных метрик корреляций: Пирсон, косинусная мера, Джаккарт. Offline метрики и метрики ранжирования. Построение простой content-based модели. Item(user)-based CF. Использование CF для implicit feedback. Построение CF модели (item-based или MF)
ДЗ
Применение алгоритма рекомендаций для датасета фильмов.

Занятие 20: Временные ряды
Что такое временные ряды и простые модели построения прогнозов. Разложение временного ряда на компоненты: тренд, сезонность, цикл, ошибка. Стационарность ряда. Модели класса AR, MA, ARMA, ARIMA. Построение прогноза на примере данных. Модели ARIFMA. Нелинейные модели, библиотека Prophet от Facebook. Векторные модели

Занятие 21: Latent Dirichlet Allocation
ДЗ

Применение LDA для категоризации текстов.

Занятие 22: Алгоритмы на графах
Социальные сети

Занятие 23: Нейронные сети, обучение нейронных сетей
Основы: перцептрон и синапсы, функция активации, примеры задач. Обучение: функция потерь, обратное распространение ошибки, стохастический градиент.
ДЗ
Реализация алгоритма обратного распространения ошибки и применение простой сети на mnist.

Занятие 24: Сверточный слои, каскады, визуализация признаков
Сверточный слои, каскады, визуализация признаков. Нормализация и регуляризация: batchnorm, dropout. Архитектуры нейросетей: обзор архитектур AlexNet, ResNet, GoogLenet.

Скачать:
Скрытое содержимое могут видеть только пользователь группы : Премиум клуб
 

О нас

  • На нашем форуме есть все курсы и материалы со всей сети для того, чтобы вы смогли начать действовать и занялись любимым делом в интернете. Бесплатные курсы, тренинги, книги, уроки, гайды, вебинары на различные тематики. Изучи как открыть свой бизнес бесплатно и как можно заработать.
  • Форум Вкурсе - это:
    • Популярные обучающие курсы от известных спикеров и авторов;
    • Огромный раздел по актуальным схемам заработка в интернете;
    • Слитые складчины по бизнесу, дизайну, и многое другое

Быстрая навигация

Меню пользователя