Обзор литературы по Data Mining

вторник, 11 августа 2009, Александр Краковецкий

Добрый день!

Публикация нескольких статей о Data Mining показала высокий интерес сообщества к данной теме. Много вопросов было задано по типу «где почитать» и «с чего начать». Предлагаю вашему вниманию подборку литературы, ресурсов для уверенного старта в данной области.

Книги

А.А. Барсегян, М.С. Куприянов, В.В. Степаненко, И.И. Холод Методы и модели анализа данных: OLAP и Data Mining (+ CD-ROM)

image

В книге представлены наиболее актуальные направления в области разработки корпоративных систем: организация хранилищ данных, оперативный (OLAP) и интеллектуальный анализ данных (Data Mining). Все три направления рассмотрены в достаточном для понимания и дальнейшего использования на практике объеме. Описание методов и алгоритмов анализа данных и иллюстрация их работы на примерах позволит использовать книгу не только как учебное пособие, но и как практическое руководство при разработке программного обеспечения.

Книга на Ozone

От себя: эта книга длительное время была для меня главным источником информации по Data Mining, поэтому всячески рекомендую.

А. А. Барсегян, М. С. Куприянов, В. В. Степаненко, И. И. Холод Технологии анализа данных. Data Mining, Visual Mining, Text Mining, OLAP (+ CD-ROM)

image

Книга является вторым, обновленным и дополненным, изданием учебного пособия «Методы и модели анализа данных. OLAP и Data Mining».
Излагаются основные направления в области разработки корпоративных систем: организация хранилищ данных, распределенный, оперативный (OLAP), интеллектуальный (Data Mining), визуальный (Visual Mining) и текстовый (Text Mining) анализ данных. Приведено описание методов и алгоритмов решения основных задач анализа: классификации, кластеризации и др. Описание идеи каждого метода дополняется конкретным примером его применения. Прилагается компакт-диск, содержащий стандарты Data Mining, библиотеку алгоритмов Xelopes, лабораторный практикум по интеллектуальному анализу данных и соответствующее программное обеспечение.

Книга на Ozon

От себя: более новая версия книги от авторов предыдущей книги, добавлены новые разделы, например Text Mining.

Паклин Н.Б., Орешков В.И. Бизнес-аналитика: от данных к знаниям (+ СD)


image

В книге последовательно раскрываются основные технологии, используемые при создании и внедрении корпоративных информационно-аналитических систем, объединяемые термином «бизнес-аналитика»: хранилища данных и OLAP, трансформация данных, ETL и методы очистки, базовые алгоритмы Data Mining, анализ временных рядов, подходы к построению ансамблей моделей и их сравнению. Во второй части авторы на демонстрационных примерах показывают, как можно решать такие задачи как консолидация, аналитическая отчетность, скоринг, стимулирование продаж, прогнозирование спроса и другие средствами бизнес-аналитики на базе аналитической платформы Deductor компании BaseGroup Labs.

Книга предназначена для бизнес-аналитиков, как будущих, так и существующих, специалистов в области анализа данных, а также студентов, изучающих информационно-аналитические системы, обучающихся по программам первого и второго образования в вузах, повышения квалификации.

К изданию прилагается компакт-диск с дистрибутивом свободнораспространяемой версии аналитической платформы Deductor Academic, файлы с демопримерами ко второй части книги, а также дополнительные материалы по Deductor.

Страница книги
Книга на сайте издательства Питер

От себя: вчера листал эту книгу, производит приятное впечатление и по количеству и по качеству материалов. Если вы используете (или хотите использовать deductor), тогда эта книга для вас (книга 2009 года).

Программируем коллективный разум


image

Хотите знать, как реализуются ранжирование результатов поиска, рекомендование товаров, социальные закладки и онлайновый подбор пар? В этой захватывающей книге рассказывается, как построить приложение Web 2.0, которое будет извлекать полезную информацию из гигантского массива данных, создаваемых партнерскими интернет-приложениями. Пользуясь описанными здесь изощренными алгоритмами, вы сможете писать интеллектуальные программы, которые получают интересные наборы данных с других сайтов или от пользователей ваших приложений и анализируют их на предмет выявления закономерностей.

Книга «Программируем коллективный разум» – это введение в мир машинного обучения и статистики. В ней объясняется, как делать полезные с точки зрения маркетинга выводы о поведении и предпочтениях пользователей на основе информации, ежедневно собираемой вашими и сторонними приложениями. Каждый алгоритм описан четко и кратко и сопровождается кодом, который можно сразу же включить в собственный сайт, блог, Вики или какое-нибудь специализированное приложение. Рассмотрены следующие темы:

  • Методы коллаборативной фильтрации, позволяющие розничным продавцам рекомендовать товары или мультимедийную продукцию.
  • Методы кластеризации, применяемые для обнаружения групп схожих образцов в большом наборе данных.
  • Алгоритмы оптимизации, позволяющие рассмотреть миллионы возможных решений задачи и выбрать среди них наилучшее.
  • Байесовская фильтрация, применяемая в антиспамных фильтрах для классификации документов на основе встречающихся слов и других признаков.
  • Метод опорных векторов, применяемый для подбора пар на сайтах знакомств.
  • Применение эволюционных методик для решения различных задач – компьютер обучается, улучшая собственный код после каждой сыгранной игры.

Каждая глава сопровождается практическими заданиями, направленными на овладение рассмотренных в ней алгоритмов. Выйдите за рамки простых приложений с хранением в базе данных и заставьте богатейшие россыпи данных в Интернете работать на вас.

Книга на books.ru

От себя: эту книгу очень рекомендовали в одном из комментариев к предыдущим статьям. Сам не читал, но в планы на прочтение поставил :)

Другие книги

  1. Наталия Елманова, Алексей Федоров. Введение в OLAP-технологии Microsoft — книга предназначена для широкого круга читателей, включая опытных пользователей Microsoft Office, бизнес-аналитиков, разработчиков, менеджеров информационных служб и отделов автоматизации, желающих ознакомиться с основами применения аналитической обработки данных (OLAP) и хранилищ данных, а также с возможностями, предоставляемыми современными OLAP-средствами. Для иллюстрации обсуждаемых в книге вопросов используются OLAP-средства корпорации Microsoft.
  2. Бергер А. Microsoft SQL Server 2005 Analysis Services. OLAP и многомерный анализ данных — книга, написанная разработчиками Microsoft SQL Server 2005 Analysis Services, дает читателю полное представление об его функционировании и устройстве. В ней рассмотрены основы многомерного анализа данных и дано глубокое представление о многомерных моделях данных и устройстве OLAP-сервера. Описаны основные концепции языка доступа к многомерным данным MDX и его расширенные возможности, а также архитектура сервера, методы обработки данных и алгоритмы доступа к данным. Приведены внутренние и ннешние протоколы обмена данными, включая протокол XML/A. Рассмотрены алгоритмы управления ресурсами Analysis Services, в том числе алгоритмы управления памятью. Описан процесс создания эффективных клиентских приложений с использованием Analysis Services, механизмы интеграции многомерных и реляционных баз данных. Уделено внимание безопасности, а также администрированию Microsoft SOL Server 2005 Analysis Services.
  3. Д. Макленнен, Ч. Танг, Б. Криват. Microsoft SQL Server 2008: Data Mining — интеллектуальный анализ данных — книга, написанная разработчиками Microsoft SQL Server Data Mining, дает читателю полное представление о его функционировании и показывает особенности использования при решении различных задач в SQL Server 2008. Рассмотрены введение в интеллектуальный анализ данных и язык DMX. Показаны анализ данных с помощью MS Office 2007, создание решений с помощью Business Intelligence Development Studio, а также использование среды SQL Server Management Studio. Подробно описано применение различных алгоритмов анализа, а также интеллектуальный анализ кубов OLAP. Рассмотрены архитектура, администрирование и многое другое. Материал сопровождается практическими примерами, советами и справочной информацией.
  4. Data Mining with Microsoft SQL Server 2008

Он-лайн ресурсы

Interface.ru

Intuit.ru

Курс «Data Mining», автор — И.А. Чубукова.

Курс знакомит слушателей с технологией Data Mining, подробно рассматриваются методы, инструментальные средства и применение Data Mining. Описание каждого метода сопровождается конкретным примером его использования.

Обсуждаются отличия Data Mining от классических статистических методов анализа и OLAP-систем, рассматриваются типы закономерностей, выявляемых Data Mining (ассоциация, классификация, последовательность, кластеризация, прогнозирование). Описывается сфера применения Data Mining. Вводится понятие Web Mining. Подробно рассматриваются методы Data Mining: нейронные сети, деревья решений, методы ограниченного перебора, генетические алгоритмы, эволюционное программирование, кластерные модели, комбинированные методы. Знакомство с каждым методом проиллюстрировано решением практической задачи с помощью инструментального средства, использующего технологию Data Mining.Излагаются основные концепции хранилищ данных и места Data Mining в их архитектуре. Вводятся понятия OLTP, OLAP, ROLAP, MOLAP.Обсуждается процесс анализа данных с помощью технологии Data Mining. Подробно рассматриваются этапы этого процесса. Анализируется рынок аналитического программного обеспечения, описываются продукты от ведущих производителей Data Mining, обсуждаются их возможности.

Перейти на страницу курса

Kdkeys.net

Блог по Data Mining. Временами «проскакивают» интересные материалы, но не часто. В основном, темы топиков построены по принципу «I am very young, I need you help. Please do work for me, I will be thankful» :)

kdkeys.net

BaseGroup Labs

Содержит много полезной информации по Data Mining. BaseGroup Labs являются разработчиками Deductor — аналитической платформы, поддерживающая технологии Data Warehouse, ETL, OLAP, Knowledge Discovery in Databases и Data Mining.

basegroup.ru

Другие ресурсы

Мой скромный вклад :)

Data Mining Source Code на Codeplex — open-source проект, где собраны некоторые алгоритмы и методы Data Mining (часть собрана из сети, часть реализована самостоятельно, часть портирована из других языков).

Всем спасибо за внимание!

P.S. Описания книг являются оригинальными аннотациями.

Upd. Weka — действительно, на сегодняшний день это лучшая open source библиотека для Data Mining.

Data Mining Software in Java
Описание программы Weka
Книга «Data Mining: Practical Machine Learning Tools and Techniques (Second Edition)»

Upd2. Коллекция книг по технологиям Data Warehouse Data Mining Olap (англ.)
Библиотека книг по Data mining, по работе и программированию в программах Stata и SAS

Эта статья на хабрахабр

Компании из статьи


Microsoft Украина


Сайт:
http://www.microsoft.com/ukr/ua/

Microsoft Украина Украинское подразделение компании Microsoft.

Ищите нас в интернетах!

Комментарии

Свежие вакансии