Публикации с тэгом "Data mining"
СТАТЬЯ Исследование рынка труда по разработке программного обеспечения
Многие мои публикации связаны с Data Mining и Data Extracting. Мне приятно, что они пользуются популярностью. В основном, это теоретические статьи с описанием методов, алгоритмов, но есть ряд практических статей. В этот раз мне хотелось бы применить знания по обработке данных с практической пользой. Поэтому предлагаю всем желающим принять участие в анонимном опросе. Лично мне интересны не статистические данные — медиана, средняя температура по больнице и т.д., а именно скрытые взаимосвязи. Напри...
СТАТЬЯ Извлечение данных из веб-ресурсов. Введение
Так как я плотно занимаюсь вопросом извлечения и анализа данных, у меня появилась идея написание небольшого руководства под названием "Извлечение данных из веб-ресурсов". Так как написание законченного произведения требует огромного количества времени, а руководство основано на моих предыдущих статьях, то самым лучшим вариантов я вижу выложить то, что есть, в структурированном виде и дополнять по мере написание новых материалов. Если у вас есть интерес к данной теме и вы хотите помочь в написани...
НОВОСТЬ Как пройти в библиотеку? Новый конкурс для читающих людей!
С большим удовольствием сообщаю о начале конкурса "Как пройти в библиотеку?", нацеленного на читающих и пишущих людей. Цели этого конкурса: определить хорошие книги в нескольких жанрах и наградить "книжных монстров"! Итак, суть конкурса предельно проста. Вам необходимо: порекомендовать свою любимую книгу, написав на нее рецензию; сделать сравнительный анализ нескольких книг одной тематики; написать техническую статью, в которой указать, какие книги поспособствовали ее появлению; Номинаций нескол...
СТАТЬЯ Здравствуй, новый msug.vn.ua! Часть 3: расставляем точки
В предыдущих статьях я рассказал о причинах переезда, а сегодня немного хотелось бы прояснить вопросы, связанные с концептом сайта и его дальнейшим развитием. Сначала отвечу на некоторые комментарии к предыдущим статьям. Итак, сейчас мы хостимся на discountasp.net, которые любезно предоставили нам бесплатный хостинг как сайту Microsoft User Group. Мы работаем под управлением .NET Framework 4.0, IIS 7.5 и используем MS SQL Server 2008 R2. Нагрузку в 1000 хостов держит нормально и даже выдержал ха...
СТАТЬЯ Одна из нерешенных проблем современных поисковых систем
Мы привыкли получать 100% (ну или 99%) релеватную информацию на первой же странице поиска. Это происходит потому, что современная поисковая система - это сочетание алгоритмов поиска, data mining, эвристик и т.д. Но, на мой взгляд, интернет уже набрал "критическую массу" веб-ресурсов, из-за чего необходимо пересмотреть отношение к релевантности. Пример, показанный ниже, в большей степени относится к новостному контенту, но также в ряде случаев проявляется для других типов контента. Рассмотрим рез...
СТАТЬЯ Империя наносит ответный удар
Сегодня меня очень порадовал хабр. Нет, честно, я давно так не веселился, читая одну из статей, а именно Google Cloud Connect — империя наносит ответный удар. Я только не понял, почему она в блоге Google, а не в Хабраюморе. Для тех, кто все пропустил, краткий сюжет: Microsoft оказался на грани выживания, а все потому, что Google выпустил Toolbar, который позволяет синхронизировать файлы с Google Docs. Все уже привыкли к тому, что хабр — это вселенский центр холиварщиков и майкрософтоненавистнико...
СТАТЬЯ Получение основного контента веб-страниц программно
Задача очищения веб-страниц от информационного шума — это одна из актуальных задач информационного поиска. Суть ее заключается в том, чтобы очистить информационный шум и получить лишь основной контент. Рассмотрим пример: Основным контентом можно считать вот эту часть страницы: Где это можно применять: сервисы доставки контента, когда другие способы по каким-то причинам не подходят (например, RSS лента отсутствует или выдает только введение); системы по сбору некоторой информации из различн...
СТАТЬЯ Data Mining: что внутри
Уровни информации Я не думаю, что открою Америку, если скажу, что не вся информация одинаково полезна. Иногда для объяснения какого-то понятия необходимо написать много текста, а иногда для объяснения сложнейших вопросов достаточно посмотреть на простую диаграмму. Для сокращения избыточности информации были придуманы математические формулы, чертежи, условные обозначения, программный код и т.д. Кроме того, важным является не только сама информация, но и ее представление. Понятно, что котировки ак...
СТАТЬЯ Бесплатные программы и утилиты от Microsoft
Многие считают, что компания Microsoft выпускает только коммерческие продукты. В данном посте хочу остановиться на бесплатных программах и утилитах, которые доступны для свободного использования. Офисные продукты В то время, когда Microsoft Office - продукт платный, есть ряд программ и утилит, позволяющих работать с офисными документами бесплатно или повышать их функционал. Compatibility Pack for Word, Excel, and PowerPoint 2007 позволяет работать с файлами Office 2007 в более ранних версиях Of...
СТАТЬЯ Кто хочет, тот ищет возможности, кто не хочет — ищет причины
Открыв сегодня хабр, увидел большое количество публикаций на тему образования. Так как эта тема мне очень близка, решил поделиться своими мыслями. Кто хочет, тот ищет возможности, кто не хочет — ищет причины. Этот тезис применим ко многим вопросам — отсутствие материально-технической базы в университете, глупые преподаватели, пассивность компаний etc. Это, конечно, важные причины, почему молодые люди не хотят учиться, но давайте все же разберемся. Отсутствие материально-технической базы Часто сл...