Опрос, касающийся определения понятия «датамайнинг»

Уважаемые читатели блога!

У автора блога возникли два вопроса, который он хочет обсудить с сообществом: «А корректен ли перевод «Datamining» как «Интеллектуальная обработка данных» (как это написано в русском варианте Wikipedia)? Не шире ли по определению этот термин?» Вот тезисы, которые заставляют автора сомневаться (IMHO!) с этой трактовкой:

  1. В принципе, заниматься датамайнингом можно и без программ для интеллектуальной обработки данных. Здесь важен результат: подтверждена или опровергнута текущая модель данных? Корректны ли данные в выборке документов? Насколько «адекватна» выборка данных из документов целевой функции? Насколько можно доверять источнику (т.е. статистический «вес» документа в выборке)? Как мне представляется, ни одна из существующих программ не даёт автоматического ответа на эти вопросы.
  2. Работу очень многих программ по датамайнингу можно свести к двум функциям:
    • нахождение выборки документов по заданным ключевым словам;
    • анализ документов на частоту появления некоторых ключевых слов и, возможно, на расстояние в документах между этими ключевыми словами.

    Но этот анализ можно сделать с помощью только двух программных средств, распространяющихся бесплатно или за небольшую цену:

    • программы для полнотекстового поиска вхождения ключевых слов в документах;
    • программу «частотный словарь» для расчета частоты вхождения каждой из словоформ в документе;

    Человеку, знакомому с программированием, для написания таких программ потребуется максимум два месяца.

Мне кажется, термин: «датамайнинг» гораздо шире указанного определения.

По моему мнению (IMHO!) датамайнинг – это процесс поиска «сырых» данных везде, где это возможно, с применением методов датамайнинга (определение и оптимизация целевой функции, методика хранения и визуализации данных, проверка документов на достоверность, полнотекстовый поиск, анализ повторяемости слова в документе, планирование и оценка стоимости исследования методами датамайнинга и др. технологий, реализуемых организационными и техническими мерами). При этом важны, прежде всего, методы, по которым осуществляется поиск, а вовсе не инструменты, с помощью которых осуществлялся поиск. «Компетентный» человек, вооруженный только одной ручкой и тетрадью, может заниматься датамайнингом. В то же время обычный человек, не знакомый с методологией датамайнинга, но имеющий самые современные программные средства, датамайнингом заняться не сможет. В лучшем случае он выдаст «солянку» из слабо связанных между собой фактов.

Вторым Важным моментом в датамайнинге автор считает «разделение во времени и пространстве» человека, занимающегося датамайнингом, и человека, принимающего решения на основе анализа данных. Дело заключается в том, что на результаты исследования нужно посмотреть «со стороны», чтобы выявить слабые и сильные стороны аргументов. Это не способен оценить человек, вплотную занимающийся исследованиями. Поэтому автор считает, что результатом  исследований в области датамайнинга является аналитическая записка или другой документ, на основании которого можно принять решение.

Заранее благодарю Вас за обсуждение!

Искренне Ваш,
автор

Юрий А. Денисов
(yudenisov)

Добавить комментарий