Что такое большие данные и стоит ли их использовать

Большие данные становятся популярными во всем мире. Они, в основном, используются аналитиками, но также вызывают интерес у простых людей.

Этот рабочий инструмент — отличный источник полезных данных и информации. И в это же время в обществе он вызывает опасения чрезмерного надзора со стороны корпораций, использующих его.

Содержание:
1. Большие данные — что это
2. Примеры, где применяются большие данные
3. Социальные сети: как же без больших данных

4. Методы и инструменты для обработки данных
5. Стоит ли использовать большие данные

Что такое большие данные

Большие данные – это тенденция к тому, чтобы искать, собирать и обрабатывать все доступные данные. Метод сбора – легальный, основан на информации из различных источников. Затем следует анализ полученных данных и их использование в собственных целях. В результате создается потребительский профиль, который впоследствии применяется, например, для увеличения продаж.

Термин «большие данные» происходит от английского «Big Data». В рунете используют оба термина: и русский, и английский вариант.

Не существует точной границы, которая определяет, что можно отнести к большим данным, например, 1 гигабайт или 100 терабайт. Само понятие является субъективным, «большие» — значит «много».

Самым важным в больших данных является обработка информации, ее анализ. Просто сбор данных сам по себе бесполезен. Хотя процесс сбора информации тоже очень важен.

Откуда, из каких источников брать данные? Видеокамеры? Терминалы? Компьютеры? Данные можно брать и накапливать отовсюду, где так или иначе «засветились» люди. Даже не сами люди, а их действия, чем они занимались, чем интересовались, что покупали, какие услуги заказывали.

Примеры применения больших данных

Большие данные сегодня используются повсеместно. В качестве примера объектов, которые используют их в своей деятельности, можно привести следующие:

Банки — собирают данные из аккаунтов пользователей. К ним относятся произведенные платежи, их размер и тип приобретаемых товаров.
Компании — предлагают собственные приложения, загружаемые пользователями на смартфоны и планшеты. Пользователь разрешает приложению доступ к своим данным при установке продукта на устройство. Если даже есть возможность запретить такой доступ, то тогда пользователю будет отказано в скачивании и установке приложения.
Владельцы интернет-порталов — посредством предоставляемых ими услуг могут также собирать данные. Чаще всего согласие на такую деятельность есть в соглашении при регистрации на сайте.

Социальные сети и большие данные

Источником огромных данных также являются социальные сети. Информация, полученная из них, достаточно сложная для анализа, поскольку не содержит числовых значений, которые легко сравнивать друг с другом. Но социальные сети можно проанализировать с точки зрения наличия и содержания ключевых слов, частоты пользовательских записей и времени, когда люди отвечают на сообщения, опубликованные в открытом доступе.

Конечно, проще анализировать цифровые данные о транзакциях по банковским картам их держателей. Гораздо сложнее программными средствами «вчитываться» в переписку людей в социальных сетях. Тем не менее, алгоритмы поиска информации по ключевым словам, по каким-то специальным признакам, в настоящее время быстро развиваются. И эти алгоритмы обязательно будут использованы для сбора больших данных о пользователях социальных сетей, об их предпочтениях и интересах

Зачем так «трудиться», собирая информацию «по крупицам»? Чтобы потом пользователям социальных сетей предлагать то, от чего они «не смогут отказаться»: товары и услуги, социальные и коммерческие проекты, наконец, можно искать потенциальных работников. Всего не перечислить, что можно извлечь из информации, размещаемой людьми в социальных сетях.

Обработка данных – методы и инструменты

Объем собранных данных огромен и увеличивается с каждым последующим действием, выполняемым пользователем. Некоторая информация является более ценной. Поэтому следующий этап работы аналитиков после сбора данных — правильная сортировка информации. Для этого используются специальные аналитические инструменты.

Так как запросы должны выполняться быстро, весь анализ проводится параллельно. Для этой цели используют алгоритм MapReduce. Он позволяет распределять введенные наборы данных между несколькими серверами, чтобы упорядочить информацию и выбрать нужные элементы в соответствии с правилами запроса.

Полученные результаты собираются и выводятся в конечный продукт. На выходе получается гораздо меньшее количество данных.

Есть и другие неплохие инструменты для анализа. Выбор наиболее подходящих зависит от предпочтений пользователя и ожидаемых результатов. Наиболее популярные из них:

Hadoop

– считается основой технологии больших данных. Является проектом фонда Apache Software Foundation. Это свободно распространяемый набор утилит, библиотек и фреймворк для разработки и выполнения распределённых программ, работающих на кластерах из сотен и тысяч узлов.

Hadoop применяется для осуществления поисковых и контекстных действий на популярных сайтах с высокой нагрузкой, например, на Facebook и на Yahoo.

системы управления базами данных Cassandra, MongoDB или Neo4j;

Cassandra (Кассандра) — децентрализованная, отказоустойчивая и надёжная база данных “ключ-значение”. Хранилище само позаботится о проблемах наличия единой точки отказа, отказа серверов и о распределении данных между узлами кластера.

MongoDB (от англ. humongous — огромный) — документо-ориентированная система управления базами данных (СУБД) с открытым исходным кодом, не требующая описания схемы таблиц.

Neo4j — графовая система управления базами данных с открытым исходным кодом, реализованная на Java. Графовая база данных — база данных, построенная на графах — узлах и связях между ними. Разработчик — американская компания Neo Technology, разработка ведётся с 2003 года.

система Apache Storm

— это распределенная отказоустойчивая вычислительная система с открытым исходным кодом. Ее можно использовать для обработки потоков данных в режиме реального времени с помощью Apache Hadoop.

алгоритмы RapidMiner и Mahout;

RapidMiner — это мощная и многопользовательская платформа, которая служит для создания, передачи и обслуживания наукоемких данных. Платформа RapidMiner является открытой и расширяемой для поддержки всех потребностей научных данных.

Mahout – это библиотека с открытым кодом для машинного обучения от Apache. Создана для использования в масштабируемых приложениях машинного обучения. К таким приложениям, в частности, относятся системы рекомендаций — наиболее узнаваемые приложения машинного обучения в настоящее время.

Благодаря рекомендательным системам сайты или сервисы рекомендуют своим посетителям книги, фильмы, статьи, товары. Amazon.com применяет рекомендации, чтобы предлагать книги и другие вещи, которые могут вызвать интерес у посетителя сайта. Фейсбук использует варианты рекомендательных техник для выявления людей, наиболее вероятно подходящих под определение «добавить в друзья».

библиотека Lucene;

Lucene — высокопроизводительная полнофункциональная библиотека текстового поиска, написанная на языке программирования Java. Эта технология подходит практически для любого приложения, которое требует полнотекстового поиска.

Lucene является свободной библиотекой полного поиска фонда Apache, которая используется в качестве основы в двух популярных поисковых системах — Elasticsearch и Solr.

другие проекты, такие как Sqoop, Flume, Terracotta или Avro.

Sqoop – это инструмент, предназначенный для передачи данных между Hadoop и реляционными базами данных.

Flyme OS — оболочка на основе операционной системы Android с открытым исходным кодом. Разрабатывается компанией Meizu Technology. Представляет собой сильно изменённый пользовательский интерфейс, в котором отсутствует меню приложений.

Terracotta — это программное обеспечение с открытым кодом JVM-уровневой кластеризации для языка Java. Оно обеспечивает кластеризацию в рабочей среде сервиса, на более низком уровне JVM — под приложение вместо того, чтобы кластеризовать само приложение.

Avro — это формат передачи данных, не требует генерации кода, может передавать схему вместе с данными или вообще работать с динамически типизированными объектами.

Стоит ли использовать большие данные

Большие данные имеют огромный потенциал для анализа и прогнозирования поведения потребителей. На основе собранных данных можно точно указать характер потребностей и эффективно предоставить идеальное решение. Таким образом, можно создать достаточно большое конкурентное преимущество на рынке.

У общества есть некоторые сомнения по поводу больших данных. Особенно это связано со страхом вмешательства в личную жизнь и намеренного введения в заблуждение с целью продажи чего-либо. Это очень деликатная граница, и только от компаний зависит, насколько далеко они зайдут в реализации своих планов.

Большие данные — это инструмент, который помогает организациям лучше понять свою целевую аудиторию и предложить идеальный продукт потребителю. Значит, предприятия будут непременно использовать предоставляемые возможности. Ничего личного, только бизнес!

Все новое всегда вызывает опасения. Тем более будут вызывать боязнь инструменты, предполагающие систематизацию информации и знаний о поведении и предпочтениях людей. Так или иначе, большие данные все равно будут развиваться, будь то банковская сфера, будь то маркетинг и продажи, будь то безопасность.

Вряд ли кому-то удастся остановить прогресс, раз уж у человечества появились реальные возможности накапливать, хранить, обрабатывать и систематизировать огромные по своему объему данные.

Законодательно будут предприняты попытки ограничить вторжение больших данных в личную частную жизнь. Но это будут лишь ограничения, но никак не отмена имеющихся возможностей. Когда-то открыли Америку, ведь закрыть ее теперь невозможно, не правда ли?! Так и с большими данными…