Значение на науката за данни с Касандра



Cassandra е база данни с отворен код за обработка на големи количества данни на много сървъри, така че търсенето на специалисти по данни с Cassandra knowlege е голямо.

'

Бързото разширяване на цифровите данни чрез компютри, мобилни устройства, видео, социални медии, цифрови сензори и т.н. нововъзникваща област на науката за големи данни и анализи.





Големите данни в големи неструктурирани обеми са твърде огромни, за да се управляват и анализират чрез традиционни методи. Самото количество и скорост на днешните данни прави улавянето, филтрирането, съхраняването и анализирането на истинско предизвикателство. Редовно се разработват нови продукти за справяне с това, които изискват нови набори от умения и опит. Нараства нуждата от хора, които могат да интегрират нова инфраструктура, платформи и процеси в организацията, както и такива, които могат да изградят нови анализи и алгоритми, способни да създадат огромна интелигентност с голяма бизнес стойност. За повече информация прочетете публикацията ни в блога на

Уместност на науката за данни в различни отрасли:

Data Science & Analytics има приложение във всички отрасли:



  • е-търговия - Мотори за персонализация и препоръки, които увеличават продажбите.
  • Реклама - Силно насочена доставка на реклами в реално време до потребителите.
  • Медии и забавления - Разработване на персонализирано съдържание, което максимизира ангажираността на потребителите.
  • Социална медия - Повишена „лепкавост“ на сайта, растеж на потребителите, възможност за проследяване на бързо пробивни тенденции въз основа на настроенията на потребителите.
  • Финансови услуги –Оптимизирани практики на кредитиране, които минимизират риска и измамите.
  • Фармация / Биоинформатика - Подобрено откриване на лекарства, по-ефективно лечение на заплашителни заболявания, подобрения в генното инженерство.
  • Здравеопазване - По-добро оценяване на медицинските пациенти за рискове за здравето, както и предвиждане и ранна профилактика на заболявания.
  • Мощност / Енергия - Интелигентна интелигентна мрежа, ефективност на използване, икономия на енергия и намаляване на престоя.
  • Информационна сигурност - Значително подобрено откриване на кражби и мониторинг на ценна фирмена информация и активи.

Основни умения на специалистите по наука на данни:

Data Science Domain изисква професионалисти, които:

  • Разбира анализ на данни и наука за вземане на решения
  • Познават добре ИТ
  • Имате силен бизнес нюх
  • Притежават способността да общуват ефективно с вземащите решения

Прочетете още: Основни умения, необходими за да сте учен по данни.

как да задам classpath в java с помощта на командния ред

Общи технологии, свързани с практиката на науката за данни:

Технологии, свързани с науката за данни



  • Бази данни

Oracle, SQL Server, Teradata

Касандра, Hadoop, MapReduce, HBase

Aster, Greenplum, Netezza

  • Езици

Ajax, C ++, CSS, HTML5, Java, JavaScript, Perl, Python, Scala

Кошер, Прасе, Луцен, Махут, Солр

  • Статистика и прогнозиране

Angoss, MATLAB, R, SAS, SPSS

ARCH, GARCH, SVAR, VAR, VEC, GAUSS

  • Визуализация на данни

QlikView, Spotfire, Tableau, yWorks, R

  • BI и отчитане

BusinessObjects, Cognos, MicroStrategy

Какво е Касандра?

  • Apache Cassandra е система за управление на разпределени бази данни с отворен код, предназначена да обработва големи количества данни в много стокови сървъри.
  • Касандра осигурява висока наличност, без нито една точка на повреда.
  • Cassandra предлага надеждна поддръжка за клъстери, обхващащи множество центрове за данни, с асинхронна репликация без майстор, позволяваща операции с ниска латентност за всички клиенти.

За повече информация прочетете нашата публикация в блога на .

Как Data Science използва Cassandra?

Cassandra е срамежлива и срамежлива разпределена база данни за услуги с ниска латентност и висока производителност, които се справят с натоварвания в реално време, състояща се от стотици актуализации в секунда и десетки хиляди четения в секунда.

Касандра Случай за употреба - ПРОФИЛИ:

PROS е компания за софтуер за големи данни с предписващ анализ в своя софтуер, който улеснява клиентите им да анализират техните данни и да получат прозрения и насоки за оптимизиране на управлението на цените, продажбите и приходите.

Те имат услуга в реално време, която изчислява наличността на авиокомпаниите, като динамично взема предвид данните за контрол на приходите и нивата на инвентара, които могат да се променят много стотици пъти в секунда.

Тази услуга се заявява няколко хиляди пъти в секунда, което означава десетки хиляди справки за данни. Техният бекенд слой за съхранение на тази услуга е Cassandra.

За своето решение в реално време PROS осъзнаха необходимостта от:

  • Разпределен кеш, който е силно достъпен.
  • Лесно мащабируема.
  • С архитектура без майстор.
  • С репликация на данни в реално време дори в центрове за данни.
  • Това може да се справи с четене и запис в реално време.

PROS оцени Касандра срещу Oracle Berkeley DB, Oracle Coherence, Terracotta, Voldemort и Redis. Apache Cassandra доста лесно оглави списъка.

ПРОС и Касандра

  • PROS използва Cassandra като разпределена база данни за услуги с ниска латентност и висока производителност, които обработват натоварвания в реално време, състоящи се от стотици актуализации в секунда и десетки хиляди четения в секунда.
  • Например, те имат услуга в реално време, която изчислява динамично наличността на авиокомпании, като взема предвид данните за контрол на приходите и нивата на инвентара, които могат да се променят много стотици пъти в секунда. Тази услуга се заявява няколко хиляди пъти в секунда, което означава десетки хиляди търсения на данни. Техният бекенд слой за съхранение на тази услуга е Cassandra. Някои от техните предложения на SaaS използват Cassandra като бекенд магазин за обработка на комбинация от партидни натоварвания в реално време и базирани на Hadoop.
  • Говорейки за Hadoop и Cassandra, те изваждат данните от Cassandra и ги поставят в Hadoop и пускат партида и анализи за това, а след това се връща в Cassandra. Това се постига чрез интеграцията на Hassop на Cassandra.
  • Работните места в Hadoop извличат данни от Касандра, прилагат специфични за работата трансформации или анализ и връщат данните обратно в Касандра. Те не използват Datastax (официалното издание на Cassandra Maintainer) Enterprise за тази интеграция само инсталацията на Hadoop с отворен код с Cassandra.

Моделиране на данни с Касандра:

Когато се стремим да заменим хранилището на ключ-стойност с нещо по-способно за репликация в реално време и разпространение на данни, изследванията на Динамо, теоремата за ОСП и евентуалния модел на последователност показват, че Касандра се вписва доста добре в този модел. Докато човек научава повече за възможностите за моделиране на данни, ние постепенно преминаваме към декомпозиране на данни.

Ако някой идва от фона на релационна база данни със силна ACID семантика, тогава трябва да отделите време, за да разберете евентуалния модел на последователност.

Разберете много добре архитектурата на Касандра и какво прави под предния капак. С Cassandra 2.0 получавате леки транзакции и тригери, но те не са същите като традиционните транзакции с бази данни, с които човек може да е запознат. Например няма налични ограничения за външен ключ - той трябва да се обработва от собствено приложение. Разбирането на случаите на употреба и моделите за достъп до данни е ясно преди моделирането на данни с Cassandra и четенето на цялата налична документация е задължително.

Заключение:

Apache Cassandra се развива бързо и ние се учим и разбираме неговите възможности - особено от страна на моделирането на данни. Ние го виждаме като разпределена база данни NoSQL по избор за нашите услуги и решения за големи данни.

за какво се използва пролетната рамка

Edureka предоставя изчерпателна информация за тези, които желаят да станат учен по данни. Курсът обхваща набор от техники на Hadoop, R и Machine Learning, обхващащи цялото проучване на Data Science. Edureka също предоставя което ви помага да овладеете NoSQL бази данни. Този курс е предназначен да предостави знания и умения, за да се превърнете в успешен експерт по Касандра.