Big Data Technologies

หากใครกำลังสนใจ หาข้อมูลและประโยชน์ของ Big Data ที่กำลังได้รับความนิยม โดยเฉพาะในขณะนี้ เรามาดูกันว่ามีตัวไหนที่น่าใช้กันบ้าง

1.The Hadoop Ecosystem

ในขณะที่ Apache Hadoop อาจไม่โดดเด่นเท่าที่เคยเป็นมา หากพูดถึง Big data ก็ต้องพูดถึง open source framework ใช้สำหรับการประมวลผลชุดข้อมูลบน Big data แบบกระจาย โดย ปีที่แล้ว Forrester ทำนายว่า 100% ขององค์กรขนาดใหญ่ทั้งหมดจะนำมาใช้ สำหรับการวิเคราะห์ข้อมูล Big data ภายในสองปีถัดไป”

ในช่วงหลายปีที่ผ่านมา Hadoop ได้เติบโตขึ้นเพื่อรวม The Hadoop Ecosystem ทั้งหมดของ software ที่เกี่ยวข้องกับ big data solutions เชิงพาณิชย์หลายแห่ง ตั้งอยู่บนพื้นฐานของ Hadoop ในความเป็นจริงการวิจัยตลาด Zion คาดการณ์ว่า ตลาดสำหรับผลิตภัณฑ์และบริการที่ใช้ Hadoop จะเติบโตอย่างต่อเนื่องที่ CAGR 50 เปอร์เซ็นต์จนถึงปี 2565 ซึ่งจะมีมูลค่า 87.14 พันล้านดอลลาร์เพิ่มขึ้นจาก 7.69 พันล้านดอลลาร์ในปี 2559

ผู้ขายที่สำคัญของ Hadoop ได้แก่ Cloudera, Hortonworks และ MapR และบริการ public clouds ชั้นนำล้วนให้บริการที่สนับสนุนเทคโนโลยี

2.Spark

Apache Spark เป็นส่วนหนึ่งของ The Hadoop Ecosystem แต่การใช้งานแพร่หลายไปอย่างมาก จนสมควรได้รับหมวดหมู่ของมันเอง มันเป็น engine สำหรับประมวลผลข้อมูลขนาดใหญ่ภายใน Hadoop และเร็วกว่าหนึ่งร้อยเท่าของ Engine Hadoop มาตรฐาน MapReduce

ในการสำรวจอายุการใช้งานของ Big Data ของ AtScale 2016 ผู้ตอบร้อยละ 25 กล่าวว่าพวกเขาได้ติดตั้ง Spark ในการผลิตแล้ว และอีก 33 เปอร์เซ็นต์มีโครงการ Spark ที่จะใช้ในการพัฒนา เห็นได้ชัดว่าความสนใจในเรื่องเทคโนโลยีที่มีขนาดใหญ่ และกำลังเติบโต ทำให้ผู้ค้าจำนวนมากที่นำเสนอ Hadoop ยังเสนอผลิตภัณฑ์ที่ใช้ Spark เป็นหลัก

3. R

R โครงการ source อีกโครงการหนึ่ง คือภาษาการเขียนโปรแกรมและ software ที่ออกแบบมาเพื่อทำงานกับสถิติ บริหารงานโดย R และอยู่ภายใต้ลิขสิทธิ์ GPL 2 การพัฒนาแบบรวมที่ได้รับความนิยมจำนวนมาก (IDEs) รวมถึง Eclipse และ Visual Studio

หลายองค์กรที่จัดอันดับความนิยมของภาษา ในการเขียนโปรแกรมต่าง ๆ บอกว่า R ได้กลายเป็นหนึ่งในภาษา ที่นิยมที่สุดในโลก ตัวอย่างเช่น IEEE บอกว่า R เป็นภาษาการเขียนโปรแกรมยอดนิยมอันดับที่ห้า Tiobe และ RedMonk อยู่ในอันดับที่ 14 สิ่งนี้มีความสำคัญเนื่องจากภาษาการเขียนโปรแกรมเหล่านี้ มักจะเป็นภาษาที่ใช้งานทั่วไป สามารถใช้ได้กับงานหลายประเภท

4. Data Lakes

เพื่อให้ง่ายต่อการเข้าถึงร้านค้าที่กว้างของข้อมูลจำนวนมาก มีการตั้งค่า data lakes เป็นแหล่งเก็บข้อมูลขนาดใหญ่ ที่รวบรวมข้อมูลจากแหล่งต่างๆ มากมายและเก็บไว้ สิ่งนี้แตกต่างจากคลังข้อมูลซึ่งยังรวบรวมข้อมูลจากแหล่งที่แตกต่างกัน แต่ประมวลผลและจัดโครงสร้างข้อมูลเพื่อจัดเก็บได้ค่อนข้างแม่นยำ

data lakes มีความน่าสนใจเมื่อองค์กรต้องการจัดเก็บข้อมูล แต่ยังไม่แน่ใจว่าพวกเขาจะใช้มันอย่างไร

5. NoSQL Databases

ระบบการจัดการฐานข้อมูลเชิงสัมพันธ์แบบเดิม (RDBMS) เป็นการเก็บข้อมูลในคอลัมน์และแถวที่มีโครงสร้างที่กำหนดไว้ นักพัฒนาและผู้ดูแลระบบฐานข้อมูลสอบถามและจัดการข้อมูลใน RDBMS เหล่านั้นโดยใช้ภาษาที่เรียกว่า SQL

NoSQL Databases มีความเชี่ยวชาญในการจัดเก็บข้อมูลที่ไม่มีโครงสร้าง และให้ประสิทธิภาพที่รวดเร็วแม้ว่าจะไม่ได้ให้ความสอดคล้องในระดับเดียวกับ RDBMS

NoSQL Databases ที่นิยม ได้แก่ MongoDB, Redis, Cassandra, Couchbase และอื่น ๆ อีกมากมาย แม้แต่ผู้ค้า RDBMS ชั้นนำอย่าง Oracle และ IBM

6. Predictive Analytics

Predictive Analytics เป็นชุดย่อยของการวิเคราะห์ Big Data ที่คาดการณ์เหตุการณ์หรือพฤติกรรมในอนาคตโดยใช้ข้อมูลประวัติ มันใช้วิธีการหาข้อมูลโดยการสร้างแบบจำลองและเทคนิคการเรียนรู้ของเครื่องเพื่อคาดการณ์สิ่งที่จะเกิดขึ้นต่อไป มักใช้สำหรับการตรวจจับการฉ้อโกง การให้คะแนนเครดิตการตลาด การเงินและการวิเคราะห์ธุรกิจ

ที่มา : datamation.com