Page 1

Data Warehousing บทที 1 คลังข้ อมูล และการคลังข้ อมูล (Data warehouse and Data Warehousing)

Company LOGO


Contents 1

ปัญหาในการเก็บและวิเคราะห์ ข้อมูล

2

สิ งทีควรพิจารณาก่ อนสร้ างคลังข้ อมูล

3

ความหมายและคุณลักษณะของคลังข้ อมูล

4

ความหมายและกระบวนการของการคลังข้ อมูล

5

ความแตกต่ างระหว่ างฐานข้ อมูลกับคลังข้ อมูล

2

COMPANY LOGO


ปัญหาในการเก็บและวิเคราะห์ ข้อมูล ความต้ องการ การวิเคราะห์ วางแผน และตัดสิ นใจอย่ างถูกต้ อง รวดเร็ว การใช้ ข้อมูลเป็ นเครืองมือสํ าคัญในการตัดสิ นใจ มีข้อมูลจํานวนมากแต่ ขาดการจัดเรียง การจัดระบบระเบียบข้ อมูล

สร้ างคลังข้ อมูล 3

COMPANY LOGO


ปัญหาในการเก็บและวิเคราะห์ ข้อมูล การสร้ างคลังข้ อมูล จึงเกิดขึนเพือเป็ นทีเก็บรวบรวมข้ อมูลสํ าคัญและจําเป็ นจาก แหล่ งต่ างๆ ซึงเป็ นประโยชน์ ต่อการตัดสิ นใจของผู้บริหาร เพือให้ ผบ้ ู ริหารสามารถ เรียกใช้ ข้อมูลทีต้ องการได้ อย่ างรวดเร็วและมีประสิ ทธิภาพมากขึน ข้ อมูลเชิงบริหารนีจะสามารถช่ วยลดปัญหาทีเกิดจากการใช้ ข้อมูลจากฐานข้ อมูล ปฏิบัติการ (operational database) ซึงเป็ นการเก็บข้ อมูลในรู ปแบบ transaction system ได้

4

COMPANY LOGO


ปัญหาในการเก็บและวิเคราะห์ ข้อมูล ซึงโดยทัวไปปัญหาทีพบเมือต้ องการข้ อมูลทีช่ วยในการตัดสิ นใจ จากฐานข้ อมูล ปฏิบัติการ (operational database) ได้ แก่ - ข้ อมูลทีนําเสนอมีรูปแบบเดียว - ไม่ สามารถหาคําตอบในเชิงพยากรณ์ ได้ - ไม่ ตอบสนองการทํา query ทีซับซ้ อนได้ ดเี ท่ าทีควร - ข้ อมูลถูกจัดเก็บอยู่ตามฐานข้ อมูลของระบบงานต่ างๆ ซึงยากแก่ การเรียกใช้ และ ขาดความสั มพันธ์ ทางธุรกิจ

5

COMPANY LOGO


สิ งทีควรพิจารณาก่ อนสร้ างคลังข้ อมูล เนืองจากการลงทุนสร้ างคลังข้ อมูลขึนมาใช้ เพือสนับสนุนการทํางานขององค์ กร นันจําเป็ นต้ องมีค่าใช้ จ่ายในการลงทุนมหาศาล ดังนัน เมือองค์ กรตัดสิ นใจสร้ าง คลังข้ อมูลขึนแล้ ว จึงควรให้ ความสนใจในสิ งต่ างๆ 8 ประการ ดังนี 1. ควรมีเป้ าหมายทีชัดเจนร่ วมของการสร้ างระบบนีของคนในองค์ กร เหมือนการ ตอบคําถามว่ าทําไมคุณถึงคิดจะสร้ างคลังข้ อมูล? 2. ทําความเข้ าใจสถาปัตยกรรมของระบบ 3. เทคโนโลยีทใช้ ี ควรอยู่ในวิสัยทีเหมาะสม ทังด้ านของตัวเงินและความยากง่ ายใน การเรียนรู้ ทังนีหมายรวมทังฮาร์ ดแวร์ ซอฟต์ แวร์ และเครือข่ าย

6

COMPANY LOGO


สิ งทีควรพิจารณาก่ อนสร้ างคลังข้ อมูล 4. จําเป็ นอย่ างยิงทีจะให้ ผใ้ ู ช้ ขนปลายที ั เป็ นเจ้ าของงานเข้ ามามีส่วนร่ วมทํางาน ด้ วยตังแต่ ต้นโครงการ 5. ทีมพัฒนาเข้ าใจเป็ นอย่ างดีถึงความแตกต่ างกันระหว่ างฐานข้ อมูลปฏิบัติการ และฐานข้ อมูลสนับสนุนการตัดสิ นใจ 6. จัดให้ มกี ารฝึ กอบรม โดยเฉพาะอย่ างยิงการฝึ กอบรมเกียวกับเครืองมือทีองค์ กร จะใช้ พฒ ั นา 7. ควรหาบุคลากรทีมีประสบการณ์ ในการพัฒนาคลังข้ อมูล 8. โปรแกรมทีจะใช้ นําเสนอข้ อมูลในคลังข้ อมูล ต้ องสามารถเรียนรู้ ได้ ง่ายและผู้ใช้ สามารถใช้ งานได้ อย่ างมีประสิ ทธิภาพ 7

COMPANY LOGO


นิยามของคลังข้ อมูล  Kimball’s Definition of a Data Warehouse

A data warehouse is a copy of transactional data specifically structured for querying and analysis

8

COMPANY LOGO


ความหมาย และคุณสมบัติของคลังข้ อมูล (Data warehouse) คลังข้ อมูล (Data Warehouse) หมายถึง ฐานข้ อมูลขนาดใหญ่ ขององค์ กรหรือ หน่ วยงานหนึงๆ ซึงมีการเก็บรวบรวมข้ อมูลจาก  ฐานข้ อมูลระบบงานประจําวัน หรือเรียกอีกอย่ างว่ า operational database  ฐานข้ อมูลอืนภายนอกองค์ กร หรือเรียกว่ า external database ให้ มารวมไว้ เป็ นศูนย์ กลางของข้ อมูล และสามารถเก็บข้ อมูลย้ อนหลังได้ หลายๆ ปี (Historical Data) โดยข้ อมูลทีถูกจัดเก็บในคลังข้ อมูลนัน จะถูกนํามา  วิเคราะห์ และแสดงข้ อมูลแบบหลายมิติ (Multidimensional Analysis / OLAP)  วิเคราะห์ ข้อมูลโดยใช้ เหมืองข้ อมูล (Data Mining) 9

COMPANY LOGO


ความหมาย และคุณสมบัติของคลังข้ อมูล (Data warehouse) คุณลักษณะของคลังข้ อมูล จากนิยามของคลังข้ อมูลสามารถสรุ ปคุณลักษณะของคลังข้ อมูลได้ ดงั นี

1. Subject oriented 2. Integration 3. Time-variant 4. Non-volatile

10

COMPANY LOGO


ความหมาย และคุณสมบัติของคลังข้ อมูล (Data warehouse)

1. Subject oriented การแบ่ งโครงสร้ างตามเนือหา หมายถึง คลังข้ อมูลถูกออกแบบมาเพือ มุ่งเน้ นไปในแต่ ละเนือหาทีสนใจ หรือ Report ทีต้ องการ ไม่ ได้ เน้ นไปทีการ ทํางานหรือกระบวนการแต่ ละอย่ างโดยเฉพาะเหมือนอย่ างฐานข้ อมูลปฏิบัติการ เลือกเก็บข้ อมูลในระดับปฏิบัติการเฉพาะส่ วนทีนํามาใช้ ในเชิงวิเคราะห์ มากกว่ าการเก็บข้ อมูลเพือตอบคําถามแบบรายละเอียดปลีกย่ อย เช่ น คลังข้ อมูลทีมุ่งเน้ นทีเรืองยอดขาย

11

COMPANY LOGO


ความหมาย และคุณสมบัติของคลังข้ อมูล (Data warehouse)

2. Integration การรวมเป็ นหนึง ซึงถือได้ ว่าเป็ นคุณลักษณะทีสํ าคัญทีสุ ดของคลังข้ อมูล คือการรวบรวมข้ อมูลจากหลายฐานข้ อมูลปฏิบัติการเข้ าด้ วยกัน และทําให้ ข้อมูล มีมาตรฐานเดียวกัน เช่ น กําหนดให้ มคี ่ าตัวแปรของข้ อมูลในเนือหาเดียวกันให้ เป็ นแบบเดียวกัน ทังหมด

12

COMPANY LOGO


ความหมาย และคุณสมบัติของคลังข้ อมูล (Data warehouse) ฐานข้ อมูลประจําวัน

คลังข้ อมูล encoding m,f

App A m,f App B 1,0 App C x,y App D male,female Attribute measurement

cm

App A cm App B inches App A description App B description

Multiple Sources

?

description

App C description Conflicting Keys App A key char(10) App B key “99999”

char(12)

App C key char(12) 13

COMPANY LOGO


ความหมาย และคุณสมบัติของคลังข้ อมูล (Data warehouse)

3. Time-variant ความสั มพันธ์ กับเวลา หมายถึง ลักษณะของข้ อมูลในคลังข้ อมูล จะเป็ น ลักษณะของข้ อมูลประวัติศาสตร์ (Historical Data) คือจะเก็บข้ อมูลย้ อนหลัง เป็ นเวลาหลายๆ ปี เพือทีจะนําไปวิเคราะห์ เปรียบเทียบหาแนวโน้ มของข้ อมูล ซึงแตกต่ างจากลักษณะข้ อมูลในฐานข้ อมูลปฏิบัติการ (Database) หรือ การจัดการข้ อมูลรายวัน (Online Transaction Process : OLTP)

14

COMPANY LOGO


ความหมาย และคุณสมบัติของคลังข้ อมูล (Data warehouse) ฐานข้ อมูลประจําวัน

คลังข้ อมูล

ขอบเขตของเวลา – ข้ อมูลปัจจุบนั ถึงข้ อมูล ย้ อนหลัง 60-90 วัน

ขอบเขตของเวลา – มีอายุการจัดเก็บ 5-10 ปี ข้ อมูลจะถูกเก็บในลักษณะของข้ อมูลสรุป ในช่ วงเวลาต่ างๆ ตามหัวข้ อทีสนใจ

ข้ อมูลจะถูกเก็บในรู ปแบบระเบียนข้ อมูลทีเป็ น ข้ อมูลปัจจุบนั

โครงสร้ างของฐานข้ อมูลเน้ นสร้ างคีย์ของ ตาราง เป็ นค่าของข้ อมูลทีเกียวข้ องกับเวลา

โครงสร้ างของฐานข้ อมูลไม่ เน้ นสร้ างคีย์ของ ตาราง เป็ นค่าของข้ อมูลทีเกียวข้ องกับเวลา

OLAP: Online Analytical Processing

OLTP: Online Transaction Processing

15

COMPANY LOGO


ความหมาย และคุณสมบัติของคลังข้ อมูล (Data warehouse)

4. Non-volatile ความเสถียรของข้ อมูล หมายถึงข้ อมูลในคลังข้ อมูลจะไม่ เปลียนแปลง (เว้ นแต่ ในกรณีทีข้ อมูลทีโหลดเข้ าไปไม่ ถูกต้ องจริง) ดังนัน หลังจากการโหลดข้ อมูล OLTP ลงคลังข้ อมูลแล้ วนัน จะต้ องมี ความถูกต้ อง ไม่ มกี ารแก้ ไข (Update), ลบ (Delete) ** จะมีเพียงการเพิม (Insert) และการเข้ าถึงข้ อมูล (Retrieve) เท่ านัน

16

COMPANY LOGO


ความหมาย และคุณสมบัติของคลังข้ อมูล (Data warehouse) คลังข้ อมูล

ฐานข้ อมูลประจําวัน chng

isrt

dlet

access

load dlet isrt

access

chng

17

COMPANY LOGO


ความหมาย และกระบวนการของการคลังข้ อมูล (Data warehousing) การคลังข้ อมูล (Data Warehousing) คือ กระบวนการ หรือวิธีการทีใช้ ใน การสร้ างคลังข้ อมูล (Data Warehouse) อาทิเช่ น การออกแบบและสร้ างโครงสร้ าง ข้ อมูลใน Data warehouse, วิธีการเพือให้ ได้ มาซึงข้ อมูล, วิธีการสร้ างผลลัพธ์ รวม ไปถึงดูแลรักษา และวิธีการปรับปรุ งประสิ ทธิภาพ เป็ นต้ น กระบวนการหลักใน Data Warehousing ประกอบไปด้ วย  Data Acquisition (การรวบรวมข้ อมูล)  Data Staging (การนําเข้ าข้ อมูล)  Data Store (การจัดเก็บข้ อมูล)  Data Provisioning (การเตรียมข้ อมูลเพือใช้ งาน) 18

COMPANY LOGO


ความหมาย และกระบวนการของการคลังข้ อมูล (Data warehousing) Data

Data

Resources

Staging

Data Store

Data Provisioning

Data Acquisition

19

COMPANY LOGO


ความหมาย และกระบวนการของการคลังข้ อมูล (Data warehousing)  Data Acquisition (การรวบรวมข้ อมูล) หมายถึง วิธีการ และระบบทีจะทําให้ ข้อมูลจาก Data Resource ถูกนําเข้ าสู่ Data Warehouse โดยต้ องผ่ านกระบวนการ Data Staging ก่ อน

Data Acquisition

20

COMPANY LOGO


ความหมาย และกระบวนการของการคลังข้ อมูล (Data warehousing)  Data Staging (การนําเข้ าข้ อมูล) เป็ นวิธีการนําเข้ าข้ อมูล พร้ อมทังปรับข้ อมูล เพือลดความซําซ้ อน และ ข้ อผิดพลาดของข้ อมูล (Cleansing) รวมไปถึงการเลือกเฉพาะข้ อมูลทีเป็ น ประโยชน์ (Filtering) เพือนํามาเก็บไว้ ในคลังข้ อมูล

Data Acquisition

21

COMPANY LOGO


ความหมาย และกระบวนการของการคลังข้ อมูล (Data warehousing)  Data Store (การจัดเก็บข้ อมูล) การนําเอาข้ อมูลทีผ่ านการ Cleansing และ Filtering แล้ ว มาเก็บบันทึกลง ใน Data Warehouse ซึงส่ วนทีทําหน้ าทีจัดเก็บข้ อมูลนัน เรียกว่ า “Data Warehouse Database”

22

COMPANY LOGO


ความหมาย และกระบวนการของการคลังข้ อมูล (Data warehousing)  Data Provisioning (การเตรียมข้ อมูลเพือใช้ งาน) การนําเอาข้ อมูลทีมีอยู่ในคลังข้ อมูล มาประมวลผล เพือให้ ได้ สารสนเทศที ต้ องการ เพือรอการใช้ งานต่ อไป

23

COMPANY LOGO


การวิเคราะห์ ข้อมูลในคลังข้ อมูล

Report Generator

แหล่งข้ อมูลเพือ การปฏิบตั งิ าน

Data Mining Tools

Data Warehouse

ผล

รายงาน การใช้ งาน ผล

ผู้ใช้ งาน แหล่งข้ อมูลเพือ ข้ อมูล การวิเคราะห์

คลังข้ อมูล

OLAP Generator

ผล

ช่ วงเวลาทีองค์ กรไม่ ได้ ปฏิบัติงาน 24

ช่ วงเวลาทีองค์ กรปฏิบัติงาน COMPANY LOGO


การวิเคราะห์ ข้อมูลในคลังข้ อมูล ความยุ่งยากมีน้อย ใช้ ปริมาณข้อมูลน้ อย ใช้ เวลาในการประมวลผลหรือเตรียมข้อมูลน้ อย

Query and Report

ความยุ่งยากมีมาก ใช้ ปริมาณข้อมูลมาก ใช้ เวลาในการประมวลผลหรือเตรียมข้อมูลมาก

Multidimensional Data Analysis

มีเครืองมือช่ วยในการสร้ างมากมาย

Data Mining

มีเครืองมือช่ วยในการสร้ างน้ อย

25

COMPANY LOGO


ความแตกต่ างระหว่ าง ฐานข้ อมูล กับ คลังข้ อมูล เปรียบเทียบ เป้ าหมาย ผู้ใช้ โครงสร้ าง ตัวแบบข้ อมูล ชนิดของข้ อมูล เงือนไขของข้ อมูล

OLTP

คลังข้ อมูล

เป็ นการจัดการกับข้ อมูลรายวัน มีการดึงและวิเคราะห์ ข้อมูลจาก สารสนเทศ พนักงาน ผู้บริหาร RDBMS RDBMS Normalized Dimensional ข้ อมูลทีใช้ run ระบบธุรกิจ สารสนเทศเพือสนับสนุนการ ตัดสิ นใจ Historical , descriptive , read มีการเปลียนแปลง แก้ ไข only และ non-volatile ดังนัน ปรับปรุ ง ข้ อมูลจะต้ องถูกclean ให้ เป็ น รู ปแบบเดียวกัCOMPANY นก่ อน LOGO 26


ข้ อดี-ข้ อเสี ย ของคลังข้ อมูล  ข้ อดี  ข้ อเสี ย - ให้ ผลการตอบแทนจากการลงทุนสู ง - ขันตอนการกลันกรองและโหลดข้ อมูล เข้ าสู่ คลังข้ อมูลใช้ เวลานาน และต้ อง - องค์ กรเกิดความได้ เปรียบคู่แข่ งขัน อาศัยผู้ทีมีความชํานาญ - เพิมประสิ ทธิภาพในการตัดสิ นใจ - แนวโน้ มความต้ องการข้ อมูลมีมากขึน ของผู้ตดั สิ นใจ เรือย ๆ - ใช้ เวลานานในการพัฒนาคลังข้ อมูล - ระบบคลังข้ อมูลมีความซับซ้ อนสู ง

27

COMPANY LOGO


Do you have any Question ??

Company LOGO


Homework 1. 2. 3. 4. 5.

เพราะเหตุใด จึงต้ องมีการสร้ างคลังข้ อมูล (Data Warehouse) คลังข้ อมูล (Data Warehouse) คืออะไร จงอธิบายถึงคุณลักษณะของคลังข้ อมูล (Data Warehouse) จงอธิบายถึงกระบวนการหลักของ Data Warehousing ข้ อมูลในคลังข้ อมูล (Data Warehouse) สามารถนํามาวิเคราะห์ ในรู ปแบบใดได้ บ้าง 6. จงบอกความแตกต่ างระหว่ าง ฐานข้ อมูล กับ คลังข้ อมูล มา 3 ประเด็น

29

COMPANY LOGO

Data warehouse & Data Warehousing  

คลังข้อมูล และการคลังข้อมูล

Read more
Read more
Similar to
Popular now
Just for you