สรุปหนังสือ Big Data Series 3

สรุปหนังสือ Big Data Series 3 ของ ดร.อสมา กุลวานิชไชยนันท์ นี้เป็นหนังสือที่อ่านง่ายกว่าเล่มที่ 2 ในความคิดผม เพราะมีการหยิบหลายเคสจริงมาถ่ายทอดให้ฟังกัน ทำให้ได้รู้ว่าในการใช้ Data นั้นแต่ละธุรกิจนั้นเอาไปใช้อย่างไร รวมถึงมีขั้นตอนการทำงานอย่างไรบ้าง

หนังสือเล่มนี้เหมือนกลับมาให้ภาพกว้างของการทำ Big Data อีกครั้ง แต่เป็นภาพกว้างที่ลึกขึ้นไปในรายละเอียด และชี้เป็นจุดๆ ซึ่งต่างกับสองเล่มแรกตรงที่ เล่มที่หนึ่งเป็นการให้ภาพกว้างมาก เพื่อให้เข้าใจคอนเซปการทำ Big Data ส่วนเล่มที่สองเป็นการเจาะลงไปในขั้นตอนและวิธีการในการทำงาน

หนังสือเล่มนี้เหมาะกับคนที่สนใจเรื่อง Big Data หรือคิดจะเอา Data ไปต่อยอดธุรกิจ และถ้ายังไม่รู้ว่าจะเราจะเล่นอะไรกับ Data ได้บ้าง หนังสือเล่มนี้ก็เป็นอีกเล่มที่น่าสนใจ อ่านเอาไอเดียได้ อ่านเอาแนวทางได้ และอ่านเอาให้รู้ว่าจะคุยกับคนทำงานด้าน Data อย่างไรก็ยังได้

หนังสือเล่มนี้แบ่งออกเป็น 8 บท เริ่มตั้งแต่บทที่ 1 Foundation ที่กลับมาปูพื้นฐานความเข้าใจกันสั้นๆอีกครั้ง ด้วยตัวอย่างของระบบรถเมล์ที่ประเทศสิงค์โปรนั้นก็ใช้ Big Data เพื่อคำนวนหาเส้นทางการเดินรถที่เหมาะสม หาว่าจุดไหนคนขึ้นลงเยอะหรือน้อย เพื่อทำให้การเดินรถเมล์นั้นเกิดประสิทธิภาพสูงสุด

ส่วนตัวผมเคยไปประเทศสิงค์โปรก็เมื่อ 5 ปีก่อน ยังประทับใจระบบรถเมล์เค้ามากที่มีแอพบอกว่าถ้าจะไปที่ๆอยากไปต้องนั่งรถเมล์สายไหนบ้าง ที่สำคัญคือในแอพจะมีเวลาแจ้งบอกว่ารถจะมาเมื่อไหร่ และรถก็มาแทบจะตรงเวลาทุกครั้ง ทำให้การเดินทางด้วยรถเมล์ในประเทศสิงค์โปรนั้นง่ายมากครับ

หรือ Data นั้นสามารถเอาไปใช้เพิ่มประสิทธิภาพในโรงพยาบาลก็ยังได้ เพราะถ้าเรารู้ว่าคนใข้มากน้อยในช่วงไหนหรือวันไหนบ้าง ก็สามารถเอามาจับคู่กับแพทย์ที่ต้องการได้ดีขึ้น ทำให้ทุกฝ่ายประหยัดเวลามากขึ้น การรอคิวก็จะลดลงโดยทันทีครับ

หรือการสแกนใบหน้าเข้าออกงาน อาจไม่ได้มีจุดประสงค์เพื่อดูว่าใครมาสายหรือกลับเวลาไหนเท่านั้น แต่สามารถเอา data จากใบหน้าในแต่ละเวลาที่เข้าออกมาวิเคราะห์ประเมินอารมณ์ของพนักงานแต่ละคน ทาง HR จะได้รู้ว่าการทำงานของพนักงานนั้นเหนื่อยหรือเครียดไปมั้ยได้จากสีหน้าที่ปรากฏบนกล้อง ถ้าพนักงานมีท่าทางเหนื่อยล้าเกินไปก็จะได้เอาไปปรับปรุงแก้ไขก่อนพนักงานคนสำคัญของบริษัทจะทนไม่ไหวชิงลาออกก่อนครับ

GRAB เองก็เป็นอีกหนึ่งบริษัทที่ไม่ใช่แค่เรียกรถแท็กซี่ให้เราเท่านั้น เบื้องหลัง GRAB คือบริษัท Data ที่เอาข้อมูลมาต่อยอดให้การบริการดีขึ้นเสมอ อย่างการเก็บข้อมูลว่าที่ไหน และเมื่อไหร่ ที่คนจะต้องการเรียกรถมากเป็นพิเศษ จากนั้น GRAB ก็จะส่งข้อมูลบอกคนขับให้ไปกระจุกตัวรอในพื้นที่นั้นล่วงหน้า ก่อนที่คนจะเรียกรถไม่นาน ทำให้การเรียกรถของลูกค้านั้นเร็วขึ้น คนขับก็สามารถหาลูกค้าได้เร็วขึ้น

หรือการจับคู่ระหว่างคนเรียกกับคนขับนั้นอาจไม่ได้ขึ้นอยู่กับระยะทางที่ใกล้ที่สุดอย่างที่เราคิด แต่มาจากการวิเคราะห์ข้อมูลย้อนหลังว่าคนขับไหนที่มีแนวโน้มจะปฏิเสธลูกค้าน้อยที่สุด แม้จะอยู่ไกลกว่าก็จะได้โอกาสในการเลือกรับงานนี้ก่อนคนขับคนอื่นครับ

การวิเคราะห์ข้อมูลแบ่งออกเป็น 3 แบบ

  1. Descriptive หรือการอธิบายข้อมูลที่เกิดขึ้นแล้ว ไม่ว่าจะทำเป็นกราฟ ตาราง หรืออะไรก็ตาม แต่ทั้งหมดคือการอธิบายว่าข้อมูลนั้นหมายความว่าอะไร เพื่อให้เข้าใจข้อมูลง่ายขึ้น
  2. Predictive การคาดเดาผลลัพธ์ที่น่าจะเกิดขึ้นจากการเอาข้อมูลที่เกิดขึ้นแล้วมาสร้างความสัมพันธ์กัน เช่น ถ้าฝนจะตก รถน่าจะติด หรือถ้าเที่ยง ร้านข้าวคนก็จะเยอะ ซึ่งพวกนี้คือการทำนายอนาคต หรือเพื่อทำนายว่าช่วงไหนที่ยอดขายน่าจะเพิ่มขึ้นจากข้อมูลที่ผ่านมา เช่น ช่วงเปิดเทอมยอดขายจะตกลง แล้วค่อยๆกลับมาเพิ่มขึ้นเหมือนเดิม
  3. Prescriptive การสร้างสมมติฐานใหม่ๆ จากสิ่งที่ไม่เคยเกิดขึ้นมาก่อน ต่างจาก Predictive ตรงที่เป็นการคาดการณ์จากสิ่งที่เคยเกิดขึ้นแล้ว แต่ Prescriptive คือการหาสิ่งที่ยังไม่เคยเกิดขึ้น เช่น UPS บริษัทขนส่งของอเมริกาวิเคราะห์ข้อมูลจนพบว่าถ้ารถส่งของไม่รอติดไฟแดงแล้วเลี้ยวขวาผ่านตลอด(ประเทศอเมริการถวิ่งฝั่งขวาไม่ใช่ซ้ายแบบบ้านเราครับ)ก็จะสามารถลดต้นทุนได้มหาศาล

แล้ว Data Expert ผู้ทำงานก็มีความเชี่ยวชาญต่างกันไป ยากที่จะสามารถหา Data Expert ที่สามารถทำได้ทุกด้าน เพราะ Data Engineer กับ Data Scientist นั้นก็ใช้ความชำนาญที่ต่างกัน แม้จะมีความรู้บางส่วนที่ทับซ้อนกันก็ตาม เรื่องนี้ผู้เขียนก็เปรียบเทียบได้อย่างน่าสนใจว่าเหมือนกับหมอ ที่หมอก็มีหมอเฉพาะทางมากมาย ที่พอเรียนแพทย์เบื้องต้นแล้ว แต่ละคนก็ต้องไปเลือกเส้นทางที่ตัวเองจะลงลึก ถ้าถามว่าจะมีหมอคนนึงที่เชี่ยวชาญในหลายด้านในตัวคนเดียวได้มั้ย ก็บอกเลยว่าได้ แต่ก็จะหายากมากๆ เพราะนั่นคือการสั่งสมประสบการณ์ความรู้จนเชี่ยวชาญไปเรื่อยๆครับ

ดังนั้นอย่าคาดหวังทุกสิ่งกับ Data Expert หรือคนทำงานด้าน Data ขนาดที่ว่าถ้ามีคนนี้แล้วทุกอย่างจะราบรื่น ฟุตบอลเล่นเป็นทีมฉันใด การทำ Data ให้ราบรื่นก็ต้องการทีมงานที่เชี่ยวชาญในแต่ละตำแหน่งฉันนั้น

ความเข้าใจผิดเรื่อง AI ก็เป็นอีกเรื่องหนึ่งที่ผู้เขียนพูดถึง เพราะเราจะเห็นจากข่าวบ่อยๆว่าโน่นก็ใช้ AI นี่ก็ใช้ AI แต่ในความเป็นจริงแล้วโครงการนั้นอาจไม่ถึงขั้น AI แต่อาจเป็น Machine Learning เสียมากกว่า หรืออาจะเป็น Deep Learning ก็ได้

เพราะ AI คือการคิดเลียนแบบมนุษย์ ดังนั้นถ้าอะไรที่เป็น AI จริงๆมนุษย์จะไม่ต้องเข้าไปข้องเกี่ยวหรือช่วยตัดสินใจใดๆเลย เพราะมันสามารถคิดแทนมนุษย์ได้แล้ว เหมือนมีคนที่ทำงานนี้แล้ว แล้วเราจะไปทำงานซ้ำซ้อนกับมันทำไม

หลายครั้งที่เราเห็นอาจะเป็น Machine Learning ที่วิเคราะห์มาให้เราตัดสินใจรอบสุดท้าย เช่น ระบบกรอง spam mail ของ gamil ที่วันนี้เรายังต้องคอยไปลบเอง ถ้ามันฉลาดพอที่จะตัดสินใจแทนเราเองว่าอันไหนที่ใช่หรือไม่ใช่ spam email อีก เมื่อนั้นแหละถึงค่อยเป็น AI

ถ้ายังไม่ต้องวางมือวางใจ ก็ยังไม่ใช่ AI นะครับ

ส่วน Machine Learning เองก็แบ่งแยกย่อยเป็นหลายประเภท แต่ในเล่มนี้พูดถึง 5 ประเภทหลัก

  1. Classification ที่แบ่งข้อมูลออกเป็นสองส่วน คือ input กับ target เช่น เงื่อนไขแบบไหนที่จะทำให้คนกู้เงินผ่าน
  2. Regression คือการวิเคราะห์ข้อมูลย้อนกลับเพื่อหาความสัมพันธ์ในอดีตเพื่อใช้ทำนายในอนาคต เช่น เมื่อฝนตก ยอดการสั่งอาหารผ่าน lineman ก็จะเพิ่มขึ้น ดังนั้นเมื่อพยากรณ์อากาศบอกว่าช่วงไหนของพื้นที่ไหนฝนจะตก ก็จะเรียก Lineman ให้ออกมารอรับงานล่วงหน้าก็เป็นได้
  3. Clustering อันนี้ไม่ต้องใช้คนในการสอน แค่ใส่ข้อมูลเข้าไปแล้วระบบจะหาความสัมพันธ์ของแต่ละกลุ่มก้อนออกมาเอง อย่างในบริษัทหนึ่งที่ผมช่วยงานอยู่ เวลาใส่ keyword หนึ่งที่เราอยากรู้เข้าไปว่ามีใครพูดถึงคำนี้บ้าง ตัวโปรแกรมก็จะไปแบ่งคนออกเป็นประเภทให้อัตโนมัติ โดยที่เราไม่เคยรู้ล่วงหน้าเลยว่าคนที่พูดถึงสิ่งนี้แบ่งออกเป็นกี่กลุ่มมาก่อน
  4. Co-occurrence Grouping เป็น model ที่ใช้หาความน่าจะเป็นของการเกิดเหตุการณ์คู่กัน เช่น เบียร์มักขายได้คู่กับผ้าอ้อม เพราะพอผู้ชายที่มีลูกเข้ามาซื้อเบียร์ก็มักจะซื้อผ้าอ้อมติดมือไปด้วย แล้วทางร้านก็เอาข้อมูลตรงนี้ที่ได้ไปจัดร้านให้การหยิบของคู่กันนั้นง่ายขึ้น เพื่อให้ยอดขายดีขึ้นตามไปด้วย
  5. Similarity Matching การหาความเหมือนในวัตุสิ่งนั้น เช่น ในภาพถ่ายนับล้าน ภาพไหนบ้างที่มีคนหน้าเหมือนกันอยู่ เหมือนกันที่อัลบั้มรูปภาพในโทรศัพท์มือถือที่จะชอบให้เราระบุชื่อของใบหน้าที่มันแยกแยะไว้ให้แล้วว่าใครเป็นใคร

บทที่ 2 : Retail

ธุรกิจร้านค้าในวันนี้ใช้ประโยชน์จาก Data ได้มากมายกว่าที่คิด ไม่ว่าจะเป็นการหาว่าลูกค้าของร้านเราจริงๆแล้วมีอยู่กี่กลุ่มกันแน่ ตามการใช้ Clustering Model ที่เล่าไป ทำให้สามารถจัดสินค้าภายในร้านของลูกค้าแต่ละกลุ่มไว้ใกล้ๆกันเพื่อประหยัดเวลา และเพิ่มยอดขายด้วยการเอา Co-occurrence Grouping มาหาว่าอะไรวางคู่กับอะไรแล้วจะขายดีในร้านอีกด้วย

โมเดลการทำนายยอดขายแบ่งออกได้เป็น 4 ประเภท

  1. Constant เป็นเส้นตรงหรือขายได้เรื่อยๆ
  2. Trend มีแน้วโน้มว่าจะขายดีขึ้นเรื่อยๆ
  3. Seasonal ขายดีเป็นช่วงๆ
  4. Sporadic อยู่ดีๆก็ยอดขายพุ่งมาโดยไม่มีสาเหตุ แล้วก็กลับไปซบเซาเหมือนเดิม

ร้านค้าในวันนี้มีระบบสมาชิกเก็บแต้มแทบทั้งนั้น แต่คำถามสำคัญคือใครกันที่จะเอา data เหล่านั้นไปต่อยอดได้ดีกว่ากัน เพราะทุกวันนี้มีน้อยรายที่สามารถทำ CRM ได้จริง เพราะ CRM ไม่ใช่ระบบสมาชิก Loyaly Program ที่ซื้อสะสมแต้มเก็บไว้แลกโน่นนี่นั่น เพราะระบบ CRM คือการทำความเข้าใจนิสัยใจคอพฤติกรรมของลูกค้าที่แตกต่างกัน แล้วก็ Personalization ให้โปรโมชั่นที่แตกต่างกันไป

เหมือน Sephora ที่ใช้ Clustering model แบ่งลูกค้าออกมาได้เป็น 5 กลุ่ม กลุ่มตา กลุ่มครีมบำรุงผิว กลุ่มลิปสติก กลุ่มใบหน้า และกลุ่มน้ำหอม ดังนั้นเวลาจะส่งโปรโมชั่นให้ลูกค้าเค้าก็รู้แล้วว่าจะเสนออะไรให้ใครเพื่อทำให้คนกลับมาซื้อมากที่สุด และเร็วที่สุด

หรือร้านขายอุปกรณ์กีฬาอย่างรองเท้าวิ่งเองก็สามารถเอา data มาวิเคราะห์แบ่งแยกลูกค้าออกเป็นกลุ่มๆได้ จากการวิเคราะห์ data พบได้ว่าลูกค้าแบ่งออกเป็น 2 กลุ่มใหญ่ กลุ่มวิ่งเทรล กับกลุ่มวิ่งสมัครเล่น กลุ่มวิ่งเทรลจะมีพฤติกรรมการซื้อรองเท้าที่บ่อยกว่าและเน้นคุณภาพ ส่วนกลุ่มนักวิ่งมือใหม่ก็จะนานครั้งซื้อที และก็ซื้อเน้นไปที่ดีไซน์หรือราคา

ดังนั้นเวลาร้านนี้จะส่งโปรโมชั่นหาลูกค้าก็จะต่างกัน กลุ่มนักวิ่งเทรลจะได้โปรโมชั่นประเภทข่าวสารรองเท้าวิ่งรุ่นใหม่ที่คุณภาพดีโดยไม่สนเรื่องราคามากนัก อาจจะส่งไป 2 เดือนครั้งตามพฤติกรรมการซื้อที่บ่อย ส่วนนักวิ่งสมัครเล่นก็จะได้โปรแบบ 6 เดือนครั้ง เพราะนานๆจะวิ่งที และโปรแต่ละทีก็จะเป็นไม่สินค้าดีไซน์ใหม่ ก็จะเป็นรองเท้าลดราคาแทน

ลองคิดดูซิว่าถ้านักวิ่งเทรลที่เป็นสายลุยนั้นได้โปรโมชั่นแบบสายวิ่งสมัครเล่น คงจะไม่มีน้อยคนที่รู้สึกว่าอยากได้จังรองเท้าใหม่ดีไซน์สวย แล้วเดินไปเข้าไปซื้อ หรือกดสั่งซื้อจริงมั้ยครับ

หรือ Data เอามาช่วยในการวางแผนจัดซื้อสินค้าเข้าร้านโดยอัตโนมัติก็ยังได้ จากเดิมที่เคยต้องใช้ประสบการณ์ของผู้จัดการร้านว่าช่วงไหนควรสั่งซื้ออะไรมาเพิ่ม แล้วถ้าเมื่อไหร่สินค้าขายดีโดยใช่เหตุก็ทำให้ของขาดชั่วคราว และต้องเพิ่มการส่งสินค้าเข้ามาด่วน ซึ่งทั้งหมดนี้ก็เป็นต้นทุนของธุรกิจร้านค้า แต่ถ้าใช้ Data เข้ามาช่วยในการวิเคราะห์แบบย้อนกลับ Regression เพื่อหาความสัมพันธ์ในอดีตว่าช่วงไหนที่สินค้าแต่ละชนิดขายดีจริง เพื่อเอามาใช้แพลนในการสั่งสินค้าล่วงหน้าในอนาคต ทำให้ปัญหาสินค้าขาดหรือรอบส่งของบ่อยเกินนั้นค่อยๆลดไป

บทที่ 3 : E-Commerce

ในเว็บที่มีสินค้านับล้านๆชิ้นอย่าง Amazon หรือ Lazada คุณเคยแปลกใจมั้ยว่าทำไมทุกครั้งที่เข้าไปมักจะมีของที่อยากได้โผล่มาให้เห็นก่อนของชิ้นอื่นเสมอ

นั่นมาจากการเอา data มาวิเคราะห์ว่าแต่ละคนอยากได้อะไรจากข้อมูลในอดีต จนทำให้หน้าตาของเว็บช้อปออนไลน์ของแต่ละคนนั้นต่างกันไปตามพฤติกรรม ดังนั้น 100 คนก็ 100 หน้า หรือแม้แต่เอามาใช้คิด Promotion ที่ต่างกัน หมดยุคแล้วกับโปรเดียวโปรยให้ทุกคน ในวันนี้ต้องโปรใครโปรมันครับ

บทที่ 4 : Logistics

คือการเอา Data มาวิเคราะห์หาเส้นทางการเดินรถที่ดีที่สุดให้กับธุรกิจขนส่งทั้งหลายได้ เหมือนที่ UPS สามารถพบว่าการเดินรถแบบเลี้ยวขวาผ่านตลอดไม่ต้องรอติดไฟแดงเพื่อเลี้ยวซ้าย ส่งผลให้ต้นทุนลดลงได้หลายร้อยล้านเหรียญสหรัฐเลยทีเดียว

บทที่ 5 : Field Services

คือการวิเคราะห์หาว่าใครเหมาะสมที่จะได้งานนั้นไป ตัวอย่างเช่นเวลารถชนแล้วเราต้องเรียกประกันให้มา ระบบก็จะวิเคราะห์ว่าคนไหนที่จะมาถึงที่เกิดเหตุได้เร็วที่สุด เพราะถ้าคนที่ใกล้ที่สุดติดงานอยู่ อาจจะเป็นคนที่อยู่ไกลที่สุดแต่ไม่ติดงานอะไรเลยก็ได้ครับ

บทที่ 6 Finance and Banking

บทนี้น่าสนใจ เพราะทำให้ธนาคารรู้ว่าควรจะเอาเงินไปใส่ตู้ ATM ไหนเมื่อไหร่ หรือแม้แต่กระทั่งควรใส่แบงก์ชนิดไหนมากกว่ากันด้วยซ้ำ เพราะ Data บอกได้ว่าแม้จะเป็นตู้ ATM ที่วางอยู่ในห้างเดียวกัน แต่พฤติกรรมการกดเงินก็ต่างกันแค่ต่างจุดวาง ตู้ที่อยู่หน้าศูนย์อาหารจะมีการกดแบงก์ 100 หรือแบงก์ 500 มากกว่าตู้ที่วางอยู่ใกล้ร้านเครื่องสำอาง ที่มีการกดแบงก์ 1,000 สูงกว่ามาก

หรือการเอา Big Data มาหาว่าใครมีแนวโน้มที่จะโกงภาษี ก่อนจะส่งให้เจ้าพนักงานจริงๆเข้ามาตรวจสอบ ทำให้การตรวจสอบมีประสิทธิภาพมากขึ้น ไม่ใช่แค่สุ่มตรวจเหมือนเดิมอีกต่อไป

สุดท้ายในเล่มมีอีกหนึ่งเคสที่ผมทึ่งมาก ผมเพิ่งรู้ว่าประเทศสิงค์โปรระบบรถเมล์เค้าใช้ Data อย่างมากในการทำให้รถเมล์เกิดประสิทธิภาพมากที่สุด เพราะรถเมล์ที่ประเภทสิงค์โปรนั้นเป็นป้ายไฟ LED ที่สามารถเปลี่ยนจากสาย 8 เป็นสาย 44 ได้ทันทีด้วยการตั้งค่า

จากระบบนี้เมื่อเชื่อมโยงกับ Big Data ที่วิเคราะห์ข้อมูลอยู่ตลอดเวลาว่าช่วงไหนที่สายรถเมล์ไหนกำลังขาดเพราะมีคนขึ้นเยอะในตอนนั้น (ข้อมูลการจากแตะบัตรของผู้โดยสายทุกคนจะถูกอัพโหลดขึ้น Cloud และวิเคราะห์แบบ Realtime) ก็จะมีเอารถจากสายอื่นเปลี่ยนป้ายสายรถเมล์ที่ตัวรถแล้วเอามาวิ่งให้สายนั้นเพิ่มแทน

สุดยอดไปเลยครับ อยากเห็นรถเมล์ไทยเป็นแบบนี้ในเร็ววันบ้างจัง จะได้ไม่ต้องมีรถเปล่าวิ่งไปมาในเวลาที่มีคนต้องการจะขึ้นอีกสายมากมาย

สรุปหนังสือ Big Data

อ่านแล้วเล่า สรุปหนังสือเล่มที่ 42 ของปี 2019

สรุปหนังสือ Big Data Series 3
Big Data in Real Case ตัวอย่างโครงการ Big Data
ดร.อสมา กุลวานิชไชยนันท์ เขียน

อ่านครั้งแรกเมื่อ 2019 07 14

อ่านสรุปหนังสือ Big Data เพิ่มเติม https://www.summaread.net/?s=big+data
สนใจสั่งซื้อได้ที่ http://bit.ly/2O6lbD2

By Nattapon Muangtum

จากนักอ่านที่เริ่มอยากหัดเขียน จากการที่ต้องอ่านเพราะความจำเป็น กลายเป็นอ่านเพราะหลงไหล, สวัสดีครับผมชื่อหนุ่ย ผมทำงานด้าน Digital and Data Marketing ผมยังมีเพจการตลาดอีกเพจที่อยากฝากให้ลองอ่านดูนะครับ https://www.facebook.com/everydaymarketing.co/