รู้จักอนาคต AI ในรูปแบบ Multimodal AI ทำงานได้กับข้อมูลหลายประเภท

Summary

Multimodal AI คือ AI ประเภทหนึ่งที่สามารถเข้าใจและทำงานกับข้อมูลหลายประเภท เช่น ข้อความ รูปภาพ บทสนทนา Caption วิดีโอ และเสียง
โดยปกติแล้ว Model AI จะมุ่งเน้นไปที่การเทรนโมเดลจากแหล่งข้อมูลประเภทเดียว เช่น Computer Vision คือการเทรนจากรูปภาพ และ Large Language Models (LLMs) เทรนข้อความ แต่ Multimodal AI มีการผสมผสานการทำงานของข้อมูลหลายประเภทเข้าด้วยกัน เพื่อยกระดับ AI ให้เข้าใจและแสดงผลลัพธ์ในหลายมิติ ทำงานได้กว้างขึ้น เพิ่มความแม่นยำและมีประสิทธิภาพมากขึ้น
Multimodal AI เช่น Gererative AI ที่สร้างเนื้อหาเว็บไซต์แบบข้อความโดยที่บอตสร้างรูปภาพที่มาพร้อมกับข้อความที่สร้างขึ้นได้ หรือ Natural Language Processing หรือ NLP ซึ่งผสมผสานการจดจำข้อความ (Text) และคำพูด (Speech) เข้าด้วยกันเพื่อให้สามารถโต้ตอบเป็นภาษาได้อย่างแม่นยำและเป็นธรรมชาติมากขึ้น
ตัวอย่าง Multimodal AI เช่น GPT-4 จาก OpenAI ที่สามารถรับ Input ทั้งรูปภาพและข้อความ และ PaLM-E จาก Google ปัญญาประดิษฐ์ควบคุมหุ่นยนต์ ที่เกิดจากการการรวมโมเดลภาษา (LLM) กับโมเดลวิเคราะห์ภาพ (Vision) เข้าด้วยกัน
Multimodal AI มีประโยชน์ในหลากหลายอุตสาหกรรม ไม่ว่าจะเป็นการแพทย์ที่ช่วยบุคลากรแพทย์วินิจฉัยโรคได้มีประสิทธิภาพมากขึ้นจากการรวมภาพและบันทึกข้อมูลของผู้ป่วย ไปจนกระทั่งภาคการเกษตรที่บูรณาการภาพถ่ายดาวเทียม ข้อมูลสภาพอากาศ และข้อมูลเซ็นเซอร์ดิน ที่ช่วยให้ผลผลิตพืชผลดีขึ้นและลดต้นทุนได้อีกด้วย

__________________________________________________________________________________

Artificial Intelligence หรือ AI ยังคงเป็นเทคโนโลยีที่ถูกพัฒนาอย่างต่อเนื่อง ซึ่งไม่เพียงเข้าใจมนุษย์มากขึ้นหรือมีความแม่นยำมากขึ้นเพื่อตอบสนองความต้องการและแก้ไขปัญหาให้กับมนุษย์ แต่ยังมี AI ที่สามารถปรับและประมวลผลได้หลากหลายรูปแบบเพื่อนำไปสู่การประมวลผลที่ชาญฉลาดขึ้นและทำงานได้อย่างมีประสิทธิภาพมากขึ้นหรือที่เรียกว่า Multimodal AI ซึ่ง Tech By True Digital จะพาไปทำความรู้จักเทคโนโลยี AI ในรูปแบบนี้ว่าคืออะไร ทำงานอย่างไร และที่สำคัญช่วยสร้างประโยชน์ให้กับชีวิตผู้คนได้อย่างไรบ้าง

Multimodal AI คืออะไร

Multimodal AI คือปัญญาประดิษฐ์ประเภทหนึ่งที่สามารถประมวลผล ทำความเข้าใจ และทำงานกับข้อมูลมากกว่าหนึ่งประเภท เช่น ข้อความ รูปภาพ บทสนทนา Caption วิดีโอ และเสียง ถือเป็นการยกระดับ AI ให้เข้าใจและแสดงผลลัพธ์ในหลายมิติ เข้าใจงานได้กว้างขึ้น เพิ่มความแม่นยำและมีประสิทธิภาพมากขึ้น

Unimodal vs. Multimodal

โดยปกติแล้วระบบ AI ส่วนใหญ่ในปัจจุบันเป็นแบบ Unimodal หรือระบบเดียว ซึ่งได้รับการออกแบบและสร้างขึ้นเพื่อทำงานกับข้อมูลประเภทเดียวโดยเฉพาะ และใช้อัลกอริธึมที่ปรับให้เหมาะกับรูปแบบนั้น ตัวอย่างเช่น Large Language Models (LLMs) หรือโมเดลภาษาขนาดใหญ่ คือโมเดลคอมพิวเตอร์ที่สามารถวิเคราะห์และสร้างข้อความจากการที่ได้รับการฝึกฝนเกี่ยวกับข้อมูลประเภทข้อความจำนวนมหาศาล เช่น การสร้างข้อความหรือแม้แต่การเขียนโค้ด สร้าง Output หรือผลลัพธ์ออกมาได้ประเภทเดียวคือข้อความเท่านั้น และมีความสามารถจำกัดในการทำความเข้าใจข้อมูลประเภทอื่น ๆ

การทำงานของ Unimodal vs. Multimodal

ที่มา: https://research.aimultiple.com/

ในทางตรงกันข้าม Multimodal AI สามารถบูรณาการและประมวลผลข้อมูลได้หลายรูปแบบ ทำงานกับข้อมูลได้มากกว่าหนึ่งประเภท เช่น ข้อความ รูปภาพ บทสนทนา Caption วิดีโอ และเสียง ตัวอย่างเช่น Gererative AI ที่สร้างเนื้อหาเว็บไซต์แบบข้อความโดยที่สามารถให้บอตสร้างรูปภาพที่มาพร้อมกับข้อความที่สร้างขึ้นได้ หรือ การประมวลผลภาษาธรรมชาติ (Natural Language Processing หรือ NLP) ซึ่งเป็นการผสมผสานการจดจำข้อความ (Text) และคำพูด (Speech) เข้าด้วยกันเพื่อให้สามารถโต้ตอบเป็นภาษาได้อย่างแม่นยำและเป็นธรรมชาติมากขึ้นระหว่างมนุษย์กับเครื่องจักร เป็นต้น

ตัวอย่าง Kosmos-1 จาก Microsoft Multimodal AI ที่สามารถวิเคราะห์ภาพจาก Input ได้และทำงานกับข้อมูลได้มากกว่าหนึ่งประเภท

ที่มา: https://doi.org/10.48550/arXiv.2302.14045

ตัวอย่างล่าสุดของ Multimodal AI ที่เป็นโมเดลภาษาขนาดใหญ่ คือ GPT-4 จาก OpenAI เป็น Multimodal AI ขนาดใหญ่ที่สามารถรับ Input ทั้งรูปภาพและข้อความ และสร้าง Output หรือผลลัพธ์ออกมาเป็นข้อความ ซึ่งหากเปรียบเทียบกับ GPT-3.5 ที่รองรับคำสั่งเป็นข้อความได้เท่านั้น หรือ PaLM-E จาก Google ปัญญาประดิษฐ์สำหรับควบคุมหุ่นยนต์ ที่เกิดจากการรวมโมเดลภาษา (LLM) กับโมเดลวิเคราะห์ภาพ (Vision) เข้าด้วยกัน เกิดเป็น Visual-Language Model (VLM) ที่ทำให้ PaLM-E เป็นโมเดลการเรียนรู้ของหุ่นยนต์แบบประสิทธิภาพสูง ที่สามารถทำงานได้หลากหลาย รองรับการสั่งงานหุ่นยนต์ทั้งการแยกแยะวัตถุ แยกแยะฉากทัศน์ รับคำสั่งเป็นเสียงแล้วแปลงเป็นข้อความ หรือใช้ทั้งสองอย่างคือให้ดูภาพแล้วทำตามคำบรรยายก็ได้เช่นกัน

หุ่นยนต์ที่ฝึกโดยโมเดล PaLM-E สามารถทำงานตามคำสั่งแยกแยะวัตถุและนำวัตถุมาให้ได้

ที่มา: https://ai.googleblog.com/

Multimodal AI ทำงานอย่างไร

การพัฒนา Multimodal AI จำเป็นต้องใช้อัลกอริธึมที่ซับซ้อนซึ่งสามารถรวบรวมและวิเคราะห์ข้อมูลจากหลายแหล่งที่มาได้ ตั้งแต่ Feature Extraction หรือ กระบวนการแปลงข้อมูลให้อยู่ในรูปแบบที่สามารถนำไปใช้งานได้ใน Machine Learning เช่น การแปลงจากข้อมูลประเภทข้อความ และ รูปภาพ เพื่อนำไปประมวลผล, การสร้างโมเดล Machine Learning และ Neural Network หรือโครงข่ายประสาทเทียม ที่สามารถประมวลผลและตีความชุดข้อมูลที่ซับซ้อนได้ โดยจะต้องประกอบไปด้วยโครงสร้าง 3 ส่วนด้วยกัน คือ

Input Module ที่ประกอบด้วยโครงข่ายประสาทเทียมที่สามารถรับและประมวลผลข้อมูลได้มากกว่าหนึ่งประเภท เนื่องจากข้อมูลแต่ละประเภทได้รับการจัดการโดยโครงข่ายประสาทเทียมที่แยกจากกัน ทำให้ Input Module ของ Multimodal AI จึงจำเป็นต้องประกอบด้วยโครงข่ายประสาทเทียมแบบ Unimodal จำนวนมาก
Fusion Module มีหน้าที่ในการรวบรวมและประมวลผลข้อมูลที่เกี่ยวข้องจากข้อมูลแต่ละประเภท และใช้ประโยชน์จากจุดแข็งของข้อมูลแต่ละประเภท และ
Output Module สร้างผลลัพธ์หรือ Output ที่เอื้อต่อความเข้าใจโดยรวมของข้อมูล มีหน้าที่สร้างผลลัพธ์จาก Multimodal AI

Multimodal AI ถูกพัฒนาและนำไปใช้ในหลากหลายอุตสาหกรรม ซึ่งช่วยเพิ่มประสิทธิภาพในการทำงานให้กับอุตสากรรมได้อย่างมากมาย อาทิ

ตัวอย่าง Multimodal AI ในโปรแกรมแปลภาษาอัตโนมัติสำหรับการ์ตูนญี่ปุ่นที่สามารถแปลข้อความในหนังสือการ์ตูนจากกรอบคำพูด ซึ่งต้องใช้ความเข้าใจในบริบทที่เป็นภาพร่วมด้วย

ที่มา: https://research.aimultiple.com/

บริการทางการแพทย์และสาธารณสุข นำ Multimodal AI มาช่วยในการปรับปรุงการวิเคราะห์ภาพทางการแพทย์ การวินิจฉัยโรค และการวางแผนการรักษาเฉพาะบุคคล โดยการนำภาพทางการแพทย์มารวมเข้ากับ ข้อมูลผู้ป่วย และบันทึกทางคลินิก เพื่อให้การวินิจฉัยและแผนการรักษาที่แม่นยำยิ่งขึ้น ซึ่งมีการประเมินว่าอุตสาหกรรมบริการทางการแพทย์และสาธารณสุขจะเป็นอุตสาหกรรมที่ใช้ Multimodal AI รายใหญ่ที่สุด โดยมีอัตราการเติบโตเฉลี่ยสะสมต่อปีที่ 40.5% ตั้งแต่ปี 2020 ถึง 2027

การเกษตร ใช้ Multimodal AI ช่วยตรวจสอบสุขภาพของพืชผล คาดการณ์ผลผลิต และเพิ่มประสิทธิภาพด้านการเกษตร ด้วยการบูรณาการภาพถ่ายดาวเทียม ข้อมูลสภาพอากาศ และข้อมูลเซ็นเซอร์ดิน ส่งผลให้เกษตรกรสามารถเพาะปลูกที่ให้ผลผลิตดีขึ้นและลดต้นทุนได้อีกด้วย

การเงิน ใช้ Multimodal AI เพื่อวิเคราะห์ข้อมูลทางการเงินจากหลายแหล่ง เช่น บทความข่าว โซเชียลมีเดีย และแนวโน้มของตลาด เพื่อประกอบการตัดสินใจลงทุนโดยมีข้อมูลมากขึ้น

การค้าปลีก เพื่อยกระดับประสบการณ์ของลูกค้าและช่วยสร้างยอดขายให้เพิ่มขึ้น ด้วยการผสมผสานข้อมูลพฤติกรรมของผู้ใช้ รูปภาพผลิตภัณฑ์ และบทวิจารณ์ของลูกค้า เพื่อให้ผู้ประกอบการสามารถให้คำแนะนำแบบรายบุคคลได้ สร้างความพึงพอใจให้กับลูกค้าและสร้าง Brand Loyalty ได้ในระยะยาว

เหล่านี้เป็นเพียงตัวอย่างการใช้ Multimodal AI ในอุตสาหกรรม ซึ่ง AI ยังคงถูกพัฒนาอย่างต่อเนื่องเพื่อสร้างประโยชน์และแก้ไขปัญหาให้กับชีวิตผู้คน อย่างไรก็ตามศักยภาพของ AI จะยิ่งใหญ่ขนาดไหนนั้นมนุษย์เราเองก็มีส่วนร่วมทั้งกระบวนการตั้งแต่การพัฒนา และการนำไปใช้อย่างสร้างสรรค์และปลอดภัย เพื่อให้แน่ใจว่าเทคโนโลยีใหม่ ๆ ที่เกิดขึ้นนั้นไม่เพียงเกิดขึ้นเพื่อช่วยสร้างผลกระทบเชิงบวกต่อผู้คนแต่ยังอยู่บนพื้นฐานความรับผิดชอบต่อสังคมอีกด้วย

#MultimodalAI

#ArtificailIntelligence

#AI

#NaturalLanguageProcessing

ที่มา:

https://ai.googleblog.com/

https://insights.daffodilsw.com/

https://economictimes.indiatimes.com/