การประมาณการนักท่องเที่ยวในแต่ละภูมิภาคของประเทศไทย โดยการจำแนกความคิดเห็นบนทวิตเตอร์
การวิจัยครั้งนี้มีวัตถุประสงค์ เพื่อเปรียบเทียบประสิทธิภาพตัวจำแนก ในการจำแนกภูมิภาคที่นักท่องเที่ยวเดินทางไป ในภูมิภาคต่างๆ ของประเทศไทย ซึ่งจะสามารถใช้ในการวางแผนต้อนรับนักท่องเที่ยวอย่างเหมาะสม โดยมีวิธีการดังนี้ การเก็บรวบรวมข้อความโพสบนทวิเตอร์ที่เกี่ยวกับสถานที่ท่องเที่ยวในแต่ละภูมิภาค การเตรียมข้อมูลเพื่อแปลงข้อมูลที่ไม่มีโครงสร้างให้อยู่ในรูปแบบที่มีโครงสร้าง ประกอบด้วย การทำความสะอาดข้อมูล การตัดคำ การกำจัดคำหยุด การสกัดคุณลักษณะและการจำแนกข้อความโดยเปรียบเทียบ 2 เทคนิควิธี คือ เทคนิควิธี K-Nearest Neighbors (K-NN) และ Naive Bayes (NB) จากผลการทดลองพบว่า ข้อมูลที่ผ่านขั้นตอนการทำความสะอาด การตัดคำด้วยเทคนิควิธี Maximum Matching ร่วมกับการกำจัดคำหยุด และสกัดคุณลักษณะด้วยเทคนิควิธีถุงคำ Bag of Words และการแทนคำด้วยค่าความจริง Term Binary ร่วมกับการจำแนกข้อความด้วยเทคนิควิธี NB มีประสิทธิภาพความถูกต้องร้อยละ 65.14