Search Engine Crawling Project - โปรเจคทดลอง

กำจริง

สับสน Hostyim (แบรนมาทีหลัง) ว่าเป็น SmileHost ทุกที ทั้งที่รู้อยู่แต่แรกแล้ว พอนานๆเข้า มึนทุกที

โปรดอย่าสับสนครับ อิอิ

ขอเข้ามาติดตามน้องเค้าพัมนาระบบแล้วกันครับ โปรแกรมให้เก็บไม่น่ายากเท่าไหร่
ส่วนที่ยากน่าจะเป็นเรื่อง listing report ที่จะออกมาเพื่อตอบสนอง search query
ของ user ให้ตรงใจมากที่สุด … แต่ก็ไม่ได้ยากมากมาย หาแหล่งอ้างอิงจากหลายแหล่ง
ก็พอจะช่วยได้อยู่ระดับนึง

แค่เห็นคนไทยคิดเองทำเองแบบนี้ก็ดีใจแล้วครับ ยังไงลองศึกษา feature จากลิงค์พี่วัฒน์
แล้วเอามาปรับใช้กับของเราก็ได้ หรือเอาตัวที่เค้าทำมา customize ให้เป็นรุปแบบการ
ค้นหาเฉพาะตัวของเราอีกทีก็ได้ครับ

ส่วนเรื่อง search ทางเลือก อย่างที่ไอซ์บอกไปแล้วครับ ในไทยมีหลายเจ้ากระโดดเข้ามา
สุดท้ายก็สู้กระแสรายใหญ่ไม่ได้ แพ้ภัยตกม้าตายห่างหายกันไปหมด เพราะโดย nature แล้ว
คนไทยไม่ได้ชาตินิยมอะไรขนาดนั้น หากไม่ดีจริง หรือไม่ได้รับการสนับสนุนอย่างแรงกล้า
แบบพี่จีนแล้ว คงหาโอกาสเกิดได้ยากครับ

อีกเรื่องคือเรื่องสายป่านที่จะใช้เพื่อรองรับทราฟฟิคที่เกิดขึ้น ทั้งในส่วนของคน และส่วนของ
บอทที่ออกไปเก็บข้อมูล ท้ายที่สุดพอถึงจุดนึงเงินหมด ไฟหมด กำลังใจหมด ก็เข้ากลุ่มรุ่นพี่
ที่หายไปก่อนหน้านี้ เพราะพี่ไทยเองก็ยังไม่มีกลุ่มทุนที่จะมาสนับสนุนแนวคิด หรือผลผลิต
ของพวกเราคนไทยกันเองโดยตรง — ซึ่งแตกต่างจากพวก us ที่สามารถระดมทุนเพื่อเข้ามา
เสริมสภาพคล่องในการดำเนินงาน และพัฒนาระบบได้อย่างต่อเนื่อง

ท้ายที่สุด ขอเป็นกำลังใจให้ครับ หากมีอะไรที่ผมพอจะช่วยได้ก็ยินดี … ลองปรับ Algo ให้มีพวก
ศาสตร์ต่างๆ เข้าไป เช่น สังคมศาสตร์ (กลุ่ม), คณิตศาสตร์ (การคำนวน/ประมวลผล), วิทยาศาสตร์ (การอ้างอิง)
และศาสตร์อื่นๆ ที่จำต้องใช้ในกระบวนการคิด จนกว่าจะออกมาเป็นผลการค้นหาครับ

ปุ๊ก

ขอบคุณครับ พี่ปุ๊ก ตอนนี้ตัว Crawler ก็ค่อยๆเริ่มพัฒนา สามารถเก็บได้เป็น Multi-thread เร็วขึ้นกว่าเดิมมากแล้วครับ

ซึ่งตอนนี้ มีเวลา ก็กำลังค้นคว้าทางด้านการแสดงผลการค้นหายังไง ให้ตรงใจที่สุด ซึ่งขณะนี้ มีแค่ตัวแปรเดียว คือ Pagerank จาก Google
แต่ว่า มีแค่นั้น คงเป็นไปไม่ได้ ซึ่งตอนนี้ ก็พยายามหาวิธี ซึ่งจะนำมาซึ่งผลการค้นหาที่ใกล้เคียง จนถึงตรงมากที่สุด…

อีกวิธีคิดนึงก็อาจจะเป็น การนำคำค้นหาที่ผู้ใช้งานหาเข้าไป มาเก็บเป็น ข้อมูลไว้ หลังจากนั้น เมื่อมีคนถัดไปค้นหา และมีส่วนประกอบของคำทีอยู่ในฐานข้อมูล ซึ่งมีผู้ใช้ค้นหามากที่สุด ก็จะนำคำนั้น มาแสดงเป็นผลการค้นหาด้วยเช่นกัน แต่คาดว่า ในส่วนของผลลัพธ์ที่จะให้แสดงนั้น คงต้องใช้เวลาพอสมควร ในการปรับปรุงให้ออกมาดีที่สุด…

คำนวณ pagerank เองเลยครับ
ค่า pagerank ใน google เปลี่ยนทุกวินาที (จริงๆ มันคำนวณกันละเอียดยิบๆ ถึงขั้นทศนิยม)
แต่ที่เปิดเผยออกมาเป็นแค่ตัวเลขคร่าวๆ ที่ชาตินึงอัพเดททีนึง

ถ้าจะสังเกตง่ายๆ ก็ดูผลการค้นหานั่นแหละ keyword เดิม เว็บก็เดิมๆ แต่อยู่ดีๆ อันดับเปลี่ยนสลับไปๆ มาๆ เรื่อยๆ ทั้งๆ ที่ PR เว็บไม่เปลี่ยน

ลองเอาไอเดียผมไปต่อยอดดูนะครับ … การอ้างอิงจากแหล่งอื่น

  • Alexa Rank
  • Truehits Rank
  • Stats.in.th Rank

อันนี้สะท้อนความเป็นเว็บยอดนิยมได้ส่วนนึงครับ

ส่วนความน่าเชื่อถือเช็คจาก ทะเบียนพานิชอิเล็กทรอนิคส์ ที่ขึ้นทะเบียนไว้
แล้วเก็บเป็นค่าตัวแปลไว้ ตอนที่จะ list ออกมาก็คำนวนคะแนนออกมาเรียงลำดับ

----- ส่วนการอ้างอิงอื่นๆ ลองหาแหล่งอ้างอิงดูนะครับ แนวคิดคล้ายๆ กัน
ไม่จำเป็นต้องไปอ้าง Google PR มากนักหรอก เพราะนั่นมันอย่างที่ไอซ์บอก
ตัวเลขที่เรา Detect ได้มันหยาบเกินท่จะอ้างอิงจากแหล่งเดียวได้ครับ

ปุ๊ก

งานนี้มีมันส์ รุ่นเดอะเข้ามาแนะนำเป็นเรื่องเป็นราวมาก สู้ๆ ครับ

เอาไอเดีย (เก่าๆ) ที่ผมเคยคิดจะทำมาช่วยน้องเค้าพํมนาอ่ะครับพี่
เผื่อจะพอช่วยอะไรน้องเค้าได้บ้าง … ถ้ามีจริงๆ ยังมีอีกหลายอย่าง
ที่สามารถนำมาอ้างอิงได้ครับ สู้ๆ นะ Dev Thai

ปุ๊ก