Search Engine Crawling Project - โปรเจคทดลอง

หลังจากที่สนใจอยากลองทำ Search Engine ของตัวเองมานาน เลยทำการเขียนโปรแกรมซะเลยยย!

ตอนนี้ โปรเจคที่ดำเนินการอยู่ก็มีตัว Spider ที่ใช้สำหรับเก็บข้อมูลเว็บไซต์ ซึ่งส่วนนี้จะต้องมีการพัฒนาต่อยอดต่อไปอีกกว่านี้ในอนาคต
จากที่ทดลองดูวันนี้ ปรากฏว่าภายใน 15 นาที Spider ที่ผมพัฒนาขึ้นมานี้ สามารถ เก็บข้อมูลไซต์ได้ถึง 50000+ ไซต์เลยทีเดียว
และคาดว่าในอนาคต จะทำได้มากกว่านี้ ไว้จะพัฒนาต่อยอด แล้วอาจจะได้เจอกับ Search Engine ตัวใหม่จากผม! ในอนาคตครับ อิอิ^ ^

อยากลองดูความคืบหน้าของการเก็บข้อมูลจาก Spider ได้ทีนี่เลยครับ : http://www.hostyim.com/bot/

ปล.ใครอยากร่วมทำโปรเจคนี้ หรือสนับสนุนโปรเจคนี้ ติดต่อมาเลยนะครับ ^ ^

โปรเจคน่าสนใจดีครับ เข้ามาเป็นกำลังใจให้นะครับ

:santa:

lol ขอบคุณคร๊าบ พอดีว่างๆ ไม่ค่อยมีอะไรทำ เลยหาโปรเจคอะไรทำดูสักอย่างครับ ^ ^ เผื่อชีวิตจะดีขึ้น -.-

ดีครับ :slight_smile: สู้ๆ ต่อไป

ระวังการใช้งาน bw ด้วยนะครับ เดี๋ยว recursive มันเกิน ลิงค์จะเต็มเอา :slight_smile:

ใช้ภาษาตัวไหนในการเขียนตัว crawler ครับ

:slight_smile:

ภาษา C ครับผม Compile ลง Linux ให้อ่านค่าจากเว็บที่เรากรอกข้อมูลไว้ก่อน หลังจากนั้น มันจะแทร็คไปเรื่อยๆ ใช้ Crontab ตั้งเวลาเอาครับ

ผมใช้ perl มีข้อมูล URL 34 ล้านกว่าใน mysql เดือนกว่ายัง re-index กับ crawling ไม่เสร็จเลยครับ อาจจะเพราะ กำหนดไว้แค่ 10 concurrent.

ปัญหาไม่ได้อยู่ที่การ crawl เท่าไหร่หรอกครับ
แต่จะทำยังไงให้ผลการค้นหาตรงใจผู้ใช้ที่สุดนั่นแหละปัญหาใหญ่

นั่นน่ะสิครับ เพราะว่าขั้นตอนการประมวลผลเยอะจริงๆ ก่อนที่จะนำคำค้นหาออกมาให้ตรงใจผู้ใช้งานที่สุด ก็ต้องมีการเทียบ Grammer และ นำคำใกล้เคียงไป แสดงด้วย ซึ่งตรงนี้ อาจต้องใช้เวลาพอสมควรเลยครับ ซึ่งตรงนี้ เป็นเพียงแค่ Project ที่ผมลองนั่งทำดูเล่นๆ เผื่อว่าจะมีไอเดียอะไรเกิดขึ้นมาครับ ^ ^

จะลองคิดเอง ทำเอง เป็นแบบฝึกหัดให้สมองก็ไม่เลว หรือจะไปลองหาตัวที่เค้าทำกันแล้ว มาแกะเพื่อต่อยอด หรือดูวิธีการอื่นๆ ก็น่าสนุก สำหรับคนมีเวลาครับ บริหารสมอง

http://www.google.co.th/search?q=open+source+crawler

ต้องทำพวก Relevent Feedback พวกนี้ดีๆปะครับ

เคยเรียนแต่ทฤษฏี ของจริง ผมไม่มีปัญหาทำ T_T

แต่มาแนะนำครับ ถ้า Specific Domain ลงไปได้ในเรื่องได้เรื่องนึง เช่น
Search หาเฉพาะ เพลง อะไรพวกนี้ น่าจะพอทำตลาดได้ครับ

แต่ถ้าทำแบบเว็บทั่วไป คงจะสู้พวก Google,Yahoo ไม่ไหว

ไว้มีโอกาสเอามาให้ลองใช้บ้างนะครับ

ตอนนี้ให้มัน Index แบบช้าๆ ครับ ใช้ BOT 2 ตัว

1.คอยเก็บ Urls ครับ ตัวนี้จะทำงานตลอด
2.คอยเก็บเนื้อหา Pages ครับ ซึ่งตอนนี้ที่ทำไว้มีแค่ส่วนของ Field Title,Pagerank และ กำลังจะเก็บข้อมูล Desc และ Body Pages ซึ่งบอทตัวนี้ จะใช้เวลาในการเก็บข้อมูลค่อนข้างนานครับ

ซึ่งจะนำ Pagerank มาวัดระดับความน่าเชื่อถือด้วยครับ

เท่าที่ลองดูในขณะนี้แบบ Single Thread BOT ตัวแรก เก็บข้อมูลไปได้แล้ว 2 แสนกว่า Pages ครับ ส่วนบอทอีกตัว 2000 กว่า Pages ครับ :slight_smile: ต่างกันเยอะจริงๆ

ซึ่งที่พูดมานี้ ยังไม่ได้รันจริง และ ไม่ได้รันตลอด 24 ชม.นะครับ รันเป็นช่วงๆไป และ Single Thread ครับ ยังไม่ได้ทำ Multi-Thread

มีแนวโน้มที่จะได้เปิดตัว Search Engine รายแรกของไทย ในอนาคตครับ ^ ^ แนวโน้มสูงทีเดียว… แล้วเจอกันครับ -.-

อย่าใช้คำว่ารายแรกเลยครับ สมัยก่อนมีคนทำเยอะแล้ว แต่ไปไม่รอดซักราย (ดึงส่วนแบ่งตลาดได้ไม่เคยเกิน 1%)

:slight_smile: อยากทำเป็นเหะ เป็นกำลังใจให้ครับ

:slight_smile:

ตอนนี้ติดปัญหานิดนึงครับ BOT สามารถเก็บข้อมูล title ของเว็บได้ช้ามาก บางที ถึง 2-3 วินาที ต่อ 1 เว็บ ในขณะที่ ตัวเก็บ Urls สามารถเก็บได้ไวมากๆ ใครมีไอเดียเสนอไหมครับ ว่าจะสามารถเข้าถึงเว็บที่ต้องการเก็บข้อมูลได้ไวขึ้นอย่างไร?

แต่ละเว็บ response time ไม่เท่ากันอยู่แล้ว ต้องดูกันตั้งแต่ dns query ไปถึง http request ถ้า 2-3 วินาทีนี่ถือว่าเร็วมากแล้ว ของผมยังเผื่อ timeout ไว้ตั้ง 15 วินาที

น่าจะลองทำ search อะไรที่แปลกใหม่ดีกว่าครับ เพราะยังไงก็สู้ google ยาก อาจจะ search เฉพาะกลุ่ม เช่นที่เค้าทำมาเฉพาะก็ search blog , video , images