ไปมาเลย์งวดนี้ ได้หนังสือเกี่ยวกับ spam มาเล่มนึง เลยมีคำถามมาถามค่ะ

เริ่มคำถามแรกเลย ทำไมเค้าจึงเรียกเมลที่ส่งกันเยอะๆ ว่าเป็น canned mail ละคะ
ชื่อหนังสือที่ซื้อมาเนี่ย ชื่อ canning spam เลยนะ จะแปลเป็นไทยเลยแปลไม่ถูกเลย
พอเข้าใจบริบท แต่ไม่รู้ว่า ศัพท์จริงๆ นั้นเค้าเรียกว่าอะไร

แล้วก็เลยมาวนกลับที่ปัญหาว่า ทำไมต้องเป็น “can” ทำไมถึงเป็นกระป๋อง?

ประเด็นต่อมา ในหนังสืออ้างถึงว่า การมีไฟล์ robots.txt จะช่วยในการบอกพวกโปรแกรม web crawler, robots, spiders เกี่ยวกับสิ่งที่เราต้องการ ไม่ให้ ค้นหาค่ะ มี code นึงเขียนถึง meta ด้วยว่า

<meta name=“robots” content=“noindex, nofollow”>

มันจะช่วยในการกรองโปรแกรมดูดเมลได้ระดับหนึ่งหรือคะ

โดยปกติแล้วการเข้ามาของ spiders จะต้องมีการเรียก robots.txt ก่อน
เพื่อทำการตรวจสอบสิทธิ์ของตัวเองว่าสามารถเข้าเก็บข้อมูลส่วนใดได้บ้าง
ซึ่งหากตรงกับที่เรา disallow ไว้มันก็จะไม่เข้าเลย… แต่ก็มีบางพวกดื้อ

ส่วน spam นั่นไม่ทราบครับ นึกว่าหมายถึงมะเร็ง ทีมันจะลามไปทั่วร่างกายซะอีก

ปุ๊ก

อืม… ได้ความรู้เพิ่ม นี่ยังอ่านหนังสือไม่จบค่ะคุณปุ๊ก เพิ่งอ่านไปสัก 2-3 บทเอง เดี๋ยวต้องมีคำถามเพิ่มอีกแน่ รบกวนด้วยนะคะ

ไงก็มาเล่าให้ฟังบ้างนะครับ

ส่วนตัวแล้วถ้าผมจะเขียน mail crawler ผมคงไม่อ่าน meta robot หรอกครับ เนื่องจากเป้าหมายของโปรแกรมคือ เก็บ mail ให้ได้มากที่สุด ส่วน spider มีการอ่าน meta robot แต่ในทางปฏิบัติเขาเพียงไม่ index หน้าที่ไม่อนุญาตไว้เท่านั้น ไม่ได้แปลว่า spider ไม่ได้เข้าไปอ่านนี่ครับ (อันนี้ความเห็นส่วนตัว)

นึกถึงบอร์ดที่บังคับลงเมล์แล้วสยองงงงง เพราะตัวดูดมันคงไม่อ่านเหมือนบอททั่วไป

me@local.bot

ไอกระป๋อง

อ้อ เจ้าของ host เขากินปลาประป๋องกันนี่เอง

ที่ผมหมายถึงคือพวกโปรแกรมดูดสำเร็จรูปน่ะครับ เค้ามีจรรยาบรรพอที่จะไม่เข้ามาครับ
หรือพวกโปรแกรมขายเค้าอาจจะมีเรื่องข้อตกลงในการเข้าถึงข้อมูลครับ ซ฿งมันไม่ใช่กับ
พวกที่ดูดเพื่อไป spam ล้วนๆ … เพราะส่วนใหฯแล้วถ้าเก้บกันจริงๆ เขียนเองดีกว่าครับ
อยากได้อะไรขอให้บอกเก็บได้

ปุ๊ก

… เจอไอ้พวกชอบดูดเมล์ไปขาย แล้ว Spam โครตจะรำคาญ
ล่าสุดทนไม่ไหว โทรไป เฉ๊ง มาหละบอกให้เอา List ออก -*-
แถมแอบขรู่เรื่อง แจ้งความไปนิดหน่อย

งี๊ต้องเอาเมล์เบอร์โทรไป Post ตามเว็บ xxx and gay ซะให้เขต ความคิดใครหน่อย

ถ้าเป็น spider ของพวก search engine ก็คงจะ follow ตาม robot.txt หรือ meta ที่เรากำหนด
ส่วนพวกโปรแกรมดูดเมล์เพื่อไป spam คงไม่สนใจตรงนี้เป็นแน่

สำหรับเวบใหญ่ๆดังๆที่ติดอันดับต้นๆของไทย ผมยังไม่เห็นว่ามีเวบใหนที่ให้ความสำคัญกับเรื่อง spam หรือการโพสต์อีเมล์ในเวบ
ดังนั้นเป้าหมายอันดับต้นๆของพวกดูดเมล์ก็คือเวบใหญ่ๆดังๆนี่แหละ เพราะเป็นแหล่งรวมอีเมล์ที่ใหญ่ที่สุด เข้าเวบเดียวได้มาเป็นพันๆ

หากท่านเป็นผู้หนึ่งที่ทำเวบไซต์และเห็นถึงความสำคัญเรื่อง spam ท่านสามารถนำเอาระบบป้องกัน spam ไปติดตั้งที่เวบของท่านได้
ซึ่งการป้องกันพวกดูดเมล์นั้นมีหลักการง่ายมากๆคือ อย่าให้โปรแกรมอ่านอีเมล์ออก ซึ่งสามารถทำได้หลายวิธี เช่น

  1. เอา tag mailto: ออก เพราะโปรแกรมดูดเมล์น่าจะอ่าน tag นี้ได้ไม่ยาก
  2. แปลงอีเมล์เป็นภาพตัวอักษร (อาจจะแปลงทั้งอีเมล์เป็นภาพเดียวเลย หรือ แปลงเป็นภาพตัวอักษรเป็นตัวๆไป ก็ได้)

ในหนังสือมีแนะนำไว้อีกนิด กรณีอยากโชว์เมลเป็น text เช่น who@mail.com ให้ทำแบบนี้ค่ะ

w[b][/b]ho<u></u>@ma[b][/b]il<u></u>.c[b][/b]om

ของผมใช้วิธี
แปลงตัว @ เป็นตัว อื่นก่อน
และแปลง . เป็น ตัวอื่นด้วย

พอ mail ออกมาก็จะอ่่านไม่รู้เรื่องเชื่อ

abc$abc%co%th

แล้วเอาอันนั้นแหละ เข้า java script ให้มันแปลงกลับให้ถูกต้องแล้วแสดงผล

อ๊ะ นี่ก็เป็นอีกวิธีที่หนังสือสอนไว้เหมือนกันค่ะ

จะจาวา ก็ คงไม่ดีเท่า ssi (ปลอดภัยสุด) จาวามันอาจหลีกบอทได้ แต่ หลีก บางสิ่งไม่ได้

BASIC
function xxx() {

ใน paragraph หนึ่ง จะบอกเลยว่า

The human brain is an amazing computer.

แม่นแล้วค่ะ

นอกจากจะสามารถอ่านออกแล้วยังอ่านได้เร็วด้วย โดยที่ไม่ต้องดูตัวสะกดมากนัก แต่มองผ่านๆสมองมันก็ออกมาเป็นคำที่ถูกต้องเอง
น่าจะเป็นเพราะว่าเรามีคำที่ใช้บ่อยๆอยู่ในหัวเวลาอ่านมัีนก็เอาคำที่เหมาะสมมาใช้เอง แบบว่าเห็นตัวหนังสือ 2-3 ตัวก็เดาออกมาเป็นคำได้

แต่ทฤษฎีนี้คงเอามาใช้กับ email ไม่ได้เป็นแน่ เนื่องจาก email มักเป็นชื่อเฉพาะ หรือบางทีตัวอักษรผสมตัวเลข
เช่น

[quote author=kke link=topic=3903.msg30626#msg30626 date=1155702253]
นอกจากจะสามารถอ่านออกแล้วยังอ่านได้เร็วด้วย โดยที่ไม่ต้องดูตัวสะกดมากนัก แต่มองผ่านๆสมองมันก็ออกมาเป็นคำที่ถูกต้องเอง
น่าจะเป็นเพราะว่าเรามีคำที่ใช้บ่อยๆอยู่ในหัวเวลาอ่านมัีนก็เอาคำที่เหมาะสมมาใช้เอง แบบว่าเห็นตัวหนังสือ 2-3 ตัวก็เดาออกมาเป็นคำได้

แต่ทฤษฎีนี้คงเอามาใช้กับ email ไม่ได้เป็นแน่ เนื่องจาก email มักเป็นชื่อเฉพาะ หรือบางทีตัวอักษรผสมตัวเลข
เช่น