Tuesday, December 1, 2009

ฉบับที่ 4 (ธันวาคม 2009)



Opening

สวัสดีครับ ผมเชื่อว่าเดือนนี้ คงเป็นเดือนที่หลายคนตั้งตารอคอย โดยเฉพาะอย่างยิ่งผู้ที่กำลังศึกษาต่ออยู่ในต่างประเทศ เพราะเรากำลังจะมีวันหยุดยาวหลายสัปดาห์ทีเดียว ตั้งแต่ปลายเดือน รวมถึงคริสต์มาสแล้วก็ปีใหม่ด้วย แต่สำหรับบางคน เดือนนี้ก็อาจจะเป็นเดือนหฤโหดครับ เพราะต้องสะสางงานที่สุมมาตลอดทั้งปี ไม่ว่าปีที่กำลังจะผ่านพ้นไปจะดีหรือไม่ก็ตาม ผมและทีมงาน Thai Bioinformatics e-Magazine ทุกคนขออวยพรให้ปีใหม่ที่กำลังจะมาถึง เป็นปีแห่งความโชคดีของทุกคน ขอให้การงานสำเร็จลุล่วงไปได้อย่างราบรื่น ผู้ที่กำลังมองหาความร่วมมือ ก็ขอให้ได้พบผู้ร่วมงานที่เปี่ยมไปด้วยคุณภาพและคุณธรรม สำหรับผู้ที่กำลังศึกษาต่อก็ขอให้สำเร็จตามที่คาดหวังไว้ทุกประการ และเหนือสิ่งอื่นใด ขอให้ผู้อ่านทุกคนมีสุขภาพแข็งแรง เพื่อเตรียมพร้อมกับสิ่งดีๆ ที่จะเกิดขึ้นในปีใหม่นี้นะครับ

สำหรับ e-Magazine ฉบับนี้ ก็ขอส่งท้ายปีเก่ากับ Highlight ดีๆ จาก อ. เจษฎา เด่นดวงบริพันธ์ ที่ให้เกียรติกับ Thai Bioinformatics e-Magazine มากนะครับ เรื่องราวใน Highlight ก็จะเกี่ยวข้องกับไข้หวัดใหญ่ 2009 ที่เป็นข่าวดังและสร้างความวิตกกังวลให้กับคนไทยและคนทั่วโลกปีนี้ สำหรับ Python Programming ตอนนี้ก็เข้มข้นขึ้นแล้วนะครับ เราจะมาหัดเขียนโปรแกรมจริงๆ กันแล้วครับ หลังจากที่เรียนรู้พื้นฐานกันมาพอสมควรแล้ว และ Focus on Bioinfo Researches ของน้องอ้อ ก็น่าสนใจไม่แพ้กัน ผมเชื่อว่า e-Magazine ฉบับนี้รวมเรื่องราวน่าสนใจไว้มากมายทีเดียว

ผมหวังเป็นอย่างยิ่งว่า e-Magazine ภาษาไทย เพื่อคนไทย จะเป็นประโยชน์ต่อผู้สนใจทางด้าน bioinformatics ครับ และสุดท้ายนี้ ผมขอขอบคุณผู้อ่านทุกคนที่แนะนำสิ่งดีๆ ให้กับทีมงานของเรานะครับ ทุกความคิดเห็น จะเป็นแรงผลักดันให้พวกเราทุกคนปรับปรุง e-Magazine ให้ดีขึ้นไปในในปี 2010 ขอบคุณครับ

ประเวช อรรจวัฒนวงศ์

Highlight

การใช้ Bioinformatics และ Phylogenetics ในการศึกษาเชื้อไวรัสไข้หวัดใหญ่ 2009

เจษฎา เด่นดวงบริพันธ์

สวัสดีครับสมาชิกของ Bioinformatics Network News ผมรู้สึกดีใจมากครับที่เห็นการก่อตั้งเครือข่ายของผู้สนใจทางด้าน ชีวสารสนเทศ อย่างนี้ ขอให้กิจกรรมดีๆ ของเครือข่าย อย่างเช่น การทำ e-magazine ประสบความสำเร็จอย่างต่อเนื่องยิ่งๆ ขึ้นไปนะครับ วันนี้ผมก็เลยขอร่วมเขียนบทความให้กับทางเครือข่ายบ้าง ซึ่งเนื้อหาอาจจะง่ายไปหรือธรรมดาไปสำหรับหลายๆ ท่าน ก็ต้องขออภัยด้วยนะครับ

จากการที่เมื่อกลางปีนี้ เกิดการระบาดใหญ่ระดับโลกของเชื้อไวรัสไข้หวัดใหญ่สายพันธุ์ใหม่ 2009 (Pandemic 2009 A/H1N1 influenza virus) หรือที่เมืองนอกเรียกกันว่า ไข้หวัดหมู (swine flu) ผมก็ได้รับมอบหมายจากหัวหน้าหน่วยวิจัยที่ผมร่วมอยู่ด้วยคือ ศ.ดร.ธีระวัฒน์ เหมะจุฑา (ผู้อำนวยการศูนย์ความร่วมมือองค์การอนามัยโลกด้านโรคติดต่อจากสัตว์สู่คน) ให้ลองติดตามวิเคราะห์ลักษณะทางพันธุกรรมและไฟโลเจเนติกส์ (phylogenetics) ของเชื้อนี้ ตั้งแต่เมื่อเริ่มต้นระบาดใหม่ๆ ว่ามันมีที่มาที่ไปอย่างไรกัน และมีแนวทางในการเปลี่ยนแปลงไปในทิศทางไหนบ้าง

ก็จะไม่ขอลงลึกในรายละเอียดของผลการวิเคราะห์ที่ได้นะครับ เพราะจะคล้ายกับที่หลายท่านคงจะได้ทราบข้อสรุปแล้ว อย่างเช่น ตอนแรกจะสับสนกันว่าเชื้อนี้มีต้นกำเนิดมาจากไหน บางคนไม่เชื่อว่าเป็นสายพันธุ์ใหม่ที่มาจากหมูสู่คน แต่คิดว่าเป็นไข้หวัดใหญ่ตามฤดูกาลดั้งเดิมกลายพันธุ์มา ทำให้ประเมินสถานการณ์การรับมือและป้องกันโรคไว้ต่ำ จนสุดท้ายก็ระบาดกันไปทั่วและมีผู้เสียชีวิตหลายคน ขณะที่ผลการวิเคราะห์ของผมในตอนนั้นก็ออกมาตรงกับที่ยอมรับ ณ ขณะนี้ว่า เป็นเชื้อที่เกิดขึ้นใหม่จริงๆ โดยมีต้นกำเนิดจากเชื้อไข้หวัดใหญ่ที่ระบาดในหมูอเมริกา มารวมกับเชื้อที่ระบาดในหมูของยุโรปและเอเชีย (ส่วนที่ว่ามารวมกันได้ยังไงนั้น ถึงตอนนี้ก็ยังเป็นปริศนาอยู่ ทำเอาผมเริ่มๆ เชื่อทฤษฎีความผิดพลาดของมนุษย์ (human error) เช่น จากความผิดพลาดในการทำวัคซีนไข้หวัดใหญ่ในหมูด้วยเชื้อหลายชนิด)

สิ่งที่น่าสนใจมากในเชิงของการศึกษาไฟโลเจเนติกส์ของเชื้อนี้ คือ พัฒนาของการใช้ bioinformatics ในการศึกษาเชื้อนี้ที่เกิดขึ้นอย่างรวดเร็วและในวงกว้างมาก ข้อมูลลำดับพันธุกรรมของเชื้อไวรัสตั้งแต่ isolate แรกๆ ที่พบ ได้ถูกนำขึ้นสู่ระบบอินเตอร์เน็ตเพียงเวลาไม่กี่วันหลังจากที่เชื้อถูกสกัด เพื่อให้นักวิจัยจากทั่วโลกร่วมกันวิเคราะห์เชื้อที่เกิดขึ้นใหม่ และข้อมูลลำดับพันธุกรรมนี้ก็เพิ่มขึ้นอย่างรวดเร็วในปริมาณที่มหาศาลจากทั่วทุกมุมโลกที่เชื้อระบาดไปถึง

เว็บไซต์ขององค์การแรกๆ ที่มีบทบาทอย่างมากต่อเรื่องนี้ คือ เว็บของ GISAID หรือ The Global Initiative on Sharing Avian Influenza Data ซึ่งเป็นฐานข้อมูลแรกที่ข้อมูลลำดับพันธุกรรมของไข้หวัดใหญ่จากห้องแล็บทั่วโลกที่เป็นสมาชิกเครือข่ายจะถูกเผยแพร่ออกสู่ภายนอก โดยผู้ที่สนใจสามารถเข้ามาหาข้อมูลได้ฟรีโดยการลงทะเบียนก่อนใช้ (ตอนนั้น การลงทะเบียนทำได้ช้ามากเนื่องจากมีคนแห่กันเข้าไปสมัคร) พร้อมทั้งเริ่มมีเครื่องมือพื้นฐานทาง bioinformatics หลายอย่างเพื่อความสะดวกในการวิเคราะห์ข้อมูล เช่น การทำ alignment ลำดับที่ค้นหาได้

จากนั้น ภายใน 1-2 วัน ข้อมูลจาก GISAID จะถูกส่งไปที่ฐานข้อมูล GenBank อันโด่งดังของ NCBI หรือ National Center for Biotechnology Information ซึ่งทาง NCBI ก็ได้มีการสร้างหน้าเว็บใหม่ขึ้นมารองรับโดยเฉพาะ คือInfluenza Virus Resource: Information, Search and Analysis เว็บไซต์นี้ก็มีพัฒนาการไปอย่างรวดเร็วมาก สมกับที่เป็นส่วนหนึ่งของเว็บ NCBI ที่สร้าง BLAST และ ENTREZ มาให้พวกเราใช้กัน นั่นคือ แทนที่เราจะค่อยๆ เลือกดึงเอาข้อมูลพันธุกรรมเชื้อไข้หวัดใหญ่ทีละลำดับเหมือนปรกติ ซึ่งน่าจะกินเวลานานมาก เว็บนี้ก็มีตัวเลือกในการค้นหาฐานข้อมูลทั้งตามชนิดย่อย (subtype) ของเชื้อ ตามเจ้าบ้าน (host) ตามประเทศหรือเดือนที่พบเชื้อ ฯลฯ หรือจะเลือกเฉพาะisolate ที่มีการหาลำดับทั้งจีโนมแล้วก็ได้ นอกจากนี้ ยังสามารถทำ alignment ของลำดับพันธุกรรมเชื้อของเราเทียบกับลำดับของเชื้ออื่นได้เป็น 1,000 ลำดับพร้อมๆ กัน รวมทั้งการสร้างแผนภูมิต้นไม้ (tree) การค้นหาแบบ BLAST และการส่งต่อข้อมูลที่หาได้ด้วยวิธีการต่างๆ

ในเวลาเดียวกันนั้น พัฒนาการสำคัญอย่างหนึ่งของระบบอินเตอร์เนตและ bioinformatics ที่มีต่อการศึกษาวิจัยไข้หวัดใหญ่สายพันธุ์ใหม่นี้ คือ การที่กลุ่มนักวิทยาศาสตร์ชั้นนำของวงการนี้หลายคนซึ่งนำโดย Dr. Andrew Rambaut จาก University of Edinburgh แทนที่จะ submit paper และรอการ review และตีพิมพ์เหมือนปรกติกลับเลือกที่จะนำเอาระบบ blog ของ Wiki มาใช้เผยแพร่ผลการศึกษาในทันทีที่วิเคราะห์เสร็จ แล้วค่อยมาปรับปรุงเปลี่ยนแปลงหรือแก้ไขในภายหลัง ทั้งการเพิ่มเติมผลการวิเคราะห์ รูปภาพประกอบ และไอเดียใหม่ๆ หรือการวิพากษ์วิจารณ์ผลการศึกษาที่ได้ผ่านกระทู้ โดยสมาชิกของกลุ่มวิจัยที่อาจจะอยู่คนละมุมโลก (เช่น อเมริกา ยุโรป ฮ่องกง) ซึ่งวิธีการใช้ social networking หรือ WEB2.0 เช่นนี้ถือได้ว่า ฉีกแนวทางการเผยแพร่ผลงานวิจัยที่เคยทำมาแต่ดั้งเดิมของวงการวิทยาศาสตร์เลยทีเดียว

แนวคิดในการเสนอผลงานวิจัยผ่านระบบอินเตอร์เน็ตเช่นนี้ ถึงแม้ว่าจะถูกวิจารณ์อยู่มากเหมือนกันถึงความถูกต้องเหมาะสม แต่กลับเป็นที่นิยมมากขึ้นอย่างต่อเนื่อง ทั้งในรูปแบบของ e-journal ต่างๆ ผ่านระบบ open access ที่ใครก็สามารถเข้ามาอ่านบทความวิจัยบนนั้นได้ โดยไม่ต้องเสียค่าใช้จ่ายใดๆ (เพราะผู้เขียนบทความเป็นผู้จ่ายแทน) สำหรับในวงการไข้หวัดใหญ่ เว็บไซต์เผยแพร่ผลงานวิจัยผ่านเน็ต ดังเช่น PLoS Current ของPublic Library of Science ได้เพิ่มหน้าเว็บ PLoS Currents: Influenza ขึ้นมาโดยเฉพาะสำหรับการแลกเปลี่ยนผลการศึกษาไข้หวัดใหญ่อย่างรวดเร็ว แทนที่จะต้องรอการตีพิมพ์ใน journal ต่างๆ ซึ่งต้องใช้เวลาอีกนานมากกว่าจะได้พิมพ์จริงๆ แม้ว่าจะเป็นการออกฉบับพิเศษก็ตาม

ย้อนกลับไปดูที่เว็บ Wiki “Human/Swine H1N1 Influenza” ของ Andrew Rambaut และเพื่อนพ้อง จะพบว่าเว็บนี้ได้ให้แนวทางสมัยใหม่ในการศึกษาวิจัยพันธุกรรมและวิวัฒนาการของเชื้อไข้หวัดใหญ่เอาไว้แทบจะครบถ้วนทุกด้าน ทำเอานักไฟโลเจเนติกส์แบบโบราณอย่างผม คือพวก parsimony-based กลายเป็นมนุษย์ถ้ำไปเลย จึงขอนำมาเสนอไว้ตรงนี้เป็นพิเศษ ซึ่งผลการวิเคราะห์ของพวกเขาแบ่งออกเป็น 4 ด้าน คือ ด้านการวิเคราะห์ไฟโลเจเนติกส์และประวัติศาสตร์ของการเรียงยีนสลับใหม่ของจีโนมไวรัส (Phylogenetic analysis and reassortment history) ด้านระบาดวิทยาเชิงโมเลกุลและการวิเคราะห์นาฬิกาโมเลกุล (Molecular epidemiology and molecular clock analysis) ด้านไฟโลเจเนติกส์เชิงภูมิศาสตร์ (Phylogeography) และวิวัฒนการและการปรับตัวเชิงโมเลกุล (Molecular evolution and adaptation)


เป็นส่วนที่พูดถึงการวิเคราะห์ทางไฟโลเจเนติกส์ถึงจุดกำเนิดของเชื้อ โดยตั้งแต่วันแรกๆ ที่ลำดับพันธุกรรมของเชื้อเริ่มเผยแพร่ออกมา พวกเขาก็ได้วิเคราะห์เบื้องต้นโดยการสร้าง Neighbor-Joining (NJ) trees ซึ่งใช้distance metric แบบ HKY ด้วยโปรแกรม PAUP* 4.0 ต่อมาจึงใช้โปรแกรม MrModeltest 2.2 ในการหาโมเดลDNA substitution และ γ-rate heterogeneity ที่เหมาะสม ได้ออกมาเป็นโมเดล GTR+I+G สำหรับ NJ trees

นอกจากนี้แล้ว ยังมีการวิเคราะห์อย่างละเอียดขึ้นในด้านประวัติศาสตร์วิวัฒนาการ (Evolutionary history) ของยีนต่างๆ ของเชื้อ ซึ่งสร้าง Bayesian trees มาวิเคราะห์ร่วมกับ molecular clock โดยใช้โมเดล GTR+G และrelaxed clock ทำให้พวกเขาสามารถที่จะเริ่มประมาณค่าเฉลี่ยของช่วงเวลาที่น่าจะเกิด reassortment ของยีนแต่ละยีนในจีโนมของเชื้อสายพันธุ์ใหม่นี้ได้

จากผลการวิเคราะห์ทั้งหมดพวกเขาสามารถสรุปได้ว่า ถึงแม้เชื้อไข้หวัดใหญ่ 2009 นี้จะแพร่ระหว่างคนสู่คน แต่มันก็มีที่มาจากเชื้อไข้หวัดในหมู โดยเป็นการเรียงตัวใหม่ (reassortment) ระหว่างไวรัสในหมู 2 สายพันธุ์ดังที่กล่าวมาแล้ว โดยที่หนึ่งในนั้นคือ พันธุ์ Triple reassortant ที่ลึกๆ แล้วจีโนมของมันมียีนบางยีนที่สืบทอดมาจากไข้หวัดในนกและบางยีนมาจากไข้หวัดใหญ่ตามฤดูกาลH3N2 ในคน ซึ่งนี่เป็นเหตุผลที่ทำให้ตอนแรกมีหลายคนตกใจกันไปผิดๆ ว่าที่เชื้อนี้มันน่ากลัว เพราะมันเป็นลูกผสมระหว่างไข้หวัดนก ไข้หวัดคน และไข้หวัดหมู


ในการวิเคราะห์ส่วนนี้ พวกเขาได้ประมาณค่าวันเวลาที่เป็นจุดกำเนิดของการระบาดของโรค หรือเวลาที่เริ่มปรากฏว่ามีบรรพบุรุษร่วมเมื่อไม่นานมานี้ (TMRCA, time of the most recent common ancestor) ของการระบาด โดยที่พวกเขาได้วิเคราะห์ลำดับพันธุกรรมของเชื้อด้วยโปรแกรม BEAST ภายใต้โมเดล relaxed clock (หรือ lognormal distribution) รวมทั้งมีใช้โมเดล GTR+gamma substitution วิเคราะห์บน 10-step Bayesian skyline plot ซึ่งน่าสนใจมากว่า ผลการวิเคราะห์ค่าเวลาที่เกิดบรรพบุรุษร่วมของการระบาดขึ้นนั้น ย้อนกลับไปถึงเดือนกันยายนของปีที่แล้ว (ค.ศ. 2008) ทั้งๆ ที่การระบาดจริงๆ ของเชื้อไข้หวัดใหญ่ในประเทศเม็กซิโกเท่าที่เราพอจะทราบข่าวกันนั้น เกิดขึ้นในเดือนเมษายนของปีนี้ (2009) แสดงว่าเชื้อสายพันธุ์ใหม่นี้เกิดขึ้นมาและอยู่ร่วมกับมนุษย์เราโดยไม่มีใครสังเกตเห็นมานานหลายเดือนแล้ว

นอกจากการวิเคราะห์หา TMRCA ของเชื้อแล้ว พวกเขายังวิเคราะห์หาค่าอื่นๆ ที่น่าสนใจในด้านการระบาด (epidemiology) และการถ่ายทอด (transmission) เชิงโมเลกุลของโรคด้วย ดังเช่น การทำแผนภาพการกระจายของเชื้อโดยวิธี Median joining network ด้วยโปรแกรม Networks 4.510 การประมาณค่าอัตราการเกิดวิวัฒนาการ (evolutionary rate) ของเชื้อผ่านการวิเคราะห์อัตราเร็วของ molecular clock ด้วยโปรแกรม BEASTรวมถึงการประมาณค่าจำนวนการเพิ่มขึ้นของเชื้อหรือค่า reproductive number (R0) จากค่าอัตราเร็วเบื้องต้นในการแพร่ของเชื้อ ตามสมการของ Lotka-Euler ซึ่งทำให้เราทราบว่าเชื้อไข้หวัดใหญ่สายพันธุ์ใหม่นี้มีค่า R0 ในระดับที่ไม่แพ้กับเชื้อที่ระบาดใหญ่ใน Fort Dix เมื่อปี ค.ศ. 1976


ส่วนนี้เป็นส่วนที่ผมคิดว่าน่าสนใจมากเป็นพิเศษเพราะเป็นการใช้วิธีการวิเคราะห์แบบใหม่ที่ยังไม่ได้ถูกตีพิมพ์เลย โดยพวกเขาเรียกวิธีนี้ว่า Bayesian phylogeographic reconstruction ซึ่งเป็นการสร้าง Bayesian inferencesแยกตามภูมิภาคต่างๆ ที่สนใจ ซึ่งวิธีนี้ใช้โมเดลแบบ discrete diffusion ซึ่งเป็นการนำเอาโมเดล continuous-time Markov chain (CTMC) มาใช้บอกการแผ่ขยายออกไปทีละขั้นของไฟโลเจนีในช่วงเวลาต่างๆ ทำให้พวกเขาสามารถบอกพลวัตร (dynamics) ของเชื้อได้ นอกจากนี้ ยังใช้กระบวนการ Bayesian stochastic search variable selection (BSSVS) ในการปรับค่าอัตราการแพร่ขยายตามพื้นที่ (spatial diffusion) อีกด้วย ซึ่งทั้งหมดนี้ใช้โปรแกรมBEAST ในการทำ MCMC sampling (ยอมรับเลยครับว่าตามเทคนิคสมัยใหม่แบบนี้ไม่ทันแล้ว) จากนั้นเอาผลการวิเคราะห์ที่ได้มาร่วมเข้ากับแผนที่โลกใน Google Earth จนทำให้เห็นเป็นภาพอนิเมชั่นของการแพร่กระจายของเชื้อไปตามภูมิภาคต่างๆ


เป็นส่วนที่รวมผลการวิเคราะห์เล็กๆ น้อยๆ ที่น่าสนใจอีกหลายอย่างของไข้หวัดใหญ่ 2009 ตั้งแต่การศึกษาตำแหน่งเบสที่เกิดการกลายพันธุ์และอัตราการเปลี่ยนแปลงทางพันธุกรรมของเชื้อ ซึ่งแสดงให้เห็นถึงวิวัฒนาการเชิงการปรับตัว (adaptive evolution) ด้วยการคำนวณค่าอัตราส่วนการแทนที่ของเบสระหว่าง non-synonymous กับ synonymous substitution (dN/dS) การวิเคราะห์ลำดับพันธุกรรมของเชื้อที่พบว่ามีการติดต่อกลับไปสู่หมูในเมือง Alberta ประเทศแคนาดา ตลอดจนการตรวจพบตำแหน่งที่มีการกลายพันธุ์เกิดขึ้นในยีนNeuraminidase ของเชื้อซึ่งทำให้เชื้อนั้นดื้อต่อยาโอเซลทามิเวียร์ (ยาทามิฟลู) ได้ และรวมถึงการเฝ้าระวังการกลายพันธุ์บนยีน Polymerase ซึ่งกลัวกันว่าอาจจะทำให้เชื้อมีความรุนแรงคล้ายกับเชื้อไข้หวัดนก H5N1 ได้

เพียงแค่เท่าที่ยกตัวอย่างการศึกษา วิกฤต ระดับโลก ดังเช่น การระบาดของไข้หวัดใหญ่สายพันธุ์ใหม่ 2009มาให้ดู ทุกท่านก็คงพอจะเห็นได้ว่า ความจริงแล้วมันเป็น โอกาส อันดียิ่งในการที่จะพัฒนาเทคนิคทางbioinformatics และวิธีการวิเคราะห์ทางphylogenetics ในการตอบคำถามสำคัญหลายๆ อย่างของโรคนี้ ให้ได้รวดเร็ว ทันท่วงทีกับสถานการณ์ รวมไปถึงยังเป็นประโยชน์จากการทดสอบความถูกต้องแม่นยำในการวิเคราะห์และทำนายผลของ algorithm หรือ model ในโปรแกรมต่างๆ ในสถานการณ์จริงได้อีกด้วยนะครับ