Monday, February 1, 2010

Highlight

Sequence Analysis: from sequence to information
ประเวช อรรจวัฒนวงศ์

พบกันอีกครั้งกับ Highlight เดือนกุมภาพันธ์นะครับ ฉบับนี้ผมจะพาท่านผู้อ่านมาทำความรู้จักกับ bioinformatics ในยุคบุกเบิกกันครับ เราจะย้อนไปตั้งต้นเรื่องราวกันในยุคก่อนที่จะมี bioinformatics สักเล็กน้อย สมัยนั้นยังไม่มีโปรแกรมคอมพิวเตอร์เพื่อการวิเคราะห์ข้อมูลด้านชีววิทยามากมายเหมือนในปัจจุบัน อันที่จริงต้องบอกว่า แค่จะหามาใช้สักโปรแกรมหนึ่งก็ต้องพลิกแผ่นดินหากันเลยทีเดียวมิหนำซ้ำอินเตอร์เน็ตก็ช้า และยังไม่เป็นที่นิยมอีกด้วย คิดดูสิครับ สภาพแวดล้อมแบบนั้น จะให้มี bioinformatics เกิดขึ้นมาได้อย่างไร เอาเป็นว่าผมจะเล่าประวัติของ bioinformatics แบบสังเขปให้ฟังครับว่าเกิดขึ้นมาได้อย่างไร

ผมขอเริ่มเรื่องราวทั้งหมดในปี ค.ศ. 1955 เมื่อนักชีวเคมีชาวอังกฤษชื่อ เฟเดอริก แซงเกอร์ (Frederick Sanger) ได้นำเสนอเทคนิคการทำ protein sequencing และตีพิมพ์ protein sequence ของ insulin gene เป็นครั้งแรกในโลก จากผลงานชิ้นสำคัญนี้ ทำให้เขาได้รับรางวัลโนเบลสาขาเคมีในปี ค.ศ. 1958 และงานของเขายังกระตุ้นวงการชีววิทยาในยุคนั้นให้มีการทำ protein sequence มากขึ้น แต่เนื่องจากขั้นตอนการทำ protein sequencing ไม่ง่ายเลย และความยาวของ protein sequence ที่อ่านได้ก็สั้นมาก (คืออ่านได้ความยาวเพียง 4-10 ตำแหน่งเท่านั้น) อีกทั้งค่าใช้จ่ายในการทำก็สูงมาก และในเวลาเพียงไม่นาน กระแสความสนใจจากนักวิทยาศาสตร์ก็จางลง แม้แต่ในปัจจุบัน การทำ protein sequencing ก็ยังคงไม่เป็นที่นิยม ด้วยข้อจำกัดเดียวกับที่มีในอดีตนั่นแหละครับ

ในปี ค.ศ. 1958 กระทรวงกลาโหมของสหรัฐอเมริกาได้มีการจัดตั้งองค์กรที่มีชื่อว่า Advanced Research Projects Agency (ARPA) เพื่อค้นคว้าหาเทคโนโลยีทางการทหารใหม่ๆ ด้าน computer network จนกระทั่งในปี ค.ศ. 1969 ARPANET ประสบความสำเร็จในการสร้าง network เพื่อเชื่อมโยงคอมพิวเตอร์จากมหาวิทยาลัยสแตนฟอร์ด (Stanford) มหาวิทยาลัยแคลิฟอร์เนีย ซานตาบาบารา (UCSB) มหาวิทยาลัยอูธา (University of Utah) และมหาวิทยาลัยแคลลิฟอเนีย ลอสแองเจลลิส (UCLA) เข้าด้วยกัน กลายเป็นจุดเริ่มต้นของระบบอินเตอร์เน็ตที่เราใช้งานอยู่ในปัจจุบัน

ปี ค.ศ. 1972 โปรแกรมเมอร์ชาวอเมริกัน ชื่อ เรย์มอนด์ ซามูเอล ทอมลินสัน (Raymond Samuel Tomlinson) ได้สร้าง e-mail ขึ้นมาใช้งานเป็นครั้งแรกในระบบเครือข่ายของ ARPANET ตั้งแต่ช่วงนั้นเป็นต้นมา วงการคอมพิวเตอร์มีการเปลี่ยนแปลงอย่างมากมายและรวดเร็ว เพียง 1 ปีต่อมา (ค.ศ. 1973) ethernet ก็เกิดขึ้น จากงานวิทยานิพนธ์ของนายโรเบิร์ต เม็ทแคลฟี (Robert Metcalfe) ซึ่งได้จบการศึกษาระดับปริญญาเอกจากหาวิทยาลัยฮาร์เวิร์ด (Harvard University) และปีต่อมา (ค.ศ. 1974) ระบบอินเตอร์เน็ตก็ถูกสร้างขึ้น

กลับมาที่วงการชีววิทยาบ้างนะครับ ปี ค.ศ. 1977 แซงเกอร์ (นักชีวเคมีชาวอังกฤษ คนเดิม) ก็ประสบความสำเร็จในการทำ DNA sequencing แต่ความสำเร็จในครั้งนี้ต่างจากอดีต เพราะเทคนิคใหม่นี้กลับได้รับความนิยมเป็นอย่างมากจากนักวิจัยทั่วโลก จนถือว่านี่เป็นจุดเปลี่ยนของวงการชีววิทยาให้เข้าสู่ยุค sequencing ก็ว่าได้ ความสำเร็จดังกล่าว ทำให้ ศาสตรจารย์ เฟเดอริก แซงเกอร์ ได้รับรางวัลโนเบลสาขาเคมีเป็นครั้งที่ 2 ในปี ค.ศ. 1980

ค.ศ. 1984 นักชีวเคมีชาวสหรัฐอเมริกา ชื่อ แครี่ มูลลิส (Kary Mullis) ได้เสนอเทคนิคการเพิ่มจำนวนชิ้น DNA ที่เรียกกันว่า polymerase chain reaction หรือเรียกย่อว่า PCR ด้วยเทคนิคที่น่าทึ่งนี้ ทำให้งานวิจัยทางอณูชีววิทยาสะดวกรวดเร็วมากขึ้น และเมื่อนำเทคนิค PCR มาประยุกต์เข้ากับ DNA sequencing ก็จะกลายเป็นเทคนิคที่เรียกว่า cycle sequencing ซึ่งจะช่วยให้ DNA sequencing มีความสะดวกมากขึ้น สุดท้าย แครี่ มูลลิส ก็ได้รับรางวัลโนเบลสาขาเคมีในปี ค.ศ. 1993

จะเห็นว่า การกำเนิดขึ้นของ bioinformatics ไม่ได้มาจากความบังเอิญ หากแต่อาศัยรากฐานที่มั่นคงทางทั้งทางด้านชีววิทยาและคอมพิวเตอร์ เมื่อเวลาที่เหมาะสมมาถึง bioinformatics ก็เกิดขึ้นในวงการวิทยาศาสตร์โลก

เมื่อการทำ DNA sequencing เป็นเรื่องง่ายขึ้น และข้อมูลจาก DNA sequences ก็ซ่อนความลับทางธรรมชาติของสิ่งมีชีวิตไว้มากมายอย่างน่ามหัศจรรย์ ทำให้นักวิจัยจำนวนมากใช้เทคโนโลยีนี้ในงานวิจัยของตนเอง เวลาผ่านไปไม่นาน DNA sequence ที่เหล่านักวิจัยทั่วโลกสร้างขึ้นก็มีจำนวนนับไม่ถ้วน ปัญหาพื้นฐานของการทำงานวิจัยก็เกิดขึ้นว่า เราจะเก็บข้อมูลของ sequence อย่างไร ให้ค้นหาง่ายและสะดวกต่อการนำมาวิเคราะหข้อมูลต่อไป ทำอย่างไร เราจะสามารถนำข้อมูล sequence ของกลุ่มวิจัยอื่นมาเปรียบเทียบกับงานของเรา และปัญหาอื่นๆ อีกมากมายก็ติดตามมาอย่างต่อเนื่อง

Sequence Databases

ปัญหาเหล่านี้ฟังแล้วน่าหนักอก และแสนจะน่าเบื่อหน่ายสำหรับนักชีววิทยา แต่กลายเป็นปัญหาน่าสนใจของนักคอมพิวเตอร์ไปเสียนี่ ด้วยความรู้ทางด้านฐานข้อมูล ทำให้การจัดการกับข้อมูลจำนวนมากเป็นเรื่องที่ไม่ยากเกินไปนัก

ด้วยเหตุนี้ องค์กรต่างๆ ก็จัดทำฐานข้อมูลขึ้นเพื่อเก็บ DNA sequence และบางองค์กรก็ยอมให้บุคคลทั่วไป เข้าไป download ข้อมูลไปใช้ศึกษาได้ด้วย ต่อมาเมื่อข้อมูลมีมากขึ้นๆ องค์กรที่สามารถจัดการกับข้อมูลอันมหาศาลเหล่านี้ก็มีน้อยลง จนปัจจุบันเรามีฐานข้อมูลหลักทางด้าน sequence อยู่หลายแห่งด้วยกัน เช่น GenBank เป็นฐานข้อมูลทางชีววิทยาของสหรัฐอเมริกา EMBL (European Molecular Biology Laboratory) เป็นฐานข้อมูลของยุโรป และ DDBJ (DNA Database of Japan) เป็นฐานข้อมูลของญี่ปุ่น ฐานข้อมูลทั้ง 3 แห่งนี้เป็นฐานข้อมูลขนาดใหญ่ที่เกิดขึ้นมาตั้งแต่ยุคแรกๆ ของ bioinformatics และปัจจุบันการค้นหาข้อมูลในฐานข้อมูลทั้ง 3 นี้สามารถทำได้โดยผ่านทางเวบไซต์ของ National Center of Biotechnology Information หรือที่เราเรียกย่อว่า NCBI ถ้ามีโอกาสผมจะได้เล่ารายละเอียดเกี่ยวกับ biodatabases ให้ฟังนะครับ

Sequence Alignment

นอกจากการจัดเก็บข้อมูลอย่างมีประสิทธิภาพแล้ว การวิเคราะห์ข้อมูลก็เป็นปัญหาชวนปวดหัวของนักชีววิทยาเช่นกัน ลองนึกภาพดูสิครับ ถ้ามี DNA sequences 2 เส้นขนาดสั้นๆ เอาเป็นว่าสักประมาณ 60 เบส เราคงสามารถนำมาเทียบกันด้วยตา และใช้ดินสอเขียนลงบนกระดาษได้อย่างไม่น่าจะยุ่งยากนัก แต่ถ้ามี sequences เยอะขึ้น และความยาวก็เพิ่มเป็นหลายพันเบสล่ะ คงไม่สนุกแน่ถ้าไม่มีเครื่องมือทางคอมพิวเตอร์เข้ามาช่วย

ขั้นตอนการวิเคราะห์ sequence ที่เราจะต้องทำเป็นอันดับแรก ก็คือ การเปรียบเทียบว่า sequences 2 เส้นมีลำดับเบสเหมือนหรือต่างกันอย่างไร เราเรียกวิธีการเปรียบเทียบนี้ว่า sequence alignment

เราอาจเรียกได้ว่า sequence alignment เป็นหัวใจหลักของการศึกษา sequence analysis เลยก็ว่าได้ นั่นเป็นเพราะการวิเคราะห์ sequence ไม่ว่าจะเป็นการวิเคราะห์ที่ง่ายไปจนถึงขั้นที่มีความซับซ้อนมากก็ต้องเริ่มต้นจาก sequence alignment ทั้งสิ้น

ปัจจุบัน การทำ sequence alignment ได้รับการพัฒนาให้ก้าวหน้าและซับซ้อนขึ้นมาก และวิธีการต่างๆ ถูกนำมาสร้างเป็นโปรแกรมสำเร็จรูปมากมาย เช่น MAFF-T (อ่านว่า แมฟ-ที), T-Coffee, K-align, Muscle, ProbCon เป็นต้น แต่การทำงานของโปรแกรมเหล่านี้ก็ยังไม่ถูกต้องอย่างสมบูรณ์ ทำให้การพัฒนา algorithm ของการทำ alignment ยังคงเป็นหัวข้อวิจัยทาง bioinformatics ที่นักวิจัยทั่วโลกให้ความสนใจอยู่ ถึงแม้ว่าจะไม่มากเท่าในอดีตก็ตาม

Phylogenetic Reconstruction

ปัญหาพื้นฐานของการศึกษาชีววิทยา คงจะหนีไม่พ้นคำถามทางด้านวิวัฒนาการ สิ่งมีชีวิตจำนวนมากมีโครงสร้างที่บอบบาง ยากต่อการคงสภาพไว้หลังจากตายไปแล้ว เช่น แบคทีเรีย ไวรัส รา หรือแม้แต่เนื้อเยื่อของสัตว์หรือพืช ดังนั้นการศึกษาวิวัฒนาการจากซากดึกดำบรรพ์จึงจำกัดด้วยจำนวนตัวอย่าง แต่การศึกษาทางอณูชีววิทยาสามารถนำ protein sequence และ DNA sequence มาเปรียบเทียบกันและคำนวณแบบแผนวิวัฒนาการออกมา จากนั้นจึงนำไปสร้างเป็นแผนภาพเรียกว่า phylogenetic tree

Phylogenetic analysis จัดเป็นอีกสาขาหนึ่งของ sequence analysis ที่มีผู้สนใจศึกษามาก และยังคงมีแนวโน้มมากขึ้นในอนาคตด้วย งานวิจัยด้านนี้ได้แก่ การวัดอัตราการกลายพันธุ์ (mutation rate) อัตราการวิวัฒนาการ (evolutionary rate) ของสิ่งมีชีวิตจาก sequence หรือการคำนวณเวลาที่สิ่งมีชีวิตใช้ในการวิวัฒนาการจาก sequence ซึ่งเราเรียกว่า molecular clock ก็เป็นงานวิจัยที่ได้รับความสนใจมากเช่นกัน

Pattern Recognition

การหา motif หรือ domain บางอย่างใน DNA หรือ protein sequences จัดเป็นหัวข้อวิจัยที่น่าสนใจต่อการศึกษาโครงสร้างและหน้าที่ของ DNA และโปรตีนเป็นอย่างมาก งานวิจัยที่ bioinformatician ทำการศึกษากันมากก็คงจะเป็นการทำนายตำแหน่งของ promoter, ribosome binding site, immunogenicity site เป็นต้น

การทำนาย motif เหล่านี้ไม่ใช่เรื่องง่ายเลย ถึงแม้ปัจจุบันจะมีโปรแกรมคอมพิวเตอร์ที่มีคุณภาพสูงมากในการค้นหา แต่ความถูกต้องแม่นยำของวิธีการและโปรแกรม ก็ยังต้องการการพัฒนาขึ้นไปอีก งานวิจัยด้านนี้ อาจจะไม่ได้รับความสนใจมากนัก เนื่องจากวิธีการทำนาย จำเป็นต้องอาศัยเทคนิคทางคณิตศาสตร์และสถิติที่ค่อนข้างซับซ้อน

อย่างไรก็ตาม pattern recognition บางชนิด กลับมีกระแสความนิยมมากขึ้น นับตั้งแต่ Human genome project ได้รับความสนใจจากนักวิจัยทั่วโลก single nucleotide polymorphism หรือ SNP (อ่านว่า สนิป) ก็กลายเป็นงานวิจัยที่สำคัญที่ต้องการองค์ความรู้ทั้งทางด้าน population genetics และ bioinformatics

นอกจากงานวิจัยหลักๆ ที่ผมได้เล่าให้ฟังไปแล้ว ก็ยังมีงานวิจัยอื่นๆ ที่อยู่ในขอบข่ายของ sequence analysis อีกมากมายครับ ถ้ามีโอกาสคงได้นำมาเล่าให้ฟังต่อไป แต่ว่าหัวใจหลักของ sequence analysis คือการค้นหา information ที่สำคัญทางชีววิทยาจาก sequences นั่นเอง ผมคิดว่าหลายคนที่ไม่เคยรู้จัก sequence analysis มาก่อนเลย คงพอที่จะเห็นภาพแบบกว้างๆ แล้วนะครับว่า bioinformatics สาขานี้เป็นอย่างไร

4 comments:

  1. มาแล้วครับ สำหรับคนที่ต้องการจะ download นิตยสารทั้งเล่ม ในรูปแบบ PDF ขอเชิญได้ที่นี่เลยครับ

    http://www.4shared.com/file/236278340/4b3a94e6/THAI_Bioinformatics-February_2.html

    ReplyDelete
  2. ขอบคุณมากค่ะทีี่เขียนเรื่องนี้ขึ้นมา พอดีหนูเพิ่งได้เริ่มเรียนเรื่องพวกนี้ อยากมีความรู้ด้านนี้เยอะ ๆ ค่ะ

    จะติดตามบล็อกนะคะ

    ป.ล.ถ้ามีอะไรสงสัยจะเมล์ไปถามได้ไหมคะ

    ReplyDelete