發(fā)布日期:2016-08-15
艾吉泰康正在努力打造高通量序列設(shè)計引擎。我們自己有些感悟,就是探針引物在設(shè)計環(huán)節(jié)都是序列,在高通量的序列特征的分析,或者說設(shè)計環(huán)節(jié)當(dāng)中有很多的共性的東西。包括我們在基因捕獲里面,無論是高通量探針還是引物設(shè)計,包括在其它的序列特征提取當(dāng)中很多規(guī)則是一樣的。所以我們可能會開發(fā)出越來越多的設(shè)計的應(yīng)用,并且做到線上為大家免費提供服務(wù)。
實際上在互聯(lián)網(wǎng)的領(lǐng)域,我們把這個定義為一種SaaS服務(wù),就是一種非常專業(yè)的,高通量特征序列提取的一種業(yè)務(wù)流程。我們可以和專業(yè)的云計算的PaaS去配合(比如聚道云等),實際上我們今年一直在這個方面努力。因為它不只是一些生物的問題,還牽涉到一些算法優(yōu)化,還有硬件的事,確實花了一些的時間,期待能和更專業(yè)的IT背景的人或企業(yè)合作。在序列設(shè)計的領(lǐng)域,當(dāng)時我們已經(jīng)積累發(fā)表了一批SCI文章和專著,引用率和使用率頗高。
基因捕獲在技術(shù)原理上其實特別簡單。液相雜交法中首先將常規(guī)樣本的基因組打斷,然后根據(jù)測序儀器加接頭。我們設(shè)計的探針,會跟DNA隨機打斷的片段特異地互補結(jié)合,最后通過磁珠把捕獲的目標區(qū)域吸附下來,吸附下來再經(jīng)過洗脫、純化、富集上機測序。可能不同的公司在這個里面有些細節(jié)不一樣,但是這些公共步驟都是一樣的。多重PCR就更簡單,實際上它在實驗環(huán)節(jié)中只需經(jīng)過一輪或者兩輪PCR,直接得到產(chǎn)物就上機測序了。這個里面難點還是在設(shè)計,以及實驗條件的磨合上,實驗步驟真的是特別簡單。
從解析這個角度上給大家交流一下,里面有哪些關(guān)鍵參數(shù)來評判基因檢測的好壞。第一個當(dāng)然是有目標區(qū)域的測序量,覆蓋度,數(shù)據(jù)的均一性,代表著是它的可信度,也就是準確度。所謂的均一性,形象一點比喻,你看reads的分布圖跟山峰一樣的,有高有低的那肯定就不均勻,在峰底的時候準確度就特別低,峰頂是過度的高。還有一些標準就是重復(fù)率、捕獲效率,以及一些常規(guī)的測序質(zhì)量等等。這個捕獲效率我做了一個公式,講的比較直觀一點。比對到目標區(qū)域的有效數(shù)據(jù)量除以比對到所有的人基因組區(qū)域的有效數(shù)據(jù)量就是捕獲效率。有效數(shù)據(jù)量是什么呢,你測序的時候會有重復(fù)率,用1減去這個重復(fù)率就是不重復(fù)率,不重復(fù)的達到QC標準比例再乘以原始數(shù)據(jù),就是這個有效數(shù)據(jù)。然后平均深度我們是這么定義的,比對到目標區(qū)域的有效數(shù)據(jù)量除以panel區(qū)域的大小來計算平均深度。
重復(fù)率這一塊我們的去重標準是非常嚴格的,只允許唯一一條,其它的都叫重復(fù)。目前部分企業(yè)篩選標準比較低,允許三條,會對檢測結(jié)果造成很大的解讀隱患。下一頁展示的是在panel檢測中可以通過增加測序深度提高準確度,你看在五十層的時候這個是一個純合突變,到三百層的時候就被發(fā)現(xiàn)是雜合突變,明顯表明測序深度能夠部分解決準確度的問題。
靶向捕獲的研究和臨床應(yīng)用
下面我講一些具體的應(yīng)用案例。捕獲測序首先在基礎(chǔ)科研上有一些應(yīng)用,最近我們探索地跟一些研究所在基因組編輯的脫靶效應(yīng)優(yōu)化上面做的一些合作開發(fā),然后在單細胞測序上面,經(jīng)過上游的細胞捕獲,然后擴增,下游再接上基因捕獲看看這個數(shù)據(jù)效果怎么樣。
另外像液體活檢ctDNA的這一塊也是比較多的應(yīng)用。另外其實我們剛才聊了很多的東西都是基于基因組的。舉個案例,就是基因組編輯的定制化的全基因組脫靶優(yōu)化方案,實際上它會有一些目標基因,我們會對這個目標利用靶向測序技術(shù)分析它的脫靶效應(yīng),看能不能通過靶向測序把它給鑒定出來,然后優(yōu)化實驗的過程。首先它會有一些目標基因,比如說這個案例里面,就是DMD基因。我們會在全基因組范圍內(nèi)預(yù)測它的脫靶位點,然后從篩選這些位點進行編輯實驗,實驗結(jié)果會通過表型,無論細胞表型還是動物表型去查看。這時候其實還不能確定脫靶位點,然后可以通過把和表型關(guān)聯(lián)的預(yù)測的這些脫靶位點進行捕獲測序,精確地告訴大家,基因是否在其他的基因組區(qū)域上脫靶了,脫靶的基因型是什么?
另外在臨床基因檢測中應(yīng)用最多的是SNP的發(fā)現(xiàn)和檢測,同時其它基因組變異的篩查研究也特別多。我們舉一些案例。這個是一個遺傳病的panel,可以用來發(fā)現(xiàn)拷貝數(shù)的變異,右上直方圖是父親、母親、孩子的拷貝數(shù)體現(xiàn),能夠發(fā)現(xiàn)顯著的差異,藍色的區(qū)域就是拷貝數(shù)的變化的量,這個能夠確定拷貝數(shù)斷點的位置?;虿东@技術(shù)還可以發(fā)現(xiàn)特別大片段基因的缺失,有些常規(guī)的分子生物技術(shù)還做不到。
這是展示的胰腺癌的一個樣本中拷貝數(shù)變異,ERBB2的基因擴增是跟很多靶向藥物用藥相關(guān)聯(lián)的,有助于協(xié)助醫(yī)生判斷對患者進行異病同治。
這個是我們做的一個panel,發(fā)現(xiàn)中國人群前列腺癌樣本中的基因融合現(xiàn)象,因為基因融合有的時候比較復(fù)雜,它的融合點準確位置并不確定,而且有一些文獻報道的也是歐美人群的數(shù)據(jù)。當(dāng)你不知道這個融合點位置的時候,在設(shè)計引物和探針的時候非常困難。實際上這個是發(fā)現(xiàn)了一個比較典型的三基因融合的現(xiàn)象,就是Gene-1、Gene-2,包括這個ETV1的一個3基因的融合,在一代測序上面得到了驗證。
這個是食管癌的panel檢測案例,文獻報道的有一個C1QTNF3-AMACR的基因融合。但是我們還發(fā)現(xiàn)了另外六個新的融合事件。Gene3和MECOM的融合,Gene4和VMP1的融合。這個也是剛才發(fā)現(xiàn)了更多復(fù)雜的融合的變異結(jié)構(gòu),通過生物信息可以把他們的基因的結(jié)構(gòu)給復(fù)原出來。
艾吉泰康做了很多上游panel設(shè)計和開發(fā),因此我們對panel基因檢測本身的技術(shù)參數(shù)非常了解,我們也發(fā)現(xiàn)了產(chǎn)業(yè)內(nèi)現(xiàn)存的一些質(zhì)控問題。只有做好指控,并對技術(shù)指標的解讀標準非常清晰,才能真正做到精準檢測。
基因檢測上游的測序技術(shù),包括基因捕獲技術(shù)在國內(nèi)都處于發(fā)展早期和追趕期,行業(yè)標準也沒有形成規(guī)范。我們長期和行業(yè)內(nèi)企業(yè)合作,都是從原始數(shù)據(jù)到生物信息的各個層次的數(shù)據(jù)的整體交付,這樣數(shù)據(jù)質(zhì)量問題永遠可追溯。跟我們打交道的大部分都是企業(yè)內(nèi)的專業(yè)技術(shù)人員,好多像郝向穩(wěn)先生、田埂博士這樣的。他們會第一時間給我們反饋數(shù)據(jù)里面的問題。但是我們在做臨床基因檢測的時候,大部分的企業(yè)都是發(fā)布臨床報告,醫(yī)生并不能發(fā)現(xiàn)其中的數(shù)據(jù)質(zhì)量上的一些瑕疵。所以需要我們這些從業(yè)者以職業(yè)道德去做好質(zhì)控,每個技術(shù)指標標準都要非常清晰。
其實目前基因檢測市場上還是良莠不齊,有很多由于數(shù)據(jù)質(zhì)控造成的問題。這個案例就是測序質(zhì)量的問題,測序質(zhì)量低不篩除掉直接發(fā)報告導(dǎo)致了假陽性。測序質(zhì)量不高的只有一個辦法,就是重測。覆蓋率,這個就是panel的問題,捕獲區(qū)域完全沒有覆蓋完整,然后還直接去發(fā)臨床報告,直接認定為陰性就傳遞給醫(yī)生了。我們重新設(shè)計了這個panel保證了覆蓋率,發(fā)現(xiàn)覆蓋到的這個區(qū)域應(yīng)該是陽性結(jié)果。這個是測序深度的問題。
剛才說到測序深度不夠的時候,一開始是純合突變,但是增加測序深度你會發(fā)現(xiàn)變成雜合突變了。這個數(shù)據(jù)可信度是指的均一性,當(dāng)這個均一性不高的時候,我剛才做的一個比喻,它是像山峰一樣,當(dāng)你剛好你關(guān)注的突變點位于這個山峰的谷底的時候,這可能就是一個錯誤的結(jié)果,你去拿去驗證,跟它的結(jié)果剛好相反。這個均一性,如果一個panel在一層、四層、十層、二十層的時候平均覆蓋度分別是100%、100%、99%、99%這個下降程度,說明這個panel均一性很好,但如果覆蓋度分別是90%、80%、70%、60%這個下降程度時,一般達不到臨床級的應(yīng)用,到不了95%以上的話可能都是要直接重做的。還有這個重復(fù)率的問題,這個結(jié)果重復(fù)率非常高,這個公司在做生物信息分析的時候的去重率標準放的特別寬,有了三條以上的重復(fù)它才去重。就會造成什么呢?他們真實的測序深度是假的,間接地造成了實際上因為重復(fù)率比較寬松,給你報告的達到100層了,但實際上才測了30層。30層就回到剛才那個問題,有的區(qū)域可能就不準吧,你測出來也是假陰性,這個機率非常大。所以最好還是在這些指標上要非常清晰的嚴格指控。
精準醫(yī)療基因檢測是否精準?在中國目前還是一個任重而道遠的問題。我們各個環(huán)節(jié)的從業(yè)者必須從技術(shù)創(chuàng)新、技術(shù)標準、技術(shù)質(zhì)控,到后續(xù)的技術(shù)服務(wù)上用心去做,打造中國質(zhì)造,才能達到真正的精準檢測的終極目標。
服務(wù)模式探討
我們提了一個概念叫“中國質(zhì)造”,不光是能生產(chǎn),最重要的是質(zhì)量,在醫(yī)療應(yīng)用場景中,我們技術(shù)指標可能達到了99.9%,但那0.01%到患者那兒,對他個體就是100%。這是我們的試劑盒及試劑盒里試劑的組成。過去一年我們和國內(nèi)近80家機構(gòu)訂制開發(fā)了近一百個panel。
目前相對于那些國際競品,我們現(xiàn)在的技術(shù)指標能夠做到跟他們基本上不分伯仲。我們的采購鏈、制造基本都在國內(nèi),訂制開發(fā)速度比較快,同時試劑盒交付時嚴格質(zhì)控,同時交付實際捕獲和NGS測序的質(zhì)控結(jié)果。送測檢測服務(wù)一般根據(jù)你的時間和不同成本的要求,從兩周到一個月都有相關(guān)的服務(wù)。第一種就是說試劑和采購,基因列表提出來,我們通過設(shè)計開發(fā)質(zhì)控完了以后,把試劑盒交付給大家,然后通過標準的protocol在自己的實驗室進行操作。第二個合作模式是新技術(shù)的合作開發(fā)。就是因為有些產(chǎn)品比較新,確實我們標準服務(wù)里沒有,但是我們對任何的產(chǎn)品開發(fā)都是一種比較開放的合作態(tài)度,以技術(shù)開發(fā)的形式進行合作。第三就是服務(wù),你也可以送樣服務(wù),目前我們的測序通量還比較大,能夠協(xié)助大家把時間和測序的成本降下來,測序成本優(yōu)勢比較明顯。
來源:貝殼社