pipeline
-
A:输入是长的高错误率的read,smrt(sms)
-
B:过滤掉一些长度低于固定值的被标记为chimeric的read
-
C:对repeat进行标记,通过能比对到这个read上的read数量的快速增加或者减少来确定。增加或减少存在于同一个read上的这种标记为 brideged repeat,其实就是这条read长度比repeat长能横跨整个repeat区域。另外一种不能横跨的就是unbridged repeat。
-
D:选择最长的read继续算法,并在上面放置hinge(铰链),就是在repeat在这条read上开始或者结束的位置防止一个标志。
感觉实际上应该是这样的 -
E:组装。带有铰链的一条read能有多条路径,
论文表达:
a fixed threshold