羞羞漫画官方网站免费漫画入口

什么是tbl2asn?

Tbl2asn是一个命令行程序,可自动创建序列记录以提交给GenBank。它使用了许多与Sequin相同的功能,但通常由数据文件驱动。 Tbl2asn生成.sqn文件,以提交给GenBank。提交之前不需要其他手动编辑。

Tbl2asn可匿名使用的FTP。复制适合您平台的版本,然后解压缩文件,将其重命名为“ tbl2asn”,并根据平台的需要设置权限。

GenBank提交中提供了更多详细信息手册

6种输入数据文件

需要

  1. 模板文件 包含文本ASN.1提交块对象(后缀.sbt)。
  2. 核苷酸序列数据法斯塔 格式(后缀.fsa)。
  3. 功能表 (suffix .tbl). [Required only if including annotation]

可选的

  1. 质量得分 (后缀.qvl。)
  2. 蛋白质序列(后缀.pep)。 (这些是很少需要的。)
  3. 源表(后缀.src)

生成.sqn文件以进行提交

  • 使用tbl2asn生成Sequin文件的最低要求是一个.sbt文件和一个或多个.fsa文件。
  • 这些文件放在源目录中,并使用一系列命令行参数来生成.sqn文件。
  • Tbl2asn将为目录中的每个.fsa文件以及可能存在的任何相应可选文件生成一个.sqn。其他文件必须与相应的.fsa具有相同的文件名前缀。 (例如helicase.fsa和helicase.tbl)。

命令行参数

输入“tbl2asn-”将提供命令行参数的完整列表。以下是常用参数的部分列表:

tbl2asn命令行参数
-p 目录的路径。如果文件在当前目录中-p。应该使用。
-r 生成的.sqn文件的路径(如果不使用-r参数,则.sqn文件将保存在源目录中)。
-t 指定模板文件(.sbt)。如果.sbt文件位于其他目录中,则必须指定完整路径。
-一世 从多个.fsa文件的目录中的指示.fsa文件创建单个提交。
-一个 指定文件类型。
    r10k:游程10+ Ns是间隙,已知长度100 Ns
    r10u:10+ Ns的行程是间隙,100 Ns是未知长度
    s:FASTA集(s批处理,s1 Pop,s2 Phy,s3 Mut,s4 Eco)
    l:FASTA +间隙对齐
    z:带间隙线的FASTA
    e:PHRAP / ACE
    d:FASTA Delta,di FASTA带有隐式间隙的Delta
    a:任何(默认)
示例命令行:-a s
-j 允许添加来源限定词that will be the same for each submission. Example: -j "[organism=Saccharomyces cerevisiae] [strain=S288C]".
-V

验证(包含以下任何字母):

还创建了一个名为errorlog.val的摘要文件,其中包含在所有.val文件中发现的错误的数量,严重性和类型。
    v:验证数据记录。输出将保存到后缀为.val的文件中。
    b:生成带有.gbf后缀的GenBank平面文件。
    r:未经国家检查的验证

示例命令行:-V vb

-k CDS标志(组合以下任意字母):
    c :Instructs tbl2asn to annotate the longest open reading frame (ORF) if a .tbl file is not provided. The product name will be 'unknown' unless a product name is included in the FASTA definition, [product=xyz].
    m:允许在ORF搜索中使用替代的起始密码子。
    r:允许Runon ORF
示例命令行:-k c
-C 清理( 组合以下任意字母):
    f:在差异报告的特定类别中固定产品名称。更改的产品名称的输出将保存到带有.fixedproducts后缀的文件中。
    x:将特征的部分末端延伸一个或两个核苷酸以邻接缺口或序列末端。
    D:正确的收集日期(假设第一天)
    d:正确的收集日期(假设月份为第一)
示例命令行:-c fx
-y 在每个提交中添加一条评论。示例:-y“已注释了大于2kb的重叠群,约占总基因组的87%”。
-Y 与-y相似,但向文件中的每个提交添加一个COMMENT。
-Z 运行差异报告。必须提供输出文件名。仅推荐用于带注释的基因组提交,完整或WGS。见差异报告页面有关其输出的信息。
-M 主基因组标志(组合以下任意字母):
    n:正常。组合用于基因组提交的标志(替换-a s -V v -c f;当包含-Z discrep时调用FATAL调用)。
    b:大。将用于基因组提交的标志与>20,000个重叠群(例如'n',但对于-Z Discrep使用'big'版本)。
    p:高级用户。组合用于提交基因组的标志(如“ n”,但调用超级用户对-Z Discrep的致命调用)。
    t:TSA。合并用于TSA提交的标志(替换-a s -V v -c f;调用特定于TSA的验证)
示例命令行:-M n

命令行示例

  • 单个非基因组提交:特定的.fsa文件,并且.fsa文件中只有1个序列:
    • tbl2asn -t template.sbt -i x.fsa -V v
  • 批量非基因组提交:包含.fsa文件以及每个文件包含多个序列的目录:
    • tbl2asn -t template.sbt -p path_to_files -a s -V v
  • 基因组提交:一个目录,其中包含一个基因组的多个.fsa文件,每个文件包含一个或多个序列:
    • tbl2asn -t template.sbt -p path_to_files -M n -Z discrep
  • 最常见的缺口情况下的基因组提交 (= runs of 10 或多个N代表一个缺口,并且没有完全的缺口 大小未知,并且存在跨越差距的联系的证据是 “配对端”):
    • tbl2asn -t模板-p path_to_files -M n -Z discrep -a r10k -l配对末端

在将您的.sqn文件提交给GenBank之前, 查看.val 文件并更正所有错误级别的错误。与分类法有关的错误 关于遗漏的血统通常可以忽略。但是,如果有 是注解,而遗传密码不是标准密码,则 在.fsa定义行中包含正确的代码,如 .fsa definition line-j in the command line, 避免错误。

创建模板文件(.sbt)

  • 转到创建提交模板
  • 填写框
  • 点击“创建模板”
  • 将文件另存为template.sbt

核苷酸序列和FASTA defline格式(.fsa)

  • 通常,核苷酸序列没有大小限制。
  • FASTA文件应包含以“>'.
  • 最低要求FASTA defline 是:
    • SeqID(序列标识符),即“>和第一个空格。 SeqID限制为:
      • 一定是<50个字符
      • 只能包含字母,数字,连字符(-),下划线(_),句点(。),冒号(:),星号(*)和数字符号(#)。
    • 有机体和相关信息(除非生物信息包含在-j处,命令行 或在.src file )
    • 可选的defline信息在此源修饰符列表 包括:

这里是源修饰符列表 。请参阅分类页面遗传密码值.

生物

  • 应变[strain=S288C]
  • 隔离[isolate=CWS1]
  • 染色体[chromosome=XVI]

其他要素

  • 拓扑结构[topology=circular]
  • 位置[location=mitochondrion]
  • 分子[moltype=mRNA] (默认为DNA)
  • 技术[tech=wgs]
  • 蛋白质名称[protein=helicase] (如果使用-c)
  • 遗传密码[gcode=4]

这里是源修饰符列表。请参阅分类页面遗传密码值.

FASTA示例

>Sc_16 [organism=Saccharomyces cerevisiae]
tataggcgaatcgagtatattattttttctcaacatatgtat
atgaacatgagaatatatttataggaatgtataaaattgtga
cctctcctgctattttagttactgattttatgtatgtagggg
gaataggggctgcctttcttaatgcagttttaattttttctt
ttaattttttcttagtaaaattatttaaagtaaagattaatg
gaataaccattgcgcttttttttacagtttttggtttttcat
tttttggaaaaaatattttaaatattttacctttttatttag
ggggtattttatatagtatctatacttcaacagatttttctg
aacatatagttcctattgctttttcaagtgcattagcccctt
ttgtaagcagtgttgctttttatggagaaatatcctatgaaa
catcatatataaatgcaattttaattggtattttaattggtt
ttatagtggttcctttgtctaaaagtctttatgactttcatg
阿格加塔特加特塔塔特标签gttttacagcaggtt

功能表格式(.tbl)

tbl2asn从五列制表符分隔的表(称为a)中读取功能 功能表. The 功能表指定每个功能的位置和类型。 tbl2asn 将处理特征间隔并将任何CDS转换为 蛋白质。该表的第一行应包含以下内容 信息:

>功能SeqID table_name

SeqID必须与相应的.fsa文件中的核苷酸序列SeqID相匹配。

功能表示例

>功能Sc_16 Table1
69543基因
                        基因sde3p
69543 CDS
                        产品SDE3P
                        protein_id WS1030

质量得分表格式(.qvl)

  • 提供Phrap / Consed质量得分。
  • 使用.fsa文件中的相应SeqID进行定义。
  • 生成Seq-graph数据,该数据将包含在最终.sqn文件中的.fsa文件的核苷酸序列中。
  • 质量得分显示在.sqn文件中序列的下方,当在Sequin中查看.sqn文件时,质量得分将显示在质量格式选项中。
    >Sc_16
    51 63 70 82 82 82 90 90 90 90 86 86
    86 86 86 86 90 90 90 90 90 86 86 78...
    

蛋白质序列格式(.pep)

  • 通常不需要此文件,因为GenBank通常会在核苷酸序列的概念翻译中显示该信息,该信息将由tbl2asn自动生成。
  • 该文件将用提供的蛋白质序列替代CDS功能的自动翻译产品,因此仅在特殊情况下才需要。
  • 它是蛋白质序列的FASTA文件,其中SeqID必须与.tbl文件中的protein_id相匹配

FASTA示例

>WS1030 [gene=sde3p] [protein=SDE3P]
MYKIVTSPAILVTDFMYVGGIGAAFLNAVLIFSFNFFL
VKLFKVKINGITIAAFFTVFGFSFFGKNILNILPFYLG
GILYSIYTSTDFSEHIVPIAFSSALAPFVSSVAFYGEI
SYINESYINAILIGILIGFIVVPLSKSLYDFHEGYDLYN
LGF标签

源表格式(.src)

对于序列集,尤其是那些来源不同的序列, 制表符分隔源修改器表 可以创建扩展名为.src的文件。首先 文件中的“列”必须是序列的SeqID。第一行 给出要添加的源限定符的名称,以 标签。任何其他行都列出了SeqID和源限定符 相应.fsa文件中的每个序列。

SeqID生物菌株分离物
Sc_16 Zea mays A69Y JH90.6-2x12

Tbl2asn更新通知

要接收有关tbl2asn更新的电子邮件通知,以及更新内容的描述,请按照以下说明进行操作指示.

支持中心

最后更新时间:2017-11-13T22:53:44Z