ispol'zuju dlja communication, ignore
Feb. 11th, 2005 04:29 pm![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
Исследование частоты встречаемости кодонов в геноме РНК-содержащих вирусов
цель: определить частоту использования кодонов в разных частях генома вирусов
- в структурных генах (часть I), гене пептида 2А (часть II) и не-структурных генах
(часть III).
background:
все гены исследуeмого вируса содержатся в одной молекуле РНК = последовательность. в GeneBank - источник последовательностей - она представлен строчкой символов. встречаются 4 символа: A,G,C,T. часть представленной последовательности не кодирует белка и поэтому для нас интереса не представляет.
от первого нуклеотида (позиция один части один) три последовательных символа
определяют единицу кодировки - кодон. кодон отвечает за одну аминокислоту белка.
одна и та же аминокислота кодируется разным числом кодонов.
Требуется расcчитать относительную частоту встречаемости каждой из троек
нуклеотидов (кодонов) для данной аминокислоты. аминокислота обозначена буквой,
соответствующие ей кодоны идут через запятую.
пример последоваельности находится здесь:
http://www.ncbi.nlm.nih.gov/entrez/viewer.fcgi?db=nucleotide&val=51340579
это в формате GeneBank, ты решил, что тебe подходит формат XML
начало части I определяется строкой
mat_peptide 1082..1684
первый символ А, первая тройка символов во всех частях ATG
заканчивается строкой
mat_peptide 3251..3886
/product="VP1"
последний символ 3886
часть II определяется строкой
mat_peptide 3887..3934
/product="2A"
первый символ 3887, последний символ 3934
часть II определяется строкой, begins 3935
mat_peptide 3935..4396
/product="2B"
end определяется строкой
mat_peptide 6662..8071
/product="3D
последний символ 8071
ГРУППЫ KОДОНОВ
буква - аминокислота, кодоны даны через запятую
A - GCA, GCC, GCG, GCT
C - TGC, TGT
D - GAC, GAT
E - GAA,GAG
F - TTC, TTT
G - CAC, CAT
H - CAC, CAT
I - ATA, ATC, ATT
K - AAA, AAG
L - TTA, TTG, CTA, CTC, CTG, CTT
M - ATG
N - AAC, AAT
P - CCA, CCC, CCG, CCT
Q - CAA, CAG
R - CGA, CGC, CGG, CGT
S - TCA, TCC, TCG, TCT, AGC, AGT
T - ACA, ACC, ACG, ACT
V - GTA, GTC, GTG, GTT
W - TGG
Y - TAC, TAT
на основании данных литературы можно предсказать, что в части I будет больше часто встречающихся кодонов, чем в части III. поэтому сначала нужно рассчитать частоту встречаемости в целом по исследуемой последовательности
часть I + часть II + часть III, а потом рассчитать коэффициент частоты встречаемости кодонов.
например, Y кодируется TAC i TAT. если в проверенной последовательности 10 TAC i 90 TAT, to ktat = 0.1 i ktac = 0.9.
допустим, в части I, длина которой 200 кодонов 5 TAC и 80 TAT, тогда k Y I = (0.1 x 5) + (0.9 x 80)/200 = 0.3625
в части I III длина которой 200 кодонов 5 TAC и 5 TAT, тогда k Y III = (0.1 x 5) + (0.9 x 5)/500 = 0.01
Результатом работы программы может быть рассчет трех суммарных коэффициентов
для трех частей последовательности:
Kn - суммарныя частота встречаемости триплетов, кодорующих аминокислоту N в трех частях
kn I - частота встречаемости этих триплетов в части I
K I = kA I + k C I +...... k Y
статистическую обработку различия коэффициентов предполагается производить в Excel
цель: определить частоту использования кодонов в разных частях генома вирусов
- в структурных генах (часть I), гене пептида 2А (часть II) и не-структурных генах
(часть III).
background:
все гены исследуeмого вируса содержатся в одной молекуле РНК = последовательность. в GeneBank - источник последовательностей - она представлен строчкой символов. встречаются 4 символа: A,G,C,T. часть представленной последовательности не кодирует белка и поэтому для нас интереса не представляет.
от первого нуклеотида (позиция один части один) три последовательных символа
определяют единицу кодировки - кодон. кодон отвечает за одну аминокислоту белка.
одна и та же аминокислота кодируется разным числом кодонов.
Требуется расcчитать относительную частоту встречаемости каждой из троек
нуклеотидов (кодонов) для данной аминокислоты. аминокислота обозначена буквой,
соответствующие ей кодоны идут через запятую.
пример последоваельности находится здесь:
http://www.ncbi.nlm.nih.gov/entrez/viewer.fcgi?db=nucleotide&val=51340579
это в формате GeneBank, ты решил, что тебe подходит формат XML
начало части I определяется строкой
mat_peptide 1082..1684
первый символ А, первая тройка символов во всех частях ATG
заканчивается строкой
mat_peptide 3251..3886
/product="VP1"
последний символ 3886
часть II определяется строкой
mat_peptide 3887..3934
/product="2A"
первый символ 3887, последний символ 3934
часть II определяется строкой, begins 3935
mat_peptide 3935..4396
/product="2B"
end определяется строкой
mat_peptide 6662..8071
/product="3D
последний символ 8071
ГРУППЫ KОДОНОВ
буква - аминокислота, кодоны даны через запятую
A - GCA, GCC, GCG, GCT
C - TGC, TGT
D - GAC, GAT
E - GAA,GAG
F - TTC, TTT
G - CAC, CAT
H - CAC, CAT
I - ATA, ATC, ATT
K - AAA, AAG
L - TTA, TTG, CTA, CTC, CTG, CTT
M - ATG
N - AAC, AAT
P - CCA, CCC, CCG, CCT
Q - CAA, CAG
R - CGA, CGC, CGG, CGT
S - TCA, TCC, TCG, TCT, AGC, AGT
T - ACA, ACC, ACG, ACT
V - GTA, GTC, GTG, GTT
W - TGG
Y - TAC, TAT
на основании данных литературы можно предсказать, что в части I будет больше часто встречающихся кодонов, чем в части III. поэтому сначала нужно рассчитать частоту встречаемости в целом по исследуемой последовательности
часть I + часть II + часть III, а потом рассчитать коэффициент частоты встречаемости кодонов.
например, Y кодируется TAC i TAT. если в проверенной последовательности 10 TAC i 90 TAT, to ktat = 0.1 i ktac = 0.9.
допустим, в части I, длина которой 200 кодонов 5 TAC и 80 TAT, тогда k Y I = (0.1 x 5) + (0.9 x 80)/200 = 0.3625
в части I III длина которой 200 кодонов 5 TAC и 5 TAT, тогда k Y III = (0.1 x 5) + (0.9 x 5)/500 = 0.01
Результатом работы программы может быть рассчет трех суммарных коэффициентов
для трех частей последовательности:
Kn - суммарныя частота встречаемости триплетов, кодорующих аминокислоту N в трех частях
kn I - частота встречаемости этих триплетов в части I
K I = kA I + k C I +...... k Y
статистическую обработку различия коэффициентов предполагается производить в Excel