mstislavl | ispol'zuju dlja communication, ignore

Исследование частоты встречаемости кодонов в геноме РНК-содержащих вирусов

цель: определить частоту использования кодонов в разных частях генома вирусов
- в структурных генах (часть I), гене пептида 2А (часть II) и не-структурных генах
(часть III).

background:

все гены исследуeмого вируса содержатся в одной молекуле РНК = последовательность. в GeneBank - источник последовательностей - она представлен строчкой символов. встречаются 4 символа: A,G,C,T. часть представленной последовательности не кодирует белка и поэтому для нас интереса не представляет.
от первого нуклеотида (позиция один части один) три последовательных символа
определяют единицу кодировки - кодон. кодон отвечает за одну аминокислоту белка.
одна и та же аминокислота кодируется разным числом кодонов.

Требуется расcчитать относительную частоту встречаемости каждой из троек
нуклеотидов (кодонов) для данной аминокислоты. аминокислота обозначена буквой,
соответствующие ей кодоны идут через запятую.

пример последоваельности находится здесь:

http://www.ncbi.nlm.nih.gov/entrez/viewer.fcgi?db=nucleotide&val=51340579

это в формате GeneBank, ты решил, что тебe подходит формат XML

начало части I определяется строкой

mat_peptide 1082..1684

первый символ А, первая тройка символов во всех частях ATG

заканчивается строкой

mat_peptide 3251..3886
/product="VP1"

последний символ 3886

часть II определяется строкой

mat_peptide 3887..3934
/product="2A"

первый символ 3887, последний символ 3934

часть II определяется строкой, begins 3935

mat_peptide 3935..4396
/product="2B"

end определяется строкой

mat_peptide 6662..8071
/product="3D

последний символ 8071

ГРУППЫ KОДОНОВ

буква - аминокислота, кодоны даны через запятую

A - GCA, GCC, GCG, GCT

C - TGC, TGT

D - GAC, GAT

E - GAA,GAG

F - TTC, TTT

G - CAC, CAT

H - CAC, CAT

I - ATA, ATC, ATT

K - AAA, AAG

L - TTA, TTG, CTA, CTC, CTG, CTT

M - ATG

N - AAC, AAT

P - CCA, CCC, CCG, CCT

Q - CAA, CAG

R - CGA, CGC, CGG, CGT

S - TCA, TCC, TCG, TCT, AGC, AGT

T - ACA, ACC, ACG, ACT

V - GTA, GTC, GTG, GTT

W - TGG

Y - TAC, TAT

на основании данных литературы можно предсказать, что в части I будет больше часто встречающихся кодонов, чем в части III. поэтому сначала нужно рассчитать частоту встречаемости в целом по исследуемой последовательности
часть I + часть II + часть III, а потом рассчитать коэффициент частоты встречаемости кодонов.

например, Y кодируется TAC i TAT. если в проверенной последовательности 10 TAC i 90 TAT, to ktat = 0.1 i ktac = 0.9.

допустим, в части I, длина которой 200 кодонов 5 TAC и 80 TAT, тогда k Y I = (0.1 x 5) + (0.9 x 80)/200 = 0.3625

в части I III длина которой 200 кодонов 5 TAC и 5 TAT, тогда k Y III = (0.1 x 5) + (0.9 x 5)/500 = 0.01

Результатом работы программы может быть рассчет трех суммарных коэффициентов
для трех частей последовательности:

Kn - суммарныя частота встречаемости триплетов, кодорующих аминокислоту N в трех частях
kn I - частота встречаемости этих триплетов в части I

K I = kA I + k C I +...... k Y

статистическую обработку различия коэффициентов предполагается производить в Excel