Troep. Zootje ongeregeld. Rommel maar wat aan. Dat is wat een cel met DNA en zo doet. Terwijl het op school lijkt alsof al die genetische biochemie zo precies geregeld is. Nou nee.
Op de middelbare school wordt geleerd: DNA geeft RNA geeft eiwit. DNA geeft RNA heet transcriptie, RNA geeft eiwit heet translatie. DNA heeft de basen A, C, G, T en RNA heeft de basen A, C, G, U. Base G paart met base C en base A paart met base T (of base U). Verder is het eigenlijk niet nodig iets van die basen te weten, alleen dat paren is echt van belang.
Hoeveel transciptie van het DNA is er, hoeveel translatie? Hoeveel transcriptie / translatie is ruis?
Het hangt van de soort af hoeveel DNA ook eiwit-betekenis heeft. Bij de mens is wordt iets als 2% in eiwit omgezet. Verder is er DNA dat op een of andere manier met met genregeling te maken heeft, samen iets als 6%. De overige 82% (bij de mens) is restjes virus, restjes transposons, herhalende stukken als een paar duizend keer de basen AC, en in functionerende genen de introns tussen de voor eiwit coderende delen. Er wordt dus weinig DNA in eiwit omgezet : heel weinig. Hoeveel transcriptie is er? Veel meer.
2 Transscriptie
Transcriptie begint als RNA-polymerase ergens aan het DNA bindt, en daar heeft het RNA-polymerase een herkenningssequentie voor nodig. Transcriptie kan op minstens drie varianten van het DNA beginnen, steeds met een reeksje basen. Voorbeelden van plekken voor begin van transcriptie zijn TATAWAW en RGWYV(T) en YYANWYY(hier is W: A of T; R: A of G; Y: C of T; V: A of C of G; N: A of C of G of T). Dat geeft nogal wat mogelijkheden. Soms heeft een gen meer dan één plaats hebben waar transcriptie kan beginnen,maar in de meeste gevallen is er één goed begin voor transcriptie maar kan het RNA-polymerase er ook naast zitten omdat er tig basen verderop ook wel een sequentie van zeven basen op een beginplek lijkt. En meest belangrijk, er zijn mogelijkheden te over voor RNA-polymerase om aan DNA te binden zonder dat die plek ook netjes naast een gen ligt.
In al die restjes virus en restjes transposons zijn er heel veel plaatsen met zes of zeven basen naast elkaar die op een beginsequentie voor transcriptie lijken. Dat krijgje zo met een paar miljard basen op toevalsvolgorde. De kans op een basevolgorde dietot het begin van transciptie leiden is weliswaar (1/4)7= 0.0000610352, maar vermenigvuld met 2 miljard is dat toch naar verwachting meer dan honderd duizend mogelijk plekken voor transcriptiebegin, door toeval alleen. Rommel DNA op toevalsvolgorde wordt rustig in RNA omgezet. Dan heb je loos RNA dat weer afgebroken wordt. Er zijn studies die zeggen dat misschien 80% van het DNA wel eens wordt overgeschreven in RNA. Terwijl maar 8% van het DNA zinnig RNA geeft. Dus 70% van al het DNA leidt tot loos RNA, en van alle overschrijving van DNA tot RNA is 7/8 loos. Dat wordt dan weer afgebroken.
Nu doet dit er niet veel toe: elk molecuul loos RNA komt misschien eens in de zoveel keer in één exemplaar in een cel voor. Nuttig RNA dat regelt of tot eiwit leidt komt in grote hoeveelheden van elk molecuul in een cel voor.
Transcriptie levert dus heel veel ruis op.
3 Translatie, Open Reading Frames
Translatie lijkt veel stricter op het eerste oog. Translatie van RNA in eiwit begint bij een startcodon AUG en eindigt bij een stopcodon UGA, UAA of UAG. Bij nuttig RNA gaan er een aantal basen aan dat startcodon vooraf, maar niet erg veel: 20. 30, of zo. Bij loos RNA is er geen enkele garantie dat er een startcodon voor translatie op redelijke afstand van het RNA-begin te vinden is. Dan geeft de translatiemachine, het ribosoom, het op.
Aan de andere kant, een toevallig begin voor transcriptie TATAWAW met een een ATG in het DNA op een nette afstand is best mogelijk als er alleen ruis is. Het is niet verboden. Ook is het mogelijk dat pas vele basen na het startcodon een stopcodon optreedt. Dan heb je door toeval alleen een Open Reading Frame, een Open Leesraam ORF) dat een mogelijk gen is.
Komt dat vaak voor? O ja.
Ik gebruikte EXCEL voor het genereren van een toevalssequentie van DNA van 50 000 basen lang, met de vier basen A, C, G, T op toevalsvolgorde. Het programma OrfFinder van de website https://www.ncbi.nlm.nih.gov/orffinder/ zoekt ORFs, en heeft 50000 basen als maximumgrens voor de invoer. Hoeveel ORFs beginnnend met ATG zijn er in een toevalssequentie van vijftigduizend basen lang?
In OrfFinder kun je instellen hoe groot het ORF moet zijn. Dan krijg je dit:
Lengte base-sequentie | Lengte eiwit | Gevonden aantal ORFs |
> 30 | 10 | 764 |
> 75 | 25 | 365 |
> 150 | 50 | 103 |
> 300 | 100 | 9 |
> 600 | 200 | 0 |
Lengte base-sequentie | Lengte eiwit | Gevonden aantal ORFs |
> 300 | 100 | 167912 |
> 400 | 133 | 33901 |
> 500 | 167 | 6844 |
> 600 | 200 | 1382 |
> 700 | 233 | 279 |
> 800 | 267 | 56 |
> 900 | 300 | 11 |
4 Toevalseiwit
Toevals-DNA geeft dus heel wat Open Reading Frames. Stel dat elk ORF wordt vertaald in een eiwit, is dat dan een redelijk eiwit? Iets functioneels?
Dat is moeilijk te voorspellen. De driedimensionale vorm van een eiwit kan niet voorspeld worden uit de aminozuurvolgorde. Wel is het mogelijk om de aminozuurvolgorde te vergelijken met andere aminozuurvolgordes, aminozuurvolgordes waarvan de driedimensionale vorm bekend is. Er is ook een website voor, bijvoorbeeld PHYRE2. Heeft een random gegenereerd eiwit dan een redelijke drie-dimensionale vorm? Ja, dan ook nog wel.
Bijvoorbeeld deze toevalssequentie voor DNA:
ATGCCTGGCGGGCAGACGCTACCTTCCAGGAAATGGACGGGAATTCCAAAATGTACTATGTGGGTGTGGCAACTGAGCCACACAGGAGTCACAACCCCACCAAAGTGTGTCGGCGACAGAGCCCCTTGTATTGGCCGTATAAGATATCATAGGATTGCAAAGCTATGTTGCATAGTGGACTCAATAGTATTGAAAAGGGGGACATGA
Gaf deze aminozuursequentie:
MPGGQTLPSRKWTGIPKCTMWVWQLSHTGVTTPPKCVGDRAPCIGRIRYH RIAKLCCIVDSIVLKRGT*
Zonder het begin codon ATG (voor M, methionine), ziet de voorspelling voor de secundaire structuur er zo uit:
Met alpha-helix in groen en beta-sheet in blauw. Het lijkt niet een al te onmogelijk eiwit
- transcriptie heeft veel ruis, ook rommel-DNA wordt veelal over geschreven in RNA.
- veel Open Leesramen (ORF's) ontstaan ook volgens toeval, als ruis.
- een ruis-eiwit kan er nog redelijk uitzien
******
http://www.sbg.bio.ic.ac.uk/phyre2/html/page.cgi?id=index