基因(gene)是DNA表达遗传信息的功能单位,以一段或一组特定的核苷酸序列为载体,通过表达功能产物RNA和蛋白质,控制着各种生命活动,从而控制着生物的遗传性状。一个基因除了含有决定功能产物一级结构的编码序列外,还含有表达该编码序列所需的调控元件等非编码序列。
人类对基因的认识经历了一个漫长过程,在20世纪50年代之前,基本局限在逻辑概念阶段,对其化学本质一无所知。
1944年,Avery等通过肺炎链球菌转化实验证明DNA是细菌的遗传物质;1952年,Hershey和Chase通过大肠杆菌T2噬菌体感染实验进一步证明DNA也是DNA病毒的遗传物质。遗传物质有两个特点:一是能自我复制,从而维持生物体的基本性状;二是会发生突变,从而赋予生物体新的性状,使生命得以进化。
1.结构基因和调控基因这两类基因的产物都可以是RNA和蛋白质,但有不同的功能:结构基因(structural gene)产物的功能是参与代谢活动或维持组织结构。调控基因(regulatory gene)产物的功能是调控其他基因的表达。
2.断裂基因在20世纪70年代之前,人们一直以为基因的编码序列是连续的。1977年,Roberts和Sharp(1993年诺贝尔生理学或医学奖获得者)发现真核生物有些基因(如胰岛素基因)的编码序列是不连续的,被一些称为内含子的非编码序列分割成称为外显子的片段,因此这些基因称为断裂基因(split gene)。断裂基因在分子生物学的基础研究和肿瘤等疾病的医学研究中具有重要意义。
不同真核生物基因组中断裂基因所占的比例不同:酿酒酵母的基因仅有3.5%~4%是断裂基因;果蝇的基因有83%是断裂基因;哺乳动物的基因有94%是断裂基因(组蛋白、α干扰素、β干扰素基因不是断裂基因)。叶绿体、植物和其他低等真核生物线粒体基因组存在断裂基因。原核生物和噬菌体基因组中也存在个别断裂基因。
3.重叠基因如果两个或两个以上基因的DNA序列存在重叠,它们就是重叠基因(overlapping gene)。重叠基因之间有多种重叠方式,以ΦX174噬菌体为例:
(1)大基因序列完全包含小基因,例如A基因内包含B基因,D基因内包含E基因,被包含的基因称为基因内基因、嵌套基因、套叠基因(nested gene)。
(2)两个基因序列首尾重叠,有的甚至只重叠一个碱基,例如D基因终止密码子的第三碱基是J基因起始密码子的第一碱基,这一现象称为读框重叠(reading-frame overlapping)。
(3)多个基因存在重叠序列,例如A基因、A*基因、B基因、K基因。
(4)反向重叠。
此外,重叠序列中不仅有编码序列也有调控元件,说明基因重叠不只是为了利用有限的核苷酸序列携带更多的编码信息,还可能涉及基因表达调控。
重叠基因的DNA序列虽然存在重叠,但是其转录产物mRNA的阅读框不同,因而翻译合成的蛋白质并无同源序列。
重叠基因存在于病毒、原核生物、真核生物(包括人类)及线粒体DNA中。
4.转座子1944年,McClintock(1983年诺贝尔生理学或医学奖获得者)在研究玉米基因时发现,有些DNA片段可以自主复制和在染色体DNA中移动位置。现已阐明:基因组DNA中存在一些非游离的、能自主复制或自我剪切并以相同或不同拷贝在基因组中或基因组间移动位置的功能性片段,称为转座子(transposon)、转座元件(transposable element)、转座因子。
5.顺反子1955年,Benzer从遗传学角度提出了基因的顺反子概念:顺反子(cistron)是基因的基本功能单位,基因组序列中不同突变之间没有互补关系的功能区,也是基因表达的最小单位。一个顺反子编码一条肽链。真核生物的基因都是单顺反子,其转录产物称为单顺反子mRNA;原核生物的基因大多数是多顺反子,其转录产物称为多顺反子mRNA。国际纯粹与应用化学联合会(IUPAC)推荐基因与顺反子两个术语通用。
6.基因家族同一物种中,结构与功能相似、进化起源上密切相关的一组基因,被定义为一个基因家族(gene family),又称多基因家族(multigene family)。同一个基因家族的基因具有同源性,即它们来自同一个祖先基因,有相似的结构和功能。
人类基因组中有1.5万个基因家族,例如rRNA基因及以下蛋白基因组成各自的基因家族:组蛋白、珠蛋白(分为α珠蛋白、β珠蛋白亚家族)、生长激素、肌动蛋白、丝氨酸蛋白酶、主要组织相容性抗原。基因家族中完全相同的基因成员称为重复基因、多拷贝基因。重复基因主要存在于真核生物基因组中,如人类rRNA基因有数百个拷贝。原核生物除了rRNA基因有1~7个拷贝(大肠杆菌有7个)之外,蛋白基因大多数只有一个拷贝。
(1)超基因家族(supergene family)又称基因超家族(gene superfamily)是DNA序列相似、但功能不一定相关的若干个单拷贝基因或若干个基因家族的总称。例如以下蛋白基因组成各自的超基因家族:免疫球蛋白、细胞因子、细胞因子受体、G蛋白、G蛋白偶联受体。珠蛋白、肌红蛋白、豆血红蛋白组成珠蛋白超家族。
(2)假基因(ψ)基因组中存在的一种DNA序列,与正常基因非常相似,但不表达有功能产物。假基因的祖先基因是有功能的,但由于发生突变导致序列异常,不能转录,或者转录产物不能翻译,所以假基因功能缺失。假基因在哺乳动物基因组中普遍存在,可以视为进化的遗迹。例如,小鼠有400多个3-磷酸甘油醛脱氢酶基因拷贝,但其中只有一个功能基因,其余都是假基因。
(3)基因簇(gene cluster)多数基因家族成员分布在染色体的不同部位,甚至分布在不同染色体上。有些基因家族的成员在染色体上紧密连锁甚至串联排列,它们称为基因簇,例如人6号染色体上的主要组织相容性复合体(MHC)、16号染色体上的α珠蛋白基因簇(约30kb)、11号染色体上的β珠蛋白基因簇(约60kb)。基因簇可用于研究物种的进化关系,甚至鉴定人类血统。
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有