肥胖是工业化国家面临的巨大挑战。同时,许多代谢相关的疾病如糖尿病、动脉粥样硬化等也和脂肪的累积息息相关。因此,我们有必要深入理解成脂(脂肪组织形成的过程)的分子机制。然而,信息的碎片化严重阻碍着新的关键基因及通路的识别,于是我们想到要为专业的研究人员提供一个方便易用的成脂调控信息中心。在本研究中,我们通过文本挖掘技术辅以专业人员的人工检查和注释,整理收集来自PubMed数据库的1457篇与成脂分化相关的文章,搭建了一个公开的数据库平台——ARN数据库,截止到2016年2月25日,共收集到与成脂相关的3054个节点,1807条互作关系,10,675条表达记录,并通过miRGate、PAZAR和TRRUST等数据库确定了12,696条可能存在的靶向调控关系,为成脂研究领域的研究者提供了一个快速便捷的可视化信息中心。因此,这个平台将有助于研究者发现成脂调控中的重要基因和通路。 Excessive weight gain and obesity pose significant health challenges to many industrialized na-tions. Many metabolic disorders associated with cardiovascular diseases such as diabetes and atherosclerosis are directly linked to the increased production and size of adipose cells. Under-standing the molecular mechanism that underlies adipogenesis, the process by which adipose or fat tissue is formed, is thus of critical importance. However, the information fragmentation ham-pers the identification of key regulatory genes and pathways. Thus, it is necessary to provide an information center that is quickly and easily accessible to researchers in this field. In this study, we developed a publicly available database and web interface that serves as a resource for adi-pogenesis research. In ARN, nodes (genes and microRNAs) were collected using a text mining procedure followed by manual review and annotation by experts of this field. In total, 3054 nodes, 1807 relations, and 10,675 expression records associated with adipogenesis according to 1457 articles were collected (last update: 29 January 2016). Additionally, we further determined 12,696 possible relations of these nodes due to miRGate, PAZAR and TRRUST. Hence, this plat-form can support the ongoing adipogenesis research and contribute to discovery of key regula-tory genes and pathways.
黄艳,王力,昝林森*
西北农林科技大学动物科技学院,国家肉牛改良中心,陕西 杨凌
收稿日期:2016年3月4日;录用日期:2016年3月18日;发布日期:2016年3月24日
肥胖是工业化国家面临的巨大挑战。同时,许多代谢相关的疾病如糖尿病、动脉粥样硬化等也和脂肪的累积息息相关。因此,我们有必要深入理解成脂(脂肪组织形成的过程)的分子机制。然而,信息的碎片化严重阻碍着新的关键基因及通路的识别,于是我们想到要为专业的研究人员提供一个方便易用的成脂调控信息中心。在本研究中,我们通过文本挖掘技术辅以专业人员的人工检查和注释,整理收集来自PubMed数据库的1457篇与成脂分化相关的文章,搭建了一个公开的数据库平台——ARN数据库,截止到2016年2月25日,共收集到与成脂相关的3054个节点,1807条互作关系,10,675条表达记录,并通过miRGate、PAZAR和TRRUST等数据库确定了12,696条可能存在的靶向调控关系,为成脂研究领域的研究者提供了一个快速便捷的可视化信息中心。因此,这个平台将有助于研究者发现成脂调控中的重要基因和通路。
关键词 :脂肪生成,数据库,重组,可视化,文本挖掘
肥胖,即脂肪组织的过量沉积,是目前工业化国家面临的首要健康问题。成脂过程中,间充质干细胞(MSC)分化成为脂肪细胞,最终导致脂肪细胞数量增多,体积增大和脂质在脂肪细胞中的积累 [
在生物医学领域,通过文献整合信息的过程通常分为3步:1) 在公共数据库(如:PubMed、WOS)通过关键词检索出一系列相关文献;2) 人工查看这一系列文献获取一系列相关基因或者其他信息;3) 如果这些文献的信息不够充分,再进一步到各种专业数据库(如:GO)检索其他相关信息。在这种情况下,一个研究者要想通过传统的方式提取到需要的信息,就必然面临如下挑战:在阅读大量文献和通过数据库查询信息的过程中,花费大量时间,同时错失掉大量有用信息;其次,不同研究者提取信息的过程中,也出现了大量的重复性劳动。而文本挖掘(Text-mining),为简化我们的阅读过程,自动提取文献信息提供了一种可能 [
现有的数据库已关注到转录因子 [
在本研究中,我们搭建了一个公开的,可通过网页访问的,提供成脂分化研究最新动态的信息中心——ARN数据库平台。我们不仅收集和挖掘了与成脂相关的文献信息,还从专业角度对数据进行重新组合,消除冗余并通过外部数据库填补缺失的信息。除记录了实验已验证的数据和调控关系,还收集了与成脂相关的大量候选基因。此外,我们还通过可视化技术对调控网络进行展示,将各种参数,如节点的分类、功能、试验方法和材料等在网络中进行可视化标记。
ARN数据库所有数据和文献均来自NCBI-PubMed、NCBI-Gene、miRBase、miRGate、PAZAR和TRRUST六个数据库,通过文本挖掘技术辅以专业人员的人工检查、注释和数据交互整合所得。
该数据库从数据采集到加工处理的流程主要包括以下四步(图1)。
第一步,文献信息的采集与挖掘。1) 文献采集。借助Cytoscape数据分析平台的Agilent Literature Search文献检索插件 [
图1. 数据库构建流程图
进行联合检索,在进行47轮检索后,总计得到9908篇PubMed数据库的文章摘要作为初始语料库用于进一步分析。2) 文献挖掘。Agilent Literature Search首先将检索得到的文献拆分成单个的句子,再根据基因数据库(Entrez Gene)的基因名称或别名(概念名词),或者特定的关系词(通常是动词)如“binding”或“activate”进行分析,如果在一个句子中同时存在至少两个概念名词和一个关系动词,那么它就会被转换成一条互作记录,并加入到Cytoscape数据分析平台的互作网络当中。
第二步,人工筛选,注释和分析。1) 人工筛选。文献挖掘方法共同存在一个基础性的问题,多义词:即同一个词可能同时含有多个语义或归属于不同的分类 [
转录因子和microRNA是成脂分化调控中重要的两类调控因子,因此我们通过TRRUST (http://www.grnpedia.org/trrust/) [
第三步,信息的储存与可视化。ARN数据库是运用Microsoft SQL Server关系型数据库平台开发的,Web界面是运用.NET和HTML5开发的,用户可以通过浏览器访问ARN数据库平台(http://210.27.80.93/am/);成脂调控网络的可视化是通过D3(d3js.org)实现的。
第四步,动态分析工具的设计。动态网络分析(DNA)是一个新兴的科学领域,汇集了网络技术和理论中的社交网络分析(SNA),链接分析(LA)等技术和概念。在成脂调控网络中有多种类型的节点(多节点)和多种类型的关系,这样的网络一般被称为高维网络。鉴于成脂调控网络是动态的,多节点的,多维的网络,ARN数据库的分析工具为用户提供了筛选功能,用户可根据节点参数设置过滤条件,从多个维度同时筛选。
ARN数据库网站为用户提供地图页面、节点页面、文献页面、表达页面、分析页面和下载页面,用户可根据信息种类自由选择。该数据库的主页显示了成脂的可视化调控网络,其中包括了连接数最多的300个节点,用户可以通过“Node Number”选择页面显示的节点数(≤300)。节点的颜色和形状由其分类和功能决定,连线的颜色和形状由节点间的互作方式决定(图2)。
节点页面包含六部分内容(图3)。① 是基因或microRNA的一般信息;② 是基因或microRNA的相关文献概述;③ 是节点在不同条件下的表达情况;④ 是节点的单核苷酸多态性;⑤ 是一个可视化网络关系图,包含其对成脂的潜在影响、互作方式及试验材料或方法等信息;⑥ 是转录因子和microRNA
图2. ARN数据库首页示例
图3. PPARg检索结果页面示例A
可能的预测靶标关系,新的预测关系用黑色加粗线条表示。
地图页面(图4(B))展示了一些综述成脂分化的文献中的经典关系图。分为转录调控因子、信号通路因子、表观遗传修饰因子、非编码小RNA、环境因子和细胞生长因子六类,每张关系图下面以表格形式列出了关系图中所有节点,用户可通过点击节点基因符号,链接到特定基因的节点页面,我们还为用户提供了这些节点的互作网络图。
文献页面(图4(C))提供了综述、研究性文献,单核苷酸多态性相关文献和高通量分析文献四类文献的基本信息,并进一步整理了每篇文献所用的材料和方法。
表达页面提供了成脂分化过程中相关基因的表达情况(图4(D))。通过检索基因,用户可以获得同一个节点的收集自不同文献的表达数据,并查看表达变化的折线图。
分析页面是基于ARN数据库平台中的所有数据,让用户针对特定功能基因和microRNAs的数据进行分析和筛选。
我们还为用户提供一个下载页面(图4(E)),用户通过设置相关参数,可筛选出满足特定条件的基因ID,官方名称和相关文献的PMID,这些信息在其他数据库可直接使用。
同时,ARN数据库还包含一个留言板页面,让用户能随时指出数据库的错漏,以利于我们及时改进。
ARN数据库为用户提供多种方式进行灵活检索。基础信息的检索可以通过基因的ID号或官方名称、MicroRNAs的成熟序列号和PubMed数据库文章的PMID号进行;针对数据的特点,我们还为表达页面和文献页面设计了高级检索功能。
目前,该数据库从1457篇与成脂相关的文献中共收集到与成脂相关的3054个节点,1807条互作关系,10,675条表达记录,1141条概述记录,43张成脂调控网络图。此外,我们还通过miRGate、PAZAR和TRRUST为ARN数据库的所有节点确定了12,696条可能与成脂相关的调控关系。基于以上所有数据,用户可以在分析页面,设置参数和筛选条件对特定节点、高通量文章或节点集进行定制分析。
当我们在NCBI PubMed数据库中检索adipo*differe*时,会得到3万多条结果,NCBI PubMed 数据库会为每篇文献添加上物种、期刊名称,出版日期和关键字等信息,用户只能根据这些内容检索并分析。而在ARN数据库中,文献总量虽不到PubMed的1/10,但我们为每篇文章添加了更详细的信息,如所用细胞系的名称、样品种类等,方便用户进行更多样的检索和分析。图5中,我们提供了物种、细胞系和试验样品材料的统计数据、常用试验方法以及ARN数据库中的不同类节点的关系数量。在实际应用中,用户可能只关心其中的一部分信息,细节信息的添加使用户可快速筛选出高契合度的目标文献。
ARN数据库为每个节点添加了“分类”、“功能”、“IF”、“表达”和“分化方向”等内容,方便用户快速查找自己感兴趣的信息。在实际操作中,当我们在NCBI PubMed中检索“PPARg”时,会出现900多条单一记录,但当我们在ARN数据库检索时,虽仅有218条记录,但是汇集了NCBI-Gene,miRBase,NCBI-PubMed,miRGate,PAZAR,TRRUST等六个网站的151篇论文信息。从PPARg基因
图4. PPARg检索结果页面示例B-E
图5. ARN数据库的基础统计数据
的基本信息,表达变化水平(Node Expression),调控关系网络(Relation Chart)到调控关系预测图(Prediction Chart),用户可多元化的了解该基因的详细信息,另外预测图还可帮助用户识别PPARg的边际信息,通过节点“IF”的排序,筛选出最重要的靶标预测关系,表1给出了部分预测结果,深入分析该表,我们得知Pan YC等 [
大量数据的整合往往会产生新的信息,随着大数据技术的发展,数据的整体会比局部更具价值。如果我们综合分析多个数据集,很可能会发掘出有潜在价值的隐藏信息,最大限度的释放数据的潜在信息能量。例如,图6中,当我们把TRRUST数据库 [
http://dx.doi.org/10.1046/j.1467-789X.2001.00042.x
http://dx.doi.org/10.1016/0092-8674(94)90006-X
http://dx.doi.org/10.1073/pnas.92.21.9856
http://dx.doi.org/10.1101/cshperspect.a008417
http://dx.doi.org/10.1111/j.1749-6632.2002.tb04875.x
http://dx.doi.org/10.1016/S1097-2765(00)80306-8
http://dx.doi.org/10.1002/jcb.24479
http://dx.doi.org/10.1016/j.bbrc.2010.01.012
http://dx.doi.org/10.1007/s11033-014-3807-0
http://dx.doi.org/10.1074/jbc.C400438200
http://dx.doi.org/10.1093/bioinformatics/bti187
http://dx.doi.org/10.1038/srep11432
http://dx.doi.org/10.1093/nar/gkt1181
http://dx.doi.org/10.1093/nar/gkn870
http://dx.doi.org/10.1038/nprot.2007.324
http://dx.doi.org/10.1038/nrm3198
http://dx.doi.org/10.1371/journal.pcbi.0040020
http://dx.doi.org/10.1016/j.ajhg.2011.03.004
http://dx.doi.org/10.1158/1078-0432.CCR-10-1025
http://dx.doi.org/10.4252/wjsc.v5.i4.136
http://dx.doi.org/10.1073/pnas.1222643110
http://dx.doi.org/10.1007/s00438-014-0954-x