京都大学化学研究所 バイオインフォマティクスセンター 阿久津研究室

Slides:



Advertisements
Lignende præsentationer
Sikkert trådløst netværk
Advertisements

© Isabelle Verhaeghen 李珺
I-ADJEKTIVER Takai Tōkyō Tawā wa ōkii Tōkyō ni arimasu.
NA-ADJEKTIVER Rosu ni yūmei na hito ga takusan imasu.
NIRAS A/S Hovedkontor i Danmark og datterselskaber/kontorer i 14 lande
Tid og sted ordstilling.
Spørgsmål. A Åbne spørgsmål som besvares med ja/nej som svar 1/3 Er du dansker? N ǐ shì Dānmàirén ma? 你是丹麦人吗? eller N ǐ shì bu shì Dānmàirén? 你是不是丹麦人?
Dansk-Kinesisk Frivilligt Netværk DKFNs Månefestival 丹中志愿者协会中秋晚会.
Jordbundsanalyser og Plantetilgængelige Næringsstoffer
Tid og sted ordstilling ___________________________________ © Isabelle Verhaeghen 李珺.
eller hvor man føjer elementer til grundsætninger
Fe-PO 4 3- orgP PO 4 3- Al=PO 4 3- NH 4 + orgN NO 3 - urea aminosyrer NPO2O2 H2SH2S Ilt-, næringsstoffluxe og stofpuljer Intern belastning i fjorde og.
Algoritmer og Datastrukturer 2 Gerth Stølting Brodal Korteste Veje [CLRS, kapitel ]
1 第三节 肽 一、肽的结构 二、生物活性肽. 2 肽 肽是氨基酸的线性聚合物。 肽的获得 氨基酸缩合而形成 蛋白质水解产生.
社會變遷 侯東成講授. 基本認識 進步、進化、變遷、發展 工業化、現代化、西化、美國化 冷戰秩序與文明衝突 人類有未來嗎?
幼兒行為觀察與記錄 第十二章 檢核表法.
第十二章 危机沟通. 主要内容 一危机的界定 二企业危机的类型 三危机的预防 四危机沟通 五危机管理过程.
複雑地表面上の大気境界層にお ける乱流と物質輸送: 観測とモデルの融合研究へ 竹見哲也 京都大学防災研究所 ドップラーライダーによる宇宙からの風観測に関する講演会 東京大学本郷キャンパス理学部小柴ホール, 2011 年 9 月 30 日.
第二組 指導老師:黃三益教授 組 員:余宗勳 黃友莉 有間書店租書系統. 功能需求 書籍租借 新增、修改書籍功能 新增、修改會員功能 提供預約書籍功能 統計書籍資料 罰款計算 資料的顯示與利用.
まとめ. #DateClassLimb/DiskStart TimePeak(17GHz)End Time 12002/5/31M2.4limb0:0400:07:200: /7/20X3.3limb21:0421:28:0021: /7/23X4.3disk0:1800:30:300:47.
计算天文 陈鹏飞 P. F. Chen 电话: (办) 邮件: 主页:
英國如何讓學生樂在閱 讀? 天下雜誌教育基金會希望閱讀網站 =40288ab21ef36f62011f6ef b.
植物向光素的研究进展 学生:钱善勤 导师:王 忠 专业:植物学.
“新時代”食品行業需要的人才 味全公司 中央研究所 所長 鍾美玉
1 第六章 发热 第一节 概述 一、发热的概念 正常人:产热 = 散热 体温 37 ℃左右 昼夜波动< ±1 ℃ 发热( fever ):由于致热原的作用,使体温 调定点上移,而引起的调节性体温升高,当体温超 过正常值的 0.5 ℃时就称为发热。 Liebermeister 首先 提出 二、体温升高的分类.
第一章 细胞生理 (Cell Physiology)
Springer LINK 数据库. 德国施普林格 (Springer-Verlag) 是世界上著名的科 技出版集团, 通过 Springer LINK 系统提供学术资源的在线 服务。目前 Springer LINK 所提供的资源 ( 主要是期刊和图 书)达 3846 多万条,分为 13 个学科主题.
1.1 線性方程式系統簡介 1.2 高斯消去法與高斯-喬登消去法 1.3 線性方程式系統的應用
創意人 養成、訓練、與產業化 詹宏志 2003/03/05 什麼是創造力? 思考當中的兩種特質 流暢性 (Fluency) :面對問題或處境產生 方案數量的能力 彈性 (Flexibility) :面對問是或處境產生特 殊方案的能力.
什麼是肉毒桿菌?? 什麼是肉毒桿菌??? 英三 C 游凰儀. 一、認識肉毒桿菌 00001. 肉毒桿菌的種類 00002. 肉毒桿菌的研究.
Springer 期刊投稿指南 南昌 Springer 学术期刊投稿 一、选定一个合适的期刊 1 ,读者对象 /Audience ; 2 ,声誉 /Prestige Factor ; 3 ,关注点 /Focus ; 4 ,发行量 /Circulation 二、准备你的稿件.
第一組 行銷學原理 第二章 運動鞋廠商 主題報告 組員 A 黃仁澤 A 楊弘楷 A 徐崇峰 A 謝新謙 A 陳碩方.
平成20年度活動報告 - VL-CEReS - 西尾文彦(センター長 /VL支援室) 樋口篤志 (VL 支援室 / DB委員会)
第 4 章 分類法:基本概念、決策樹及模式的評估      © 2008 台灣培生教育出版 (Pearson Education Taiwan)
中部国際空港の建設によって生じた海洋環 境変化について C08046 村田世那 C08047 山口大知 C08048 山崎貴文 C08049 山田 豊 C08050 山中大智.
第七章操作系统的安全与保护 电子信息学院 2010 年 9 月. 第七章 操作系统的安全与保护 7.1 安全性概述 7.2 安全策略 7.3 安全模型 7.4 安全机制 7.5 安全操作系统设计和开发 7.6 Linux 安全机制 7.7 Windows 2003 安全机制.
DNA 序列测定 末端终止法 -- 待测单链 DNA 模板 引物 四种 dNTP( 其中一种用 32 P/ 35 S 标记 ) 终止剂 (ddNTP) DNA 聚合酶 Sanger 发明:两次获得诺贝尔奖 分别得到 ddA ddT ddG ddC 结尾的片段.
第13章 檔案與資料庫.
图书馆利用指南图书馆利用指南 宜 春 学 院 图 书 馆 2009 年 5 月 欢迎同学们走进图书馆,走进知识的海洋, 让图书馆真正成为你们学习的第二课堂和良 师益友! 为了帮助同学们认识图书馆,学会利用图书 馆,特编写了本课件,供同学们参考学习。
荒居博之(筑波大学生命環境科学研究科) Arai H, Fukushima T, Komatsu K (in press) Japanese Journal of Limnology: DOI /s 地球研 FS 勉強会.
CO 2 的存在对酸碱滴定准确度 的影响 陈章超 在酸碱滴定中, CO 2 的存在对滴定准确度 的影响有时很小,可以忽略,但有时很大, 不能忽略。而对影响程度取决定作用的因素 一是滴定体系中 CO 2 存在的总量,二是滴定终 点时溶液的 PH 值。
1/22 横山 央明 (東京大地球惑星) 地球関連学会合同大会 幕張 太陽フレアと宇宙天気 共同研究: 簑島敬・三谷夏子・能登谷瞬(東京大地球惑星)・ 草野完也(地球シミュレータセンター)・真栄城朝 弘(広島大)・桜井隆(国立天文台)・山本哲也・ (東京大天文)・増田智・佐藤淳(
急性呼吸衰竭动物模 型的复制及机制探讨. 外呼吸功能严重障碍 →PaO 2 ↓ 或伴有 PaCO 2 ↑ 的病理过程 1) type I (hypoxemic RF) : PaO 2
什麼是組織行為 管理者的工作內容 進入組織行為 以系統化研究代替直覺判斷 與OB相關的重要學科 OB中少有絕對的事物 OB中的挑戰與機會
高雄醫學大學 許敏桃教授 衛生署醫學倫理委員會委員 生命倫理學會理事
北海道大学大学院 理学院宇宙理学専攻 宇宙惑星グループ 修士 1 年 近藤 奨
Gibberellins 生科四 施彥廷.
实验五、茎的形态与结构 一、实验目的 1、了解芽的结构、茎的分枝方式和枝条的形态特征; 2、理解和掌握单双子叶植物茎的初生结构。
生命教育的理論與實務 主講人:長榮大學師資培育中心 蘇慶隆 主任.
Japansk Undervisning 日本語の授業 にほんごのじゅぎょう nihongo no jugyoo Torsdag d. 30
电子图书发展趋势 的思考 杨毅 清华大学图书馆 2008 年 6 月 2 日. 纸本图书发展中遇到的问题 经费有限 馆舍紧张 外文图书品种不足 教参书复本量不够 热门书的预约、催还量过大 图书的年代 “ 断档 ” 开馆时间限制 馆际互借不方便 读者使用不方便.
宋亚亭 误差计算 络合滴定的终点. 在 化学分析测试领域, 络合滴定法具有特殊的意义. 利用络合滴定法可以直接或间接测定大多数金属 元素. 在一般科技书籍中介绍络合滴定终点误差的 计算采用 PM 计算公式: 10 pM pM Et= (K’ MY C M SP ) 1/2.
心电图 Electrocardiogram
创新服务科技公司 CNKI 学术搜索介绍与演示 scholar.cnki.net —— 现中心免费提供使用 ( CNKI 中心网站直接进入均可)
1 中国发酵工业协会 尤 新教授 尤 新教授 低聚糖 低聚糖功能及安全性.
1 企业简介 2 闸阀 3 偏心半球阀 4 活塞式锥型阀4 活塞式锥型阀(减压阀,流量调节阀) 5 复合式排气阀 弥合水锤预防阀 5 复合式排气阀 弥合水锤预防阀 真空补气阀 真空补气阀 6 爆管关断阀 目 录目 录.
第五章 时间序列的预报. 本章目录 最佳线性预测的基本性质 最佳线性预测 Hilbert 空间中的投影 最佳预测.
调查小组组员: 冯雯吉 刘赟 严佳茵 杨悦 周一顺 朱立章 调查时间: 2010 年 11 月 11 日.
自动变速器 原理 与维修 2016年2月18日星期四 2016年2月18日星期四 2016年2月18日星期四 第一章 概述 主要内容 重 点 实践应用 作业习题 第六节 自动变速器型号 第一节 汽车自动变速器的发展及应用 第二节 汽车自动变速器的分类 第三节 汽车自动变速器的优缺点 第四节 汽车自动变速器的组成.
金属钴( Co )参与的光化学反应 ( 最近 30 年的进展) 任磊( ) 龚流柱课题组.
新疆财经学院图书馆. 主要内容: 一、图书馆的资源 二、图书馆的服务 及职能 三、图书馆主页介绍.
慢 性 胃 炎 (Chronic Gastritis) 邵逸夫医院消化科 戴宁. 二、慢性胃炎 (Chronic gastritis ) 慢性,胃任何部位 一般无粘膜糜烂 淋巴细胞和浆细胞浸润.
CNKI 数据库使用指南 上海应用技术学院图书馆 中 国 学 术 期 刊 网络出版总库 上海应用技术学院图书馆.
Datalogi Tutor gruppen spurgte om jeg ville holde et oplæg – og gav mig helt frie hænder. Tre muligheder var nærliggende: Introducerende foredrag over.
Exercices et Correction
הסט קיבה: הניתוח והשלכותיו
احتمالات الحوادث المتنافية احتمالات الحوادث المستقلة
זיהוי אינדיבידואלי של צבועים מפוספסים בעזרת ניתוח תצלומים ע"י תוכנת מחשב מנחה: פרופ' אלי גפן, המחלקה לזואולוגיה, אוניברסיטת תל אביב מנחה מלווה מטעם האוניברסיטה.
کنترل عفونت واستریلیزاسیون تهیه وتنظیم:محمدجوادمعتمدی
日本循環器病予防学会 CO I 開示 筆頭発表者名: ○○ ○○ 演題発表に関連し、開示すべきCO I 関係にある企業などはありません。
Præsentationens transcript:

京都大学化学研究所 バイオインフォマティクスセンター 阿久津研究室 タンパク質間相互作用予測システム 京都大学化学研究所 バイオインフォマティクスセンター 阿久津研究室 Thank you chairman. My name is Morihiro Hayashida. I am a Ph.D student of Kyoto university. Today, I am going to talk about Inferring strengths of protein-protein interactions from experimental data using linear programming.

タンパク質相互作用 タンパク質は他の物質(タンパク質を含む)と結合(相互作用)すると、その機能が変化する。 タンパク質の役割の例として次がある。 遺伝子からのタンパク質生成量の制御 化学反応の触媒 食物からエネルギーを取り出す.

タンパク質生成の制御 DNA DNA タンパク質 プロモータ領域に 付くことが出来ない. プロモータ領域 遺伝子 タンパク質相互作用 領域に付いて, 遺伝子からの タンパク質 生成を補助する. 遺伝子からの タンパク質 生成の制御 DNA プロモータ領域 遺伝子

化学反応の触媒 タンパク質 化学反応が起きない. タンパク質相互作用 酵素として, 化学反応を促進する. NH2 O O C C H H

タンパク質相互作用の予測 タンパク質 アミノ酸配列 特徴的な部分配列

InterPro ドメイン 特徴的な部分配列として、InterPro データベースに登録してあるドメインを使用する。 ドメイン ドメイン After that, a model has been proposed. It is based on domain-domain interactions. Proteins have some domains. This model uses these domains. In this model, we can not find which residues interact in a domain. But, this makes the model simple, and we can find interactions between known domains. These domains are defined by the databases like InterPro or Pfam. This shows the result of search for a protein in InterPro database. We see that this protein holds 2 kinds of domains, this one and this one. ドメイン

タンパク質相互作用の予測 相互作用する組. 相互作用しない組. ?

タンパク質相互作用の予測 相互作用する組. 相互作用しない組.

相互作用の確率モデル (1/2) モデル (Deng et al., 2002) 2つのタンパク質が相互作用する。 少なくとも1つのドメインのペアが相互作用する。 ドメイン間の相互作用は互いに独立とする。 D3 D1 Next, I explain a probabilistic model of interaction. This model was proposed by Deng et al. They used this model when they developed EM method. Our proposed method also uses this model. Proteins consist of some domains. 2 proteins interact if and only if at least 1 pair of domains interacts. And in order to keep the probability formula simple, we assume that the interactions between domains are independent events. This figure shows this model. Protein P1 consists of domain D1 and D2. And Protein P2 consists of domain D3, D2 and D4. Same domain can be held in some proteins. Now, we assume protein P1 and P2 interact each other. Then, among domain pairs D1 and D3, D1 and D2, and so on, at least, 1 pair need to interact. On the other hand, if these 2 proteins do not interact, any of domain pairs never interact. P1 P2 D2 D2 D4

相互作用の確率モデル (2/2) : タンパク質 Pi、Pj が相互作用する事象。 : ドメイン Dm、Dn が相互作用する事象。   : ドメインのペア (Dm ,Dn) が、タンパク質のペア PiX Pj に含まれる。

関連研究 入力: 出力: すべてのドメインのペアDm、Dnに対して、それらの相互作用の確率 Pr(Dmn=1)。 相互作用すると観測されたタンパク質のペアの集合(正例)。 相互作用しないと観測されたタンパク質のペアの集合(負例)。 出力: すべてのドメインのペアDm、Dnに対して、それらの相互作用の確率 Pr(Dmn=1)。

アソシエーション法 (Sprinzak et al., 2001) 相互作用するタンパク質ペアの割合より推定。 : ドメインペア (Dm, Dn) を含む、相互作用するタンパク質ペアの数。 : ドメインペア (Dm, Dn) を含むすべてのタンパク質ペアの数。 Next, I mention the related work. They inferred the probabilities of domain-domain interactions using ratios of frequencies. For each domain pair, they counted the number of protein pairs which hold the domain pair, and they use the percentage of interacting protein pairs in the total as the probability of the domain pair interacting.

EM 法 (Deng et al.,2002) 観測データ {Oij={0,1}} を上のモデルで得る確率(尤度 L)。 EM アルゴリズムを適用し、L を最大化することで、Pr(Dmn=1) を推定する。 EM method was developed using this probabilistic model. They considered the probability that experimental data Oij are observed like this. and they maximize this probability using EM algorithm. We omit the details.

Yeast 2 Hybrid 実験データ 既存の手法(アソシエーション、EM法)は、 2値データ(相互作用するかしないか)のみを使用。 実験によって異なる結果。 Ito et al. (2000, 2001) Uetz et al. (2001) 数値データを使う手法を開発。 There are 2 methods using domain-domain interactions, this one and this one. Both methods use binary data. Binary means which a protein pair interacts or not. Ito et al. and Uetz et al. have reported their experimental results respectively. But, the number of overlapping interacting protein pairs is too small. Therefore, we have realized that using raw data for inference is better than using binary data, and we have developed new methods using numerical data.

数値データ Ito et al. (2000,2001) 同じタンパク質のペアについて、何度も同じ実験が繰り返される。 IST (Interaction Sequence Tag) 多数回の実験のうち、相互作用が観測された数。 閾値で切ることで、2値データを得ることができる。 Ito et al. performed experiments for each protein pair multiple times, and observed the number of interactions. IST (Interaction Sequence Tag) means this number. This table shows some results, and this column shows the value of IST.

提案手法 線形計画法による解法。 EM 法を数値データにそのまま応用するのは困難。 2値データ 数値データ LPBN 組み合わせ法 SVM法 LPEM EMLP SVM法 数値データ ASNM LPNM It seems difficult to modify EM method for numerical data. Therefore, we use linear programming. Linear programming is easier to implement these problem than EM algorithm. And it is easy to add new constraints. First, we developed methods for binary data. From now, I explain these methods.

LPBN (1/2) 「相互作用する」ことの線形不等式への変換。 We developed new LP-based methods for binary data. We transform the conditions of protein-protein interactions into linear inequalities in order to obtain linear constraints. At first, we define that protein Pi and Pj interact as follows, we consider the threshold value Θ of proteins interacting. If the probability of proteins interacting is more than this value, they interact. we transpose the terms, and take the logarithm of both sides. And we replace the logarithms with variable γmn and β. Thus, we could obtain linear inequalities.

LPBN (2/2) LPBN 線形計画問題 Then, we obtain the following linear programming.

組み合わせ法 LPEM 法 EMLP 法 LPBN 法の結果を初期値として、EM 法を実行する。 EM 法の結果からあまりずれない範囲で LPBN 法の解を実行。LPBN 線形計画問題に以下の不等式制約を追加する。 I explain 2 combination methods, LPEM and EMLP. LPEM method carries out the EM method using the results of LPBN as its initial parameter values. EMLP constrains to LPBN with the following inequalities so that LP solutions are close to EM solutions. To be able to add constraints is a good point of linear programming. γEM is the result of EM. δ is a positive constant.

SVM 法 特徴ベクトル(タンパク質のペア) 線形カーネルを使う。 各要素はそれぞれドメインペアがあるかどうか。 テストデータ マージン Next, we consider the simple SVM-based method. We use feature vectors like this and simple linear kernel. マージン

タンパク質間相互作用の強度 同じタンパク質のペアについて、何度も同じ実験が繰り返される。 相互作用の強度ρij : タンパク質ペア (Pi,Pj) について、相互作用が観測された数の割合。 Kij : タンパク質ペア (Pi,Pj) について、相互作用が観測された数。 Mij : タンパク質ペア (Pi,Pj) に対する全実験回数。 We have considered about whether proteins interact or not. However, in fact, the same number of experiments for each protein pair under the same condition were performed. Then, we consider if the frequency of observed interactions is beyond a threshold, the protein pair interacts. Therefore, we consider the ratio ρij of the frequency to the number of experiments as strength. In this sense, we developed another linear programming.

LPNM (1/2) タンパク質ペアが相互作用する確率 Pr(Pij=1) と強度ρij の差を線形計画法を使い最小化する。 This linear programming minimizes the gap between the probabilities of domain-domain interaction and the ratio ρij. We transform the formula as before.

LPNM (2/2) LPNM 線形計画問題 Thus, we obtain this linear programming. αij means the value of the gap. Here, βij is a constant value from experimental data.

ASNM 2値データ用のアソシエーション法を数値データ用に修正。 2値データ(Sprinzak et al., 2001)では、 We also developed Association method for numerical data in order to compare the LPNM method.

2値データに対する計算機実験 DIP データベース (Xenarios et al., 2002) 計算機環境 タンパク質のペア 1767 個を正例として使用。 学習に 2/3 、テストに 1/3 を使用。 計算機環境 Xeon 2.8 GHz 線形計画問題の求解に使ったプログラム: loqo We conducted computational experiments to verify the proposed methods. We used DIP database like this. and the computational environment is in the screen.

学習データについての結果(2値データ) EM Association LPBN SVM This is the result on training data. This shows ROC graph, It shows that larger the left-down area of the curve is, better the method is. It is seen from this figure that EM method is better than other methods.

テストデータについての結果(2値データ) EM EMLP LPEM SVM Association This is the result on test data set. It is seen from this figure that EMLP is slightly better than EM method.

数値データに対する計算機実験 YIP データベース (Ito et al., 2001, 2002) 計算機環境 IST (Interaction Sequence Tag) タンパク質のペア数:1586 学習に 4/5 、テストに 1/5 を使用。 計算機環境 Xeon 2.8 GHz 線形計画問題の解法器: lp_solve We also conducted computational experiments for numerical data. we used YIP database. I introduced a part of this data set on a previous slide. Computational environment is in the screen.

テストデータについての結果(数値データ) ASNM LPNM EM Association This is the result on test data set. This figure represents the distributions of the errors between experimental data and predicted probabilities. The errors of LPNM and ASNM concentrated around 0. But this figure shows LPNM was better. That is, LPNM minimizes the errors successfully.

テストデータについての結果(数値データ) LPNM 法で最良の結果。 EM 法、アソシエーション法は Pr(Pij=1) を 0か1に分類しようとする。 LPNM ASNM EM ASSOC 平均誤差 0.0308 0.0405 0.295 0.277 CPU 時間(秒) 1.20 0.0077 1.62 0.0088 This result is also on the test data. We calculated the averages of the errors. LPNM is better than ASNM, and much better than EM and Association methods. These results are reasonable because EM and Association methods classify the probabilities of proteins interacting into either 0 or 1.

理論的成果 問題 完全に分離できるなら多項式時間。 完全に分離できない場合はNP困難。 良い近似を得ることも困難(MAXSNP困難)。 「正例のうち、              を満たす  の個数+  負例のうち、               を満たす  の個数」を最大化。 完全に分離できるなら多項式時間。 完全に分離できない場合はNP困難。 良い近似を得ることも困難(MAXSNP困難)。

まとめ タンパク質ペア間の強度を予測する問題を提案し、線形計画法による解法を開発した。 提案手法 2値データ 数値データ LPBN, LPEM, EMLP SVM法 数値データ ASNM LPNM LPNM で良好な結果を得た。 I summarize our study. We defined new problem to infer strengths of protein-protein interactions And, we proposed LP-based methods for inference of protein-protein interactions. LPNM outperformed existing methods.

タンパク質間相互作用予測システム ドメイン間相互作用の確率 Pr(Dmn=1) を上の各手法を使って推定。

タンパク質名 (swissprot データベース) タンパク質に含まれるドメイン名 (InterPro データベース) タンパク質のアミノ酸配列 (FASTA 形式)

Flavocytochrome B2 (P00175)

P00175 との相互作用確率の 推定結果

大学院生募集(修士、博士) 京都大学大学院 情報学研究科 知能情報学専攻 バイオ情報ネットワーク分野 入試 2005年2月(博士) 2005年8月(修士、博士) 専攻のホームページ http://www.i.kyoto-u.ac.jp/~ist/index.html 研究室ホームページ http://www.bic.kyoto-u.ac.jp/takutsu/index_J.html 研究室の見学を随時受付けています。 E-mail : takutsu@kuicr.kyoto-u.ac.jp