第 4 章 分類法:基本概念、決策樹及模式的評估      © 2008 台灣培生教育出版 (Pearson Education Taiwan)

Slides:



Advertisements
Lignende præsentationer
Rejsekort AS Sonic Interface 3 NEW ERROR SIGNAL DNgroup Aarhus 2013 august 28.
Advertisements

© Isabelle Verhaeghen 李珺
NIRAS A/S Hovedkontor i Danmark og datterselskaber/kontorer i 14 lande
Sygdomme. Indre organer/ 人体器官 HjernenBrain 大脑 Da4 nao3 LeverenLiver 肝 Gan1 NyrerKidneys 肾 Shen4 LungerLungs 肺 Fei4 Luftrørettrachea 气管 Qi4 guan3 spiserøretEsophagus.
Kina – Det store billede
Tid og sted ordstilling.
Spørgsmål. A Åbne spørgsmål som besvares med ja/nej som svar 1/3 Er du dansker? N ǐ shì Dānmàirén ma? 你是丹麦人吗? eller N ǐ shì bu shì Dānmàirén? 你是不是丹麦人?
Fejl  Afleveringen  Stikprøvestørrelse  Type I-II Fejl  Styrkefunktionen.
Dansk-Kinesisk Frivilligt Netværk DKFNs Månefestival 丹中志愿者协会中秋晚会.
Nye (nye) religioner TemaKarakteristika Tid”Nye”, 3 faser StedBy; urbanisering MålgruppeLægorienteret, ungdom, høj uddannelse InstitutionHierarki/demokrati,
Overskrift her Navn på oplægsholder Navn på KU- enhed For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”.
Tid og sted ordstilling ___________________________________ © Isabelle Verhaeghen 李珺.
Communities – videndeling mellem brugere Janne Pamsgaard, Head of Depatment, e-Education.
eller hvor man føjer elementer til grundsætninger
Database Some walk through. Database Design – Begreber 1 Database: En fælles samling af logiske relaterede data (informationer) DBMS (database management.
1 第三节 肽 一、肽的结构 二、生物活性肽. 2 肽 肽是氨基酸的线性聚合物。 肽的获得 氨基酸缩合而形成 蛋白质水解产生.
社會變遷 侯東成講授. 基本認識 進步、進化、變遷、發展 工業化、現代化、西化、美國化 冷戰秩序與文明衝突 人類有未來嗎?
幼兒行為觀察與記錄 第十二章 檢核表法.
第十二章 危机沟通. 主要内容 一危机的界定 二企业危机的类型 三危机的预防 四危机沟通 五危机管理过程.
複雑地表面上の大気境界層にお ける乱流と物質輸送: 観測とモデルの融合研究へ 竹見哲也 京都大学防災研究所 ドップラーライダーによる宇宙からの風観測に関する講演会 東京大学本郷キャンパス理学部小柴ホール, 2011 年 9 月 30 日.
第二組 指導老師:黃三益教授 組 員:余宗勳 黃友莉 有間書店租書系統. 功能需求 書籍租借 新增、修改書籍功能 新增、修改會員功能 提供預約書籍功能 統計書籍資料 罰款計算 資料的顯示與利用.
まとめ. #DateClassLimb/DiskStart TimePeak(17GHz)End Time 12002/5/31M2.4limb0:0400:07:200: /7/20X3.3limb21:0421:28:0021: /7/23X4.3disk0:1800:30:300:47.
计算天文 陈鹏飞 P. F. Chen 电话: (办) 邮件: 主页:
英國如何讓學生樂在閱 讀? 天下雜誌教育基金會希望閱讀網站 =40288ab21ef36f62011f6ef b.
植物向光素的研究进展 学生:钱善勤 导师:王 忠 专业:植物学.
“新時代”食品行業需要的人才 味全公司 中央研究所 所長 鍾美玉
1 第六章 发热 第一节 概述 一、发热的概念 正常人:产热 = 散热 体温 37 ℃左右 昼夜波动< ±1 ℃ 发热( fever ):由于致热原的作用,使体温 调定点上移,而引起的调节性体温升高,当体温超 过正常值的 0.5 ℃时就称为发热。 Liebermeister 首先 提出 二、体温升高的分类.
第一章 细胞生理 (Cell Physiology)
Springer LINK 数据库. 德国施普林格 (Springer-Verlag) 是世界上著名的科 技出版集团, 通过 Springer LINK 系统提供学术资源的在线 服务。目前 Springer LINK 所提供的资源 ( 主要是期刊和图 书)达 3846 多万条,分为 13 个学科主题.
1.1 線性方程式系統簡介 1.2 高斯消去法與高斯-喬登消去法 1.3 線性方程式系統的應用
創意人 養成、訓練、與產業化 詹宏志 2003/03/05 什麼是創造力? 思考當中的兩種特質 流暢性 (Fluency) :面對問題或處境產生 方案數量的能力 彈性 (Flexibility) :面對問是或處境產生特 殊方案的能力.
什麼是肉毒桿菌?? 什麼是肉毒桿菌??? 英三 C 游凰儀. 一、認識肉毒桿菌 00001. 肉毒桿菌的種類 00002. 肉毒桿菌的研究.
Springer 期刊投稿指南 南昌 Springer 学术期刊投稿 一、选定一个合适的期刊 1 ,读者对象 /Audience ; 2 ,声誉 /Prestige Factor ; 3 ,关注点 /Focus ; 4 ,发行量 /Circulation 二、准备你的稿件.
第一組 行銷學原理 第二章 運動鞋廠商 主題報告 組員 A 黃仁澤 A 楊弘楷 A 徐崇峰 A 謝新謙 A 陳碩方.
京都大学化学研究所 バイオインフォマティクスセンター 阿久津研究室
平成20年度活動報告 - VL-CEReS - 西尾文彦(センター長 /VL支援室) 樋口篤志 (VL 支援室 / DB委員会)
中部国際空港の建設によって生じた海洋環 境変化について C08046 村田世那 C08047 山口大知 C08048 山崎貴文 C08049 山田 豊 C08050 山中大智.
第七章操作系统的安全与保护 电子信息学院 2010 年 9 月. 第七章 操作系统的安全与保护 7.1 安全性概述 7.2 安全策略 7.3 安全模型 7.4 安全机制 7.5 安全操作系统设计和开发 7.6 Linux 安全机制 7.7 Windows 2003 安全机制.
DNA 序列测定 末端终止法 -- 待测单链 DNA 模板 引物 四种 dNTP( 其中一种用 32 P/ 35 S 标记 ) 终止剂 (ddNTP) DNA 聚合酶 Sanger 发明:两次获得诺贝尔奖 分别得到 ddA ddT ddG ddC 结尾的片段.
第13章 檔案與資料庫.
图书馆利用指南图书馆利用指南 宜 春 学 院 图 书 馆 2009 年 5 月 欢迎同学们走进图书馆,走进知识的海洋, 让图书馆真正成为你们学习的第二课堂和良 师益友! 为了帮助同学们认识图书馆,学会利用图书 馆,特编写了本课件,供同学们参考学习。
荒居博之(筑波大学生命環境科学研究科) Arai H, Fukushima T, Komatsu K (in press) Japanese Journal of Limnology: DOI /s 地球研 FS 勉強会.
CO 2 的存在对酸碱滴定准确度 的影响 陈章超 在酸碱滴定中, CO 2 的存在对滴定准确度 的影响有时很小,可以忽略,但有时很大, 不能忽略。而对影响程度取决定作用的因素 一是滴定体系中 CO 2 存在的总量,二是滴定终 点时溶液的 PH 值。
1/22 横山 央明 (東京大地球惑星) 地球関連学会合同大会 幕張 太陽フレアと宇宙天気 共同研究: 簑島敬・三谷夏子・能登谷瞬(東京大地球惑星)・ 草野完也(地球シミュレータセンター)・真栄城朝 弘(広島大)・桜井隆(国立天文台)・山本哲也・ (東京大天文)・増田智・佐藤淳(
急性呼吸衰竭动物模 型的复制及机制探讨. 外呼吸功能严重障碍 →PaO 2 ↓ 或伴有 PaCO 2 ↑ 的病理过程 1) type I (hypoxemic RF) : PaO 2
什麼是組織行為 管理者的工作內容 進入組織行為 以系統化研究代替直覺判斷 與OB相關的重要學科 OB中少有絕對的事物 OB中的挑戰與機會
高雄醫學大學 許敏桃教授 衛生署醫學倫理委員會委員 生命倫理學會理事
北海道大学大学院 理学院宇宙理学専攻 宇宙惑星グループ 修士 1 年 近藤 奨
Gibberellins 生科四 施彥廷.
实验五、茎的形态与结构 一、实验目的 1、了解芽的结构、茎的分枝方式和枝条的形态特征; 2、理解和掌握单双子叶植物茎的初生结构。
生命教育的理論與實務 主講人:長榮大學師資培育中心 蘇慶隆 主任.
Japansk Undervisning 日本語の授業 にほんごのじゅぎょう nihongo no jugyoo Torsdag d. 30
电子图书发展趋势 的思考 杨毅 清华大学图书馆 2008 年 6 月 2 日. 纸本图书发展中遇到的问题 经费有限 馆舍紧张 外文图书品种不足 教参书复本量不够 热门书的预约、催还量过大 图书的年代 “ 断档 ” 开馆时间限制 馆际互借不方便 读者使用不方便.
宋亚亭 误差计算 络合滴定的终点. 在 化学分析测试领域, 络合滴定法具有特殊的意义. 利用络合滴定法可以直接或间接测定大多数金属 元素. 在一般科技书籍中介绍络合滴定终点误差的 计算采用 PM 计算公式: 10 pM pM Et= (K’ MY C M SP ) 1/2.
心电图 Electrocardiogram
创新服务科技公司 CNKI 学术搜索介绍与演示 scholar.cnki.net —— 现中心免费提供使用 ( CNKI 中心网站直接进入均可)
1 中国发酵工业协会 尤 新教授 尤 新教授 低聚糖 低聚糖功能及安全性.
1 企业简介 2 闸阀 3 偏心半球阀 4 活塞式锥型阀4 活塞式锥型阀(减压阀,流量调节阀) 5 复合式排气阀 弥合水锤预防阀 5 复合式排气阀 弥合水锤预防阀 真空补气阀 真空补气阀 6 爆管关断阀 目 录目 录.
第五章 时间序列的预报. 本章目录 最佳线性预测的基本性质 最佳线性预测 Hilbert 空间中的投影 最佳预测.
调查小组组员: 冯雯吉 刘赟 严佳茵 杨悦 周一顺 朱立章 调查时间: 2010 年 11 月 11 日.
自动变速器 原理 与维修 2016年2月18日星期四 2016年2月18日星期四 2016年2月18日星期四 第一章 概述 主要内容 重 点 实践应用 作业习题 第六节 自动变速器型号 第一节 汽车自动变速器的发展及应用 第二节 汽车自动变速器的分类 第三节 汽车自动变速器的优缺点 第四节 汽车自动变速器的组成.
金属钴( Co )参与的光化学反应 ( 最近 30 年的进展) 任磊( ) 龚流柱课题组.
新疆财经学院图书馆. 主要内容: 一、图书馆的资源 二、图书馆的服务 及职能 三、图书馆主页介绍.
慢 性 胃 炎 (Chronic Gastritis) 邵逸夫医院消化科 戴宁. 二、慢性胃炎 (Chronic gastritis ) 慢性,胃任何部位 一般无粘膜糜烂 淋巴细胞和浆细胞浸润.
CNKI 数据库使用指南 上海应用技术学院图书馆 中 国 学 术 期 刊 网络出版总库 上海应用技术学院图书馆.
Database Some walk through lv/ Figures & some text from: © Pearson Education Limited 1995,
Marie Falk Nyboe Leder af Studievejledningen og Karrierecentret
Angles and Their Measure
Bankkonto i Kina - muligheder og udfordringer
日本循環器病予防学会 CO I 開示 筆頭発表者名: ○○ ○○ 演題発表に関連し、開示すべきCO I 関係にある企業などはありません。
Præsentationens transcript:

第 4 章 分類法:基本概念、決策樹及模式的評估      © 2008 台灣培生教育出版 (Pearson Education Taiwan)

分類法:定義 目的是將一個物件指定至其中一個已預設的分類中 分類是指建立一個學習目標函數f,使得這個學習 函數可以藉由x屬性對應至y 的類別 適合預測二元分類或是名目分類的問題 具順序特性的類別其效果較差

分類技術 從輸入資料中建立分類模式的系統化方法 決策樹 類神經網路 支援向量機(support vector machines) 及單純貝氏(Naïve Bayes)

建立分類模式的做法 訓練資料是由一些已知類別標記的資料所組成 訓練資料主要是用來建立分類模式 用此模式來對未知類別標記的測試資料進行預測

決策樹 樹包含三個節點: 根節點:沒有任何進入 的邊,而且有0 個或是 輸出的邊 內部節點:每個節點都 有一個輸入的邊,以及 二個或多個輸出的邊 葉節點或是終端節點: 每個節點都有一個輸入 的邊,但沒有輸出的邊 決策樹範例 哺乳類動物分類的問題

如何建立決策樹 決策樹可從已知屬性集合中建構起來 採用貪婪策略(greedy strategy)建立決策樹 決策樹演算法:其中一種是Hunt’s 演算法,它是 一些現存方法的基礎,包含ID3、C4.5 及CART

Hunt’s 演算法 決策樹是用遞廻的方式不斷地將訓練資料分割至後 繼的子集合中 假設Dt 是與節點 t 的相關的訓練資料, 而y = {y1,y2,…,yc} 是類別標記 Hunt’s 演算法的遞迴定義 步驟1:如果在Dt 中的所有記錄都屬於相同類別yt,那 麼 t 就是一個葉節點,標記為yt 步驟2:如果Dt 包含一些屬於一個以上類別記錄時,則 會選取一個屬性測試條件作為測試節點,以便將資料分 割至較小的子集合中

Hunt’s 演算法 Hunt’s 演算法所產生的決策樹

屬性測試條件的表示方法(I) 二元屬性 名目屬性

屬性測試條件的表示方法(II) 順序屬性 連續性屬性

如何選擇最好的分割點(I) 在分割前後,由類別的分配情形來決定 圖 多元分割與二元分割

如何選擇最好的分割點(II) 不純程度( degree of impurity)的衡量 亂度= Gini索引值= 錯誤分類率=

二元屬性的分割

名目屬性的分割

連續屬性的分割

獲利率 利用獲利率的分割條件來決定分割的好壞 獲利率

決策樹演算法 演算法的輸入值為E,F為屬性集合 演算法將遞迴式的選取最好的分割屬性

範例:網頁機器人偵測 探討如何區分使用者以及網站機器人所存取的資訊 用決策樹偵測網站機器人 網站機器人的輸入資料

決策樹的特性 是用無母數來建立分類模式的方法 多用經驗法則在大量的假設空間中進行搜尋 資料量大時建構決策樹不難,且速度也不慢 較小的樹,解釋較為容易,樹的正確性可和其他 分類技術進行比較 提供一個學習離散值函數的表示方式

決策樹的特性 決策樹演算法可處理雜訊值問題,避免過度學習 重複的屬性並不會影響決策樹的正確性 資料分割的問題 子樹可在決策樹中重複多次 決策界限的問題 不純程度測量公式的選擇對決策樹分類結果影響 不大

決策界限 二維資料的決策樹及其決策界限

範例: 無法用單一屬性作為測試條件來進行資料分割

分類模式的錯誤 訓練錯誤:即重新帶入錯誤(resubstitution error )或是表面錯誤(apparent error),指訓練資料 被誤判的個數 過度學習(overfitting): 樹太大時,其測試錯 誤率就會開始增加 學習不足(underfitting):樹太小時,其模式 的訓練及測試的錯誤率會變得很大 推論錯誤:期望模式能夠推論至未見過資料的程度

範例:二維資料過度學習 ο:1200 筆資料, + :1800 筆 30%訓練資料,70%測試資料 訓練及測試錯誤率

過度學習 樹太大時,其測試錯誤率就會開始增加 雜訊值對過度學習的影響 缺乏代表性的樣本對過度學習的影響 過度學習vs.多重比較法 避免的方法 預先修剪(preprunning):可用在發展決策樹 的過程中,一方面可完全學習訓練資料,一方 面可避免在過度學習的情形下先停止學習 事後修剪(post-pruning):其決策樹可以任意 發展,待決策樹建立完成後,再將不必要或多 餘的分支修剪掉

推論錯誤的估計 使用重新帶入估計 加上模式複雜度 Occam’s Razor:在兩個相同推論錯誤率的模 式下,愈簡單的模式愈好 估計統計的界限 使用驗證資料

加上模式複雜度 悲觀錯誤率的估計:考量訓練錯誤的總和,以及將 模式複雜度的懲罰值作為推論錯誤率的計算項目 例如n(t) 是節點t 的訓練資料個數,而e(t)是誤判的 個數,用悲觀法來估計決策樹T,其eg(T) 計算如 下:

加上模式複雜度 最小描述長度原則:以資訊理論為主的最小描述長度原則 (minimum description length principle,MDL princile)

分類技術的評估 保持(holdout)方法:在保持(holdout)方法 中,原始的資料將被分成二個部分,稱為訓練集 與測試集,而分類模式之後會從訓練資料中形成 ,然後再用測試資料來進行評估 隨機次抽樣(subsampling): holdout 方法可 以重複多次,以改善分類技術效果的估計 交叉驗證(cross-validation):資料的訓練次數 是相同的,取一半資料來訓練,剩下做為測試資 料,然後二個資料的角色互換 重抽法(bootstrap):其訓練資料是要放回的, 也就是再次抽樣的機率是相同的

範例4.4 假設其模式在評估100 筆測試資料後,得到80%正 確性,在95%信心水準下,其正確性的信賴區間為 何?95%信心水準相當於 將此項放入公式 將產生介於71.1%-86.7%的信賴區間,下表是N 筆料下的信賴區間 注意:當N 增加時,其信賴區間的寬度變得較小

範例4.5 假設MA 的錯誤率e1 = 0.15,其測試資枓N1 = 30 ;MB 的錯誤率e2= 0.25,其測試資料N2 = 5000 ,兩者錯誤率的差為d = |0.15-0.25| = 0.1 用雙尾檢定是否dt = 0 或是不等於0,其變異數的 估計如下: ,帶入 ,將可以得在95%信 心水準下dt 的信賴區間 其區間的寬度為0,其在95%信心水準下,兩者是 無顯著差異

範例4.6 假設兩個分類技術的模式正確性之估計差的平均數 為0.05,標準差為0.002,如果是用30 次交叉驗證 法來估計正確性,那麼在95%信心水準下,其正確 性的差為: 因為其信賴區間的寬度不為0,所以其差異是達統 計上的顯著水準