小孔成像

Matlab中分层聚类

一般分层聚类分为以下几步:

分步聚类:(1)用pdist函数计算样本之间的距离,确定两两样本之间的距离或相似性(这个和选择的计算pdist的方法有关系);(2)用linkage函数定义之间的连接;(3)用cophenet函数评价聚类效果;(4)用cluster函数进行聚类。

# clusterdata 一个可完整实现聚类算法的函数,是以下pdist、linkage和cluster函数的综合。

# pdist 计算样本点之间的距离,一般在计算距离之前用zscore函数对数据做标准化;

(另外,可以用squareform对pdist得到的距离用距离矩阵的形式呈现)

% Y = pdist(X);

# linkage 以pdist的距离为输入,根据两两对象之间的距离进行聚类,输出为两两节点连接的顺序和他们之间的距离;

% Z = linkage(Y);

# dendrogram 绘制linkage得到的聚类树,倒U型的高度代表对象间的距离

% dendrogram(Z);

# cophenet 验证距离树的合理性,即对比cohpenetic距离与pdist函数计算的原始数据的距离之间的相关性,当然,相关值越接近于1说明聚类效果越好

% c = cophenet(Z, Y)

# inconsistent 列出聚类树中各连接的不一致系数,这个值通过比较连接的高度和其下层连接的平均高度来计算,因此对于两个明显区别聚类的连接,其不一致系数较高。

% I = inconsistent(Z)

# cluster 设定阈限(不一致性次数的阈值或最大cluster的个数),对原始数据进行聚类

% T = cluster(Z, ‘cutoff’, 1)

 

下面是一个例子:

采用猫的脑区连接信息。

image

根据连接pattern对脑区进行聚类,代码如下:

 

catmatfile = './toolbox/BCT/cat.mat';
catmat = load(catmatfile);
X = (catmat.CIJctx' + catmat.CIJctx)/2; % 只是为了把原始的连接矩阵搞成对称的
Y = pdist(X, 'cityblock');
Z = linkage(Y);
c = cophenet(Z, Y);
% c = 0.7254 in this analysis
dendrogram(Z, 'LABELS', catmat.Names);

image

 

根据上面计算cophenetic系数为0.7254,结果不是很烂;

从聚类树上看,某些脑区可以根据其相似的连接pattern聚为相应的几类。

MICCAI小结

MICCAI 2013已经结束快两周了,做个小结继续上路。

此次参会印象最深刻,也是最受刺激的就是,某研究组对博士的要求是累积IF30分,这是何等的效率。由此引发了一些反思:

1. 提高效率,这是最关键的;(效率)

2. 一段时间内按住一个项目来做,尽量减少并行的项目,尤其是相对独立的项目;(专一)

3. 关于自己的数据要有一定的主见,见好收手,不要跟数据死磕,挖掘数据确实是一件让人快乐的事情,但是也会乐极生悲;(适可而止)

4. 在一些不可控的约束之外,提高自己可控阶段的效率;(还是效率)

5. 还有一个蛮重要的点,就是前后研究最好有一定的关联性,远了说使自己的研究有延续性,近了讲可以大大缩短读文献写文章的时间;(持续性)

6. 可控阶段完成,等待见光的那一天… (耐心和理解)

另外,果然隔行如隔山,一些我们觉得新名词,新概念,却已经在医学影像处理领域用的很广泛,比如multi-atlas, supervoxel/pixel, patch-based等。

而且这个领域应用新概念新方法也确实迅速,Deep Learning被应用到各种文章中,虽然大多只是数据处理的一小部分,但毕竟跟上了潮流。

另外,在被试分类或预测临床或行为指标方面,确实有几个新的multi-modal融合的好点子值得借鉴,接下来的时间好好搞搞multi-modal融合做个体差异的预测。

 

好了,最后扯点闲篇。

这次出行在名古屋呆了5天,经京都去乘飞机回国,在京都逗留1天。

对这两个城市的印象是,都是小城,人有礼貌,街道和天空都很干净;名古屋人很少,京都就不一样,在景点人还是很多的,而且很多中国人。。。

日本的汉字真多!

传几张照片。睡觉。

047148280

endophenotype一词的使用

这是在一篇文章评审过程中,从reviewer那儿学来一个词。就学着用到了修改后的manuscript中,可是另一个reviewer不买账了,这才查了这个词到底有多神秘。

Wiki上关于endophenotype的定义,“Endophenotype is a genetic epidemiology term which is used to parse behavioral symptoms into more stable phenotypes with a clear genetic connection.”

似乎有严格的定义,一要稳定,而要有明确的遗传效应。

当然,wiki也提及了可能用来替代endophenotype的词,“Some other terms which have a similar meaning but do not stress the genetic connection as highly are "intermediate phenotype", "biological marker", "subclinical trait", "vulnerability marker", and "cognitive marker".”

看来还是大家常用的biological marker或者subclinical trait相对妥当,除非真的把遗传效应说明白了。