卡内基·梅隆大学(Carnegie Mellon University)

是一所位于美国宾夕法尼亚州匹兹堡的研究型私立大学。 在2018年泰晤士高等教育世界大学排行榜中,卡内基梅隆大学排名世界第20位,在同一机构的学科排名中,学校的计算机科学排名世界第六位,工程和技术排名第十二位,商学和经济学排名第十五位。在USNews发布的排行榜中,学校排名全美第25位,其中计算机科学排名全美第一位。学校拥有世界顶尖的机器人学和戏剧学项目,以及全世界建立最早的计算机学院之一。 卡内基梅隆大学拥有来自全世界114个国家的13,650名学生,超过5,000名教职人员和超过100,000名的校友。历史上,学校的教员和校友中共有20人获得诺贝尔奖,12人获得图灵奖,22人获评美国艺术与科学院院士,19人进入美国科学促进会,72人入选美国国家学院,7人获得奥斯卡金像奖,44人获得托尼奖,114人获得艾美奖。

卡内基梅隆大学-机器学习科研

一、课题方向

深度学习

Deep Learning

机器学习

Machine Learning

高维数据,统计

High Dimensional Data, Statistics

计算金融

Computing Finance

 

二、导师简介

卡内基梅隆大学机器学习学院

计算机科学与计算生物学系

计算机科学学院的教授

 

三、科研内容参考

(一)关键词: 深度学习理论/方法, 高级机器学习

学生群体:

想要在 ICML/NIPS/ICLR发表论文的同学. 学生必须有非常强的编程背景,较好的数学能力,和深厚的机器学习功底,最好对于统计,线性代数,优化,以及脑神经科学也有所了解。

简介:

卡耐基梅隆并不是一个随随便便被别人的研究方向影响然后做一点小小的提高的地方,我们更感兴趣的是提出引领世界的想法,并且把这些想法高质量的实现出来。比如说,把一些著名的深度学习模型,如 CNN/LSTM/GAN, 变得更好只能算是二流的科研,我们感兴趣的是如何彻底的取代 CNN/LSTM/GAN.

大概的方向包括:

●  研究人脑如何处理语言文字信息,并且试图基于生物模型提出新的统计模型取代LSTM

●  研究高级优化方法,并取代 SGD

●  从线性模型空间衍生出来的其他深度学习模型. (这个方向所能造成的影响可能不如前两个, 但是依然足以在ICML/NIPS/ICLR发表论文了。)

 

(二)关键词: 深度学习, 机器学习, CNN, GAN

学生群体:

有较好的编程能力和对深度学习有一定理解的同学。最好是接触过 TensorFlow 或者 PyTorch的同学. 这个项目在有将来创业想法的同学中非常受欢迎.

简介:

深度学习是近期最热的话题之一了。由于其无可比拟的表征能力,人们将深度学习应用在了各种各样的问题中。我们仍然有很多机会最初很有趣的项目来。这个项目非常适合那些想要了解深度学习并且想要使用深度学习解决问题的同学。

一些曾经的例子包括:

●  多模态情感分析

●  医疗图像分析

●  人类基因组研究

在未来,这个项目将会重点关注基因组研究领域。项目的核心是希望同学们能够练习使用深度学习解决当前最复杂的问题 ,该项目并不要求同学们掌握生物学知识。

 

(三)关键词:统计, 模型选择, lasso, confounder correction, 线性混合模型, 高维数据, 生物统计

学生群体:

有扎实统计学背景的同学. 统计专业的同学.

简介:

这个大数据的时代见证了数据量的高速增长。在同数据量高速增长的同时, 每一个数据点所带来 的信息增长的更加迅速, 从而带来了一个高维数据的世界。 在机器学习和统计学领域,我们通常将数 据特征比数据点更多的情况称之为高维数据. 不难理解,在高维数据中我们没有足够的数据来研究这届 特征。从统计学的角度上讲,很多相关的问题时下并没有解法,在这些问题上的任何一点进步都有可 能影响世界。这个项目鼓励同学们去研究相关的充满挑战性的问题。

我们准备了一些新颖的问题共同学们解决,但是细节不便透露。

这里罗列一些在我们这里已经解决的问题以便参考:

●  Lasso is known with inconsistentand unstable problems, therefore, variable selection usually turns out to be underperform than expected. There are a few solutions proposed to rescue these problems, like Adaptive Lasso, Elastic Net, Precision Lasso, but these are not satisfying enough.

●  Another challenge is about heterogeneous data: modern data sets are barely collected with a consistent setting, resulting the data come from twisted distributions. This heterogenous property raises challenges for reliable variable selection, and some attempt solutions are based on linear mixed model . Some extensions are proposed as follow-ups [8], but there are a lot of chances to extend this work.

 

(四)关键词: 经典机器学习应用: 计算金融 & 计算生物学

(五)关键词: 基因组研究数据的可视化问题

(六)关键词: 设计并实现EIR项目的网络平台

向上