课程

主要的需求

下面是一个列表数据科学专业必修课和选修课。这个选修课列表不是详尽的,许多其他课程在计算机科学和数学/统计课程或者可能其他部门可以适当的替代品。我们强烈鼓励学生和项目董事谈谈自己的兴趣和学习目标,以选择最相关的课程。

  • 六(6)基础课程。请参阅下面的课程描述。
  • 三(3)选修课,包括至少一个从统计和至少一个计算机科学。请参阅下面的课程描述。
  • 三(3)选修课的浓度,包括至少一个200或300年的水平。浓度可能包括但不限于数字人文、社会公正、数据新闻、经济、教育、全球生态学、分子生物信息学、心理学、数学/统计理论和计算机科学/工程数据。
  • 学生也将完成一个经验顶点数据科学主要的一部分。顶石必须批准的程序董事和可能包括:论文或其他独立项目;定量分析研究所实习;一个研究助理职务;或另一个实习或数据咨询经验或校外,学期期间,wintersession或夏天。鼓励学生展示他们的工作的一次会议上或海报会议。
荣誉:学生可以获得荣誉写论文,如果她在主要课程平均绩点100 -水平符合学校的要求。看到学术的区别。
我们希望数据科学感兴趣的学生也看一下以下信息文档:

2021 - 2022年主要课程

秋天 春天 不同年
包钢198:应用统计学和数据科学生物学
提供在春天
CS 111:介绍编程
提出了在秋天
提供在春天
CS 230:数据结构
提出了在秋天
提供在春天
CS 232:人工智能
提供在春天
提供备用年
CS 234:数据、分析和可视化
提出了在秋天
提供备用年
CS 304:数据库和Web接口
提出了在秋天
提供在春天
CS 313:计算生物学
提供在春天
CS 315:数据和文本挖掘的网络
提供在春天
CS 350:机器学习
提出了在秋天
103年经济学:介绍概率和统计方法
提出了在秋天
提供在春天
203年经济学:计量经济学
提出了在秋天
提供在春天
205年数学:多变量微积分
提出了在秋天
提供在春天
数学206:线性代数
提出了在秋天
提供在春天
波尔299年在政治科学研究方法的介绍
提出了在秋天
提供在春天
205年心理学统计
提出了在秋天
提供在春天
220年数学/统计220:概率
提出了在秋天
160年统计:统计基础知识
提出了在秋天
统计218:介绍性的统计和数据分析
提出了在秋天
提供在春天
221年统计:统计推断
提供在春天
提供备用年
228年统计:多元数据分析
提供在春天
统计/ QR 260:应用数据分析
提出了在秋天
统计309:因果推论
提供备用年
318年统计:回归和统计模型
提出了在秋天

基础课程

介绍统计
任何一个
  • 统计160
  • 统计218
  • 包钢198
  • 经济103
  • 波尔299年
  • 心理学105(以前称为205)
  • SOC 190

请参阅下面的课程描述。

统计建模

QR / STAT 260统计318

(学生建模课程和计数作为选修第二。)

请参阅下面的课程描述。

CS 111:介绍编程
介绍了通过计算机编程来解决问题。学生学习如何阅读、修改设计、调试和测试算法,解决问题。编程概念包括控制结构、数据结构、抽象、递归、模块化和面向对象的设计。学生探索这些概念涉及图形交互程序的上下文中使用Python编程语言和用户界面。学生被要求参加一个额外每周两小时的实验部分。
先决条件(s):实现组件的定量推理的基本技能要求。没有之前的背景与电脑的预期。
典型的时间提供:春天;秋天
CS 230:数据结构
介绍技术和组织大型程序的构建块。主题包括:模块、抽象数据类型、递归算法的效率,以及使用和实施标准的数据结构和算法,如列表、树、图、栈、队列、优先级队列、表、排序和搜索。学生熟悉这些概念通过每周使用Java编程语言编程任务。学生被要求参加一个额外每周两小时的实验部分。
先决条件:CS 111或许可的讲师。
典型的时间提供:春天;秋天
205年数学:多变量微积分
最真实的系统,一个可能需要模型,无论是在自然科学或社会科学,有很多相互依赖的参数。微积分应用于这些系统,我们需要变量微积分的思想和技术扩展到多个变量的函数。主题包括向量、矩阵、行列式、极地、圆柱、球坐标,曲线,偏导数,梯度和方向导数,拉格朗日乘数法、多重积分、向量微积分:线积分、曲面积分、散度、旋度,格林公式,散度定理,Stokes定理。
先决条件(s):数学116,数学120,或者是等价的。不向学生开放期刊216年完成。
典型的时期提供:春天;秋天
数学206:线性代数
线性代数是一种最美丽的学科本科数学课程。它也与许多可能的应用程序最重要的一个。在本课程中,学生学习的计算技术,已广泛应用于自然科学和社会科学以及工业、金融和管理。还有一个重点学习如何理解和写数学证明和强调改善数学风格和复杂。主题包括向量空间、子空间线性独立、基地、维度、内部产品,线性变换,矩阵表示,范围和零空间,逆特征值。
先决条件:数学205或215;或者,老师的许可,数学116,数学120,相当于。
典型的时期提供:春天;秋天

介绍统计

统计160年统计数据的基础
介绍统计的基本思想和方法分析数据。主题包括描述性统计、推理和假设检验。本课程介绍从统计学家和数学家的角度来看,统计概念与概念说明了模拟。学生将使用数据分析与统计软件r为学生设计计划继续研究统计数据和/或统计方法应用于未来的科学或在其他领域工作。课程都可以访问那些没有微积分。
先决条件:QR基本技能。不向学生开放已经或正在数学205,数学101 / 101年统计,218年统计,统计220年经济103 / SOC 190心理学105(以前称为205),198年包钢,波尔299年,180年QR QR 260 / 260年统计,统计318或QAI夏季课程。
典型的时期提供:春天
统计218介绍性的统计和数据分析
这是微积分的统计入门课程。主题包括数据收集、数据可视化、描述性统计,线性回归,抽样计划,设计实验中,概率,随机变量(离散和连续的情况下),正常模型,统计测试和推理(如一个示例和两个示例z-tests t,卡方检验,等等)。统计语言R将使用整个过程实现数据可视化,线性回归,模拟和统计测试和推理。
先决条件:数学205。不向学生开放已经或正在统计101,数学101 z / STAT 101 z,经济学190年103 / SOC,波尔199年,或心理学105(以前称为205),或260年统计/ QR 260。
典型的时期提供:春天;秋天

包钢198生物科学的统计特性
本课程结合了统计理论和实际应用,后者利用生态学和实验生物学的例子来说明的一些比较常见的实验设计和数据分析的技术。学生将学习如何计划一个实验,考虑到观察,测量,和潜在的统计测试前数据进行收集和分析。其他主题包括图形表示的数据,概率分布和他们的应用程序,一个双向方差分析和t,回归和相关性,拟合优度检验和非参数的选择。学生也学会使用计算机统计软件。
先决条件:实现组件的定量推理的基本技能要求和一个在生物学、化学、环境科学。
典型的时期提供:春天

经济103介绍概率和统计方法
介绍的收集、分析、解释和表示的定量数据,用于理解经济学和社会学问题。使用的例子来自这些领域,本课程着重于在概率论与数理统计的基本概念,如集中趋势测量和色散,假设检验和参数估计。数据分析练习都来自学术和日常应用。
先决条件:经济101、经济102或一门社会学与基本技能组件的实现定量推理的要求。不向学生开放已经或正在统计218年或105年心理学(或数学220年或2018年春季之前)。
典型的时期提供:春天;秋天

波尔299年在政治科学研究方法的介绍
介绍在政治科学的过程进行研究。学生将开发一种直觉针对问题进行研究在社会科学中,获得特定的洞察方法论工具受雇于政治科学家的范围。在本课程中,学生将设计和分析研究问题,制定和测试假设关于政治,评估技术来测量政治现象,和评估的实证分析和解释方法。本课程特别注重定量分析和学生将获得流利的统计软件。课程进行实证研究提供了基础和强烈建议学生独立研究感兴趣,高级荣誉论文,和/或研究生院。
先决条件:政治科学课程之一。实现组件的定量推理的基本技能要求。不向学生开放已经或正在波尔199,数学101,数学101 z,经济学190年103 / SOC, QR 180,或心理学105(以前称为205)。
典型的时期提供:秋天

SOC 190介绍概率和统计方法
介绍的收集、分析、解释和表示的定量数据,用于理解经济学和社会学问题。使用的例子来自这些领域,本课程着重于在概率论与数理统计的基本概念,如集中趋势测量和色散,假设检验和参数估计。数据分析练习都来自学术和日常应用。
先决条件:经济101、经济102或一门社会学与基本技能组件的实现定量推理的要求。不向学生开放已经或正在统计218年或205年心理学(或数学220年或2018年春季之前)。
典型的时期提供:春天;秋天

105年心理学统计(以前叫做心理学205)
统计技术的应用心理的分析,实验和调查数据。主要强调数据的理解发表的研究,发现学生的准备自己的研究在更高级的课程。

先决条件(s):101或100年神经心理学或心理AP考试5分,5分,6或7在更高层面上IB考试,或老师的许可。实现组件的定量推理的基本技能要求。不向学生开放已经或正在经济103 / 190年SOC,波尔299年或160 STAT除了心理学专业和神经科学专业. .

典型的时期提供:春天,秋天

101年统计推理数据:基本应用统计(不再提供)
注意:本课程不再是作为2020年秋季。
介绍统计的基本思想和方法分析数据。主题包括描述性统计、基本概率推理和假设检验。强调理解统计数据的使用和滥用在各种领域,包括医学、物理和社会科学。本课程的目的是成为访问这些学生没有微积分。
先决条件(s):实现组件的定量推理的基本技能要求。不向学生开放数学205年完成;这些学生应该考虑统计218。不向学生开放已经或正在数学101 z / STA 101 z,波尔199年,180年QR经济103 / SOC 190,或心理学105(以前称为205)。
典型的时期提供:春天;秋天

QR 180统计分析教育问题(不再提供)
注意:本课程不再是作为2020年秋季。
什么因素解释学生成绩的个人和群体差异测试成绩和受教育程度?做不公平现象在融资公立小学和中学的学生成绩和未来就业?Th课程探讨理论,统计方法和数据使用的社会科学家和教育研究者在探究这些和其他教育问题。学生收集、分析、解释和定量数据。他们开始与描述性统计和推论统计工作,包括假设检验和回归分析。
先决条件:实现组件的定量推理的基本技能要求。不向学生开放已经或正在经济103 / SOC 190,数学101,数学101 z,波尔199年,或心理学105(以前称为205)。

统计建模

QR / STAT 260:应用数据分析和统计推断
这是一个中间统计课程集中在统计推断原理和应用数据分析工具。强调思维统计、评估假设和发展技能的实际应用领域如医学、政治、教育和超越。主题包括t和非参数选择、多比较,方差分析,线性回归模型细化,丢失的数据,和因果推论。学生可以期望获得R统计软件的应用知识,将用于数据分析和模拟旨在加强概念的理解。这门课程,通过韦尔斯利提供定量分析研究所可以算作一个200级课程专业或辅修数学、统计学、经济学、环境学、心理学和神经科学。学生获得定量分析研究所证书不适合这门课程。
先决条件:任何定量推理覆盖。经济学学生的先决条件——经济103。205年心理学学生的先决条件——心理学。
典型的时期提供:秋天

318年统计:回归分析和统计模型
这是一个应用回归分析课程涉及到实际的数据分析。在学期主题包括简单和多元线性回归模型,模型诊断方法和补救措施,矩阵表示的线性回归模型,模型比较和选择,广义线性回归模型(如二进制逻辑回归、多项式回归、有序逻辑回归,和泊松回归),和基本的时间序列自回归AR (p)模型。统计语言R将使用整个过程实现拟合线性或广义线性回归模型,模型诊断方法,模型比较和选择,并模拟。
先决条件:218年统计,数学205,数学206。(218年统计可以更换101年统计,103年经济或统计260年。)

CS选修课

CS 232:人工智能
什么是人工智能(AI)和人类应该害怕它作为一个“我们最大的生存威胁”呢?在本课程中,我们将应对这些困难的问题,他们以不同的方式进行调查。我们将遵循人工智能的历史从阿兰·图灵的“机器能思考吗?”的论文最近Elon Musk沉思在艾未未的对人类的威胁。我们将讨论潜在的象征理论,20世纪knowledge-rich方法AI(例如,基于规则的系统)和21世纪的方法依赖于统计学习从大量的数据(例如,机器学习算法)。最后,我们将分析一些人工智能的应用在现代生活:私人助理技术如Alexa和Siri,机器翻译(谷歌翻译)和基于汽车。在学期结束时,学生应该能够回答的问题在深度和细微差别。
先决条件:CS 230或许可的讲师。
典型的时期提供:春天
CS 234:数据、分析和可视化
随着我们的数字痕迹数量的持续增长,那么在这些痕迹发现有意义的模式的机会。最初在本课程中,学生将学习如何收集、清洁、格式,从数字平台和存储数据。采用统计分析的计算方法,学生们将会在代码中实现不同的统计指标和仿真场景假设检验和评估。最后,学生将会产生有意义的可视化数据探索和交流的结果。此外,我们将讨论数据收集和批判性地思考当前的道德实践的尝试在线用户。学生将在集团工作创建自己的数据集,问一个有趣的问题,进行统计分析和可视化,并报告结果。
先决条件:CS 230或许可的讲师。
典型的时期提供:每隔一年;秋天
CS 304:数据库和Web接口
三层体系结构的研究通常用于基于web的应用程序,比如电子商务网站。我们将学习模型和设计数据库使用实体关系图和标准查询语言(SQL)来管理数据库。我们将专注于瓶,一个受欢迎的面向web micro-framework,以及重要的替代品如PHP和node . js。我们还将讨论性能、可靠性和安全问题。最后,我们将创建动态网站的数据库条目。
先决条件:CS 230或许可的讲师。
典型的时期提供:春天;秋天

CS 305:机器学习
机器学习是教学的科学计算机如何从观察中学习。它无处不在我们与社会的交往中,出现在面部识别,网络搜索,定向广告,语音处理,基因分析,甚至Facebook的选择要显示的职位。目前在人工智能研究的前沿,并一直在快速进步的巨大的可用性数据。本课程介绍广阔领域,覆盖了背后的理论思想广泛使用的算法支持向量机、神经网络、图形化模型、决策树和许多更多。我们还将研究实际应用这些算法在视觉问题,演讲,语言、生物学和社会科学。
先决条件:CS 230年和206年数学或数学220年或225年。
典型的时期提供:春天;秋天
CS 315:数据和文本挖掘的网络
在过去的十年里,我们经历了数以百万计的人使用的社会技术系统的崛起:谷歌、Facebook、Twitter、维基百科,等。这种系统一方面计算系统,利用先进的基础设施和算法组织大量的数据和文本,但另一方面社会制度,因为他们不能成功而无需人工参与。这样的系统是如何制作的?他们的基础算法是什么?人类行为是如何影响他们的操作,反之亦然?在这个类中,我们将深入研究回答这些问题的方式:1)阅读当前研究论文等目的系统;b)实现算法,完成任务,比如web爬行、网络搜索、随机漫步,学习排名,文本分类,主题建模;和c)批判性思考的未经检验的拥抱techno-solutionism使用人文镜头。
先决条件:CS 230或许可的讲师。
典型的时期提供:每隔一年
CS 313:计算生物学
许多自然优雅的计算出现问题在现代分子生物学的研究。本课程是介绍的设计、实现和应用基因组学分析的算法。主题包括生物信息学算法动态编程,建树,集群、隐马尔可夫模型,期望最大化,吉布斯抽样和随机上下文无关语法。将研究主题分析DNA序列的上下文和其他来源的生物数据。应用包括序列比对、基因发现、结构预测,主题和模式搜索,和系统发育推断。用Java课程项目将涉及重大计算机编程。没有生物学背景的预期。
先决条件:CS 230或许可的讲师。
典型的时期提供:每隔一年;秋天
CS 342:计算机安全和隐私
介绍计算机安全和隐私。主题将包括隐私,威胁建模、软件安全、网络跟踪,网络安全,使用安全,安全和隐私保护的设计工具、身份验证、匿名,密码学的实践和理论方面,安全协议,网络安全,社会工程,安全和隐私法律的关系,和道德的黑客。重点将包括实践经验和沟通能力对于普通人的安全和隐私的话题以及专家。作业将包括与安全利用和工具在Linux环境中练习;习题练习和相关证据理论方面的计算机安全;和机会研究、现在和领导讨论安全,隐私相关的话题。学生被要求参加一个额外的每周70分钟的讨论。
先决条件:CS 230和CS 240或老师的许可。推荐——至少2 CS 242 CS 220 CS 204,数学225。
典型的时期提供:每隔一年
CS 343:分布式计算
“云”是什么?分布式系统是什么?本课程是学生感兴趣的理解基本概念和算法基础现有的分布式系统。通过本课程结束时,学生将有工作所需的基本知识和构建分布式系统,如点对点系统和云计算系统。主题包括MapReduce、火花、通信模型、同步、分布式文件系统、协调算法,算法共识,容错和安全性。
先决条件:CS 230(必需);CS 231和CS 242(推荐)。
典型的时期提供:每隔一年

统计选修课

统计220年220 /数学:概率
概率是不确定性的数学。我们开始通过开发概率论的基本工具,包括计数技术,条件概率和贝叶斯定理。然后我们调查几个最常见的离散和连续概率分布(二项式分布、泊松分布、均匀、正常和指数,等等)和讨论使用这些分布数学模型。我们经常不能准确计算概率,我们需要近似。一个强大的工具是中心极限定理,它提供了概率和统计之间的联系。另一个策略时的仿真结果不可用。如果时间允许,我们研究马尔可夫链蒙特卡罗方法,提供一种手段,从复杂的分布模拟。
先决条件:数学205。开放给学生强烈的背景变量微积分(数学116,数学120,相当于)老师的许可。
典型的时期提供:秋天
221年统计:统计推断
本课程介绍统计推断的理论:给定一个数据集,我们如何评估概率模型的参数如中引入数学220 ?最佳的方法是什么利用的信息在我们的数据?主题包括了传统假设检验理论基石和置信区间,如最大似然推理和充分性。该课程还将包括贝叶斯技术点和区间估计和重采样方法,比如引导。
先决条件:220年数学,统计220年。
典型的时期提供:每隔一年;春天
228年统计:多元数据分析
这是一个在多变量数据分析。学生将会被介绍给现代多元技术,应用程序和解释,并将学习如何使用这些方法来理解变量之间的关系,提取模式,或识别集群或在一个丰富的数据集分类涉及多个变量。在学期主题包括依赖技术(如多元线性回归、二元逻辑回归、多项式回归、主成分分析、线性判别分析,决策树,等)和相互依赖的技术(例如,因子分析,聚类分析等)。选择的主题在机器学习和数据挖掘也介绍了在这个学期。统计语言R中使用这个类。
先决条件:数学205年和218年统计(260年统计)。

统计/ QR 260:应用数据分析
这是一个中间统计课程集中在统计推断原理和应用数据分析工具。强调思维统计、评估假设和发展技能的实际应用领域如医学、政治、教育和超越。主题包括t和非参数选择、多比较,方差分析,线性回归模型细化,丢失的数据,和因果推论。学生可以期望获得R统计软件的应用知识,将用于数据分析和模拟旨在加强概念的理解。
先决条件:任何定量推理覆盖。
典型的时期提供:秋天
统计/ QR 309:因果推论
本课程着重于因果推论的统计方法,重点是如何设定一个因果(而非关联)研究问题和设计的研究来解决这个问题。隐式假设所造成的歧视?为什么我们相信吸烟会导致肺癌吗?我们将讨论这两个随机实验,随机化的历史,为实验设计原则,和非参数randomization-based推理的基础——从非随机研究得出因果结论和方法,如倾向得分匹配。学生将发展必需的专业技能评估的可信度因果索赔和掌握概念和计算工具需要设计和分析研究导致因果推论。例子将来自经济学、心理学、社会学、政治科学,医学,等等。
先决条件:任何一个QR 260 / 260年统计,318年统计,203年经济学,290年SOC,心理学心理学300 - 305 R级课程;或定量分析研究所证书;或许可的讲师。
典型的时期提供:每隔一年;春天
318年统计:回归分析和统计模型
这是一个应用回归分析课程涉及到实际的数据分析。在学期主题包括简单和多元线性回归模型,模型诊断方法和补救措施,矩阵表示的线性回归模型,模型比较和选择,广义线性回归模型(如二进制逻辑回归、多项式回归、有序逻辑回归,和泊松回归),和基本的时间序列自回归AR (p)模型。统计语言R将使用整个过程实现拟合线性或广义线性回归模型,模型诊断方法,模型比较和选择,并模拟。
先决条件:218年统计,数学205,数学206。(218年统计可以更换101年统计,103年经济或统计260年。)

203年经济学:计量经济学(浓度与经济学相关的学生)
本课程向学生介绍了经济学家们所使用的方法来评估经验的关系,主要是回归分析。研究问题包括统计学意义,拟合优度、虚拟变量和模型假设。包括介绍面板数据模型,辅助变量,随机和自然实验。学生学习的概念应用于数据,读经济研究,编写一个实证研究。
先决条件:101年经济学,经济学102,和一个数学课程数学115或更高的水平。数学课程必须采取在韦尔斯利。一个课程统计(218年205年103年经济学,心理学,统计或数学220前2018年秋季)也是必需的。
典型的时期提供:春天;秋天