首页>全部课程>自然语言(NLP)处理模型与实战
自然语言(NLP)处理模型与实战
自然语言(NLP)处理模型与实战
报名课程可获赠0.0元助学金,助学金说明 >>
直播面授
课程图标 课程代码 NX0063

课程时长

4天(6小时/天)

课程简介

(一)内容丰富

内容丰富:包含16个模型,14个课堂实践或演示,5个案例分析,1次建模大比拼

授课风格多样:算法精讲,模型适用场景阐述,成功案例分析,课堂讨论

理论与实践相结合:学员编码实践,建模大比拼,期终考试测验

(二)效果可验证(结业考试+建模大比拼)

1.“建模大比拼”规则:

每组2人

时间:一小时

使用不同的算法,编写代码,建立AI模型

训练并调优模型

2. 评比标准:

根据微博用户的文章,判断用户的态度是喜欢还是厌恶

3. 比赛结果:

准确率高者取胜,获得精美礼品一份

课程收益

掌握AI 趋势。学员可了解人工智能的全貌,知晓技术趋势和方向,可使用人工智能技术,规划新业务,或改进现有的业务,从而增强公司的竞争力。

解决实际的业务问题。学员可深入掌握机器学习各类算法, 会选择合适的AI算法, 设计模型与朝参的选择,解决实际的业务问题。

提高企业和学员的影响力。通过课程的学习,学员可熟练掌握模型的超参调优方法, 使用数据对模型进行训练,提高学员和企业的知名度和影响力。

课程对象

数据分析师,数据科学家 

软件工程师,运维工程师,系统工程师

产品经理、管理人员,业务人员

学员基础

了解基本统计知识,具备初步的IT基础知识和基本数学理论,可使用python编程    

课程大纲

时间

内容

案例实践与练习

Day1

(9:00-12:00)

NLP概述与环境搭建

NLP概述

什么是NLP?

NLP应用概述

NLP中的经典问题

经典算法和模型概述

NLP和深度学习

经典预料库和语言知识库介绍

环境搭建

深度学习环境的介绍

底层软件包的安装:CUDA,cuDNN

常用软件包的安装,例如Numpy,pandas,sklearn,scipy, matplotlib,jieba

深度学习软件包的安装TensorFlow

二 使用机器学习进行NLP实战

分词的理论与实践

常用分词的技术

基于词典的分词

基于统计的分词

基于理解的分词

使用jieba进行分词

常用python软件包的安装

常用NLP语料库的获取

Day1

(14:00-17:00)

2  tf-idf – 衡量词重要程度的模型

tf-idf模型的目标和作用

TF

IDF

计算词的TF-IDF得分

案例操作实践

如何对文档进行分类(朴素贝叶斯)?

频率学派与贝叶斯学派

条件独立假设

几种平滑技术

处理重复词语的三种模型

使用贝叶斯模型对新闻分类

提取文档的特征(N-gram语言模型)

词袋模型

贝叶斯模型的不足

N-gram语言模型介绍

N的选择

N-gram模型应用举例

案例:使用N-gram模型提取文档的特征

使用jieba分词

提取top-K的关键词

使用贝叶斯模型对新闻分类

Day2

(9:00-12:00)

发现文档的主题(LDA模型)

一个文档到底在谈论什么话题(Topic)?

LSA(潜语义分析)模型概述

Beta分布与Dirichlet分布

LDA模型介绍

LDA模型应用举例

案例:使用LDA获取文档的主题

三 使用深度学习进行NLP实战

情感分析(词嵌入word2vec模型)

One-hot  Encoding表示文档

词向量介绍

词向量的应用

词向量矩阵

词向量矩阵的模型word2vec

词向量矩阵的模型负采样

词向量矩阵的模型GloVe

案例:使用word2vec进行情感分析

使用N-gram模型提取文档的特征

新闻分类

案例:使用LDA获取文档的主题

Day2

(14:00-17:00)

2 循环神经网络

RNN应用概述

不同种类的RNN模型

梯度消失和梯度爆炸问题

LSTM模型

双向RNN与深度RNN

seq2seq with attention

RNN,LSTM综述

AutoEncoder与seq2seq模型

Seq2seq模型详述

Seq2seq模型在图像处理,NLP等领域的应用

Beam  search

注意力的计算

使用softmax归一化

注意力的作用及注意力的可视化

Self-attention

Seq2seq的应用

看图说话增加注意力的效果

4 Auto-Encoder自编码器模型

Auto-encoder自编码器

Deep  Auto-encoder深度自编码器

Denoising  autoencoder DAE去噪自编码器

自编码器在NLP中的应用距离

使用word2vec进行情感分析

为文章打标签

Day3

(9:00-12:00)

四 叱咤风云的BERT家族

创新源头Google 的Transformer模型

Sequence模型的缺点和解决之道

Self-Attention  layer的优点

Self-Attention的原理和实现细节

Multi-head的self-attention

Seq2seq  with attention模型

Transformer模型架构和每层的介绍

论文介绍: Attention效果的可视化

论文介绍: Universal Transformer

打开NLP魔盒的BERT

先行者ELMO模型

ELMO模型中的Embedding

BERT模型和Transformer模型的关系

BERT模型原理和实现细节介绍

2种训练BERT的方法

BERT的使用案例

ERNIE介绍(中文版本的BERT)

Multilingual  BERT

到处屠榜的BERT

使用bert分析用户的态度

使用bert分析文本的谈论商品的种类

Day3

(14:00-17:00)

3  XLNet,GPT3屠榜记(最新NLP论文综述)

GPT介绍

GPT和Transformer的关系

GPT的训练

GPT和zero-shot learning

XLNet模型介绍

5  模型压缩技术及ALBERT

BERT家族的概述

对模型进行压缩的方法

ALBERT对BERT的改造

ALBERT介绍

ALBERT  vs BERT

使用bert分析客户讨论的商品和客户的态度

Day4

(9:00-12:00)

五 NLP应用

使用深度学习构建QA系统

QA问题常用的语料库

QA系统的分类

使用BERT解QA问题

回答推理问题的模型综述

Dialogue  QA问题

最近SOTA模型的测试结果

模型理解了人类语言吗?

对话机器人

聊天机器人概述和数据预处理

Rule  Based Model

Retrieval-Based  Model

Generative  Model

可控响应结果的聊天机器人

使用bert发现问题的答案

Day4

(14:00-17:00)

六 案例分享

呼叫中心的对话分析-分析用户问题的分类,判断用户的态度

获得用户和客服人员的文本对话数据

分词,以及分长词

提取特征

建立模型分析用户的问题分类

训练模型分析用户的态度

情感分析- 判断用户的情绪

获得数据

分词,以及分长词

提取特征

建立模型分析用户的情感

对模型进行评价

使用BERT对文本分成普通, 恶毒, 污秽, 威胁, 侮辱, 憎恨

文档的获取

文本的预处理

设计BERT模型

代码编写

模型训练,参数调优,分类展示

某电信运营商的识别敏感文本内容项目

项目目标: 识别文本是否包含垃圾, 黄色信息

采集数据集

训练朴素贝叶斯模型

训练神经网络模型以及集成模型, 并进行对比

使用维基百科训练语言模型

下载中文维基百科数据

对数据进行处理

使用word2vec训练语言模型

计算词的相似度

发现不相关的词

语言模型的应用