# 关于NLP学习
任何机器学习都必须有一个重要的一环,那就是数据预处理.
必须要将数据进行预处理成可以数值化的形式才能进行分析,可以说,对数据进行预处理的优秀程度(是否提取出了关键特征,信息是否冗余)直接决定了机器训练计算的上限.
毕竟对着垃圾数据进行训练也只能得到垃圾结果.
### 关于分类问题的交叉熵
[博客](https://blog.csdn.net/tsyccnh/article/details/79163834)
### 文本处理的基本流程
- 第一步:文本预处理(Preprocess)LTP
分句处理
词性分析
语法依存关系分析
- 第二步:分词处理(Tokenize)
不同的语言有细节是不同的,比如对于英语要注意词形的还原.
以上两步都是直接对数据进行一些文法上的处理,语言还是以string作为表面形式
- 第三步:生成对应特征向量(Make Feature)
这一部将会使词语经过独热或者其他办法向量化.
数据变为机器可以直接进行运算的数据
- 第四步:放入学习器学习(Machine Learning)
模型的选择,构建,调优,训练.
## 模型
#### HMM模型
有向图模型
应用,存在序列,两调链,一个是实际的状态链,另一个是在该状态下,所呈现出的实际形态.(状态链,观测链)
也就是说类似不确定性, 用知乎上的那个骰子做比喻很好.
**两个重要假设**
- 齐次马尔科夫链假设。即任意时刻的隐藏状态只依赖于它前一个隐藏状态,
- 观测独立性假设。即任意时刻的观察状态只仅仅依赖于当前时刻的隐藏状态,这也是一个为了简化模型的假设
然后就可以更具概率统计方法,根据已知的数据求得不同可能性的概率.进而进行预测,
或者根据观察结果进行模型参数估算.
#### CRF
无向图模型
ad