# 关于NLP学习 任何机器学习都必须有一个重要的一环,那就是数据预处理. 必须要将数据进行预处理成可以数值化的形式才能进行分析,可以说,对数据进行预处理的优秀程度(是否提取出了关键特征,信息是否冗余)直接决定了机器训练计算的上限. 毕竟对着垃圾数据进行训练也只能得到垃圾结果. ### 关于分类问题的交叉熵 [博客](https://blog.csdn.net/tsyccnh/article/details/79163834) ### 文本处理的基本流程 - 第一步:文本预处理(Preprocess)LTP 分句处理 词性分析 语法依存关系分析 - 第二步:分词处理(Tokenize) 不同的语言有细节是不同的,比如对于英语要注意词形的还原. 以上两步都是直接对数据进行一些文法上的处理,语言还是以string作为表面形式 - 第三步:生成对应特征向量(Make Feature) 这一部将会使词语经过独热或者其他办法向量化. 数据变为机器可以直接进行运算的数据 - 第四步:放入学习器学习(Machine Learning) 模型的选择,构建,调优,训练. ## 模型 #### HMM模型 有向图模型 应用,存在序列,两调链,一个是实际的状态链,另一个是在该状态下,所呈现出的实际形态.(状态链,观测链) 也就是说类似不确定性, 用知乎上的那个骰子做比喻很好. **两个重要假设** - 齐次马尔科夫链假设。即任意时刻的隐藏状态只依赖于它前一个隐藏状态, - 观测独立性假设。即任意时刻的观察状态只仅仅依赖于当前时刻的隐藏状态,这也是一个为了简化模型的假设 然后就可以更具概率统计方法,根据已知的数据求得不同可能性的概率.进而进行预测, 或者根据观察结果进行模型参数估算. #### CRF 无向图模型 ad