关于NLP学习

# 关于NLP学习任何机器学习都必须有一个重要的一环,那就是数据预处理. 必须要将数据进行预处理成可以数值化的形式才能进行分析,可以说,对数据进行预处理的优秀程度(是否提取出了关键特征,信息是否冗余)直接决定了机器训练计算的上限. 毕竟对着垃圾数据进行训练也只能得到垃圾结果. ### 关于分类问题的交叉熵 [博客](https://blog.csdn.net/tsyccnh/article/details/79163834) ### 文本处理的基本流程 - 第一步：文本预处理（Preprocess）LTP 分句处理词性分析语法依存关系分析 - 第二步：分词处理（Tokenize）不同的语言有细节是不同的,比如对于英语要注意词形的还原. 以上两步都是直接对数据进行一些文法上的处理,语言还是以string作为表面形式 - 第三步：生成对应特征向量（Make Feature）这一部将会使词语经过独热或者其他办法向量化. 数据变为机器可以直接进行运算的数据 - 第四步：放入学习器学习（Machine Learning）模型的选择,构建,调优,训练. ## 模型 #### HMM模型有向图模型应用,存在序列,两调链,一个是实际的状态链,另一个是在该状态下,所呈现出的实际形态.(状态链,观测链) 也就是说类似不确定性, 用知乎上的那个骰子做比喻很好. **两个重要假设** - 齐次马尔科夫链假设。即任意时刻的隐藏状态只依赖于它前一个隐藏状态， - 观测独立性假设。即任意时刻的观察状态只仅仅依赖于当前时刻的隐藏状态，这也是一个为了简化模型的假设然后就可以更具概率统计方法,根据已知的数据求得不同可能性的概率.进而进行预测, 或者根据观察结果进行模型参数估算. #### CRF 无向图模型 ad