1.Matplotlib
Matplotlib是基于Numpy的Python的一个可视化模块,提供了方便的数据绘图工具,能方便的做线条图、饼图、柱状图以及其他专业图形。
Matplotlib有一套允许定制各种属性的默认设置,可以控制Matplotlib中的每一个默认属性:图像大小、每英寸点数、线宽、色彩和样式、子图、坐标轴、网个属性、文字和文字属性。
2.Scikit-Learn
Python 数据科学十大利器,你用过几个?
Scikit-Learn是基于Python机器学习的模块,基于BSD开源许可证,安装需要Numpy Scopy Matplotlib等模块,
scikit-learn为常见的机器学习算法提供了一个简洁而一致的界面,通过一个统一的接口来使用,使得将ML带入生产系统变得简单。
该库结合了高质量的代码和良好的文档,易用性和高性能,是事实上用Python进行机器学习的行业标准。Scikit-Learn的主要功能分为六个部分,分类、回归、聚类、数据降维、模型选择、数据预处理。
Scikit-Learn自带一些经典的数据集,比如用于分类的iris和digits数据集,还有用于回归分析的boston house prices数据集。该数据集是一种字典结构,数据存储在data成员中,输出标签存储在target成员中。
Scikit-Learn还有一些库,比如:用于自然语言处理的Nltk、用于网站数据抓取的Scrappy、用于网络挖掘的Pattern、用于深度学习的Theano等。
3.Jieba 最好的中文分词工具
jieba 是一个Python实现的分词库,对中文有着很强大的分词能力,在文本分析中的文本分类,情感分析等方面表现优异
1 支持三种分词模式:a. 精确模式,试图将句子最精确地切开,适合文本分析;b. 全模式,把句子中所有的可以成词的词语都扫描出来,
速度非常快,但是不能解决歧义;c. 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
2 支持自定义词典
关键词提取--基于 TF-IDF 算法的关键词抽取
词性标注
juba是一个Python类库,用于处理中文文本,实现文档词汇矩阵、词汇文档矩阵、文档相似、词汇关联分析、自动文档生成等基础功能,Python第三方库jieba(结巴)的定位和功能不同,jieba主要用于中文分词、词性标注、关键词提取等,是中文文本处理的最基础部分。juba是在中文文本数据预处理后(中文分词、去掉停用词等)对中文文本(文档或词汇)进行向量化,是情感分析、文本聚类、文本分类、信息检索的基础。因此应该将jieba和juba结合起来使用,即先用jieba进行文本预处理,然后利用juba进行文本向量化,是高级应用的基础。
4.TensorFlow
Python 数据科学十大利器,你用过几个?
Tensorflow是目前最火的深度学习框架,广泛应用于自然语言处理、语音识别、图像处理等多个领域。Tensorflow采用数据流图(data
flow
graphs),用于数值计算的开源软件库。节点(Nodes)在图中表示数学操作,图中的线(edges)则表示在节点间相互联系的多维数据数组,即张量(tensor)。它灵活的架构让你可以在多种平台上展开计算,是由谷歌开源的机器学习系统。Tensorflow支持Python、C++、java、GO等多种编程语言,以及CNN、RNN和GAN等深度学习算法。Tensorflow除可以在Windows、Linux、MacOS等操作系统运行外,还支持Android和iOS移动平台的运行、以及适用于多个CPU/GPU组成的分布式系统中。
相较于其它的深度学习框架,如:Caffe、Torch、Keras、MXnet、Theano等,Tensorflow的主要优势有以下几点:高度的灵活性、支持Python语言开发、可视化效果好、功能更加强大、运行效率高、强大的社区。
当然TensorFlow也有一些缺点:
5.Keras
Python 数据科学十大利器,你用过几个?
Keras是一个高层神经网络库,Keras由纯Python编写而成并基Tensorflow或Theano
Keras很灵活,且比较容易学。可以把keras看作为tensorflow封装后的一个API,适合快速体验 ,但若想学扎实一点则用 Tensorlayer 或者直接使用 TensorFlow 和 Theano.
以上就是潍坊IT培训给大家做的内容详解,更多关于IT知识的学习,请继续关注潍坊IT培训。