超参数优化
调参在训练模型的过程中,为了达到更好的结果,免不了要优化超参数,又称调参。虽然感觉提升并不显著,但提高一点算一点嘛。 在Amazon介绍的超参数调优的介绍中,在传统的机器学习中一般有三种调优方式(其实就两种,网格搜索和随机搜索没什么区别): 网格搜索(Grid search) 随机搜索(Random search) 贝叶斯优化(Bayesian optimization): 为了演示,这里使用Random Forest Classifier。 0. 数据随机在kaggle上找了个Dry Bean数据集, 我也没仔细看具体是什么,大概就是不同豆子的种类吧,应该和iris差不多。 import numpy as np import pandas as pd from sklearn.metrics import confusion_matrix, classification_report, accuracy_score from sklearn.model_selection import train_test_split from sklearn.ensemble...
简单NLP — 情感分析
前几天面试的时候,面试官突然问我“为什么想选择数据科学相关的专业?” 一时语塞,说我纯粹的热爱吧好像又有些虚伪,无非就是为了混口饭吃,哪有什么宏大叙事和美好愿景。 但是,我这样回答面试官的:我说也许在我们不知道的情况下,一些简单的数据分析能给我们带来很多信息,这些信息可以是商业上的,也可以是社会上的,甚至可以是个人的。因为我有每天记日记的习惯(虽然大部分是在写废话。。。),然后前几天刚好用Hugging Face上开源的模型简单跑了一遍对每天日记的情感分析。我回答面试官,大概,数据分析也能让我更好的认识自己吧。 所以开一个“简单”系列,就是无脑调包就好了,没什么技术含量。 0, 我的日记 这是我记日记的习惯,写一些话,然后没有标点符号(亏贼这太变态了),靠换行来断句。在python里,数据大概长这样: 我要的其实就是diary_item_content里的内容,一顿操作后提取内容,在简单做点预处理准备分析。(此处无码,因为每个人写日记的习惯都不一样罢。) 1, 直接调用在线模型1.1 Hugging Face在Hugging...
Hexo基础进阶设置,2024版
在上篇我们搭建了一个很基础的网站,这次来看看我个人有哪些在2024年要做的配置吧。 事实上,在原文档,以及博主lijunliang的文章里已经有了非常详细的说明,想必也比我这个门外汉再写一份来的更清晰易懂。 但是这些文章也许有些年头了,有些地方在2024年可能需要额外的配置,这篇文章会简单介绍我做的改动。 1,代码块highlight在原文说明highlight代码块的地方,原文如下 Starting from Hexo 5.0.0 version, it comes with support for prismjs code syntax highlighting, and hexo-theme-matery has been modified to support it. If the plugin of hexo-prism-plugin has been installed in your blog, then you need to execute npm uninstall hexo-prism-plugin to uninstall it, otherwise...
Hexo + Github个人网页制作
作为第一篇文章,就讲讲这个网站是怎么做的吧。 很早就有想做一个个人网站了,但是无奈不会的太多也就打消了这个念头。不然还得从头学一些奇奇怪怪的JavaScript和CSS相关的东西,这对我来说可就太折磨了。但是,昨天聊天时朋友提了一嘴:“你们没有个人作品集之类的东西吗?”, 我说还真没有,但是又突然想到了个人网站这种东西。想起本科时那些教授都有自己的网站,我就又去搜索了一下类似于“个人网站制作”的内容。 没想到居然有现成的库可以直接用,那就是Hexo了,甚至还配有各种主题(theme)。时过境迁,现在一切都变得那么容易,都可以一键生成。 跟我说,谢谢你,开源侠。 第一步:配置Github使用Github的原因很简单,对于个人用户它提供一个免费的user page,完全可以当个人网页用。 注册Github此步略过 本地生成id_rsa和id_rsa.pub打开一个CMD终端(或者windows下推荐使用Powershell),依次输入 git config --global user.name "Github用户名" git config --global...