Yezhiwei Blog

平时多流汗,战时少流血!

一个完整机器学习项目的实践流程

1 获取语料 已有语料:业务部门、公司积累大量的文本数据 网上下载、抓取语料:可以通过爬虫自己去抓取一些数据,然后进行加工。 2 语料预处理 语料预处理大概会占到整个50%-70%的工作量,通过数据洗清、分词、词性标注、去停用词四个大的方面来完成语料的预处理工作。 a.语料清洗:就是在语料中找到我们感兴趣的东西,把不感兴趣的视为噪音的内容清洗删除,如:对于爬取的网页内容,需要去除广告...

海量数据去重之SimHash算法简介和应用

使用SimHash进行海量文本去重

源文出处:https://www.cnblogs.com/maybe2030/p/5203186.html 在之前的两篇博文分别介绍了常用的hash方法([Data Structure & Algorithm] Hash那点事儿)以及局部敏感hash算法([Algorithm] 局部敏感哈希算法(Locality Sensitive Hashing)),本文介绍的SimHa...

SpringBoot 引用外部路径作为静态资源

静态资源访问 我们在开发 Web 应用的时候,需要引用大量的 js、css、图片等静态资源。 默认配置 SpringBoot 默认提供静态资源目录位置需置于 classpath 下(推荐使用默认配置),目录名需符合如下规则: classpath:/META-INF/resources classpath:/resources classpath:/static cl...

使用Java 8 Stream像操作SQL一样处理数据(下)

原文出自:https://my.oschina.net/liuyatao19921025/blog/1609539 背景 在上一篇文章中,我们介绍了 Stream 可以像操作数据库一样来操作集合,但是我们没有介绍 flatMap 和 collect 操作。这两种操作对实现复杂的查询是非常有用的。比如你可以结果 flatMap 和 collect 计算 Stream 中的单词的字符...

使用Java 8 Stream像操作SQL一样处理数据(上)

原文出自:https://my.oschina.net/liuyatao19921025/blog/1608232 背景 几乎每个 Java 应用都要创建和处理集合。集合对于很多编程任务来说是一个很基本的需求。举个例子,在银行交易系统中你需要创建一个集合来存储用户的交易请求,然后你需要遍历整个集合才能找到这个客户这段时间总共花费了多少金额。尽管集合非常重要,但是在 Java 中对...

如何“干掉”if…else

原文出自:https://www.jianshu.com/p/1db0bba283f0 前言 if…else 是所有高级编程语言都有的必备功能。但现实中的代码往往存在着过多的 if…else。虽然 if…else 是必须的,但滥用 if…else 会对代码的可读性、可维护性造成很大伤害,进而危害到整个软件系统。现在软件开发领域出现了很多新技术、新概念,但 if…else 这种基本的...

转:基于 GitLab 的 Code Review 教程

本文由 ken.io 创作 本文原文链接:https://ken.io/note/gitlab-code-review-tutorial 一、前言 1、本文主要内容 GitLab Code Review 机制说明 Git Workflow 与 Git Code Review Workflow GitLab Code Review 配置说明 GitLab ...

利用 Log4j2 异步保存日志到 MongoDB 中

需求 将 Log4j2 日志文件写到 MongoDB 中,并且希望能按自定义字段进行保存。 添加依赖 由于此工程没有使用 Spring / SpringBoot 框架,主要演示怎么配置 Log4j2 配置将日志保存到 MongoDB,如果使用了 SpringBoot 框架,请按 spring-boot-starter-xxxx 的方式配置。 注意版本问题,如果使用 ...

Lombok 子类中如何使用@Builder

Lombok神器 转载文章 https://blog.csdn.net/lqadam/article/details/82719841 Lombok 大家都知道,在使用 POJO 过程中,它给我们带来了很多便利,省下大量写 get、set 方法、构造器、equal、toString 方法的时间。除此之外,通过 @Builder 注解,Lombok 还可以方便的时间建造者模式。 ...

Git Flow 插件使用

创建一个 demo 在本地目录新创建项目 使用集成开发环境 IDEA 的向导(Spring Initializr)创建一个 Spring Boot 的项目,然后将其初始化为一个 Git Repository (VCS -> Import into Version Control -> Create Git Repository),这时在新项目上右键就可以看到 Git 菜单了,...