日常开发中,有时候会遇到超大文件的压缩与解压,比如将一个超大的视频数据集上传到百度云,而百度云是有单个文件的大小限制的,也就需要我们按照固定的大小分卷来进行上传。与此同时,将超大的数据集上传到服务器上进行训练等操作,也需要按照分卷压缩的方式,并最终解压出来!
本文将介绍我处理超大文件压缩解压的方式,并推荐一下7-Zip这个压缩软件!
面向工资编程
日常开发中,有时候会遇到超大文件的压缩与解压,比如将一个超大的视频数据集上传到百度云,而百度云是有单个文件的大小限制的,也就需要我们按照固定的大小分卷来进行上传。与此同时,将超大的数据集上传到服务器上进行训练等操作,也需要按照分卷压缩的方式,并最终解压出来!
本文将介绍我处理超大文件压缩解压的方式,并推荐一下7-Zip这个压缩软件!
在使用Kafka作为消息队列进行数据处理流程的时候,出现了消费者重复消费的问题,最开始消费者每次拉取100条record,然后处理完成之后sleep 10秒继续工作,如此往复;
当我将每次拉取的条数设置成1000条的时候,发现消费者开始进行重复消费了,查看消费者的offset,发现虽然真正执行了消费,但是消费者的offset没有提交成功,下一次拉取的还是原来的数据;
使用Jedis
连接redis
进行数据查询操作,正常的代码运行没有问题,但是时不时会报出如下错误:
1 | Exception in thread "main" redis.clients.jedis.exceptions.JedisConnectionException: java.net.SocketTimeoutException: Read timed out |
究其原因,可以定位为java.net.SocketTimeoutException: Read timed out
,即网络连接异常;
在Spring Boot工程中使用HanLP工具,按照平常的配置,将根路径配置为root=src/main/resources/HanLP/
始终加载不成功,总是显示Caused by: java.lang.IllegalArgumentException: 核心词典src/main/resources/HanLP/data/dictionary/CoreNatureDictionary.txt加载失败
的错误,然而平时常规的maven工程中这么用是没有问题的。
经过查阅源码,最终发现HanLP提供了IO适配器来解析路径,默认的适配器用的是com.hankcs.hanlp.corpus.io.FileIOAdapter
,是基于普通文件系统的,我们通过自己定制一个IO适配器,并在配置文件中配置指定适配器的类型,就可以正常读取resources
下的data了,这样避免了使用绝对路径,本地运行和服务器运行都比较方便!
切换成http方式:
1 | git remote set-url origin https://github.com/haoyuanliu/haoyuanliu.github.com.git |
切换成ssh方式:
1 | git remote set-url origin git@github.com:haoyuanliu/haoyuanliu.github.com.git |
gcc/g++编译过程一共包括四个步骤,分别是预处理、编译、汇编和链接,以如下test.cpp
源代码为例,详细介绍各个步骤的作用。1
2
3
4
5
6
7#include <iostream>
using namespace std;
int main() {
cout << "Hello, World!" << endl;
return 0;
}
本篇文章的主要内容是LeetCode有关贪心算法的习题练习,主要包含如下题目:
44. Wildcard Matching
45. Jump Game II
55. Jump Game
122. Best Time to Buy and Sell Stock II
134. Gas Station
135. Candy
316. Remove Duplicate Letters
321. Create Maximum Number
330. Patching Array
376. Wiggle Subsequence
392. Is Subsequence
402. Remove K Digits
406. Queue Reconstruction by Height
435. Non-overlapping Intervals
452. Minimum Number of Arrows to Burst Balloons
455. Assign Cookies
502. IPO
地址查询函数的功能也就是通过主机名或者域名返回详细的主机信息,其中我们最常用的功能就是通过主机名获得主机的IP地址等信息。gethostbyname()和其可重入版本gethostbyname_r()是我们之前较多使用的函数,由于SUSv4已经删除了它们并认为它们已经是过时的了,现在我们更推荐使用getaddrinfo()来完成相应的功能。