Naked Agile

애자일의 핵심을 담고 있다고 평가되는 Naked Agile을 읽고 요약해봤다. 디테일한 방법론 보다는 철학과 개념에 집중한 책.

BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization

Extractive 요약 데이터셋은 보통 (원문, 원문 내 요약문) 쌍으로 되어있다. 좋은 데이터셋의 핵심은 다양성(밸런스)이다. 요약문의 문장 구조가 다양하고, 다양한 단어들이 사용되었으며, 요약문이 원문 내 다양한 위치에 존재하는 것이 좋다. Google Big Query에 있는 특허 텍스트 데이터셋이 이런 조건을 만족한다고 해서 이 논문을 읽어봤는데, 얼마나 효과가 있는지는 모르겠다. 같은 Extractive 요약이라고 하더라도 해결하고자 하는 문제에 따라 데이터의 모양이 많이 달라지니까.

WSL2 + Ubuntu-20.04 + Docker + Jekyll

WSL2에서 Docker를 사용해봤다. 간단히 Jekyll Docker 이미지를 올려봤다.

Text Summarization with Pretrained Encoders

현재 프로젝트에서 BERT의 NER과 Sentence Classification을 사용하고 있는데, Summarization이 필요하게 됬다. Summarization은 Abstractive와 Extractive로 나뉘는데, Abstractive는 생성 분야라 BERT를 그대로 사용하기엔 무리가 있다. GPT나 다른 알고리즘을 알아보기 전에, 일단 BERT를 활용해서 Abstractive Summarization 하는 방법을 알아봤다.

BERT(Bidirectional Encoder Representations from Transformers)

그 유명한 BERT 논문이다. BERT를 설명한 글과 영상은 많지만 그래도 논문은 한 번 정독해야 하지 않나 싶어서 정리해봤다.

Transformers(Attention Is All You Need)

BERT와 GPT를 탄생시킨 Transformer 논문을 읽고 이해한 내용을 정리해봤다. Transformer만 제대로 이해하고 있다면, 최신 NLP 논문들을 이해하는 데 무리가 없다고 생각한다.

NLP Dataset

자연어 처리 모델을 평가하기 위해 사용하는 GLUE 데이터셋들을 정리해봤다. GLUE 말고도 많지만, 일단 GLUE 먼저

Pandas

판다스 판다스 하길래 뭔가 대단한 개념이 있는 줄 알았다. 그냥 테이블이었다. 익숙하게 사용하는 것이 중요할 뿐.