본문 바로가기
728x90
반응형

자연언어처리3

[논문 리뷰 #2] 마스크 언어 모델 기반 비병렬 한국어 텍스트 스타일 변환 마스크 언어 모델 기반 비병렬 한국어 텍스트 스타일 변환 : 배장성, 이창기, 황정인, 노형종(강원대학교 컴퓨터 과학과, 엔씨소프트 NLP Center Language AI Lab) (제 33회 한글 및 한국어 정보처리 학술대회 논문집(2021년)) 00.서론 텍스트 스타일 변환은 기계학습모델을 이용해 해결 할 수 있지만 인공지능에서 항상 문제가 되듯 이 문제 또한 대량의 병렬 말뭉치를 필요로 한다. 각 스타일에 대응되는 병렬 말뭉치는 구하기 힘들 뿐더러 구축하는데도 많은 비용과 시간이 필요하다. 따라서 최근에는 비병렬 말뭉치를 이용해 텍스트 스타일 변환을 수행할 수 있도록 하는 많은 연구들이 이뤄지고 있다. 이 논문에서는 입력 텍스트의 내용을 유지하면서 삭제된 스타일 토큰을 원하는 스타일의 토큰으로 변.. 2022. 3. 11.
[#1 실습] 정규표현식 함수 사용법 정규표현을 사용하려면 import를 해주어야 한다. 간혹 정규표현식앞에 r이 붙은 것을 볼 수 있는데 이전 버전에는 r을 붙여야 한다더라. 현재는 사용할 때 r을 안붙여도 잘 돌아간다. import re 정규표현식을 이용해서 원하는 문자열을 추출하기 위한 몇가지 함수를 소개하겠다. method search() match() findall() finditer() fullmatch() search()와 match는 매치 될때 객체를 반환하고, 없을 때 None를 반환한다. match객체란 정규식의 검색 결과로 돌려주는 객체를 말한다. re.search(패턴, 문자열, flags) 문자열 전체를 검색해 패턴과 일치하는 지를 조사하는 함수이다. 문자열이 처음부터 있는 경우 뿐만아니라 중간부터 일치하더라도 찾아준.. 2021. 12. 1.
[#1 이론] 정규표현식 정규표현식이란? (Regular Expressions) 특정한 규칙을 가진 문자열의 집합을 표현하는 데 사용하는 형식언어를 말한다. 정규 표현식에서 사용되는 기호를 Meta문자라고 표현한다. 표현식에서 내부적으로 특정 의미를 가지는 문자를 말한다. 표현식 의미 ^x 문자열의 시작 x$ 문자열의 끝 x* 문자가 0번이상 반복됨 x? 문자가 있을 수도 있고 없을 수도 있음 x+ 문자가 1번이상 반복됨 x|y x 또는 y (OR) (x) x를 그룹으로 처리 x{n,m} x가 n번 이상 m번이하 반복됨 (n만 쓰면 n번, n,를 쓰면 n번이상) 헷갈리는 것들 정리해 봤다. .은 \n을 제외한 모든 문자를 지칭하는데 $는 \n이 가능하다는 점이 다르다. 한 문장안에 m으로 끝나는 단어가 여러개인 경우 ?이 붙어있.. 2021. 12. 1.
728x90
반응형