본문 바로가기
728x90
반응형

NLP/프로젝트2

[의학용어 탐지 및 해석 모델] 말뭉치 구축 - [1] 크롤링(Crawling) 신뢰도가 높은 의학용어 사전 페이지를 크롤링하여 의학용어와 정의가 담긴 사전을 구축한다. 크롤링(Crawling)이란 쉽게 말해 웹페이지를 긁어와 원하는 정보를 추출하여 사용하는 것으로 생각하면 된다. 파이썬은 다양한 라이브러리가 구현되어있기 때문에 사용법만 익히면 편하게 이용할 수 있다. 크롤링에 필요한 라이브러리 역시 파이썬에 구현된 라이브러리를 사용한다. - beautiful soap - requests 두 라이브러리를 먼저 설치한다. 크롤링을 원하는 페이지에 접속해 F12를 눌러 관리자 모드에 진입한다. 관리자모드에 커서를 올리면 페이지의 어느 부분인지 알 수 있도록 블록처리가 된다. 원하는 정보가 있는 곳을 찾은 후 정규표현을 이용해 긁어오면 크롤링 성공이다. 의학용어 페이지를 크롤링한 코드는 .. 2023. 4. 21.
의학용어 탐지 및 해석 모델 어릴 때 부터 그런 고민을 자주 했다. 어려운 용어들이 많은 문서에서 내가 모르는 단어를 알아서 찾아 번역해주는 게 있다면 얼마나 좋을까. 고등학생때 보던 인터넷 강의에서 강사님이 그런 이야기를 했다. 의사는 환자의 눈높이에서 설명해주어야 한다며, 의학용어를 이용하면 전문가끼리 소통하는건 편하겠지만 이를 잘 모르는 환자는 이해를 잘 못한다는 것이다. 그럼 의학용어를 알아서 찾아서 쉬운말로 해석해주는 모델이 있다면 서로에게 정말 편하겠다는 생각이 들었다. 막연히 상상만 하던 것을 한번 구현해보기로 했다. 이런거 해보려고 열심히 공부한게 아니겠어?! 가장 먼저 해야할 일은 데이터를 구축하는 일이다. 나의 목적에 맞게 데이터를 찾고 구축하는 일은 생각보다 쉽지 않았다. 혼자서 많은 일을 하려니 완벽하게 할 수.. 2023. 4. 1.
728x90
반응형