• 제목/요약/키워드: 오타 교정

검색결과 13건 처리시간 0.021초

악성 댓글에 사용된 문자의 형태를 고려한 한국어 자연어처리를 위한 전처리 기법 (Preprocessing technique for natural language processing considering the form of characters used in malicious comments)

  • 김해수;김미희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.543-545
    • /
    • 2022
  • 최근 악플에 대한 논란이 끊이지 않고 있어 이것을 해결하기위한 방법으로 자연어 처리를 이용하고 있다. 특히 소셜 미디어, 온라인 커뮤니티에서 많이 발생하고 있고 해당 매체에서는 한글을 그대로 사용하지 않고 그들의 은어를 섞어서 사용하며 그중에서 한글이 아닌 문자를 섞어서 만들어낸 문장도 있다. 이러한 문장은 기존의 모델에 학습된 데이터의 형태와 다르며 한글이 아닌 문장이 많을수록 모델의 예측이 부정확해진다는 단점이 있어 본 논문에서는 인공지능을 이용한 이미지 분류와 띄어쓰기, 오타 교정을 이용한 전처리 기법을 제안한다.

학술논문의 참고문헌 자동매핑 방법에 관한 연구 (Study on Automatic Mapping Method for Reference of Scholarly Papers)

  • 한정민;장현철;김진현;예상준;김상균;김철;송미영
    • 정보관리연구
    • /
    • 제41권3호
    • /
    • pp.155-173
    • /
    • 2010
  • 학문의 발전과 주제의 다양화로 인하여 각계의 연구자들은 자신에게 필요한 정보를 정확하게 찾을 필요성이 커지고 있다. 그리하여 본 논문에서는 효율적인 참고문헌 추출 방법으로 중복된 참고문헌을 비교 분석하여 자동으로 매핑해주는 시스템을 구축하고, 한의학 사전을 통한 한자의 오타를 교정할 수 있는 방법을 연구하였다. 이러한 방법을 적용함으로써 참고문헌의 중복입력과 한자오류를 개선할 수 있었다.

PAM 행렬 모델을 이용한 음소 간 유사도 자동 계산 기법 (Automatic Inter-Phoneme Similarity Calculation Method Using PAM Matrix Model)

  • 김성환;조환규
    • 한국콘텐츠학회논문지
    • /
    • 제12권3호
    • /
    • pp.34-43
    • /
    • 2012
  • 두 문자열 간의 유사도를 계산하는 문제는 정보 검색, 오타 교정, 스팸 필터링 등 다양한 분야에 응용될 수 있다. 동적 계획법 기반의 유사도 계산 방법을 통하여 한글 문자열의 유사도 계산을 위해서는 우선 음소간의 유사도에 대한 정의가 필요하다. 그러나 기존의 방법들은 수동적 설정에 의한 유사도 점수를 사용하고 있다는 한계점이 있다. 본 논문에서는 PAM(Point Accepted Mutation) 행렬과 유사한 확률 모델을 이용하여 변형 단어 집합으로부터 음소 간의 유사도를 자동적으로 계산하는 기법을 제안한다. 제안 기법은 주어진 변형 단어의 집합 내 유사한 단어 쌍을 찾아 문자열 정렬(Text Alignment)을 수행함으로써 음소 변형 규칙을 도출하고, 이로부터 각 음소 쌍의 상호 변형 빈도에 따른 유사도 점수를 계산한다. 실험 결과 특이도(Specificity) 77.2~80.4% 수준에서 불일치 여부에 따른 단순 점수 부여 방식에 비해서는 10.4~14.1%, 수동으로 음소 간 유사도를 직접 설정하는 방식에 비해서는 8.1~11.8%의 민감도(Sensitivity) 향상이 있음을 확인하였다.