• 제목/요약/키워드: 영어처리

검색결과 470건 처리시간 0.03초

Unknown Word Lexical Dictionary의 자동 생성 방법 (Automatic Construction Method of Unknown Word Lexical Dictionary)

  • 황명권;윤병수;정일용;김판구
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 춘계학술발표대회
    • /
    • pp.3-6
    • /
    • 2008
  • 본 연구는 의미적 정보 검색을 위한 연구 중의 하나로, 현재까지의 의미적 문서 검색에서 큰 걸림돌이었던 사전에 정의되지 않은 단어(Unknown Word)들의 어휘 사전(Lexical Dictionary)을 자동으로 생성하기 위한 것이다. 이를 위해 UW를 기존의 영어 어휘 사전인 워드넷(WordNet)에 정의되지 않은 단어로 간주하고, 웹 문서의 입력을 통하여 UW와 관련된 단어들을 추출하여 의미적 관련 정도를 확률적, 의미적 방법으로 측정한다. 본 논문에서는 UW Lexical Dictionary를 자동으로 구축하기 위한 방법에 대해서만 기술하였고, 정량적이고 객관적인 평가는 포함하지 않고 있다. 하지만 본 연구의 효용성을 확인하기 위한 몇 가지 문서로부터 추출된 결과는 본 연구가 상당히 의미적이며 가치가 높을 것으로 기대되고 있다.

웹기반 TOEIC 문법 문제 자동 생성 시스템 (A Web-Based System for Automatic Generation of TOEIC Grammar Test)

  • 정형구;김상철;채희락;이찬종
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 추계학술발표대회
    • /
    • pp.602-604
    • /
    • 2007
  • 본 논문에서는 웹기반의 TOEIC 문법 문제 자동 생성 시스템을 제안한다. 본 시스템은 웹에서 문서를 가져온 후, 문서의 각 문장이 데이터베이스에 저장된 문제 패턴에 일치하는 지를 검사하여 문제를 생성한다. 본 시스템을 통해서 생성되는 문법 문제를 영어 전문가를 통해서 검중한 결과, 대부분의 문제가 TOEIC 실전 문제로 사용하기에 충분한 것이었다. 우리의 조사에 의하면, TOEIC 문법 문제의 자동 생성에 관한 기존 연구는 거의 발표되고 있지 않다.

ChatPub: 검색 증강 생성 기반 청년 관련 정책 추천 서비스 (ChatPub: Retrieval Augmented Generation-based Service to Aid in Finding Relevant Policies for Korean Youth)

  • 김강산;박진호;양승빈;전창민;구형준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.812-813
    • /
    • 2024
  • 본 논문은 검색 증강 생성 기법과 ChatGPT 를 결합한 사용자 맞춤 정책 추천 서비스인 ChatPub 을 소개한다. ChatPub 은 대한민국 청년을 대상으로 최소한의 개인 정보를 제공받아 적합한 정책을 추천해 주는 웹 서비스다. 정책 정보 사이트를 실시간으로 반영하는 데이터베이스를 참조함으로써 최신 정책 정보를 반영할 수 있으며, 사용자 친화적인 채팅 인터페이스를 통해 원하는 정책 정보에 쉽게 접근할 수 있다. 본 서비스를 통해 청년 정책의 접근성을 높이고 다양한 혜택을 쉽게 알림으로써 더 많은 기회를 제공할 수 있다.

음원 메타데이터와 사용자 플레이리스트를 활용한 음악 추천 시스템 (Music Recommendation System Using Audio Metadata and User Playlists)

  • 남경민;박유림;정지영;김도현;김현희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.731-732
    • /
    • 2024
  • 본 논문은 음원 메타데이터 임베딩 방법론을 기반으로 새로운 음원 추천 방법을 제안한다. 사용자 행동 데이터를 활용한 개인 맞춤형 음악 추천 모델은 신규 사용자의 데이터가 부족할 경우, 적절한 추천이 어려운 콜드스타트 현상을 초래할 수 있다. 본 연구에서는 플레이리스트의 음원 메타데이터를 Song sentence 로 구성하고, 고차원 벡터 공간에 임베딩하여 유사도를 계산한 추천 알고리즘을 구축한다. 사용자 행동 데이터가 아닌 음원의 자체적인 정보에 근거하기 때문에 콜드 스타트 현상을 보완하여 사용자에게 편리한 음악 감상 경험을 제공할 수 있을 것으로 기대된다.

Pylint를 이용한 Python 코딩 규칙 검사 시스템 (A Coding Rule Checking System for Python Using Pylint)

  • 김영훈;우균
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.82-85
    • /
    • 2024
  • 코딩 규칙 준수는 대규모 프로젝트에서 프로그램의 버그를 줄이기 위해, 또 효과적인 유지보수를 위해 필수적이나 코딩 규칙을 학습하기 위한 초보자용 도구는 거의 없는 실정이다. 본 논문에서는 Python 프로그래밍 수업에서 코딩 규칙을 학습할 수 있도록 도와주는 시스템을 제안한다. 제안된 시스템은 학습자를 위해 별도의 설치 없이 Python 코딩 규칙 검사 결과를 영어와 한글을 병행하여 출력하는 규칙 검사 뷰어를 통해 학습자의 편의성을 제공한다. 또한, 품질 점수를 계산하여 학습자의 코딩 규칙 학습의 동기를 부여한다. 제안 시스템의 성능을 평가하기 위해 SonarQube와 검출 기능을 비교하였다. 2023년도 1학기 Python 프로그래밍 수업의 제출 코드를 검사한 결과, 제안 시스템이 SonarQube보다 247% 더 많은 종류의 규칙을, 또 235% 더 많은 개수의 규칙을 검사하는 것으로 나타났다. 이러한 비교 연구 결과를 고려할 때, 제안 시스템은 학습자에게 더 나은 코딩 규칙 학습 기회를 제공할 수 있을 것으로 기대된다.

한영 번역 시스템에서의 불특정 조사를 포함한 용언구 처리 (Predicative phrase processing including unexpectable JOSA in the Korean-English translation system)

  • 박홍원;심재석;이수진;석영민;오승훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.523-529
    • /
    • 2001
  • 한국어의 용언구 중에서 [명사]+[불특정 조사]+[용언]의 형태를 보이는 '공부를 하다' '잠이나 자다'와 같은 어구는 [명사]와 [동사]의 결합이 비교적 자유로워 기계번역 시스템에서 이들을 처리하고자 할 때 몇가지 애로점이 있다. 우선, 기계번역 시스템의 특성상 이와 같은 용언구를 하나의 어구로 인식해서 역문을 생성해야 하는데 이들을 일일이 사전에 수록하기 어렵다는 점을 지적할 수 있다. 또한 이들 어구에 포함된 [명사] 부분이 [한정사]의 수식을 받을 때 영어 역문에서는 해당 수식어를 원래의 수식어의 의미 그대로 생성할 수 없다는 것도 중요한 문제점이다. 이러한 문제점을 해결하기 위하여 본 연구에서는 [명사] 부분과 [용언] 부분을 각각의 품사 사전에서 탐색하여 품사별로 인식한 후에 다시 통사적으로 하나의 용언으로 인식시켜 해당 역문을 생성하는 처리 방법을 제안한다. 또한, [한정사]의 수식을 올바로 생성하기 위하여 이런 종류의 용언구들을 분류하여 그 분류에 따라 [한정사]를 변형 생성하는 방법을 제시한다.

  • PDF

한국어 어휘의미망 KorLex 1.5의 구축방법론과 정보구조 (Methodologies for Constructing KorLex 1.5 (a Korean WordNet) and its Semantic Structure)

  • 윤애선;권혁철;이은령;황순희
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.42-47
    • /
    • 2008
  • 1980년대 중반부터 지난 20여 년간 구축해 온 영어 워드넷(PWN)은 인간의 심상어휘집을 재현하려는 목적으로 개발되기 시작하였으나, 그 활용 가능성에 주목한 것은 자연언어처리와 지식공학 분야다. 컴퓨터 매개 의사소통(CMC), 인간-컴퓨터 상호작용(HCI)에서 인간 언어를 자연스럽게 사용하여 필요한 정보를 획득하기 위해서는 의미와 지식의 처리가 필수적인데, 그 해결의 실마리를 어휘라는 실체를 가진 언어단위에서 찾을 수 있기 때문이다. 이후 전 세계적으로 약 50개 언어의 어휘의미망이 PWN을 참조모델로 구축되어 다국어처리의 기반을 제공할 뿐 아니라, 시맨틱 웹 이후 더욱 주목 받고 다양한 방식으로 활용되고 있다. 본고는 PWN을 참조 모델로 2004년부터 2007년까지 구축한 한국어 어휘의미망 KorLex 1.5를 소개하는 데 있다. 현재 KorLex은 명사, 동사, 형용사, 부사 및 분류사로 구성되며, 약 13만 개의 신셋과 약 15만 개의 어의를 포함하고 있다.

  • PDF

SimKoR: 한국어 리뷰 데이터를 활용한 문장 유사도 데이터셋 제안 및 대조학습에서의 활용 방안 (SimKoR: A Sentence Similarity Dataset based on Korean Review Data and Its Application to Contrastive Learning for NLP )

  • 김재민;나요한;김강민;이상락;채동규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.245-248
    • /
    • 2022
  • 최근 자연어 처리 분야에서 문맥적 의미를 반영하기 위한 대조학습 (contrastive learning) 에 대한 연구가 활발히 이뤄지고 있다. 이 때 대조학습을 위한 양질의 학습 (training) 데이터와 검증 (validation) 데이터를 이용하는 것이 중요하다. 그러나 한국어의 경우 대다수의 데이터셋이 영어로 된 데이터를 한국어로 기계 번역하여 검토 후 제공되는 데이터셋 밖에 존재하지 않는다. 이는 기계번역의 성능에 의존하는 단점을 갖고 있다. 본 논문에서는 한국어 리뷰 데이터로 임베딩의 의미 반영 정도를 측정할 수 있는 간단한 검증 데이터셋 구축 방법을 제안하고, 이를 활용한 데이터셋인 SimKoR (Similarity Korean Review dataset) 을 제안한다. 제안하는 검증 데이터셋을 이용해서 대조학습을 수행하고 효과성을 보인다.

  • PDF

딥러닝 방법을 이용한 발화의 공손함 판단 (Predicting the Politeness of an Utterance with Deep Learning)

  • 이찬희;황태선;김민정;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.280-283
    • /
    • 2019
  • 공손함은 인간 언어의 가장 흥미로운 특징 중 하나이며, 자연어처리 시스템이 인간과 자연스럽게 대화하기 위해 필수적으로 모델링해야 할 요소이다. 본 연구에서는 인간의 발화가 주어졌을 때, 이의 공손함을 판단할 수 있는 시스템을 구현한다. 이를 위해 딥러닝 방법인 양방향 LSTM 모델과, 최근 자연어처리 분야에서 각광받고 있는 BERT 모델에 대해 성능 비교를 수행하였다. 이 두 기술은 모두 문맥 정보를 반영할 수 있는 모델로서, 같은 단어라도 문맥 정보에 따라 의미가 달라질 수 있는 공손함의 미묘한 차이를 반영할 수 있다. 실험 결과, 여러 설정에 거쳐 BERT 모델이 양방향 LSTM 모델보다 더 우수함을 확인하였다. 또한, 발화가 구어체보다 문어체에 가까울 수록 딥러닝 모델의 성능이 더 좋은 것으로 나타났다. 제안된 두 가지 방법의 성능을 인간의 판단 능력과 비교해본 결과, 위키피디아 도메인에서 BERT 모델이 91.71%의 성능을 보여 인간의 정확도인 86.72%를 상회함을 확인하였다.

  • PDF

대화 데이터를 위한 멘션 탐지 및 상호참조해결 파이프라인 모델 (Mention Detection and Coreference Resolution Pipeline Model for Dialogue Data)

  • 김담린;김홍진;박성식;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.264-269
    • /
    • 2021
  • 상호참조해결은 주어진 문서에서 상호참조해결의 대상이 될 수 있는 멘션을 추출하고, 같은 개체를 의미하는 멘션 쌍 또는 집합을 찾는 자연어처리 작업이다. 하나의 멘션 내에 멘션이 될 수 있는 다른 단어를 포함하는 중첩 멘션은 순차적 레이블링으로 해결할 수 없는 문제가 있다. 본 논문에서는 이러한 문제를 해결하기 위해 멘션의 시작 단어의 위치를 여는 괄호('('), 마지막 위치를 닫는 괄호(')')로 태깅하고 이 괄호들을 예측하는 멘션 탐지 모델과 멘션 탐지 모델에서 예측된 멘션을 바탕으로 포인터 네트워크를 이용하여 같은 개체를 나타내는 멘션을 군집화하는 상호참조해결 모델을 제안한다. 실험 결과, 4개의 영어 대화 데이터셋에서 멘션 탐지 모델은 F1-score (Light) 94.17%, (AMI) 90.86%, (Persuasion) 92.93%, (Switchboard) 91.04%의 성능을 보이고, 상호참조해결 모델에서는 CoNLL F1 (Light) 69.1%, (AMI) 57.6%, (Persuasion) 71.0%, (Switchboard) 65.7%의 성능을 보인다.

  • PDF