• 제목/요약/키워드: 언어 정보

검색결과 7,941건 처리시간 0.047초

워드 임베딩을 활용한 관용표현 인식 연구 (Korean Idiom Classification Using Word Embedding)

  • 박서윤;강예지;강혜린;장연지;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.548-553
    • /
    • 2020
  • 우리가 쓰는 일상 언어 중에는 언어적 직관이 없는 사람은 의미 파악이 힘든 관용표현이 존재한다. 관용표현을 이해하기 위해서는 표현에 대한 형태적, 의미적 이해가 수반되어야 하기 때문이다. 기계도 마찬가지로 언어적 직관이 없기 때문에 관용표현에 대한 자연어 처리에는 어려움이 따른다. 특히 일반표현과 중의성 관계에 있는 관용표현의 특성이 고려되지 않은 채 문자적으로만 분석될 위험성이 높다. 본 연구에서는 '관용표현은 주변 문맥과의 관련성이 떨어진다'라는 가정을 중심으로 워드 임베딩을 활용한 관용표현과 일반표현에 대한 구분을 시도하였다. 실험은 4개 표현에 대해 이루어 졌으며 Skip-gram, Fasttext를 활용한 방법을 통해 관용표현은 주변 단어들과의 유사성이 떨어짐을 확인하였다.

  • PDF

열악한 환경의 음성 언어 이해를 위한 정보 추출 접근 방식 (An Information Extraction Approach for Spoken Language Understanding in a Hostile Environment.)

  • 은지현;이창기;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.20-24
    • /
    • 2004
  • 본 논문에서는 환경 잡음과 원거리 음성 입력 그리고 노인 발화 등의 열악한 음성 인식 환경에서의 음성 언어이해(spoken language understanding)를 위한 정보 추출 접근 방식에 대해 논하고 있다. 정보 추출의 목적은 미리 정의된 slot에 적절한 값을 찾는 것이다. 음성 언어 이해를 위한 정보 추출은 필수적인 요소만을 추출하는 것을 목적으로 하는 개념 집어내기(concept spotting) 접근 방식을 사용한다. 이러한 방식은 미리 정의된 개념 구조 slot에만 관심을 가지기 때문에. 음성 언어 이해에서 사용되는 정보 추출은 언어를 완전히 이해한다기보다는 부분적으로 이해하는 방식을 취하고 있다. 음성 입력 언어는 주로 열등한 인식 환경에서 이루어지기 때문에 많은 인식 오류를 가지고 이로 인해 텍스트 입력에 비해 이해하기 어렵다. 이러한 점을 고려하여, 특정 정보에 집중함으로써 음성 언어를 이해하고자 시도하였다. 도로 정보 안내 영역을 대상으로 한 실험에서 텍스트 입력(WER 0%)과 음성 입력(WER 39.0%)이 주어졌을 때, 개념 집어내기 방식의 F-measure 값은 각각 0.945, 0.823을 나타내었다.

  • PDF

분산음성인식을 위한 내장형 고속/경량 음소인식기 개발 (Development of Embedded Fast/Light Phoneme Recognizer for Distributed Speech Recognition)

  • 김승희;황규웅;전형배;정훈;박준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 춘계학술발표대회
    • /
    • pp.395-396
    • /
    • 2007
  • ETRI 음성/언어정보연구센터에서는 분산음성인식을 위해 메모리를 작게 사용하며 속도가 빠른 음소인식기를 개발 중이다. 음향 모델, 언어 모델, 탐색 네트워크 등 고정되어 있는 정보는 인식기를 수행하기 이전에 미리 binary 형태로 구축하여 ROM 형태로 저장함으로써 실제 사용해야 할 RAM 용량을 대폭 줄일 수 있었다. Tied state에 기반한 triphone 모델에서는 unique HMM 만을 사용함으로써 인식시간 및 메모리 사용량을 대폭 줄일 수 있었다. Monophone 인식기의 경우 RAM 사용량이 179KB였으며, triphone 인식기의 경우 435KB의 RAM 사용량과 RTF(Real Time Factor) 0.02를 확인하였다.

새로운 언어 설계의 지침을 위한 C 시큐어 코딩 규칙 분류 (Categorizing C Secure Coding Rules for a Design Guideline of a New Language)

  • 김연어;우균
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 춘계학술발표대회
    • /
    • pp.571-574
    • /
    • 2014
  • 현대 사회에서 정보보안은 무엇보다 중요한 요소로 자리 잡고 있다. 시큐어 코딩은 정보보안 기법의 하나로 보안 취약점을 원천적으로 차단하여 보안 비용을 획기적으로 줄이는 방법이다. 하지만 기존 시큐어 코딩 가이드는 C나 Java와 같은 특정 언어에 대한 가이드만 제공하고 있다. 이 논문에서는 다양한 언어에서도 기존의 시큐어 코딩 가이드를 활용할 수 있도록 언어적 특징을 기반으로 시큐어 코딩 가이드를 재분류하고자 한다. 이를 위해 이 논문에서는 많은 언어의 기반이 되는 C 언어의 시큐어 코딩 가이드 중 안전행정부에서 발표한 C 시큐어 코딩 가이드를 이용하여 재분류 작업을 수행하였다. 그 결과 총 58개의 취약점 중 언어와 관련이 있는 취약점은 19개로 약 33%가 프로그래밍 언어와 관련 있는 것을 확인하였다. 또한, 제안 방법의 내용 중 언어적 특성쪽의 취약성을 모두 해결할 수 있도록 문법을 설계한다면 C 언어보다 보안성이 높은 언어를 설계할 수 있다.

주어 탈락 현상의 언어간 비교와 이론적 모색 (Null Subjects in Crosslinguistic Acquisition Data and Theoretical Implications)

  • 김영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1995년도 제7회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.264-280
    • /
    • 1995
  • 한 문장의 주어가 우리말에서처럼 수의적으로 나타날 수 있는가 혹은 영어에서처럼 반드시 표면에 나타나야 하는가에 따라 공주어언어 (null-subject language)와 비공주어언어(non-null-subject language)로 분류된다. 이러한 주어 탈락 현상에 대하여 이론적으로 다양한 가설이 제기되어 왔다. 본 논문에서는 한국어의 언어 습득 자료에 나타나는 주어 탈락의 양상을 살피고, 이를 비공주어언어인 영어자료와 공주어언어인 이탈리아어, 포르투갈어, 중국어자료와 비교함으로써 궁극적으로 이론적 가설을 비교 평가하는 데 이바지하고자 한다.

  • PDF

코드 스위칭 코퍼스 기반 다국어 LLM의 지식 전이 연구 (Knowledge Transfer in Multilingual LLMs Based on Code-Switching Corpora)

  • 김성현;이강희;정민수;이정우
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.301-305
    • /
    • 2023
  • 최근 등장한 Large Language Models (LLM)은 자연어 처리 분야에서 눈에 띄는 성과를 보여주었지만, 주로 영어 중심의 연구로 진행되어 그 한계를 가지고 있다. 본 연구는 사전 학습된 LLM의 언어별 지식 전이 가능성을 한국어를 중심으로 탐구하였다. 이를 위해 한국어와 영어로 구성된 코드 스위칭 코퍼스를 구축하였으며, 기본 모델인 LLAMA-2와 코드 스위칭 코퍼스를 추가 학습한 모델 간의 성능 비교를 수행하였다. 결과적으로, 제안하는 방법론으로 학습한 모델은 두 언어 간의 희미론적 정보가 효과적으로 전이됐으며, 두 언어 간의 지식 정보 연계가 가능했다. 이 연구는 다양한 언어와 문화를 반영하는 다국어 LLM 연구와, 소수 언어를 포함한 AI 기술의 확산 및 민주화에 기여할 수 있을 것으로 기대된다.

  • PDF

암시적 비윤리 데이터를 활용한 언어 모델의 강건성 평가 (Evaluation of Language Model Robustness Using Implicit Unethical Data)

  • 김유진;정가연;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.633-637
    • /
    • 2023
  • 암시적 비윤리 표현은 명시적 비윤리 표현과 달리 학습 데이터 선별이 어려울 뿐만 아니라 추가 생산 패턴 예측이 까다롭다. 고로 암시적 비윤리 표현에 대한 언어 모델의 감지 능력을 기르기 위해서는 모델의 취약성을 발견하는 연구가 반드시 선행되어야 한다. 본 논문에서는 암시적 비윤리 표현에 대한 표기 변경과 긍정 요소 삽입이라는 두 가지 변형을 통해 모델의 예측 변화를 유도하였다. 그 결과 모델이 야민정음과 외계어를 사용한 언어 변형에 취약하다는 사실을 발견하였다. 이에 더해 이모티콘이 텍스트와 함께 사용되는 경우 텍스트 자체보다 이모티콘의 효과가 더 크다는 사실을 밝혀내었다.

  • PDF

개인정보 탐지를 위한 특화 개체명 주석 데이터셋 구축 및 분류 실험 (A Study on the Construction of Specialized NER Dataset for Personal Information Detection)

  • 강혜린;비립;강예지;박서윤;조예슬;성현민;장성순;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.185-191
    • /
    • 2022
  • 개인정보에 대한 경각심 및 중요성 증대에 따라 텍스트 내 개인정보를 탐지하는 태스크가 주목받고 있다. 본 연구에서는 개인정보 탐지 및 비식별화를 위한 개인정보 특화 개체명 태그셋 7개를 고안하는 한편 이를 바탕으로 비식별화된 원천 데이터에 가상의 데이터를 대치하고 개체명을 주석함으로써 개인정보 특화 개체명 데이터셋을 구축하였다. 개인정보 분류 실험에는 KR-ELECTRA를 사용하였으며, 실험 결과 일반 개체명 및 정규식 바탕의 규칙 기반 개인정보 탐지 성능과 비교하여 특화 개체명을 활용한 딥러닝 기반의 개인정보 탐지가 더 높은 성능을 보임을 확인하였다.

  • PDF

한국어 언어 모델의 정치 편향성 검증 및 정량적 지표 제안 (Measurement of Political Polarization in Korean Language Model by Quantitative Indicator)

  • 김정욱;김경민;;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.16-21
    • /
    • 2022
  • 사전학습 말뭉치는 위키백과 문서 뿐만 아니라 인터넷 커뮤니티의 텍스트 데이터를 포함한다. 이는 언어적 관념 및 사회적 편향된 정보를 포함하므로 사전학습된 언어 모델과 파인튜닝한 언어 모델은 편향성을 내포한다. 이에 따라 언어 모델의 중립성을 평가할 수 있는 지표의 필요성이 대두되었으나, 아직까지 언어 인공지능 모델의 정치적 중립성에 대해 정량적으로 평가할 수 있는 척도는 존재하지 않는다. 본 연구에서는 언어 모델의 정치적 편향도를 정량적으로 평가할 수 있는 지표를 제시하고 한국어 언어 모델에 대해 평가를 수행한다. 실험 결과, 위키피디아로 학습된 언어 모델이 가장 정치 중립적인 경향성을 나타내었고, 뉴스 댓글과 소셜 리뷰 데이터로 학습된 언어 모델의 경우 정치 보수적, 그리고 뉴스 기사를 기반으로 학습된 언어 모델에서 정치 진보적인 경향성을 나타냈다. 또한, 본 논문에서 제안하는 평가 방법의 안정성 검증은 각 언어 모델의 정치적 편향 평가 결과가 일관됨을 입증한다.

  • PDF

TagBench: 언어 정보 태깅 도구 (TagBench: a tagging tool for linguistic information)

  • 서형원;김재훈;최명길;남유림;권홍석
    • 한국마린엔지니어링학회:학술대회논문집
    • /
    • 한국마린엔지니어링학회 2012년도 전기공동학술대회 논문집
    • /
    • pp.279-279
    • /
    • 2012
  • 일반적으로 한글 문서에 포함된 각종 언어 정보(형태소, 구묶음, 기반구의 품사나 의미 정보 등)를 일일이 수정하는 것에는 많은 어려움이 따른다. 또한 지금껏 개발된 언어 정보 수정 도구들은 이런 언어 정보를 쉽게 수정할 수 없다. 따라서 본 논문에서는 한글 문서의 각종 언어 정보를 쉽게 태깅하고 수정할 수 있도록 도와주는 TagBench를 제안한다.

  • PDF