• 제목/요약/키워드: 개방어 처리

검색결과 10건 처리시간 0.025초

확률 기반 미등록 단어 분리 및 태깅 (Probabilistic Segmentation and Tagging of Unknown Words)

  • 김보겸;이재성
    • 정보과학회 논문지
    • /
    • 제43권4호
    • /
    • pp.430-436
    • /
    • 2016
  • 형태소 분석시 나타나는 고유명사나 신조어 등의 미등록어에 대한 처리는 다양한 도메인의 문서 처리에 필수적이다. 이 논문에서는 3단계 확률 기반 형태소 분석에서 미등록어를 분리하고 태깅하기 위한 방법을 제시한다. 이 방법은 고유명사나 일반명사와 같은 개방어 뒤에 붙는 다양한 접미사를 분석하여 미등록 개방어를 추정할 수 있도록 했다. 이를 위해 형태소 품사 부착 말뭉치에서 자동으로 접미사 패턴을 학습하고, 확률 기반 형태소 분석에 맞도록 미등록 개방어의 분리 및 태깅 확률을 계산하는 방법을 제시하였다. 실험 결과, 제안한 방법은 새로운 미등록 용어가 많이 나오는 문서에서 미등록어 처리 성능을 크게 향상시켰다.

맥락적 어휘 지식 그래프 추출 알고리즘의 설계 (Design of a Contextual Lexical Knowledge Graph Extraction Algorithm)

  • 남상하;최규현;함영균;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.147-151
    • /
    • 2016
  • 본 논문에서는 Reified 트리플 추출을 위한 한국어 개방형 정보추출 방법을 제시한다. 시맨틱웹 분야에서 지식은 흔히 RDF 트리플 형태로 표현되지만, 자연언어문장은 복수개의 서술어와 논항간의 관계로 구성되어 있다. 이러한 이유로, 시맨틱웹의 대표적인 지식표현법인 트리플을 따름과 동시에 문장의 의존구조를 반영하여 복수개의 술어와 논항간의 관계를 지식화하는 새로운 개방형 정보추출 시스템이 필요하다. 본 논문에서는 문장 구조에 대한 일관성있는 변환을 고려한 새로운 개방형 정보추출 방법을 제안하며, 개체 중심의 지식과 사건중심의 지식을 함께 표현할 수 있는 Reified 트리플 추출방법을 제안한다. 본 논문에서 제안한 방법의 우수성과 실효성을 입증하기 위해 한국어 위키피디아 알찬글 본문을 대상으로 추출된 지식의 양과 정확도 측정 실험을 수행하였고, 본 논문에서 제안한 방식을 응용한 의사 SPARQL 질의 생성 모듈에 대해 소개한다.

  • PDF

맥락적 어휘 지식 그래프 추출 알고리즘의 설계 (Design of a Contextual Lexical Knowledge Graph Extraction Algorithm)

  • 남상하;최규현;함영균;최기선
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.147-151
    • /
    • 2016
  • 본 논문에서는 Reified 트리플 추출을 위한 한국어 개방형 정보추출 방법을 제시한다. 시맨틱웹 분야에서 지식은 흔히 RDF 트리플 형태로 표현되지만, 자연언어문장은 복수개의 서술어와 논항간의 관계로 구성되어 있다. 이러한 이유로, 시맨틱웹의 대표적인 지식표현법인 트리플을 따름과 동시에 문장의 의존구조를 반영하여 복수개의 술어와 논항간의 관계를 지식화하는 새로운 개방형 정보추출 시스템이 필요하다. 본 논문에서는 문장 구조에 대한 일관성있는 변환을 고려한 새로운 개방형 정보추출 방법을 제안하며, 개체중심의 지식과 사건중심의 지식을 함께 표현할 수 있는 Reified 트리플 추출방법을 제안한다. 본 논문에서 제안한 방법의 우수성과 실효성을 입증하기 위해 한국어 위키피디아 알찬글 본문을 대상으로 추출된 지식의 양과 정확도 측정 실험을 수행하였고, 본 논문에서 제안한 방식을 응용한 의사 SPARQL 질의 생성 모듈에 대해 소개한다.

  • PDF

집단지성을 이용한 한글 감성어 사전 구축 (Building a Korean Sentiment Lexicon Using Collective Intelligence)

  • 안정국;김희웅
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.49-67
    • /
    • 2015
  • 최근 다양한 분야에서 빅데이터의 활용과 분석에 대한 중요성이 대두됨에 따라, 뉴스기사와 댓글과 같은 비정형 데이터의 자연어 처리 기술에 기반한 감성 분석에 대한 관심이 높아지고 있다. 하지만, 한국어는 영어와는 달리 자연어 처리가 어려운 교착어로써 정보화나 정보시스템에의 활용이 미흡한 실정이다. 이에 본 연구는 감성 분석에 활용이 가능한 감성어 사전을 집단지성으로 구축하였고, 누구나 연구와 실무에 사용하도록 API서비스 플랫폼을 개방하였다(www.openhangul.com). 집단지성의 활용을 위해 국내 최대 대학생 소셜네트워크 사이트에서 대학생들을 대상으로 단어마다 긍정, 중립, 부정에 대한 투표를 진행하였다. 그리고 집단지성의 효율성을 높이기 위해 감성을 '정의'가 아닌 '분류'하는 방식인 폭소노미의 '사람들에 의한 분류법'이라는 개념을 적용하였다. 총 517,178(+)의 국어사전 단어 중 불용어 형태를 제외한 후 감성 표현이 가능한 명사, 형용사, 동사, 부사를 우선 순위로 하여, 현재까지 총 35,000(+)번의 단어에 대한 투표를 진행하였다. 본 연구의 감성어 사전은 집단지성의 참여자가 누적됨에 따라 신뢰도가 높아지도록 설계하여, 시간을 축으로 사람들이 단어에 대해 인지하는 감성의 변화도 섬세하게 반영하는 장점이 있다. 따라서 본 연구는 앞으로도 감성어 사전 구축을 위한 투표를 계속 진행할 예정이며, 현재 제공하고 있는 감성어 사전, 기본형 추출, 카테고리 추출 외에도 다양한 자연어 처리에 응용이 가능한 API들도 제공할 계획이다. 기존의 연구들이 감성 분석이나 감성어 사전의 구축과 활용에 대한 방안을 제안하는 것에만 한정되어 있는 것과는 달리, 본 연구는 집단지성을 실제로 활용하여 연구와 실무에 활용이 가능한 자원을 구축하여 개방하여 공유한다는 차별성을 가지고 있다. 더 나아가, 집단지성과 폭소노미의 특성을 결합하여 한글 감성어 사전을 구축한 새로운 시도가 향후 한글 자연어 처리의 발전에 있어 다양한 분야들의 융합적인 연구와 실무적인 참여를 이끌어 개방적 협업의 새로운 방향과 시사점을 제시 할 수 있을 것이라 기대한다.

어절패턴 사전을 이용한 새로운 한국어 형태소 분석기 (A New Korean Morphological Analyzer using Eojeol Pattern Dictionary)

  • 홍진표;차정원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (C)
    • /
    • pp.279-284
    • /
    • 2008
  • 본 연구에서는 어절패턴을 이용하는 새로운 방식의 한국어 형태소 분석기 KGuru-MA에 대해서 설명한다. KGuru-MA는 품사 부착 말뭉치에서 개방어를 생략하여 어절 패턴을 반자동으로 학습하여 어절 패턴 사전과 형태소 확률 정보 사전을 구성한 후, 이 사전을 이용하여 형태소를 분석한다. 본 형태소 분석기는 어절패턴을 사용하여 형태소 분석하기 때문에 기존 형태소 분석기에 존재하는 접속검사 과정이 생략된다. 또한, 형태소 분석 과정이 기존의 형태소 분석기에 비해 단순하여 기초 자연언어 처리 시스템이 가지는 강건성을 보장한다. 본 연구는 "21세기 세종기획 3차년도 말뭉치"를 이용한 실험 결과, 기존 형태소 분석기 못지 않은 성능을 보였다.

  • PDF

사전기반 항목명 표준화 시스템 설계 및 구현 (Design and Implementation of Dictionary-based Column Name Standardization System)

  • 신수미;문영수
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.621-624
    • /
    • 2021
  • 최근 빅데이터에 대한 관심이 높아지면서 분석을 위해 필요한 데이셋의 표준화에 대한 중요성이 강조되고 있다. 데이터 표준화를 위해서는 업무 처리에 필요한 모든 데이터의 명명 규칙을 규정하고 그 기준에 따라 표준 명칭을 부여하여야 한다. 본 연구에서는 사전을 기반으로 하는 항목명 표준화 시스템을 제안하였다. 제안한 시스템은 공개된 표준단어사전을 활용하여 유의어를 포함한 참조 사전을 구축하고 이를 기반으로 표준사전을 구축하여 표준 항목명을 제공한다. 기 구축된 데이터셋의 항목명을 입력하거나 사용자가 원하는 새로운 항목명을 입력하면 항목명 표준화 시스템은 표준화된 한글 항목명과 영문 항목명, 그리고 테이블 설계에 사용하는 영문 약어명을 출력한다. 본 연구에서 제안한 시스템을 테이블 설계에 활용하거나 기 구축된 데이터셋을 표준화하는데 적용하면 일관된 데이터 해석이나 관리가 가능할 것으로 기대된다.

  • PDF

개인정보 노출의 예방 방법에 관한 연구 (A Study on a Prevention Method for Personal Information Exposure)

  • 이기성;안효범
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 추계학술발표대회
    • /
    • pp.968-971
    • /
    • 2011
  • 정보통신망의 발전과 함께 인터넷 사용 인구와 다양한 개방적 구조의 서비스 이용률이 지속적으로 증가하고 있다. 하지만 서비스 이용자들의 보안의식은 크게 달라지지 않아 서비스 이용자들의 직접적인 입력으로 인터넷상에 노출되는 개인정보가 늘어나고 있는 실정이며 이로 인한 이차적인 침해로 인하여 개인에게 정신적인 피해와 금전적 손괴 심지어는 신체적인 위험을 주는 각종범죄가 행해지고 있다. 본 논문에서는 이와 같은 개인정보의 노출을 예방하기 위해 서비스 이용자가 게시물을 등록하는 과정에서 개인정보의 노출을 예방 할 수 있는 게시물의 등록 방법을 제시한다. 이 방법은 게시물 등록시 게시물에서 검출된 개인정보의 목록과 위험의 정도 그리고 개인정보 노출로 인한 이차적 침해유형을 서비스 이용자에게 명시하고 해당 개인정보에 대한 처리를 서비스 이용자에게 결정하도록 하는 방법으로서 서비스 이용자의 개인 정보보호 의식 수준을 끌어올려 개인정보 노출과 이차적인 침해사고를 일차적으로 예방할 수 있다.

페이스북 그룹 게시물 분석을 통한 우울증 관련 주제에 대한 고찰 (Investigating Major Topics Through the Analysis of Depression-related Facebook Group Posts)

  • 주영준;김동훈;이창호;이용정
    • 한국문헌정보학회지
    • /
    • 제53권4호
    • /
    • pp.171-187
    • /
    • 2019
  • 본 연구는 소셜 네트워크 서비스인 페이스북에서 우울증 관련 게시물을 분석하여 그 안에서 주로 논의되는 주제를 파악하고자 한다. 구체적으로, 접근 용이성, 개방성 및 익명성 등의 특징을 지니는 페이스북이라는 온라인 커뮤니티에서 사용자들이 다소 민감한 정신적 질환인 우울증에 관하여 어떤 내용을 논의하는지 살펴보고자 한다. 본 연구를 위해 페이스북 데이터 수집에서부터 주제어 추출에 이르기까지의 전반적인 과정을 포함하는 자연어 처리 기반의 데이터 분석 프레임워크를 구현하였다. 구현한 프레임워크를 이용하여, 본 연구는 우울증을 논의하는 페이스북 최대 사용자 그룹에서 최근 1년간 작성한 885개의 게시물을 수집하여 분석하였다. 주제어 추출의 완성도와 정확도를 위해 자동화된 기법과 수동적인 접근법(불용어 제거, 주제어 개수 지정)을 결합하였으며, 이를 통해 주제를 다각도에서 분석하였다. 분석 결과, 사용자들은 우울증 일반, 인간관계, 기분 및 느낌, 우울증 증상, 자살, 의료 참고, 그리고 가족 등에 대한 논의를 주로 하는 것으로 파악되었다.

코로나 시기 패들렛 활용 교양 수업에 대한 학습자 인식 고찰 (A Study on University Students' Perception for Liberal Arts Class Using Padlet During the COVID-19)

  • 박옥희
    • 산업융합연구
    • /
    • 제21권4호
    • /
    • pp.73-80
    • /
    • 2023
  • 본 연구의 목적은 코로나 팬데믹기간에 온라인 학습 도구 패들랫(Padlet)을 활용하여 대면으로 수업한 교양 과목에 대한 학습자의 인식을 조사하는데 있다. 연구방법은 B대학 재학생 37명을 대상으로 패들렛 활용 수업에 대한 만족도, 참여도, 학습 효과와 동기에 대해 양적 조사와 질적 조사를 실시하였다. 수집된 설문 자료는 SPSS 19.0 프로그램으로 통계 처리하였고, 개방형 질문은 중심어 위주로 분류하여 데이터를 분석하였다. 연구결과는 다음과 같다. 첫째, 패들렛을 활용한 대면 수업에 대해 학습자의 인식은 통계적으로 유의하였다(p< .001). 수업만족도가 제일 높았고, 이어서 학습 효과와 동기 순으로 높았고 반면, 수업 참여도는 제일 낮았다. 둘째, 성별비교에서는 여학생이 참여도를 제외한 만족도, 학습 효과, 동기에서 통계적으로 유의하게 높았다(p< .001). 셋째, 학년 간 비교에서는 1학년과 4학년이 통계적으로 유의하였고(p< .001), 만족도, 참여도, 학습 효과, 동기에서 모두 1학년이 4학년 보다 높았다. 넷째, 개방형 질문에서 패들렛 활용 학습에 대한 만족도, 참여도, 학습 효과, 동기에 대해 학습자들은 긍정적인 데이터를 보였다. 연구결과를 토대로 제언 및 교육적 함의가 논의되었다.

완전미 가공시설 실태조사 연구

  • 최희석;박회만;정성근;홍성기;조광환
    • 한국식품저장유통학회:학술대회논문집
    • /
    • 한국식품저장유통학회 2003년도 제23차 추계총회 및 국제학술심포지움
    • /
    • pp.175-176
    • /
    • 2003
  • 쌀의 연간 생산량은 재배기술의 발달과 더블어 500만톤 이상을 꾸준히 유지해 오고 있는 반면에 식생활패턴은 점차 인스턴트화 되고 육류소비가 증가함으로써 1인당 소비량이 1990년 119.6kg에서 2002 년 87.0kg으로 급격히 감소하는 추세를 보이고 있다. 이러한 현상은 재고누적으로 이어져 2002년말 기준으로 1,190만석의 재고가 발생되고 있으며, 더욱이 WTO체제하에서 쌀시장 개방압력이 강화되고 있는 실정으로 앞으로 재고문제는 더욱 심화될 것으로 전망되고 있다. 이렇게 쌀이 남아도는 현실에서 국내 유통미의 품위는 싸라기 및 분상질립, 피해립, 이물 등 불완전립의 비율이 매우 높아 일본산이나 미국산에 비해 품질이 현저히 떨어지고 있어 고품질 가공을 통한 차별화가 시급히 요청되고 있는 실정이다. 따라서 본 연구에서는 최근 고품질 쌀 가공을 위해 설치 운영되고 있는 완전미 가공시설을 중심으로 완전미 가공기계장치의 구성 실태 및 제품의 품위 등을 조사분석하여 완전미 가공 기계장치의 개량요인을 도출하고, 이를 토대로 기계장치를 보완하기 위한 기초자료를 얻고자 하였으며, 그 결과를 요약하면 다음과 같다. 현재 보급되어 있는 완전미 가공시설의 구성형태는 기존 미곡가공시설에 홈선별기를 1대를 추가 설치한 제 I유형, 색채선별기1대 + 홈선별기 1대를 추가설치한 제II유형, 색채선별기 1대+입선별기 (개조) 1대를 추가한 제III유형으로 크게 나누어지고 있다. 이들 시설의 도정능력은 백미 가공시에는 I, II, III유형에서 각각 24.0, 27.7, 24.0톤으로 높았던 반면에 완전미 가공시에는 각각 3.1, 5,3, 4.5톤으로 처리능력이 크게 떨어지는 것으로 나타났다. 가공수율면에서는 일반백미로 가공시 72.0% 수준이었으나 완전미로 가공시에는 64.3%로 7.7%의 수율 감소를 가져왔지만 완전립률이 일반백미로 가공시 I, II, III유형에서 각각 89.08, 91.57, 88.00% 에서 완전미로 가공시에는 각각 98.02, 98.43, 97.78% 높아져 품질이 크게 향상되었다. 따라서 완전미 가공시설을 도입할 경우 쌀의 외관품질을 크게 높일수 있는 것으로 나타났다. 또 현재의 완전미 가공시설에 있어서 개량이 필요한 부분은 미숙립 등을 효율적으로 제거해 가공효율을 높이기 위해서는 입선별기의 개량이 요구되었으며, 홈선별기의 경우에는 선별정도는 문제가 없었으나 처리능력의 향상이 필요한 것으로 나타났다. 따라서 완전미 가공효율을 높이기 위한 선별기 개량연구를 계속 수행중에 있다.

  • PDF