• Title/Summary/Keyword: 공기어

검색결과 111건 처리시간 0.026초

유해어의 공기정보를 활용한 유해 웹문서 필터링 (Harmful Web-document Filtering using Harmful word Co-occurrence)

  • 안형근;이원휘;안동언;정성종
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (B)
    • /
    • pp.7-10
    • /
    • 2006
  • 웹 환경이 일반화되고 웹을 통해 획득할 수 있는 정보가 다양하고 풍부하다. 이 다양하고 풍부한 정보는 유익한 정보 뿐만 아니라 청소년들을 비롯한 사회적으로 보호를 받아야 할 웹 이용자들의 정신건강을 해치는 정보들도 다수 포함되고 있어 사회적 문제가 되고 있다. 본 연구에서는 웹 문서를 필터링하는 수단으로 공기정보를 포함하고 있는 유해어 사전을 활용한다. 유해어 사전 구축은 단순히 유해어 리스트만으로 사전을 구축하지 않고, 유해어 주위의 공기 단어의 정보를 포함시킴으로써 유해어의 중의성에 의한 오분류를 해소하고자 하였다. 즉, 유해어 후보가 1개 이상의 의미를 가지며 각 의미가 유해 정도가 다를 때, 유해어 후보의 등급을 결정하기 위하여 해당 유해어와 같은 문장 혹은 같은 문서에 출현하는 다른 단어 정보를 활용한다. 이렇게 함으로써 문서의 유해 등급을 결정하게 된다.

  • PDF

트렌드로 살펴본 문화 소비 현상 (A Trend analysis of cultural consumption in today's Korea)

  • 김혜영;김흥규;강범모
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2011년도 제23회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.15-20
    • /
    • 2011
  • 본 논문은 동아, 조선, 중앙, 한겨레 신문의 2000-2009년까지의 신문 자료에서 나타나는 문화 소비 현상의 트렌드에 대한 분석이다. 구체적으로, 명사 '트렌드'와의 공기어(공기 명사) 중에서 10년 동안 꾸준히 증가하는 단어들(일반 명사, 고유 명사)을 살펴보고 이것들의 속성에 따라서 명사를 분류하여 공기어의 증감도를 살펴본다. t-score를 이용하여 공기어를 추출하고 이들의 증감도를 분석하여 매년 공기하여 나타는 정도가 증가하는 단어를 대상으로 연구하였다. 이러한 명사의 빈도 증가를 통해 신문에서 나타나는 사회적 트렌드를 관찰할 수 있다.

  • PDF

명사의 연어 정보와 서술성 명사의 공기 정보를 활용한 복합명사 분석 및 자동 색인 (Analysis of Compound Noun and Automatic Indexing Using Collocation Information of Nouns and Co-occurrence Information of Predicative Nouns)

  • 양성현;정의석;윤준태;송만석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.59-64
    • /
    • 1997
  • 복합명사로부터 적절한 색인어를 추출하는 것은 한국어 정보검색 시스템의 성능 향상에 중요한 역할을 한다. 본 논문에서는 복합명사로부터 색인어 추출을 하기 위해 복합명사 구문 구조 분석 결과를 활용한다. 단일명사가 3개 이상 결합된 복합명사의 경우 각 단일명사의 구문적 관계를 파악하여 적절한 괄호치기를 한 후 색인어를 추출하면 보다 좋은 결과를 얻을 수 있다. 이러한 복합명사 구문 구조 분석을 위해 말뭉치로부터 구조적 중의성이 없는 연어 관계의 완전 복합명사와, 서술성 명사와 공기하는 명사쌍을 추출한 결과를 이용한다. 또한 서술성 명사는 이와 공기하는 명사와 결합되어 복합명사를 이를 가능성이 많고, 복합명사의 형태로 인식되어야만 정확한 의미 파악이 가능하다. 서술성 명사와 공기하는 명사를 파악하여 복합명사를 추출하기 위해서 부분 파서로 공기쌍을 찾아 복합명사 후보를 생성한 후, 이 후보 가운데 적합한 복합명사만을 선택하기 위해 말뭉치에서 추출한 완전 복합명사 사전을 통해 검증한다. 이러한 방법으로 서술성 명사에서 복합명사 형태의 색인어를 추출한다.

  • PDF

튜우브레스시대의 주인공

  • 대한타이어공업협회
    • 타이어
    • /
    • 통권49호
    • /
    • pp.9-14
    • /
    • 1973
  • 공기를 활용하고 있는 중요상품중에 자동차타이어가 있다. 그러나 긴 타이어의 역사에 있어서도 이 공기를 완전히 지배하기까지에는 아직 이르지 못했다. 즉 타이어의 빵꾸! 라고 하는 사고가 바로 그것이다. 따라서 이 빵꾸를 없애는 일은 타이어기술자의 오랜 꿈이기도했다. 그래서 우선 맨 먼저, 생각된 상품에 튜우브레스 타이어가 있다. 튜우브레스 타이어는 튜우브에 대체되는 인너어라이너어라고 하는 고무층을 타이어내에 첩부함으로써 개발되었다. 그러나 림과의 관계로 해서 오로에는 안맞고 공기누설도 되는 등으로 해서 1950년대에 등장했으면서도 저신장, 일본에 있어서도 17년전에 국산화해서 시판되었으나 시장으로부터는 그다지 환영을 못받았다. 연이나 1965년에 이르러 튜우브레스 타이어용 인너어라이너어를 위해서만 존재하는 염소화부칠이라고 하는 고무가 앳소의 손에 의해서 개발되었다. 그 공기누설방지도는 천연고무의 7부, 일반합성고무의 5부, 또한 도로는 고속화에로 정비가 진척되고 타이어 안전성은 공기를 활용하고 있는 중요상품중에 자동차타이어가 있다. 그러나 긴 타이어의 역사에 있어서도 이 공기를 완전히 지배하기까지에는 아직 이르지 못했다. 즉 타이어의 빵꾸! 라고 하는 사고가 바로 그것이다. 따라서 이 빵꾸를 없애는 일은 타이어기술자의 오랜 꿈이기도했다. 그래서 우선 맨 먼저, 생각된 상품에 튜우브레스 타이어가 있다. 튜우브레스 타이어는 튜우브에 대체되는 인너어라이너어라고 하는 고무층을 타이어내에 첩부함으로써 개발되었다. 그러나 림과의 관계로 해서 오로에는 안맞고 공기누설도 되는 등으로 해서 1950년대에 등장했으면서도 저신장, 일본에 있어서도 17년전에 국산화해서 시판되었으나 시장으로부터는 그다지 환영을 못받았다. 연이나 1965년에 이르러 튜우브레스 타이어용 인너어라이너어를 위해서만 존재하는 염소화부칠이라고 하는 고무가 앳소의 손에 의해서 개발되었다. 그 공기누설방지도는 천연고무의 7부, 일반합성고무의 5부, 또한 도로는 고속화에로 정비가 진척되고 타이어 안전성은 점점 중시되는 시대로 진입해서 이제 또다시 튜우브레스시대의 재래를 마지하려 하고 있는 것이다. 그렇기는 해도 이 염소화부칠이라고 하는 고무의 수행하는 기능은 크다. 그저 공기누설에 강하다는 것만은 아니다. 편평라디알스틸시대를 지향하는데 있어서 부가결한 존재로 되어 가는 것 같다.

  • PDF

한국어 어휘의미망을 이용한 비감독 어의 중의성 해소 방법의 성능 향상 (An Enhanced Method for Unsupervised Word Sense Disambiguation using Korean WordNet)

  • 권순호;김민호;권혁철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.693-696
    • /
    • 2010
  • 자연언어처리에서 어의 중의성 해소(word sense disambiguation)는 어휘의 의미를 정확하게 파악하는 기술로 기계번역, 정보검색과 같은 여러 응용 분야에서 중요한 역할을 한다. 본 논문에서는 한국어 어휘의미망(Korlex)을 이용한 비감독 어의 중의성 해소 방법을 제안한다. 의미미부착 말뭉치에서 추출한 통계 정보와 한국어 어휘의미망의 관계어 정보를 이용함으로써 자료 부족문제를 완화하였다. 또한, 중의성 어휘와 공기어휘 간의 거리 가중치, 의미별 사용 정보 가중치를 사용하여 언어적인 특징을 고려하여 본 논문의 기반이 되는 PNUWSD 시스템보다 성능을 향상하였다. 본 논문에서 제안하는 어의 중의성 해소 방법의 평가를 위해 SENSEVAL-2 한국어 데이터를 이용하였다. 중의성 어휘의 의미별 관계어와 지역 문맥 내 공기어휘 간의 카이제곱을 이용하였을 때 68.1%의 정확도를 보였고, 중의성 어휘와 공기어휘 간의 거리 가중치와 의미별 사용 정보 가중치를 사용하였을 때 76.9% 정확도를 보여 기존의 방법보다 정확도를 향상하였다.

의미 경계의 현실화를 위한 공기정보의 자동 군집화 (Automatic word sense clustering using collocation for practical sense boundaries)

  • 신사임;최기선
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.559-561
    • /
    • 2004
  • 본 논문에서는 다의어의 현실적인 의미 분포의 결정에 대해 이야기 하고자 한다. 수동으로 구축한 의미체계인 사전이나 시소러스들은 그 의미구분의 경개가 모호하고 비현실적인 부분이 많아서 언어처리 시스템의 적용에 문제점으로 지적되고 있다. 그러므로, 본 연구에서는 대용량 코퍼스에서 추출한 공기정보와 자동 군집화 방법들을 사용하여 실질적인 다의어의 의미 경계를 발견하는 방법을 제안하였다. 수동 구축된 사전과 코퍼스 기반 사전의 다의어 의미 분포와 비교해 본 결과, 본 논문에서 제안한 방법의 결과가 코퍼스 기반 사전의 의미 분포와 매우 유사한 결과를 보이는 것을 확인할 수 있었다.

  • PDF

다양한 지식을 사용한 영한 기계번역에서의 대역어 선택 (Target Word Selection for English-Korean Machine Translation System using Multiple Knowledge)

  • 이기영;김한우
    • 한국컴퓨터정보학회논문지
    • /
    • 제11권5호
    • /
    • pp.75-86
    • /
    • 2006
  • 일반적으로 영어를 한국어로 번역할 때, 대부분의 영어 명사 어휘들은 해당 어휘가 사용되는 문맥에 따라 다양한 한국어 명사로 번역될 수 있다. 따라서 영어 원문이 갖는 의미를 손실 없이 번역문으로 전달하기 위해서는 문맥에 맞는 올바른 한국어 대역어를 선택할 수 있어야 한다. 본 논문에서는 동사구패턴, 공기 정보에 기반한 의미벡터, 공기 품사 정보 및 한국어 문맥 통계 정보 등의 다양한 지식을 사용하여 영어 명사 어휘의 대역어를 올바로 선택하는 방안을 제공한다. 동사구 패턴은 사전과 코퍼스를 사용하여 구축되었으며, 의미 벡터는 영어 어휘가 특정 한국어 어휘로 번역될 때 공기하는 정보들의 조건부 확률을 나타낸다. 한국어 문맥 통계 정보는 한국어 코퍼스로부터 추출된 N-그램 정보를 나타내며, 품사 공기 정보는 대역어 선택 모호성을 지니는 영어 어휘와 통계적으로 깊은 관련성을 지니는 품사를 나타낸다. 마지막으로 본 논문에서 제안한 대역어 선택 모호성 해소 방안을 평가하기 위한 실험을 수행하였으며, 실험 결과, 제안하는 방법이 기존의 방법보다 성능이 좋다는 것을 확인할 수 있었다.

  • PDF

자동 정렬을 통한 영한 복합어의 역어 추출 (Extraction of English-Korean Compound Noun Translation through Automatic Alignment Method)

  • 이주호;최기선;이재성
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 한글 및 한국어 정보처리
    • /
    • pp.309-314
    • /
    • 2000
  • 본 논문에서는 양국어로 된 병렬 코퍼스로부터 복합어의 역어를 추출하기 위한 정렬 방법을 제시한다. 여기에서는 개념어에 대한 양국어 공기정보를 사용하여 기본 정렬을 하고, 인접한 개념어로 정렬의 단위를 확장했다. 또한 재추정 기법을 사용하여 대역 확률을 계산함으로써 보다 높은 정확률을 얻을 수 있었다. 본 논문에서 제안한 방법을 적용하여 139,265개의 영어 어절로 이루어진 우루과이 라운드 영한 병렬 코퍼스에 대해서 실험한 결과 2,290개의 대역어쌍을 얻었고, 그 정확률은 74%였다.

  • PDF

유사계수에 따른 전역적 질의확장 검색 성능 비교 (Comparing the Performance of Global Query Expansion according to Similarity Measures)

  • 이재윤
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.526-528
    • /
    • 2003
  • 공기빈도를 이용한 전역적 질의확장 검색에서 공기유사도를 판정하는데 이용되는 유사계수의 특성에 따른 질의확장 성능을 비교해보았다. 먼저 각 유사계수의 통계적인 특성을 말뭉치와 검색실험 문서집단을 대상으로 살펴본 결과 코사인 계수, 자카드 계수는 고빈도어 선호경향을 보이고 상호정보량과 율의 Y는 저빈도어 선호경향을 보이는 것으로 나타났다. 질의확장 검색실험에서는 고빈도어 선호경향을 가진 유사계수에 비해서 저빈도어 선호경향을 가진 유사계수률 이용할 때 더 종은 성능이 나타났다. 특히 율의 Y는 질의어의 DF가 1에 가깝게 매우 낮을 때 다른 유사계수와 달리 고빈도어를 선호함으로써 항상 저빈도어를 선호하는 상호정보량에 비해서 질의확장 검색에 유리함을 알 수가 있었다.

  • PDF

공기정보를 이용한 단어 의미 중의성 해결 방안 (Word Sense Disambiguation Method Using Co-occurrence Information)

  • 박요셉;김경임;박혁로
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.177-178
    • /
    • 2010
  • 단어 의미 중의성은 자연언어처리 분야에서의 주요 관심 분야이다. 한국어에서의 단어 의미 중의성 문제는 다른 언어에 비하여 연구가 미흡한 상태이다. 기존 연구에서는 빈도 수에 기반한 공기 정보 벡터를 이용한 방법에서 처리되지 못하는 경우가 발생하였다. 또한 사전에 기반한 상위어 추출 시에 정형화된 형태가 아닌 경우에 어려움이 발생하였다. 본 논문에서는 상호정보량을 추가하여 공기 정보 처리 과정 시에 발생하는 오류를 최소화 하였다. 또한 대상 명사의 상위어 추출 문제를 해결하기 위해 어휘 지식 베이스를 적용하였다.

  • PDF