• 제목/요약/키워드: 검색어 추출

검색결과 328건 처리시간 0.024초

일반적, 영역 의존적 특성을 반영한 감정 자질의 의미지향성 추정 방법 (A Semantic Orientation Prediction Method of Sentiment Features Based on the General and Domain-Dependent Characteristics)

  • 황재원;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.155-159
    • /
    • 2009
  • 본 논문은 한국어 문서 감정분류를 위한 중요한 어휘 자원인 감정자질(Sentiment Feature)의 의미지향성(Semantic Orientation) 추정을 위해 일반적인 특성과 영역(Domain) 의존적인 특성을 반영하여 한국어 문서 감정분류(Sentiment Classification)의 성능 향상을 얻을 수 있는 기법을 제안한다. 감정자질의 의미지 향성은 검색 엔진을 통해 추출한 각 감정 자질의 스니핏(Snippet)과 실험 말뭉치를 이용하여 추정할 수 있다. 검색 엔진을 통해 추출된 스니핏은 감정자질의 일반적인 특성을 반영하며, 실험 말뭉치는 분류하고자 하는 영역 의존적인 특성을 반영한다. 이렇게 얻어진 감정자질의 의미지향성 수치는 각 문장의 감정강도를 추정하기 위해 이용되며, 문장의 감정 강도의 값을 TF-IDF 가중치 기법에 접목하여 감정자질의 가중치를 책정한다. 최종적으로 학습 과정에서 긍정 문서에서는 긍정 감정자질, 부정 문서에서는 부정 감정자질을 대상으로 추가 가중치를 부여하여 학습하였다. 본 논문에서는 문서 분류에 뛰어난 성능을 보여주는 지지 벡터 기계(Support Vector Machine)를 사용하여 제안한 방법의 성능을 평가한다. 평가 결과, 일반적인 정보 검색에서 사용하는 내용어(Content Word) 기반의 자질을 사용한 경우보다 3.1%의 성능향상을 보였다.

  • PDF

자연영상에서 문자의 크기와 문자열의 방향에 적응적인 문자-에지 맵을 이용한 문자열 검출 (Character String Detection using Character-Edge Map with Adaptive Character Size and Character String Orientation in Natural Images)

  • 박종천;황동국;;전병민
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2007년도 추계학술발표논문집
    • /
    • pp.262-265
    • /
    • 2007
  • 이미지 데이터베이스 시스템에서 이미지에 포함된 문자정보를 기반으로 검색어를 사용한다면 검색의 정확도 높일 수 있다. 이미지에서 문자정보를 추출을 위한 전단계로서 문자열 영역 검출이 필수적인 과제가 된다. 그러므로 본 논문에서는 문자의 크기와 문자열의 방향에 적응적인 문자-에지 맵을 이용한 문자열 영역 검출 방법을 제안한다. 캐니-에지 검출기로 에지를 추출하고, 생성된 에지 이미지로 레이블 이미지를 얻고, 그 영역의 문자구조 특징을 분석하기 위해서 배열문법으로 문자-에지 맵에 적응적으로 분석한다. 문자-에지 맵의 분석결과로서 문자열 후보 영역을 얻고, 문자열 영역의 구조적인 특징을 이용하여 문자열 후보 영역을 검증함으로서 최종적인 문자열 영역을 검출한다. 제안한 방법은 다양한 종류의 자연영상을 대상으로 실험하였고, 자연영상에서 기울어진 문자열과 다양한 크기의 문자를 갖는 문자열 영역을 효과적으로 검출하였다.

  • PDF

감정 분류를 위한 한국어 감정 자질 추출 기법과 감정 자질의 유용성 평가 (A Korean Emotion Features Extraction Method and Their Availability Evaluation for Sentiment Classification)

  • 황재원;고영중
    • 인지과학
    • /
    • 제19권4호
    • /
    • pp.499-517
    • /
    • 2008
  • 본 논문에서는 한국어 감정 분류에 기반이 되는 감정 자질 추출의 효과적인 추출 방법을 제안하고 평가하여, 그 유용성을 보인다. 한국어 감정 자질 추출은 감정을 지닌 대표적인 어휘로부터 시작하여 확장할 수 있으며, 이와 같이 추출된 감정 자질들은 문서의 감정을 분류하는데 중요한 역할을 한다. 문서 감정 분류에 핵심이 되는 감정 자질의 추출을 위해서는 영어 단어 시소러스 유의어 정보를 이용하여 자질들을 확장하고, 영한사전을 이용하여 확장된 자질들을 번역하여 감정 자질들을 추출하였다. 추출된 한국어 감정 자질들을 평가하기 위하여, 이진 분류 기법인 지지 벡터 기계(Support Vector Machine)를 사용해서 한국어 감정 자질로 표현된 입력문서의 감정을 분류하였다. 실험 결과, 추출된 감정 자질을 사용한 경우가 일반적인 정보 검색에서 사용하는 내용어(Content Word) 기반의 자질을 사용한 경우보다 약 14.1%의 성능 향상을 보였다.

  • PDF

좌우접속정보를 이용한 명사추출기 (A Noun Extractor using Connectivity Information)

  • 안동언
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회 및 제1회 형태소 분석기 및 품사태거 평가 워크숍
    • /
    • pp.173-178
    • /
    • 1999
  • 본 논문의 명사추출기는 정보검색시스템을 위한 색인어 추출기로 좌우접속정보를 이용한 형태소해석을 통하여 얻어진 형태소들 중에서 명사를 추출한다. 본 형태소해석기는 형태소해석을 위한 언어지식과 어절 분리 엔진을 분리하여 수정과 확장이 용이하게 하였다. 사용한 언어지식은 좌우접속정보로서 한 어절을 이루는 형태소들의 품사간의 접속여부를 행렬로 표현한 것이다. 어절 분리 엔진은 사전을 참조하여 한 어절에서 최장일치법에 의해 형태소를 분리하고 좌우접속정보를 참조하여 형태소 분리가 올바른지를 판단한다. 형태소들의 품사분류는 표준 태그셋을 기반으로 음절 정보를 추가하여 확장하였다. 형태소를 해석한 결과 미등록어가 발생하였을 때 미등록어에서 명사를 추정하는 모듈이 없기 때문에 재현율은 좋지 않았다.

  • PDF

문서 영상 내 테이블 영역에서의 단어 추출 (Word Extraction from Table Regions in Document Images)

  • 정창부;김수형
    • 정보처리학회논문지B
    • /
    • 제12B권4호
    • /
    • pp.369-378
    • /
    • 2005
  • 문서 영상은 문서 구조 분석을 통하여 텍스트, 그림, 테이블 등의 세부 영역으로 분할 및 분류되는데, 테이블 영역에 있는 단어는 다른 영역의 단어보다 의미가 있기 때문에 주제어 검색과 같은 응용 분야에서 중요한 역할을 한다. 본 논문에서는 문서 영상의 테이블 영역에 존재하는 문자 성분을 단어단위로 추출하는 방법을 제안한다. 테이블 영역에서의 단어 추출은 실질적으로 테이블을 구성하는 셀 영역에서 단어를 추출하는 것이기 때문에 정확한 셀 추출 과정이 필요하다. 셀 추출은 연결 요소를 분석하여 테이블 프레임을 찾아내고, 교차점 검출은 전체가 아닌 테이블 프레임에 대해서만 수행한다. 잘못 검출된 교차점은 이웃하는 교차점과의 관계를 이용하여 수정하고, 최종 교차점 정보를 이용하여 셀을 추출한다. 추출된 셀 내부에 있는 텍스트 영역은 셀 추출 과정에서 분석한 문자성분의 연결 요소 정보를 재사용하여 결정하고, 결정된 텍스트 영역은 투영 프로파일을 분석하여 문자연로 분리된다. 마지막으로 분리된 문자열에 대하여 갭 군집화와 특수 기호 검출을 수행함으로써 단어 분리를 수행한다. 제안 방법의 성능 평가를 위하여 한글 논문 영상으로부터 추출한 총 In개의 테이블 영상에 대해 실험한 결과, $99.16\%$의 단어 추출 성공률을 얻을 수 있었다.

토픽모델링 및 주성분 분석 기반 검색 질의 유형 분류 연구 (A Study on Search Query Topics and Types using Topic Modeling and Principal Components Analysis)

  • 강현아;임희석
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권6호
    • /
    • pp.223-234
    • /
    • 2021
  • 4차 산업 혁명 시대의 도래에 따라 쇼핑의 행태는 더욱 빠르게 오프라인에서 온라인으로 이동하고 있다. 온라인 쇼핑에서 고객의 정보요구를 가장 집약적으로 보여주는 것이 바로 검색 질의이다. 하지만 검색 분야에서도 검색 질의 관련 연구 사례는 많지 않으며 대부분의 검색 질의 연구 분야 선행 연구들은 연구자의 정성적인 판단에 근거하여 제한적인 주제와 데이터 기반으로 연구되어 왔다. 이에 본 연구는 검색 질의 연구 분야에 기계학습을 적용하여 검색 질의와 검색 이후 이용자가 조회한 문서명 로그를 기반으로 토픽모델링 수행 후 검색 질의 주제를 정의함으로써 데이터 기반의 정량적 방법론으로 15개의 검색 질의 주제 유형을 정의하였다. 또한 기존 검색어 자체만을 보고 판단하던 주제 유형에서 나아가 검색 행동특성을 반영한 유형을 정의하기 위하여 주성분 분석을 통해 주요 변수를 추출 후 각 주제별 검색 행동특성을 분석함으로써 검색 탐색 활성도, 상품 관여도에 따른 4가지의 새로운 검색 질의 유형 분류체계를 제시하였다. 본 연구결과는 효과적인 검색서비스 구축 및 검색 시스템 개발에 기여할 것으로 기대된다.

LID관련 지방정부 조례제정 특성 기초연구 - 서울시, 수원시, 남양주시를 중심으로 - (A Basic Study on the features of LID-related Ordinance Enactment conducted by Local Government - mainly on Seoul City, Suwon City and Namangju City -)

  • 이미홍;한양희;현경학;임석화
    • 환경영향평가
    • /
    • 제25권1호
    • /
    • pp.25-40
    • /
    • 2016
  • 본 연구는 저영향개발(LID)의 전국적 확산을 위해 실질적으로 시설의 설치 및 관리의 주체가 되는 국내 지방자치단체의 주요 제도인 조례를 양적 질적으로 분석함으로써 향후 이를 도입하고자 하는 지방정부에 정책적 방향을 제시하기 위해 작성되었다. 저영향개발(LID)과 연관된 주요 검색어 4개(물의 재이용, 빗물, 물순환, 저영향)를 전문가 자문회의를 통해 추출하였으며, 법제처 사이트 검색을 통해 주요 검색어가 포함된 99개의 관련 조례를 도출하여, 이를 검색어별 지방정부 규모별로 분석하였다. 분석결과 과거 2000년대 중반에 제정된 빗물관련 조례가 물의 재이용 촉진 및 지원에 관한 법률에 의한 조례로 전환되고 있음을 알 수 있었고, 물순환과 저영향이라는 키워드를 포함한 조례가 현재 전국에 3개(서울특별시, 남양주시, 수원시)뿐인 것으로 나타났다. 내용적으로 저영향개발(LID)를 포함하고 있는 3개 지자체를 대상으로 업무 담당자 인터뷰를 실시한 결과 도출된 결과는 다음과 같다. 첫째, 현재 우리나라의 빗물, 물의 재이용 관련 조례는 강우강도 불투수율 등 지역 특성을 고려하기보다 행정자치부가 배포한 가이드라인에 따라 제정되고 있어 내용상 지자체마다 동일하다. 둘째, 현재 제정된 조례가 단순한 기술 시설에 국한되어 있어 토지이용 및 공간을 포함하는 저영향(LID) 개념을 포함할 수 없는 상황이다. 이에 저영향개발(LID)의 의미를 올바로 반영하기 위해서는 서울특별시와 같은 관련 조례 제정 및 강우강도, 불투수율 등 지역별 특성을 반영할 수 있는 새로운 가이드라인이 필요할 것으로 판단된다.

복합명사 분할과 명사구 합성을 이용한 통합 색인 기법 (Integrated Indexing Method using Compound Noun Segmentation and Noun Phrase Synthesis)

  • 원형석;박미화;이근배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권1호
    • /
    • pp.84-95
    • /
    • 2000
  • 본 논문에서는 명사구 색인과 복합명사 분할을 포함한 복합명사 처리를 위해 통계 정보와 자연언어 처리를 제한적으로 이용 가능하게 하는 통합적 색인 기법을 제안한다. 먼저 색인과 검색에서 복합명사 분할 및 합성 모두를 고려한 통합 기법을 제시하고, 이를 위해 통계 정보와 제한적인 자연언어 처리를 모두 이용하는 통합 색인 기법을 제안한다. 먼저 형태소 분석 및 태깅 과정에서 단일어를 색인어로 추출하고 구문분석의 결과에서 명사구를 합성해 낸다. 구문 분석 실패 시에는 형태소 분석 및 태깅의 결과만을 사용하게 된다. 또한 태깅의 결과에서 복합명사를 골라 통계 정보를 이용하여 단일 명사로 분할하고 재합성한다. 분할된 단일 명사와 합성된 명사구는 기존의 단일어로만 이루어진 색인어를 보완하기 위해 색인어로 사용된다. 실험은 한국어 정보검색의 실험 집합인 KTSET 2.0과 KRIST SET을 사용하여 통합색인 기법이 복합명사 처리에 효율적임을 보였다.

  • PDF

한글 문서의 효과적인 검색을 위한 n-gram 기반의 색인 방법 (An n-gram-based Indexing Method for Effective Retrieval of Hangul Texts)

  • 이준호;안정수;박현주;김명호
    • 정보관리학회지
    • /
    • 제13권1호
    • /
    • pp.47-63
    • /
    • 1996
  • 기존의 한글 자동 색인 방법들은 어절 단위 색인법과 형태소 단위 색인법으로 분류될 수 있다. 전자는 문서내의 어절에서 비색인 분절을 절단함으로써 색인어를 추출하는 방법으로, 문서들이 많은 복합 명사들을 포함할 경우 검색 효과가 저하된다. 후자는 형태소 해석이나 구문 해석을 이용하여 중요한 의미를 갖는 명사나 명사구를 추출하는 방법으로 단일 명사를 추출함으로써 복합 명사의 띄어쓰기 문제를 극복할 수 있다. 그러나 색인 과정에서 요구되는 많은 언어 정보를 개발하고 유지 보수해야 하는 부담을 지니고 있다. 본 논문에서는 기존의 색인 방법들의 문제점들을 완화할 수 있는 새로운 색인 방법을 제안한다. 그리고 실험을 통하여 제안하는 방법의 성능을 평가한다.

  • PDF

언어 사용환경에 적응적인 영어 문맥의존 철자오류 교정 기법 (Adaptive English Context-Sensitive Spelling Error Correction Techniques for Language Environments)

  • 김민호;김경식;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.133-136
    • /
    • 2015
  • 문서 교정기에서 문맥의존 철자오류를 교정하는 방법은 크게 규칙을 이용한 방법과 통계 정보를 이용한 방법으로 나뉜다. 한국어와 달리 영어는 오래전부터 통계 모형에 기반을 둔 문맥의존 철자오류 교정 연구가 활발히 이루어졌다. 그러나 대부분 연구가 문맥의존 철자오류 교정 문제를 특정 어휘 쌍을 이용한 분류 문제로 간주하기 때문에 실제 응용에는 한계가 있다. 또한, 대규모 말뭉치에서 추출한 통계 정보를 이용하지만, 통계 정보 자체에 오류가 있을 경우를 고려하지 않았다. 본 논문에서는 텍스트에 포함된 모든 단어에 대하여 문맥의존 철자오류 여부를 판단하고, 해당 단어가 오류일 경우 대치어를 제시하는 영어 문맥의존 철자오류 교정 기법을 제안한다. 또한, 통계 정보의 오류가 문맥의존 철자오류 교정에 미치는 영향과 오류 발생률의 변화가 철자오류 검색과 교정의 정확도와 재현율에 미치는 영향을 분석한다. 구글 웹데이터에서 추출한 통계 정보를 바탕으로 통계 모형을 구성하고 평가를 위해 브라운 말뭉치에서 무작위로 2,000문장을 추출하여 무작위로 문맥의존 철자오류를 생성하였다. 실험결과, 문맥의존 철자오류 검색의 정확도와 재현율은 각각 98.72%, 95.79%였으며, 문맥의존 철자오류 교정의 정확도와 재현률은 각각 71.94%, 69.81%였다.

  • PDF