다국어 검색엔진을 위한 중의성 명사 데이터베이스 구축에 대한 몇 가지 논의

남지순

한국프랑스어문교육학회 프랑스어문교육 다국어 검색엔진을 위한 중의성 명사 데이터베이스 구축에 대한 몇 가지 논의

KCI 등재

다국어 검색엔진을 위한 중의성 명사 데이터베이스 구축에 대한 몇 가지 논의

Étude sur des problèmes des mots ambigus dans des moteurs de recherche multilingues

남지순 ( Nam Jee Sun )

한국프랑스어문교육학회 2005.11

프랑스어문교육 20권 161-187(27pages)

UCI I410-ECN-0102-2021-000-001133055

인용하기 URL 복사 보관함 담기

미리보기

초록

Dans cet article, nous avons montré quelques problèmes posés par l'occurrence des mots ambigus dans des pages web et les cadres méthodologiques que nous avons adaptés pour les traiter dans des moteurs de recherché multilingues. Le moteur de recherché multilingue se comprend dans cette étude comme un système qui fournit aux utilisateurs des informations des pages web enregistrées en langue différente de celle des utilisateurs. Il faut donc soit traduire le mot-clé(question) en un autre d'une autre langue soit transformer le texte même en un autre d'une autre langue également. Nous avons étudié ces deux procédures du point de vue des moteurs de recherché des documents en français pour des utilisateurs coréens. En premier lieu, on peut obtenir des informations en traduisant des mots-clés(questions) coréens en français. Quand ces mots-clés sont ambigus, les informations associées(i.e. les pages web recherchées) comprendront trop de bruits(i.e. des informations non-adéquates), et ce phénomène devient plus grave quand il s'agit d'un moteur de recherché multilingue. Nous avons observé combien de noms simples en coréen peuvent être utilisés de façon ambiguë et dans quels contextes(dans quelles formes composées avec un autre nom) ces noms ambigus peuvent se désambiguïser. Une nomenclature des noms composés comprenant un nom ambigu est établi pour être utilisé dans la construction des données complexes coréen-français. D'autre part, des pages web peuvent être traduites en langue des utilisateurs dans le système multilingue. Dans cecas, des mots ambigus qui setrouvent dans les textes doivent se désambiguïser avant d'être indexés automatiquement. Pour cela, les domaines spécifiques où ont apparus ces mots ambigus doivent êtreconsidérés pour qu'ils soient désambiguïsés. Un exempled'un lexiquefranco coréen, celui du domaine concernant “parfum”, est présenté dans cet article. Les informations basées sur les séquences plus complexes que les mots isolés peuvent être décrites efficacement sous formedes graphes finis appelés Grammaires Locales. Un outil informatique adapté pour ce cadre est créé et nommé UNITEX(S. Paumier 2002), et grâce à cet outil on peut construire des données linguistiques pour les moteurs de recherche multilingues de façon cohérente et systématique

키워드

Basededonnées linguistique

다국어 정보검색

Moteur derecherchemultilingue

질의어번역

Traduction des mots clés

웹문서 번역

Traduction des Pages we

1. 머리말
2. 한국어 질의어 키워드와 중의성 문제
3. 프랑스어 웹문서 텍스트와 중의성 문제
4. 맺음말
참고문헌

참고문헌 (0)

[자료제공 : 네이버학술정보]